Diagnostic 1

ECO 4272 : Introduction à l’économétrie
Tests diagnostics
Steve Ambler∗
Département des sciences économiques
École des sciences de la gestion
Université du Québec à Montréal
c 2018 : Steve Ambler
Hiver 2018
∗
Ces notes sont en cours de développement. J’ai besoin de vos commentaires et de vos sug-
gestions pour les améliorer. Vous pouvez me faire part de vos commentaires en personne ou en
envoyant un message à ambler.steven@uqam.ca.
1
Table des matières
1 Introduction 4
2 Diagnostics informels 7
2.1 Résidus versus valeurs prédites . . . . . . . . . . . . . . . . . . . 8
2.2 Graphique Q–Q . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.3 Diagramme de variable ajoutée . . . . . . . . . . . . . . . . . . . 10
2.4 Diagramme de résidus partiels . . . . . . . . . . . . . . . . . . . 12
2.5 Résidus Normalisés . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.6 La Matrice H . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.7 Résidus studentisés de façon externe . . . . . . . . . . . . . . 19
3 Sensibilité à des observations particulières 19

3.1 Effets de levier . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2 DFFITSi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3 DFBETASj,(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.4 COVRATIO(i) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.5 Distances de Cook . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.6 Résidus studentisés . . . . . . . . . . . . . . . . . . . . . . . . . 25
4 Trois Commandes utiles : plot(·), influence.measures(·) et

influence(·) 25
4.1 Niveaux seuils . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2
5 Tests diagnostics formels 27
5.1 Hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.2 Test Reset de Ramsey . . . . . . . . . . . . . . . . . . . . . . . . 29
5.3 Normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.4 Indépendance des erreurs . . . . . . . . . . . . . . . . . . . . . . 33
6 Multicollinéarité 33
7 Endogénéité 37
7.1 Tests d’endogénéité . . . . . . . . . . . . . . . . . . . . . . . . . 40
8 Un exemple détaillé avec R 49
3
1 Introduction
Ce chapitre a pour but de présenter de façon relativement informelle quelques

tests diagnostics qui sont utilisés couramment en économétrie appliquée.
Les tests diagnostics ont été conçus pour détecter des problèmes reliés aux
hypothèses statistiques de base du modèle de régression linéaire. Si ces
hypothèses ne sont pas confirmées, les conclusions auxquelles on arrive en
estimant un modèle de régression peuvent être trompeuses.
Je commence avec une citation de Fox (2009), qui écrit Linear and generalized
linear models make strong assumptions about the structure of data, assumptions
that often do not hold in applications. Especially in small samples, these models
can also be sensitive to unusual data ; in extreme cases, the results might be
determined by one or a very small number of observations. It is therefore
important to examine data carefully, both prior to and after fitting a regression
model to the data.
Un des buts principaux de ces tests est de détecter la présence d’observations
influentes, des observations qui ont un impact majeur sur les coefficients estimés
d’un modèle ou sur les valeurs prédites de la variable dépendante.
Si on détecte la présence de telles observations, on peut aussi essayer d’en
expliquer la cause. Parfois il s’agit tout simplement d’une erreur dans la saisie
des données. Il peut aussi y avoir des causes plus profondes. Il y a aussi plusieurs
remèdes possibles. On peut changer la forme fonctionnelle du modèle (utiliser,
par exemple, une ou plusieurs variables mesurées en logs et non en niveau), et on
4
peut aussi laisser tomber la ou les observation(s) influente(s). Dans le dernier cas,
le fait de laisser tomber des observations devrait faire partie du rapport qui est
rédigé pour expliquer le modèle estimé et les résultats d’estimation.
Le livre de Stock et Watson met beaucoup d’accent sur le fait q’avec les données
utilisées en économétrie appliquée les termes d’erreur ne suivent pas forcément
une distribution normale avec variance constante. Par contre, ils mettent peu
d’accent sur des méthodes qui permettraient de vérifier les hypothèses nulles de
normalité ou d’homoscédasticité. Il n’y a pas beaucoup, d’ailleurs, sur les façons
d’évaluer un modèle de régression donné ou de détecter des problèmes avec un
modèle de régression donné. (à part le chapitre 9 dans la version en anglais sur la
validité interne et la validité externe).
Ce chapitre est basé sur les articles de Boomsma (2014) et de Fox (2009), et
surtout sur le quatrième chapitre de Kleiber et Zeileis (2008). Voir le chapitre de
références pour plus de détails.
J’ai aussi utilisé quelques articles utiles provenant de Wikipedia :
1. Breusch-Pagan Test
2. Cook’s Distance
3. Errors-in-Variables Models
4. Hat Matrix
5. Heteroscedasticity
6. Leverage (Statistics)
7. Multicollinearity
5
8. Normality Test
9. Normal Probability Plot
10. Q-Q Plot
11. Ramsey Reset Test
12. Studentized Residual
13. White Test
Il y a d’abord une section sur les diagnostics informels, qui sont essentiellement
de deux types (pas forcément exclusifs).
1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou

algébrique) des résidus d’un modèle de régression.
2. Dans la sous-section qui suit, il y a des diagnostics qui ont pour but de
détecter des observations qui ont une influence démesurée sur les résultats
de l’estimation (sur les valeurs des coefficients estimés, les valeurs
prédites de la variable dépendante, sur la variance estimée de l’erreur ou
des coefficients, etc.).
Lorsque j’écris diagnostics informels je veux dire qu’il ne s’agit pas de

statistiques qui suivent des lois connues que l’on pourrait utiliser formellement
pour tester une hypothèse nulle quelconque. Ce sont plutôt des techniques que
l’on peut utiliser pour détecter des problèmes potentiels dans la spécification
(choix de variables explicatives, choix de forme fonctionnelle, etc.) d’un modèle
économétrique.
Par la suite, il y a une section sur les tests plus formels.
6
1. Des tests de l’hypothèse nulle de l’homoscédasticité.
2. Des tests formels de la forme fonctionnelle du modèle de régression qui

peuvent permettre de détecter des non-linéarités.
3. Des tests de l’hypothèse de la normalité du terme d’erreur.
4. Une sous-section sur la question de la multicollinéarité.
5. Une courte sous-section sur l’indépendance des erreurs (un sujet plus
pertinent dans le cadre des séries chronologiques).
6. Une sous-section sur la question de l’endogénéité, qui nous porte aux

frontières de la matière du cours.
2 Diagnostics informels
• Il y a un certain nombre d’outils diagnostics basés sur les résidus de

l’estimation d’un modèle de régression linéaire.
• Il y a aussi des outils diagnostics qui dépendent du fait que les résidus
d’un modèle de régression estimé par moindres carrés ordinaires ne sont
pas indépendants et n’ont pas une variance constante, même si les erreurs
du modèle sont indépendantes et homoscédastiques. Ces outils sont basés
sur l’utilisation de résidus normalisés, un sujet auquel nous reviendrons
plus tard.
7
2.1 Résidus versus valeurs prédites
• Nous avons déjà vu qu’un graphique avec les ûi ou les û2i sur l’axe
vertical et les Ŷi sur l’axe horizontal peut être une façon de détecter la
présence de l’hétéroscédasticité.
• Au lieu de mesurer les valeurs des résidus sur l’axe vertical, il est aussi
possible de mesurer les valeurs des résidus au carré afin de détecter de
manière visuelle l’hétéroscédasticité.
• Un problème potentiel avec ces méthodes informelles est que même si les
erreurs du modèle de régression sont homoscédastiques et indépendantes
(autrement dit les données proviennent d’un échantillon i.i.d.), les résidus
du modèle de régression auront une variance non constante et ne seront
pas indépendants les uns par rapport aux autres. Pour cette raison, on
travaille souvent avec les résidus normalisés, un concept auquel nous
allons revenir plus tard.
2.2 Graphique Q–Q
• L’idée de base est de comparer la distribution de probabilité des résidus

d’un modèle de régression avec une distribution normale théorique.
• Il s’agit d’une méthode informelle pour analyser l’hýpothèse que les
erreurs du modèle suivent une distribution normale.
• Le Q est censé faire penser à quantile.
• On compare les quantiles de deux distributions de probabilité sur un
8
graphique.
• Notez que si φ(·) est la fonction de distribution normale cumulée, la
fonction φ−1 donne les quantiles de la normale cumulée.
• Si les deux distributions sont identiques, les points se retrouveront sur une
droite avec une pente de 45 degrés.
• S’il y a une relation linéaire entre les deux distributions, les points se
retrouveront sur une droite.
• La fonction en R qqnorm(x) où x est un vecteur de réalisations d’une
variable aléatoire crée un graphique qui compare x à une distribution
normale théorique.
• Deux distributions normales peuvent différer dans leurs moyennes et dans
leurs variances, et donc il doit y avoir une relation linéaire entre les deux.
Pour cette raison, si on compare la distribution empirique des résidus
avec une normale centrée réduite théorique, les points devraient se
retrouver sur une droite.
• La fonction en R plot(model,which=2) fait la même chose pour les
résidus d’un modèle estimé avec la commande model < − lm(·).
Nous allons voir plus loin que la fonction plot(·) avec le nom d’un
modèle estimé pourra sortir automatiquement plusieurs graphiques
intéressants pour détecter des problèmes potentiels associés à un modèle
estimé.
9
2.3 Diagramme de variable ajoutée
• Le but est de détecter si l’impact d’une variable individuelle (dans un

modèle de régression multiple) est bien capté par une relation linéaire.
• Il est difficile de faire ceci avec un graphique des résidus contre la
variable explicative, parce qu’il faut tenir constantes les valeurs de toutes
les autres variables explicatives (en les égalisant à leurs moyennes
échantillonnales par exemple).
• Ce que l’on voudrait faire c’est de regarder l’impact d’une variable
individuelle sur la variable dépendante, ayant purgé l’impact de toutes les
autres variables sur la variable dépendante. Un diagramme de variable
ajoutée nous permet de faire ceci.
• On procède de la façon suivante pour pouvoir tracer un diagramme de
variable ajoutée pour la variable explicative Xj .
1. On estime un modèle de régression multiple avec Y comme variable

dépendante et toutes les autres variables à part Xj comme variables
explicatives. On sauvegarde les résidus de cette estimation. Appelons
ces résidus ûy .
2. On estime un modèle de régression multiple avec Xj comme variable

dépendante et toutes les autres variables explicatives à part Xj
comme variables explicatives. On sauvegarde les résidus de cette
estimation. Appelons ces résidus ûj .
3. On crée un graphique avec ûy sur l’axe vertical et ûj sur l’axe
10
horizontal.
4. On peut aussi estimer le modèle de régression simple suivant :
ûyi = γ0 + γ1 ûji + i .
Il est également possible d’ajouter la ligne de régression au graphique

qu’on vient de créer, avec la commande habituelle abline(·)
• Le théorème Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur

le modèle de régression multiple ou bien l’article de Lovell 2010) nous
dit que le coefficient estimé γ̂1 doit être identique à β̂j du modèle initial
(cela veut dire le modèle de régression multiple incluant toutes les
variables explicatives y compris Xj ). L’interprétation est la suivante : la
régression simple donne l’effet de Xj sur Y , lorsque les impacts des
autres variables sur Y et sur Xj ) sont purgés.
• Pour cette raison, le graphique devrait nous permettre de repérer si la
relation (partielle) entre Y et Xj est vraiment linéaire.
• Avec R, la commande avPlots(·) (provenant du package car), où
l’argument est un objet contenant les résultats d’estimation d’un modèle
de régression, crée automatiquement des diagrammes de variable ajoutée
pour toutes les variables explicatives d’un modèle de régression multiple.
Voir aussi ci-dessous.
11
2.4 Diagramme de résidus partiels
• Il s’agit d’un graphique avec ûi + β̂j Xji sur l’axe vertical et Xji sur l’axe
horizontal.
• Notez que la pente de la relation entre ces deux variables est donnée par
β̂j .
• Selon Boomsma (2014, page 19), ces diagrammes sont plus utiles pour
détecter les non-linéarités, tandis que les diagrammes de variable ajoutée
sont plus utiles pour détecter les observations aberrantes et influentes.
Partial residual plots are better for the detection of linearity, added
variable plots are better for the detection of outliers and influential data
points.
• Dans R, la commande prplot(·,x) qui provient du package faraway
permet de générer automatiquement des graphiques de résidus partiels
pour un modèle estimé. Le premier argument de la commande est le nom
du modèle estimé. Le deuxième argument est le nombre de la variable
explicative.
2.5 Résidus Normalisés
• Notez que même si les erreurs d’un modèle de régression sont

homoscédastiques, c’est à dire Var (ui |X) = σ 2 , les résidus (qui sont un
vecteur de variables aléatoires) ne le sont pas.
• En fait, les résidus ne peuvent être indépendants puisqu’ils doivent
12
satisfaire les restrictions suivantes :
X 0 Û = 0.
• Cette équation est tout simplement la propriété d’orthogonalité que nous

avons montrée à plus d’une reprise en classe.
• Puisque la première colonne de X est un vecteur où tous les éléments
sont égaux à un, on sait que la somme des résidus est zéro.
• Cette propriété orthogonalité impose des relations algébriques exactes
(en fait k + 1 relations exactes) entre les résidus qui les empêchent d’être
indépendantes au sens statistique du terme.
• Supposons au départ que Var (ui |X) = Var (ui ) = σu2 . Autrement dit, les
erreurs sont homoscédastiques. Nous supposons aussi (bien sûr) que
E (U |X) = 0.
• Nous avons
−1
Û ≡ Y − X β̂ = Y − X (X 0 X) X 0Y

−1
= I − X (X 0 X) X 0 Y
≡ (I − H) Y
où nous avons utilisé la définition
−1
H ≡ X (X 0 X) X 0.
13
La matrice (I − H) est symétrique et idempotente, ce qui veut dire
(I − H)0 = (I − H)
et
(I − H) (I − H) = (I − H) ,
où ces deux propriétés sont faciles à vérifier (je laisse ceci comme un
exercice).
Nous voulons maintenant calculer la variance (conditionnelle) du vecteur
des résidus Û . Puisque Û est un vecteur de dimensions n × 1, il s’agit
d’une matrice variance-covariance de dimensions n × n. Nous avons

E Û Û 0 |X = E ((I − H) Y Y 0 (I − H) |X)
= E (I − H) (Xβ + U ) (Xβ + U )0 (I − H) |X

= (I − H) Xββ 0 X 0 (I − H)
+E ((I − H) XβU 0 (I − H) |X)
+E ((I − H) U β 0 X 0 (I − H) |X)
+ (I − H) E (U U 0 |X) (I − H) .
= (I − H) Xββ 0 X 0 (I − H)
14
+ (I − H) E (U U 0 ) (I − H)
= (I − H) E (U U 0 ) (I − H)
puisque (I − H) X = 0 (ceci est facile à vérifier), et X 0 (I − H) = 0.

Dans le cas homoscédastique, nous avons

E Û Û 0 |X = (I − H) σ 2 I (I − H)
= σ 2 (I − H) (I − H)
= σ 2 (I − H) ,
où nous avons utilisé le fait que la matrice (I − H) est symétrique et

idempotente.
• Ce résultat montre que les résidus ont des variances qui dépendent des
éléments diagonaux de (I − H) même si les erreurs sont
homoscédastiques.
• On définit les résidus normalisés (ou studentisés de façon
interne ) de la façon suivante :
ûi
ri ≡ √
σ̂ 1 − hii
où σ̂ est l’écart type de la régression où (comme d’habitude)
n
2 1 X
σ̂ ≡ û2
n − k − 1 i=1 i
15
et les hii sont les éléments sur la diagonale de H. On parle de
studentisés de façon interne puisqu’on utilise toutes les observations
de l’échantillon pour estimer l’écart type de la régression, par opposition
aux résidus studentisés de façon externe . Nous reviendrons à ce
dernier sujet un peu plus tard.
• Puisque (même dans le cas de l’homoscédasticité) la variance des résidus
n’est pas constante, l’idée ici est de normaliser les résidus en divisant par
un estimé de leurs écarts types.
• De cette façon, un graphique avec les résidus normalisés ou avec les
résidus normalisés au carré sur l’axe vertical et avec la variable
dépendante ou avec une des variables explicatives sur l’axe horizontal
peut faire ressortir mieux si l’hypothèse de l’homoscédasticité tient ou
non.
• On peut calculer les résidus normalisés en R à l’aide de la commande
rstandard(·). L’argument de la commande est l’objet utilisé pour
sauvegarder les résultats d’estimation d’un modèle de régression linéaire.
• Si les hypothèses statistiques derrière le modèle tiennent (y compris
l’homoscédasticité des erreurs), il devrait être le cas que Var (ri |X) = 1
et il devrait aussi être le cas que Corr (ri , rj |X) a tendance à être faible
(Kleiber et Zeileis 2008).
• Dans les sections qui suivent, la plupart des mesures utilisées sont basées
sur les résidus normalisés et non sur les résidus eux-mêmes.
16
2.6 La Matrice H
• Pour un article très abordable, voir Johnson (2006).

• La matrice H a été définie dans la sous-section précédente.
• H est censé faire penser à hat (chapeau).
• La matrice H est utilisée aussi pour calculer les distances de Cook et pour
mesurer les effets de levier (voir plus loin).
• Il est possible de montrer que l’on peut exprimer les valeurs prédites de la
variable dépendante comme
n
X
Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn = hij Yi .
i=1
• Pour montrer ceci, nous avons par définition
−1
Ŷ ≡ X β̂ = X (X 0 X) X 0 Y = HY,
qui est un vecteur de dimensions (k + 1) × 1. Ŷj est l’élément j + 1 de ce

vecteur. Avec un petit abus de notation, si on appelle les éléments de la
rangée j + 1 de H comme [h1j , h2j , . . . , hnj ], alors nous avons
Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn .
• Ainsi, le poids hij capte la contribution de l’observation Yi à la valeur

prédite Ŷj .
17
• On peut montrer que
n
X
hii = hij 2 ,
j=1
et donc la valeur hii résume l’influence potentielle de l’observation Yi sur

toutes les valeurs prédites Ŷj .
• On peut montrer que
1
≤ hii ≤ 1.
n
• On peut aussi montrer que la valeur moyenne des hii est donnée par
n
1X k+1
hii ≡ h̄ = .
n i=1 n
• Il est possible de montrer que, dans le modèle de régression simple,
2
1 Xi − X̄
hii = + Pn 2 ,
n Xj − X̄
j=1
ce qui a l’interprétation de la distance de Xi par rapport à la moyenne

échantillonnale X̄, normalisée par la somme des distances des Xj par
rapport à la moyenne échantillonnale X̄.
• Les hii peuvent être calculés en R avec la commande hatvalues(·) où
l’argument de la commande est un modèle estimé avec la commande
lm(·).
• Pour plus de détails sur les propriétés de la matrice H voir Hoaglin et
Welsch (1978).
18
2.7 Résidus studentisés de façon externe
• Il s’agit d’une autre façon d’estimer l’écart type de la régression. Dans

l’analyse ci-dessous sur la sensibilité à des observations particulières, si
on soupçonne qu’une observation est aberrante, on est parfois mieux
d’exclure cette observation du calcul de la variance estimée du terme
d’erreur.
• On définit les résidus studentisés de façon externe de la façon suivante :
û
ri(i) ≡ √ i
σ̂(i) 1 − hii
avec
2 1 X
σ̂(i) ≡ û2j .
n − k − 2 j6=i
On exclut l’ie observation de notre estimé de la variance du terme

d’erreur.
3 Sensibilité à des observations particulières
• Nous avons maintenant défini et interprété la matrice H et ces éléments,

qui seront utilisés dans les définitions de certaines des mesures qui
suivent.
• Il y a quelques techniques informelles d’essayer de détecter des
observations aberrantes ou influentes, qui ont une influence
prépondérante sur les résultats de l’estimation.
19
• L’idée de base est d’analyser ce qui arrive si on laisse tomber une seule
observation de l’échantillon.
• On peut mesurer l’impact ou bien sur les coefficients estimés ou bien sur
la valeur prédite de la variable dépendante.
• Définissons β̂(i) comme le vecteur de paramètres estimés après avoir
laissé tomber l’observation i de l’échantillon, et Ŷ(i) le vecteur de valeurs
prédites de la variable dépendante après avoir laissé tomber l’observation
i de l’échantillon.
3.1 Effets de levier
• L’effet de levier de l’observation i est donné tout simplement par la valeur

de hii .
• Parmi les autres propriétés de H,
0 ≤ hii ≤ 1,
n
X
trace (H) ≡ hii = k + 1,
i=1
où (k + 1) est le nombre de variables explicatives dans le modèle.

• Comme règle approximative, des valeurs au moins trois fois la valeur
moyenne peuvent être considérées indicatrices d’observations aberrantes
k+1
ou influentes, la valeur moyenne étant donnée par n
.
20
3.2 DFFITSi
• Définition :
DFFITi ≡ Ŷi − Ŷ(i) .
• Cette mesure calcule l’impact d’omettre l’observation i sur la valeur

prédite de la variable dépendante (aussi de l’observation i).
• Une grande valeur est un indice que l’observation est aberrante ou
influente.
• Pour savoir si la valeur du changement est grande ou non, il est utile
de normaliser le changement par un estimé de l’écart type du terme
d’erreur du modèle. Cette mesure normalisée s’appelle DFFITSi .
• Définition :
Ŷi − Ŷ(i)
DFFITSi ≡ √
σ̂(i) hii
où comme nous avons vu dans la section 2.7 σ̂(i) est l’écart type de la
régression estimé sans l’observation i :
2 1 X
σ̂(i) ≡ û2 ,
n − k − 2 j6=i j
• Donc DFFITSi par opposition à DFFITi normalise par un estimé de

quelque chose qui est relié à l’écart type de l’erreur de l’observation i, et
donc on l’appelle parfois le DFFIT studentisé.
√
• Notez que nous normalisons par σ̂(i) hii (qui dépend de l’effet de levier
√
hii ) et non par σ̂(i) 1 − hii .
21
• L’interprétation est l’impact normalisé d’omettre l’observation i sur la
valeur prédite de la variable dépendante.
q
k+1
• Comme règle approximative, les points où la mesure dépasse 2 × n
sont à signaler comme des observations influentes.
3.3 DFBETASj,(i)
• Pour le coefficient βj , on définit DFBETAj,(i) comme
DFBETAj,(i) ≡ β̂j − β̂j,(i) .
• C’est une mesure de l’impact de laisser tomber l’observation i sur la

valeur du coefficient estimé j.
• Pour le coefficient βj , on définit DFBETASj,(i) comme
β̂j − β̂j,(i)
DFBETASj,(i) ≡ q
σ̂ (X 0 X)−1 jj
où (X 0 X)−1 e e
jj est l’élément dans la j colonne et la j rangée de l’inverse
de (X 0 X). En fait, puisque dans la notation de Stock et Watson, βj est la

j e variable explicative à part la constante, (X 0 X)−1
jj doit être l’élément
dans la colonne j + 1 et la rangée j + 1 de la matrice (X 0 X).

• La différence entre DFBETAj,(i) et DFBETASj,(i) est semblable à la
différence entre DFFITi et DFFITSi . Avec le S à la fin cela signifie
que l’on normalise par quelque chose qui est relié à un estimé de l’écart
22
type.
√
• Une valeur supérieure à 2/ n est considérée suspicieuse .
3.4 COVRATIO(i)
• C’est une mesure de l’impact de laisser tomber l’observation i sur la

matrice variance-covariance des coefficients estimés du modèle.
• Voici la définition :
−1
2 0
det σ̂(i) X(i) X(i)
COVRATIO(i) ≡
det σ̂ 2 (X 0 X)−1

où det (·) est le déterminant d’une matrice.

2 0
• La définition de σ̂(i) est donnée ci-dessus. Ici X(i) X(i) utilise la matrice
d’observations sur toutes les variables explicatives mais en excluant
l’observation i.
• Il faut réduire la mesure de l’impact sur la matrice variance-covariance en
un scalaire. C’est pour cette raison que l’on utilise le déterminant.
• Il est difficile de trouver dans la littérature des consignes sur les valeurs
de cette mesure qui sont problématiques . Bellesley, Kuh et Welsch
(1980) suggèrent que des valeurs de COVRATIO(i) − 1 plus grandes
p
que 2 (k + 1)/n signalent des observations à investiguer comme
potentiellement influentes.
23
3.5 Distances de Cook
• Définition : pour l’observation i, La distance de Cook est définie comme
0
Ŷ − Ŷ(i) Ŷ − Ŷ(i)
Di =
(k + 1)σ̂
où (k + 1) est le nombre total de paramètres estimés et σ̂ est l’écart type

de la régression. Ici, Ŷ est le vecteur de toutes les n valeurs prédites de la
variable dépendante avec toutes les variables explicatives dans le modèle,
et Ŷ(i) est le vecteur de toutes les n valeurs prédites de la variable
dépendante en laissant tomber la ie observation de l’échantillon.
• L’interprétation de la distance de Cook est la suivante. Elle mesure
l’impact sur les valeurs prédites de Y si on laisse tomber la ie observation.
Elle ressemble à la mesure DFFITSi mais elle utilise une autre façon de
normaliser et elle calcule la somme des tous les changements des valeurs
prédites au carré lorsqu’on laisse tomber l’observation i de l’échantillon.
• Dans le modèle de régression simple, on peut montrer que les définitions
suivantes sont équivalentes algébriquement :
û2i

hii
Di = ,
(k + 1)σ̂ (1 − hii )2
0
β̂ − β̂i (X 0 X) β̂ − β̂i
Di =
(1 + k + 1)σ̂ 2
où βi est le vecteur (entier) de paramètres estimés en omettant
24
l’observation i de l’échantillon.
3.6 Résidus studentisés
• Définition :
û
ti ≡ √ i
σ̂(i) 1 − hii
(où σ̂(i) a la même définition que dans la sous-section sur DFFIT), qui a
l’interprétation de l’écart type estimé de l’erreur en excluant l’observation
i.
• La justification de cette mesure (par rapport aux résidus normalisés
définis plus haut) est que si on veut juger si l’observation i est une
observation aberrante ou non, il est mieux d’exclure cette observation de
l’estimation de la variance.
• La commande en R rstudent(·) où comme d’habitude l’argument est
le nom du modèle estimé va calculer les résidus studentisés
automatiquement.
4 Trois Commandes utiles : plot(·),
influence.measures(·) et influence(·)
• Une commande qui rend les calculs des sous-sections précédentes à

toutes fins pratiques automatiques est la commande plot(·) lorsque
l’argument de la commande est un objet qui contient les résultats d’une
25
estimation d’un modèle de régression linéaire par la commande lm(·).
• Une autre commande très utile : influence.measures(·) (une
commande dans le package stats), qui calcule entre autres les distances
de Cook et les mesures DFFITS et DFBETAS.
• La commande summary(influence.measures(·)), où
l’argument est un modèle estimé, va indiquer toutes les observations
influentes selon au moins un des critères. Donc, une seule commande en
R peut être utilisée pour repérer les observations potentiellement
influentes ou aberrantes.
• La commande influence(·), toujours où l’argument est un modèle
estimé va calculer les résultats suivants :
1. hat : un vecteur dont les éléments sont les hii , les éléments sur la
diagonale de la matrice H.
2. coefficients : une matrice où l’ie rangée donne le changement

des coefficients estimés lorsqu’on laisse tomber l’ie observation de
l’échantillon. Autrement dit, c’est une matrice qui contient tous les
DFBETAj,(i) (pour toutes les valeurs possibles de j).
3. sigma : un vecteur dont l’ie élément contient un estimé de l’écart

type de l’erreur de l’équation lorsqu’on laisse tomber l’ie observation
de l’échantillon.
4. wt.res : un vecteur de résidus résultant de l’estimation du modèle

par la méthode des moindres carrés pondérés. Voir la section 17.5 du
26
manuel pour plus de détails.
4.1 Niveaux seuils
• J’ai fait allusion ci-dessus à des valeurs qui sont indicatives de problèmes
potentiels. Voici un résumé qui provient de Liu, Milton et McIntosh (sans
date).
• Comme nous avons vu, avec la commande en R
summary(influence.measures(·)), le logiciel va signaler toutes
les valeurs qui sont à surveiller selon au moins une des mesures.
Fonction Description Seuil p

DFFITS changement des valeurs prédites > 2 ∗ k + 1/n
√
DFBETAS changement des coefficients > 2/ n
COVRATIO changement de la matrice VCOV > (1 + 3 ∗ (k + 1)/n)
(déterminant) < (1 − 3 ∗ (k + 1)/n)
HATVALUES écart standardisé par rapport à la moyenne des X > 2 ∗ (k + 1)/n
COOK changement du vecteur des valeurs prédites > 4/n
5 Tests diagnostics formels
5.1 Hétéroscédasticité
• Il y a plusieurs tests pour détecter la présence de l’hétéroscédasticité.

Pour tous ces tests, l’hypothèse nulle est l’absence d’hétéroscédasticité,
c’est à dire l’homoscédasticité.
27
• Les deux tests les plus fréquemment utilisés par les économètres sont les
tests Breusch-Pagan et White. Pour d’autres tests, voir l’article Wikipedia
Heteroscedasticity .
• Test Breusch-Pagan. Il s’agit d’un test de significativité de tous les
coefficients (sauf la constante) dans la régression
Û 2 = Xγ +
où Û 2 est le vecteur de résidus au carré.

• La commande bptest(·) utilise par défaut les résidus normalisés. Voir
help(bptest) à ce sujet.
• Test White. On régresse les résidus au carré du modèle estimé sur toutes
les variables explicatives du modèle, sur les produits de toutes les paires
de variables explicatives, et sur les variables explicatives au carré. On
peut montrer que la statistique nR2 suit une distribution chi-carré en
grand échantillon (asymptotiquement), où le nombre de degrés de liberté
est le nombre de paramètres estimés dans le modèle auxiliaire (celui avec
les résidus au carré comme variable dépendante). En R, la commande
white.test(·), provenant du package bstats, effectue le test sur un
modèle estimé (l’argument de la commande est l’objet où les résultats de
l’estimation sont sauvegardés).
28
5.2 Test Reset de Ramsey
• Il s’agit d’un test pour évaluer la forme fonctionnelle d’un modèle de

régression.
• Le but est de savoir s’il y a des combinaisons non linéaires des valeurs
prédites qui ajoutent du pouvoir explicatif au modèle. Si oui, c’est un
indice que la forme fonctionnelle (variables explicatives mesurées en
logs, en polynômes, en fonctions exponentielles, etc.) du modèle estimé
n’est pas adéquat.
• Le test est conçu pour détecter des non-linéarités, mais non pour suggérer
la forme fonctionnelle exacte qui serait la plus appropriée.
• Malheureusement, si on détecte un problème de non-linéarité, il faut
modifier le modèle estimé, mais trouver la bonne façon de modifier le
modèle demande une analyse approfondie de la question à laquelle on
essaie de répondre avec notre modèle économétrique.
• On effectue le test en estimant le modèle suivant :
Yi = γ0 + γ1 X1i + γ2 X2i + . . . + γk Xki
+δ1 Ŷi2 + δ2 Ŷi3 + . . . + δk−1 Ŷim + i .
• Ici, Ŷ est le vecteur de valeurs prédites de Y provenant de l’estimation du

modèle
Yi = β0 + β1 X1i + β2 X2i + . . . + βk Xki + ui .
29
• On utilise une statistique F pour tester la significativité des coefficients δ.
• Le choix de l’ordre du polynôme en Ŷi est arbitraire. On utilise souvent
seulement Ŷi au carré.
• Notez que l’hypothèse nulle est que tous les termes non linéaires dans les
valeurs prédites sont non significatifs. Donc, l’hypothèse nulle est que la
spećification initiale de l’équation est adéquate.
• Puisque le test porte sur toutes les puissances de Ŷi , la multicollinéarité
entre les puissances différentes ne devrait pas être un problème.
• L’utilisation du test Reset ne devrait pas remplacer un examen détaillé par
d’autres moyens (graphiques ou autres).
• Dans R, la commande resettest(model, power = ·) effectue le
test. Il faut fournir le nom du modèle estimé (premier argument) et aussi
les degrés du polynôme dans les valeurs prédites Ŷi (deuxième argument).
• La commande fait partie du package lmtest.
5.3 Normalité
• Test Shapiro-Wilk. L’hypothèse nulle est que l’échantillon provient d’une

distribution normale. La statistique est définie comme
Pn 2
i=1 ai x(i)
W ≡ Pn
i=1 (xi − x̄)2
où x(i) est l’observation i de l’échantillon où les observations ont été
classées dans l’ordre (c’est donc l’ie statistique d’ordre) et les ai sont
30
définis par
m0 V −1
a = (a1 , . . . , an ) ≡
(m0 V −1 V −1 m)1/2
où
m = (m1 , . . . , mn )0
sont les valeurs anticipées des statistiques d’ordre de variables i.i.d.

provenant d’une loi normale centrée réduite et V est la matrice
variance-covariance de ces statistiques d’ordre.
• Le test peut être effectué en R avec la commande shapiro.test(·),
provenant du package stats, où l’argument est le vecteur de résidus
d’un modèle de régression.
• Ce sont des petites valeurs de la statistique qui mènent au rejet de
l’hypothèse nulle. L’article de Shapiro et Wilk (1965) a une table de
points de la distribution cumulée de la statistique.
• Le test shapiro.test(·) en R calcule la p-value du test.
• La commande shapiro.test(·) est incluse dans le package stat.
• Test Jarque-Bera. Le test combine des mesures empiriques de l’asymétrie
et de l’aplatissement en une seule mesure. La statistique est définie de la
manière suivante :

n 2 1 2
JB ≡ S + (K − 3)
6 4
31
où (dans le contexte des résidus d’un modèle de régression)
Pn
µ̂3 1
n
(ûi )3
i=1
S≡ 3 =
σ̂ 1
Pn 2 3/2
n i=1 (ûi )
et
1
Pn 4
µ̂4 n i=1 (ûi )
K≡ 4 = 2 2
,
σ̂ 1
Pn
(û i )
n i=1
où µ̂3 et µ̂4 sont des estimés des troisième et quatrième moments centrés
des résidus et σ̂ 2 est un estimé de la variance des résidus. Notez que dans
tous ces cas nous sommes en train d’utiliser des moments centrés
puisque de toute façon la somme des résidus d’une régression est par
construction égale à zéro.
• La statistique JB suit (approximativement ou en grand échantillon) une
distribution chi-carré avec deux degrés de liberté. L’hypothèse nulle est la
normalité.
• Une grande valeur de la statistique calculée mène au rejet.
• En R, le test Jarque-Bera peut être effectué avec la commande
jarque.bera.test(·) provenant du package tseries, où
l’argument de la commande est une série de données. La commande
calcule automatiquement la p-value du test.
32
5.4 Indépendance des erreurs
• Ce sujet est beaucoup plus pertinent dans le cas où les données sont des
séries chronologiques. Il s’agit de tests pour détecter la présence
d’autocorrélation dans les erreurs.
• Sans une etude du chapitre sur les séries chronologiques il est difficile
d’élaborer sur ce sujet.
• Les tests clés dans cette sous-section sont le test Durbin-Watson, la
statistique h de Durbin, et le test Breusch-Godfrey.
• Pour des précisions sur le test Durbin-Watson et le test Breusch-Godfrey,
voir la documentation du package lmtest. Pour des précisions sur la
statistique h de Durbin, voir la documentation du package ecm.
6 Multicollinéarité
• Voir Giles (2011, 2013f). Giles est assez sarcastique au sujet de la

multicollinéarité, surtout dans son article de 2011. Il cite le manuel de
Goldberger qui a une section sur le problème de
micronumerosity dans le cadre de l’estimation de la moyenne d’une
variable aléatoire : A generally reliable guide may be obtained by
counting the number of observations. Most of the time in econometric
analysis, when n is close to zero, it is also far from infinity.
• L’interprétation : le problème de la multicollinéarité survient puisque
nous n’avons pas assez d’observations pour distinguer entre les impacts
33
de variables explicatives différentes.
• Comme nous avons déjà vu, la multicollinéarité (lorsqu’elle n’est pas
parfaite) est une propriété de l’échantillon de données qui est à notre
disposition. Tel que suggéré par Giles et Goldberger, puisque c’est une
propriété de l’échantillon que nous avons, il n’y pas forcément un remède
au problème.
• Détection de la multicollinéarité :
1. Changements importants dans les valeurs estimées de coefficients lors

de l’ajout ou du retrait d’une ou plusieurs variables.
2. Coefficients non significatifs individuellement mais significatifs en

bloc.
3. Variance inflation factor :
1
VIF ≡
1 − Rj2
où Rj2 est l’ajustement statistique d’une régression où la variable

explicative j est la variable dépendante et les variables explicatives
sont toutes les autres variables explicatives du modèle. On appelle

1 − Rj2 la tolérance . La commande en R vif(·) permet
d’évaluer ce critère pour un modèle estimé.
4. Conditionnement de X 0 X. Racine carrée du ratio de la plus grande

valeur caractéristique sur la plus petite valeur caractéristique.
Généralement on dit que chiffre est supérieur à 30 c’est un indice
34
qu’il y a un problème potentiel.
5. Test Farrar-Glauber. Basé sur Farrar et Glauber (1967). Giles (2013f)

est assez critique à l’égard de ce test. Il note que dans l’article
original, les auteurs font l’hypothèse que les variables X suivent une
distribution normale multivariée. Le test peut être interprété comme
un test des corrélations entre les variables dans X dans la population.
Mais l’échantillon de données que nous avons est celui que nous
avons.
6. Construction d’une matrice de corrélations. Un coefficient de

corrélation élevée entre deux variables explicatives potentielles
indique un problème possible.
• Conséquences de la multicollinéarité.
1. Dans des cas extrêmes, l’ordinateur pourrait avoir des difficultés

(numériques) à inverser la matrice X 0 X.
2. L’estimé de l’impact d’une des variables sur la variable dépendante

peut devenir beaucoup moins précis.
3. La multicollinéarité peut aggraver les effets de variables omises.
• Remèdes possibles.
1. Vérifier la présence de la trappe aux variables dichotomiques.
2. Essayer de réestimer le modèle utilisant un sous-échantillon des

données.
35
3. Ne rien faire. Les données sont ce qu’elles sont, et essayer de faire
parler les données lorsqu’elles sont muettes sur la question que nous
leur posons.
4. Laisser tomber une variable. Attention au problème du biais dû aux

variables omises !
5. Obtenir davantage d’observations si possible.
6. Centrer les variables explicatives en soustrayant leurs moyennes.
7. Renormaliser les variables explicatives, par exemple en changeant les

unités de mesure pour que les variables explicatives soient d’un ordre
de grandeur comparable. Ceci peut affecter le conditionnement de la
matrice (X 0 X).
8. Utiliser la technique de la régression pseudo-orthogonale (ridge

regression en anglais). C’est un sujet qui est au-delà de la matière du
cours à part son idée de base. L’idée de base est d’utiliser l’estimateur
−1
β̃ ≡ (X 0 X + Γ0 Γ) X 0 Y,
où souvent la matrice Γ est une matrice diagonale définie comme
Γ ≡ αI
où α est une constante arbitraire. L’ajout de cette matrice introduit un

biais et donc E β̃ 6= β, mais peut réduire la variance de
36
l’estimateur. Pour cette raison, le résultat dans certains cas peut être
un estimateur avec une erreur quadratique moyenne inférieure à celle
de l’estimateur MCO (qui est un cas spécial de cet estimateur avec
α = 0). En général, la taille du biais de l’estimateur augmente avec la
valeur de α et la variance diminue (voir la section 1.4.3 de van
Wieringen 2018). Il y a donc un arbitrage entre biais et variance.
Malheureusement, il est impossible de connaı̂tre a priori la valeur
exacte de α qui va minimiser l’erreur quadratique moyenne.
9. Si les variables explicatives qui sont corrélées sont des retards (dans le
contexte de données qui sont des séries chronologiques), on peut
utiliser la technique des retards distribués qui impose une
structure sur les coefficients à estimer.
7 Endogénéité
• Ce sujet nous mène vraiment à la frontière de la matière du cours,

puisqu’il nous amène à parler de la technique d’estimation par variables
instrumentales. Le principe de base est (j’espère) relativement simple à
comprendre. Pour plus de détails, voir le chapitre 12 du manuel de Stock
et Watson (version en langue anglaise). Il y a aussi un encadré à la fin de
cette section où je développe l’estimateur IV (variables instrumentales).
Les développements algébriques dans l’encadré sont relativement
abordables.
37
• C’est une façon générale de résumer tout ce qui peut causer une
corrélation non nulle entre les variables explicatives du modèle et le
terme d’erreur. Nous avons déjà vu en détail le problème de variables
omises. Il y a d’autres sources possibles du problème.
• Causes possibles de l’endogénéité.
1. Variable(s) omise(s). Nous avons vu ce problème en détail.
2. Erreurs de mesure. La vraie variable explicative est X̃j mais ce qu’on

mesure est donné par
Xj = X̃j +
où est un vecteur d’erreurs d’observation. Le vrai modèle est
Yi = β0 + β1 X1i + . . . + βj X̃ji + . . . + βk Xki + ui
et le modèle estimé est donné par
Yi = β0 + β1 X1i + . . . + βj Xji + . . . + βk Xki + (ui − βj i ) .
Puisque Xji dépend de i , il y a évidemment une corrélation non nulle

entre Xji et le terme d’erreur.
3. Simultanéité. Une variable exogène influence simultanément la

variable dépendante Y et une ou plusieurs des variables explicatives.
L’influence de la variable exogène sur Y peut être indirecte. Pensez au
problème d’estimer la courbe d’offre du café. On pourrait estimer
38
l’équation suivante (où l’échantillon d’observations porte sur la
quantité de café vendue dans des supermarchés différents à des prix
possiblement différents) :
Y i = β0 + β1 Xi + u i
où Yi est la quantité de café et Xi est le prix par unité du café. Est-ce
que ceci est une courbe d’offre ou une courbe de demande ? En fait, Yi
et Xi dépendent en principe de facteurs exogènes et l’équation est ce
que l’on observe sont des combinaisons de quantités et de prix à
l’équilibre, l’équation est ce qu’on appelle une forme réduite et non
une équation structurelle. Pour estimer la courbe d’offre, il faut
trouver un facteur qui fait déplacer la courbe de demande (comme,
par exemple, le prix du thé, un bien qui est substitut pour le café). Si
les seuls changements exogènes sont des variations du prix du thé, on
pourra observer des combinaisons différentes de prix du café et de
quantités vendues de café qui résultent de déplacements de la courbe
de demande le long de la courbe d’offre. Ici, l’impact du prix du thé
sur la quantité vendue du café est indirect. Il affecte la quantité
vendue du café parce qu’il affecte la demande pour le café. On verra
dans la section suivante sur les estimateurs à variables instrumentales
qu’une variable comme le prix du thé serait un bon instrument à
utiliser pour estimer l’équation ci-dessus.
39
7.1 Tests d’endogénéité
Nous considérons dans cette sous-section le test Durbin-Hausman-Wu et la façon

relativement simple de l’effectuer qui provient du manuel de Woodridge (2009).
• Test Durbin-Hausman-Wu. Ce test dépend de la construction d’un
estimateur à variables instrumentales. Nous développons cette idée dans
l’encadré qui se trouve à la fin de cette section. Je conseille fortement la
lecture de cet encadré avant de lire plus loin.
1. Le test a pour but de tester si le problème d’endogénéité est sévère.

Pour le faire, il faut avoir identifié un ensemble d’instruments qui
permet d’obtenir un estimateur convergent de β.
2. Il faut avoir deux estimés différents du même ensemble de

paramètres : l’estimateur MCO β̂ et l’estimateur IV (variables
instrumentales) β̂IV .
3. Sous l’hypothèse nulle, les deux estimés sont convergents, et il y a un

estimé (donné par l’estimateur MCO) qui est plus efficient que l’autre
(qui est donné par l’estimateur IV).
4. Sous l’hypothèse alternative, le deuxième estimateur est toujours

convergent, tandis que le premier est non convergent.
5. La statistique s’écrit comme
0 †
DHW ≡ β̂ − β̂IV Σ̂β̂IV − Σ̂β̂ β̂ − β̂IV
40
où Σ̂β̂IV est l’estimateur convergent de la matrice variance-covariance
des paramètres estimés par la méthode IV et † dénote l’inverse
généralisée Moore-Penrose (qui généralise la notion d’inverser une
matrice).
6. La statistique en grand échantillon (asymptotiquement) suit une

distribution chi-carré avec un nombre de degrés de liberté égal au

rang de la matrice Σ̂β̂IV − Σ̂β̂ .
7. Le test peut être effectué en R par le bias de la commande

hausman.systemfit(·) provenant du package systemfit. La
commande prend deux arguments, qui sont les résultats du modèle
estimé de deux façons différentes (MCO et IV dans l’exemple qui
nous préoccupe).
• Il y a une façon beaucoup plus facile d’effectuer le test. Voir la section

15.5 dans Wooldridge (2009).
1. Soit le modèle linéaire donné par
Yi = β0 + β1 W1,i + . . . + βk Wk,i + βk+1 Xi + ui ,
où on sait que les variables W ne sont pas corrélées avec le terme
d’erreur u tandis que la variable X est possiblement corrélée avec le
terme d’erreur.
2. On a un ensemble de variables instrumentales qui comprennent les

variables dans le modèle initial qui ne sont pas corrélées avec U
41
(W1 , W2 , . . . , Wk ) plus possiblement d’autres variables.
3. Soit le modèle auxiliaire donné par
Xi = γ0 + γ1 W1,i + . . . + γk2 Wk2 ,i + i ,
où k2 ≥ k + 1. Donc il doit y avoir au moins une variable

instrumentale qui n’est pas incluse dans le modèle initial.
4. Par hypothèse, les variables W ne sont pas corrélées avec u, alors X

sera non corrélée avec U si et seulement si l’erreur n’est pas corrélée
avec u.
5. On voudrait inclure comme variable explicative additionnelle dans

le modèle initial. On ne peut le faire puisque l’erreur n’est pas
observable, mais on peut inclure les résidus d’une estimation du
modèle auxiliaire par MCO. Donc, on estime le modèle
Yi = β0 + β1 W1,i + . . . + βk Wk,i + βk+1 Xi + βk+2 ˆi + ũi .
Puisque ce n’est pas le même modèle que le modèle initial, le terme

d’erreur n’est pas identique, et donc j’ai remplacé ui par ũi .
6. On teste l’hypothèse nulle que βk+2 = 0 avec une statistique t. Si on

rejette l’hypothèse nulle, on conclut que la variable X est endogène
(corrélée avec le terme d’erreur U ) puisque et u sont corrélées.
7. Il est possible de généraliser cette méthode au cas où il y a plus qu’une
42
variable qui est potentiellement endogène dans le modèle initial.
Estimateur à variables instrumentales
Le développement dans cet encadré est très semblable à celui de l’encadré

sur l’interprétation alternative de l’estimateur MCO dans le chapitre sur le
modèle de régression multiple.
On commence avec le modèle linéaire habituel donné par
Y = Xβ + U.
On suppose maintenant qu’il n’est plus forcément le cas que
E (U |X) = 0.
Par contre, on suppose l’existence d’une matrice de dimensions n × k2 avec

k2 ≥ k + 1 et où
E (U |W ) = 0.
Iĺ s’agit d’une matrice d’observations sur k2 variables instrumentales qui ne

sont pas corrélées avec le terme d’erreur du modèle. Un instrument par
définition est une variable corrélée avec les variables explicatives dans le
modèle et non corrélée avec le terme d’erreur du modèle. Notez que s’il y a
43
des variables parmi les variables dans X qui ne sont pas conditionnellement
corrélées avec U , ces variables peuvent être incluses dans W .
Considérez maintenant le modèle transformé
R0 W 0 Y = R0 W 0 Xβ + R0 W 0 U
où R est une matrice de pondérations (nous reviendrons sur cette matrice un
peu plus tard). Nous pouvons pour l’instat considérer R comme une matrice
de constantes.
Laissant tomber le dernier terme du membre droit pour obtenir
R0 W 0 Y = R0 W 0 Xβ
Définissons maintenant l’estimateur IV (variables instrumentales) comme
−1
β̂IV = (R0 W 0 X) R0 W 0 Y.
Nous avons tout de suite que

(R0 W 0 X) β̂IV − β
−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 Y − (R0 W 0 X) β
−1
= (R0 W 0 X) (R0 W 0 X) R0 W 0 (Xβ + U ) − (R0 W 0 X) β
44
= R0 W 0 U.
Nos hypothèses concernant l’espérance conditionnelle du terme d’erreur a

tout de suite pour conséquence que
1 0 0 p
RW U →
− 0
n
1 0 0
p
⇒ (R W X) β̂IV − β →− 0
n

p
⇒ β̂IV − β → − 0.
Notez que dans le cas de l’estimateur IV, nous ne pouvons pas monter
l’absence de biais. Nous avons
−1
β̂IV = (R0 W 0 X) R0 W 0 Y
−1
= (R0 W 0 X) R0 W 0 (Xβ + U )
−1
= β + (R0 W 0 X) R0 W 0 U.
Nous pouvons calculer l’espérance de cet estimateur et appliquer, comme

d’habitude, la loi des espérances itérées pour obtenir

−1
E β̂IV = β + E (R0 W 0 X) R0 W 0 U

−1
= β + E E (R0 W 0 X) R0 W 0 U |W .
45
Le problème à ce stade-ci est la présence de X dans l’expression
(R0 W 0 X)−1 R0 W 0 . Même étant données les valeurs des W , le terme
(R0 W 0 X)−1 R0 W 0 est encore stochastique. Nous ne pouvons pas traiter
l’expression comme une matrice de constantes et, pour cette raison, l’écrire
du côté gauche de l’opérateur d’espérance (conditionnelle).
Donc, pour cette raison, l’estimateur IV est convergent mais il est

possiblement biaisé en échantillons finis.
Justification alternative
Une autre façon de justifier l’estimateur β̂IV est la suivante. Si les

instruments W ne sont pas corrélés avec le terme d’erreur, nous avons
Y = Xβ + U
⇒ E (R0 W 0 Y ) = E (R0 W 0 (Xβ + U ))
= E ((R0 W 0 X) β) + E (R0 W 0 U )
= E (R0 W 0 X) β + E (R0 W 0 U )
= E (R0 W 0 X) β + E (E (R0 W 0 U |W ))
= E (R0 W 0 X) β
−1
⇒ β = (E (R0 W 0 X)) (E (R0 W 0 Y )) .
46
Comme dans la section sur la justification alternative de l’estimateur MCO.
les vraies valeurs des β sont une fonction des espérances de R0 W 0 X et de
R0 W 0 Y , Un estimateur naturel serait de remplacer les moments dans la
population par leurs équivalents calculés avec notre échantillon de données.
Nous avons tout de suite
−1
1 1
β̂IV = (R0 W 0 X) (R0 W 0 Y )
n−1 n−1
−1
= (R0 W 0 X) R0 W 0 Y.
C’est une autre exemple d’un estimateur dans la classe de la méthode des
moments : on remplace les moments dans la population par les moments
échantillonnaux.
Estimateur des moindres carrés à deux étapes
Si les erreurs U sont indépendantes et homoscédastiques, on peut montrer

que le choix optimal de R est donné par
−1
R = (W 0 W ) W 0 X,
qui a l’interprétation de la matrice de coefficients estimés d’une régression de

toutes les variables X sur les instruments W . (C’est une autre version encore
47
du théorème Gauss-Markov.) Autrement dit, si on a
X = W ρ + ,
alors
−1
R ≡ ρ̂ = (W 0 W ) W 0 X.
De cette façon
W ρ̂ = W R ≡ X̂
a l’interprétation des valeurs prédites des X provenant de cette régression.

Notez bien que ρ̂ est une matrice de coefficients puisque X est une matrice
de dimensions (n × (k + 1)) au lieu d’être un vecteur de dimensions (n × 1).
Dans ce cas, on a
−1
−1 −1
β̂IV = X 0 W (W 0 W ) W 0 X X 0 W (W 0 W ) W 0 Y.
−1
≡ X̂ 0 X X̂Y.
Dans ce cas, l’estimateur IV est connu sous le nom de l’estimateur moindres

carrés à deux étapes (2SLS en anglais ce qui veut dire two-stage least
squares ), la première étape étant la régression de toutes les variables
explicatives du modèle initial sur toutes les variables instrumentales.
48
Quelques qualifications
Le problème fondamental avec l’estimateur IV est la nécessité d’identifier

des variables instrumentales appropriées. Ceci est un grand sujet de recherche
en économétrie (le nombre de papiers sur le problème d’instruments
faibles est énorme). Le problème essentiellement est de trouver des
variables qui non seulement ne sont pas corrélées avec le terme d’erreur du
modèle mais aussi sont fortement corrélées avec les variables explicatives
dans le modèle qui sont endogènes (corrélées avec le terme d’erreur).
Une recherche Google ou Google Scholar avec les mots clés weak
instruments devrait suffire pour constater que c’est un sujet de recherche
très actif.
8 Un exemple détaillé avec R
Je donne ici un exemple très simple de calculs que l’on peut effectuer rapidement
et facilement avec R.
L’exemple est basé sur le quatrième chapitre dans Kleiber et Zeileis (2008). Voir
le livre pour des explications plus détaillées.
Les commandes peuvent être exécutées comme un script.
49
R> # Charger les packages nécessaires en mémoire.
R> library("stats")
R> library("car")
R> library("sandwich")
R> library("faraway")
R> # Les données proviennent du package sandwich.
R> # Charger les données en mémoire.
R> data("PublicSchools")
R> # Permettre d’appeler les variables directement
R> # sans utiliser le nom de la base de données.
R> attach(PublicSchools)
R> # Calculer des statistiques descriptives.
R> summary(PublicSchools)
R> # Il y a une observation manquante. L’enlever.
R> ps <- na.omit(PublicSchools)
R> attach(ps)
R> # Renormaliser la variable Income.
R> Income <- Income/10000
R> # Recalculer les statistiques descriptives.
R> summary(ps)
R> # Estimer le modèle de régression simple.
R> ps lm <- lm(Expenditure ∼ Income)
50
R> # Sortir les résultats principaux.
R> summary(ps lm)
R> # Faire un graphique de la ligne de régression.
R> plot(Expenditure ∼ Income,ylim=c(230,830))
R> abline(ps lm)
R> # Ajouter 3 noms d’état au graphique.
R> id <- c(2,24,48)
R> text(ps[id,2:1],rownames(ps)[id],pos=1,xpd=TRUE)
R> # Calculer un certain nombre de statistiques.
R> # diagnostiques.
R> # D’abord, calculer les "hatvalues".
R> ps hat <- hatvalues(ps lm)
R> # Sortir un graphique avec les hatvalues.
R> plot(ps hat)
R> # Ajouter des lignes pour la moyenne
R> # et pour trois fois la moyenne.
R> abline(h=c(1,3)*mean(ps hat),col=2)
R> # Identifier les observations aberrantes
R> # sur le graphique.
R> id <- which(ps hat>3*mean(ps hat))
R>
text(id,ps hat[id],rownames(ps)[id],pos=1,xpd=TRUE)
51
R> # Utiliser "plot(ps lm)" pour créer une
R> # série de graphiques.
R> plot(ps lm,which = 1:6)
R> # Utiliser "influence.measures(ps lm)" pour
R> # identifier les observations abberrantes
R> # ou influentes.
R> summary(influence.measures(ps lm))
R> # Réestimer en enlevant les 3 observations.
R> plot(Expenditure ∼ Income, data = ps, ylim =
c(230, 830))
R> abline(ps lm)
R> id <-
which(apply(influence.measures(ps lm)$is.inf, 1,
any))
R> text(ps[id, 2:1], rownames(ps)[id], pos = 1, xpd
= TRUE)
R> ps noinf <- lm(Expenditure ∼ Income, data =
ps[-id,])
R> abline(ps noinf, lty = 2)
R> # Utiliser avPlots(ps lm).
R> avPlots(ps lm)
R> # Utiliser prplot(ps lm).
52
R> prplot(ps lm,1)
R> # Estimer le modèle non linéaire avec
R> # Expenditure2 dans le modèle.
R> ps lm2 <- lm(Income Expenditure +
I(Expenditureˆ2))
R> summary(ps lm2)
R> plot(ps lm2,which=1:6)
R> summary(influence.measures(ps lm2))
R> avPlots(ps lm2)
R> prplot(ps lm2,1)
R> prplot(ps lm2,2)
R> # Estimer un autre modèle de régression
R> # multiple.
R> # Les données proviennent du package faraway.
R> # Les données contiennent des taux d’épargne
R> # dans 50 pays.
R> data(savings)
R> # Permettre d’appeler les variables directement
R> attach(savings)
R> summary(savings)
R> m1 <- lm(sr ∼ pop15 + pop75 + dpi + ddpi)
R> summary(m1)
53
R> plot(hatvalues(m1))
R> # Générer des graphiques de variables ajoutées.
R> avPlots(m1)
R> # Générer des graphiques de résidus partiels.
R> prplot(m1,1)
R> prplot(m1,2)
R> prplot(m1,3)
R> prplot(m1,4)
Références
Voir ce lien :
http:
//www.steveambler.uqam.ca/4272/chapitres/referenc.pdf
Dernière modification : 23/04/2018
54

Diagnostic 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Diagnostic 1

Transféré par

Droits d'auteur :

Formats disponibles

ECO 4272 : Introduction à l’économétrie

Département des sciences économiques

École des sciences de la gestion

Université du Québec à Montréal

c 2018 : Steve Ambler

3 Sensibilité à des observations particulières 19

4 Trois Commandes utiles : plot(·), influence.measures(·) et

8 Un exemple détaillé avec R 49

Ce chapitre a pour but de présenter de façon relativement informelle quelques

9. Normal Probability Plot

10. Q-Q Plot

11. Ramsey Reset Test

12. Studentized Residual

13. White Test

1. Il y a d’abord des diagnostics qui passent par une analyse (graphique ou

Lorsque j’écris  diagnostics informels  je veux dire qu’il ne s’agit pas de

2. Des tests formels de la forme fonctionnelle du modèle de régression qui

3. Des tests de l’hypothèse de la normalité du terme d’erreur.

4. Une sous-section sur la question de la multicollinéarité.

6. Une sous-section sur la question de l’endogénéité, qui nous porte aux

• Il y a un certain nombre d’outils diagnostics basés sur les résidus de

2.2 Graphique Q–Q

• L’idée de base est de comparer la distribution de probabilité des résidus

• Le but est de détecter si l’impact d’une variable individuelle (dans un

1. On estime un modèle de régression multiple avec Y comme variable

2. On estime un modèle de régression multiple avec Xj comme variable

4. On peut aussi estimer le modèle de régression simple suivant :

Il est également possible d’ajouter la ligne de régression au graphique

• Le théorème Frisch-Waugh-Lovell (voir le chapitre des notes de cours sur

2.5 Résidus Normalisés

• Notez que même si les erreurs d’un modèle de régression sont

• Cette équation est tout simplement la propriété d’orthogonalité que nous

où nous avons utilisé la définition

+E ((I − H) XβU 0 (I − H) |X)

puisque (I − H) X = 0 (ceci est facile à vérifier), et X 0 (I − H) = 0.

où nous avons utilisé le fait que la matrice (I − H) est symétrique et

où σ̂ est l’écart type de la régression où (comme d’habitude)

• Pour un article très abordable, voir Johnson (2006).

• Pour montrer ceci, nous avons par définition

qui est un vecteur de dimensions (k + 1) × 1. Ŷj est l’élément j + 1 de ce

Ŷj = h1j Y1 + h2j Y2 + . . . + hnj Yn .

• Ainsi, le poids hij capte la contribution de l’observation Yi à la valeur

et donc la valeur hii résume l’influence potentielle de l’observation Yi sur

• Il est possible de montrer que, dans le modèle de régression simple,

ce qui a l’interprétation de la distance de Xi par rapport à la moyenne

• Il s’agit d’une autre façon d’estimer l’écart type de la régression. Dans

On exclut l’ie observation de notre estimé de la variance du terme

3 Sensibilité à des observations particulières

• Nous avons maintenant défini et interprété la matrice H et ces éléments,

3.1 Effets de levier

• L’effet de levier de l’observation i est donné tout simplement par la valeur

où (k + 1) est le nombre de variables explicatives dans le modèle.

• Cette mesure calcule l’impact d’omettre l’observation i sur la valeur

• Donc DFFITSi par opposition à DFFITi normalise par un estimé de

sont à signaler comme des observations influentes.

• Pour le coefficient βj , on définit DFBETAj,(i) comme

DFBETAj,(i) ≡ β̂j − β̂j,(i) .

• C’est une mesure de l’impact de laisser tomber l’observation i sur la

de (X 0 X). En fait, puisque dans la notation de Stock et Watson, βj est la

dans la colonne j + 1 et la rangée j + 1 de la matrice (X 0 X).

• C’est une mesure de l’impact de laisser tomber l’observation i sur la

où det (·) est le déterminant d’une matrice.

• Définition : pour l’observation i, La distance de Cook est définie comme

Lorsque j’écris diagnostics informels je veux dire qu’il ne s’agit pas de

+δ1 Ŷi2 + δ2 Ŷi3 + . . . + δk−1 Ŷim + i .

3. Variance inflation factor :

où est un vecteur d’erreurs d’observation. Le vrai modèle est

Yi = β0 + β1 X1i + . . . + βj Xji + . . . + βk Xki + (ui − βj i ) .

Puisque Xji dépend de i , il y a évidemment une corrélation non nulle

Xi = γ0 + γ1 W1,i + . . . + γk2 Wk2 ,i + i ,

5. On voudrait inclure comme variable explicative additionnelle dans

Yi = β0 + β1 W1,i + . . . + βk Wk,i + βk+1 Xi + βk+2 ˆi + ũi .