7.1 Introduction
La seule technique d’estimation que nous ayons considérée jusqu’à présent est
celle des moindres carrés ordinaires et non linéaires. Bien que les moindres
carrés comportent de nombreux avantages, ils possèdent aussi de nombreux
inconvénients. L’un des principaux inconvénients est qu’ils ne donnent des
estimations convergentes que si les aléas sont asymptotiquement orthogonaux
aux régresseurs, ou dans le cas non linéaire, aux dérivées de la fonction de
régression. Considérons, pour simplifier, le modèle de régression linéaire
doit être vérifiée. Si l’estimation β̂ n’est pas biaisée, la condition plus forte que
E(X>u) = 0 doit également être vérifiée. Ces conditions nécessaires ne sont
pas directement vérifiables, puisque la propriété d’orthogonalité des moindres
carrés garantit qu’il est indifférent que u soit corrélé ou non avec X, les résidus
û étant orthogonaux à X. Cela signifie que, peu importe que les estimations
par moindres carrées puissent être biaisées et non convergentes, les résidus
des moindres carrées ne fourniront pas de preuves s’il y a un problème.
212
7.1 Introduction 213
Qdt = Qst = Qt ,
où Qt est la quantité effectivement vendue. Ainsi le prix Pt est supposé être
déterminé de manière endogène par l’égalisation de (7.06) et (7.07). Il est
évident que le prix et la quantité sont déterminés simultanément dans ce
modèle.
216 Les Variables Instrumentales
Les quantités avec une astérisque dans les équations b sont reliées, de manière
évidente, à celles sans astérisque dans les équations a. Par exemple, les
paramètres et les aléas de (7.08b) sont reliés avec ceux de (7.08a) de la manière
suivante:
α∗ = α−1 ; β ∗ = −α−1 β; ud∗ t = −α
−1 d
ut .
Lorsque l’on écrit le modèle en entier, il est possible de combiner soit (7.08a)
avec (7.09a) ou (7.09b), soit (7.08b) avec (7.09a) ou (7.09b). Nous disposons
donc de quatre manières différentes d’écrire ce système d’équations, chaque
manière étant aussi valable qu’une autre. Il est conventionnel d’écrire les
modèles à équations simultanées de manière à ce que chaque variable endogène
apparaisse du côté gauche d’une seule équation. Mais il n’y a rien de sacro-
saint à propos de cette convention. En effet, du point de vue de la théorie
économique, il est probablement plus naturel de combiner (7.08a) avec (7.09a),
en mettant la quantité dans le membre de gauche des équations de demande
et d’offre.
Nous venons juste de voir que la normalisation (c’est-à-dire savoir quelle
variable endogène associer à un coefficient unitaire et placer dans le membre
de gauche de chaque équation) est nécessaire quand nous traitons un système
à équations simultanées. Il n’existe pas une seule manière d’écrire le système
parce qu’il y a deux ou plusieurs variables endogènes. Par conséquent, con-
trairement à ce que les développements sur ce sujet ont suggéré, et il n’existe
pas de forme structurelle unique pour un modèle linéaire à équations simul-
tanées. Il existe autant de formes structurelles que de manières de normaliser
le système d’équations.
Les formes structurelles d’un modèle à équations simultanées doivent être
contrastées avec les formes réduites qui sont de deux variétés. La forme
réduite contrainte, ou RRF, nécessite de récrire le modèle pour que chaque
7.3 Les Equations Simultanées 217
variable endogène n’apparaisse qu’une seule fois. Pour y parvenir, nous com-
mençons par écrire la forme structurelle composée de (7.08a) et (7.09a):
1 ¡ s ¢
Qt = αZt δ − γZtd β + vt1 (7.10)
α−γ
1 ¡ s ¢
Pt = Zt δ − Ztd β + vt2 , (7.11)
α−γ
où les aléas vt1 et vt2 sont des combinaisons linéaires des aléas originaux udt et
ust .
Observons que les équations de la RRF, (7.10) et (7.11), sont non linéaires
en leurs paramètres mais linéaires en leurs variables Ztd et Zts . En fait, ce
sont de simples versions contraintes de la forme réduite non contrainte, où
URF,
Qt = Zt π1 + vt1 (7.12)
Pt = Zt π2 + vt2 , (7.13)
1
Il peut sembler que l’estimation OLS de la URF ne soit pas efficace, parce que
les aléas de (7.12) et (7.13) seront corrélés. Cependant, comme nous le verrons
dans le Chapitre 9, cette corrélation ne peut pas être exploitée pour donner
des estimations plus efficaces parce que les régresseurs dans les deux équations
sont les mêmes.
7.4 Les Variables Instrumentales: le Cas Linéaire 219
Nous venons de voir deux situations importantes dans lesquelles les varia-
bles explicatives seront corrélées avec l’aléa des équations de régression et nous
sommes capables d’aborder le thème principal de ce chapitre, qui n’est autre
que la méthode des variables instrumentales. Cette méthode peut être utilisée
lorsque les aléas sont correlés avec une ou plusieurs variables explicatives, sans
se soucier de l’origine de cette corrélation. Cette méthode est donc simple,
générale et puissante.
où PW est la matrice qui projette orthogonalement sur S(W ). Les conditions
du premier ordre qui caractérisent une solution au problème de minimisation
sont
X>PW (y − Xβ̃) = 0, (7.16)
où β̃ désigne le vecteur des estimations par IV. Par conséquent, nous voyons
que les résidus IV ũ doivent être orthogonaux à la projection des colonnes de
X sur S(W ). Cela contraste avec la situation des OLS où les résidus étaient
simplement orthogonaux à S(X). En résolvant (7.16) pour β̃, nous obtenons
¡ ¢−1
β̃ = X>PW X X>PW y. (7.17)
Dans ce cas, nous avons supposé que la matrice X>PW X était de plein rang,
ce qui est une condition nécessaire pour que β̃ soit identifié.
Il est facile de montrer que l’estimateur IV β̃ est convergent si les données
sont générées effectivement par le DGP (7.02) et si certaines hypothèses sont
satisfaites. Ces hypothèses sont
¡ ¢ ¡ ¢
plim n−1 W >u = lim n−1E(W >u) = 0, (7.18a)
n→∞ n→∞
¡ ¢ ¡ ¢
plim n−1 W >W = lim n−1E(W >W ) existe, est finie (7.18b)
n→∞ n→∞
et est définie positive, et
¡ ¢
plim n−1X>W existe, est finie et de plein rang k. (7.18c)
n→∞
Les hypothèses (7.18) impliquent à présent que le second terme soit, ici, égal
à zéro; l’hypothèse critique étant (7.18a). Par conséquent, nous en concluons
que l’estimateur β̃ converge vers β0 .
Bien que l’estimateur IV soit convergent, nous remarquons qu’il n’est pas
sans biais. Parce que les colonnes de X, et probablement certaines colonnes
de W, sont stochastiques, il est clair que
³¡ ¢−1 ´
E X>PW X X>PW u 6= 0 (7.20)
même si nous supposons que E(W >u) = 0. Nous verrons par la suite
que l’espérance dans (7.20) peut même ne pas exister dans certains cas.
Lorsqu’elles existent les espérances des estimateurs IV sont généralement bi-
aisées. Nous aurons beaucoup à dire sur ce sujet dans la prochaine section.
Si nous retenons l’hypothèse supplémentaire que n−1/2 W >u obéit à un
Théorème de la Limite Centrale, l’estimateur IV sera asymptotiquement dis-
tribué suivant une loi normale avec une matrice de covariance particulière.
Dans le cas où les instruments W ne sont pas stochastiques, cette hypothèse
suit immédiatement l’hypothèse (7.02), concernant la distribution de u. A
partir de l’expression de droite de (7.19), nous pouvons déduire que
¡ ¢−1
n1/2 (β̃ − β0 ) = n−1X>PW X n−1/2 X>PW u. (7.21)
et, puisque les facteurs du côté droit de cette équation autres que n−1/2 W >u
ont grâce aux hypothèses (7.18) des limites en probabilité bien définies, il en
résulte que (7.22) est distribué asymptotiquement selon une normale dont la
matrice de covariance est
¡ ¢
σ02 plim n−1X>PW X .
n→∞
a
où, comme d’habitude, ∼ signifie “est distribué asymptotiquement suivant”.
222 Les Variables Instrumentales
qui dépend du fait que la matrice W >X est carrée et de plein rang. La
dernière ligne de (7.25) est la formule de l’estimateur IV simple qui apparaı̂t
dans de nombreux ouvrages. Mais nous ne discuterons pas plus de cet estima-
teur. Nous le rencontrerons à nouveau lorsque nous discuterons de la méthode
généralisée des moments dans le Chapitre 17.
En pratique, le problème le plus important dans l’utilisation des IV réside
dans le choix de la matrice des instruments W. Bien que chaque ensemble
valable d’instruments produise des estimations convergentes, différents choix
7.4 Les Variables Instrumentales: le Cas Linéaire 223
pour i = 1, 2. Nous pouvons donc conclure que β̃ 2 est au moins aussi efficace
que β̃ 1 si la différence entre leurs matrices de covariance asymptotiques est
semi-définie positive. Cela est bien le cas, comme nous allons le démontrer.
Considérons la différence
X>P2 X − X>P1 X = X>(P2 − P1 ) X. (7.27)
Puisque S(W1 ) est un sous-espace de S(W2 ), P1 P2 = P2 P1 = P1 , et par
conséquent P2 − P1 est une projection orthogonale. Il en résulte que (7.27)
est semi-définie positive. Dans l’Annexe A, nous montrons que la différence
entre deux matrices symétriques, définies positive est semi-définie positive si
et seulement si la différence des opposées de leurs inverses est semi-definie
positive. Par conséquent,
¡ > ¢−1 ¡ > ¢−1
X P1 X − X P2 X
224 Les Variables Instrumentales
est aussi semi-definie positive. D’où, à partir de (7.26), la différence entre les
matrices de covariance asymptotiques de β̃ 1 et β̃ 2 est semi-définie positive.
Nous pouvons donc conclure que β̃ 2 est asymptotiquement aussi efficace que
β̃ 1. Cela est cohérent puisque W2 explique X au moins aussi bien que W1 .
Il existe un cas particulier pour lequel β̃ 2 et β̃ 1 sont d’une efficacité
asymptotique identique et tendent en effet vers le même vecteur aléatoire
lorsque n → ∞. Ce cas survient lorsque W2 a le même pouvoir explicatif,
asymptotiquement que W1 sur X. Cela se produira si, par exemple, W1
se compose de toutes les variables exogènes et prédéterminées d’un modèle
linéaire à équations simultanées, parce que les variables supplémentaires dans
W2 ne doivent pas avoir de pouvoir explicatif supplémentaire pour X. Mais
cela est un cas très particulier. Dans chaque autre cas, β̃ 2 est asymptotique-
ment plus efficace que β̃ 1.
Ce résultat semble nous suggérer que nous devrions utiliser autant d’ins-
truments que possible. Cela est vrai si n est très grand, et quand les propriétés
asymptotiques sont les seules choses qui nous intéressent. Mais ce n’est pas
une bonne démarche à suivre pour des échantillons de tailles modérées. Le
problème est que l’accroissement du nombre des instruments tend à rendre le
biais des estimateurs IV, avec des échantillons finis, de plus en plus important,
et c’est de ce sujet dont nous allons parler dans la section qui suit.
y = PW Xβ + résidus. (7.28)
2
ky − PW Xβ̃k ¡ > ¢−1
X PW X , (7.29)
n−k
tandis que l’estimation (7.24) qui a été déduite auparavant peut être récrite
comme
2
ky − Xβ̃k ¡ > ¢−1
X PW X . (7.30)
n
Ces deux estimations ne sont pas les mêmes. Elles seraient les mêmes seule-
ment si les procédures OLS et IV étaient identiques, c’est-à-dire si X = PW X.
De plus, n devrait être remplacé par n − k dans (7.30). Le problème est que
la régression par OLS de la seconde étape ne nous fournit pas une bonne es-
timation de σ 2 ; elle utilise y − PW Xβ̃ plutôt que y − Xβ̃ comme vecteur de
résidus. Les résidus de la seconde étape y − PW Xβ̃ tendront à être trop im-
portants asymptotiquement puisque PW X aura moins de pouvoir explicatif
que X elle-même si le modèle est correctement spécifié. Cela bien sûr, peut
ne pas être vrai avec des échantillons finis, ou si le modèle est correctement
spécifié. Si nous exécutons effectivement les 2SLS en deux étapes, plutôt
que de compter sur une procédure 2SLS ou IV pré-programmée, nous devons
faire attention à utiliser (7.30) plutôt que (7.29) pour la matrice de variance
estimée.2 Des programmes pour l’estimation 2SLS remplacent normalement
2
Les 2SLS sont un cas spécial d’une régression de ce que Pagan (1984b, 1986) ap-
pelle “régresseurs générés”. Même quand les régressions offrent des paramètres
estimés convergents, ils donnent habituellement des estimations non conver-
gentes de la matrice de covariance des paramètres estimés. La non convergence
de (7.29) nous donne un simple exemple de ce phénomène.
226 Les Variables Instrumentales
PW Xβ̃ par Xβ̃ avant de calculer la somme des carrés expliquée, la somme
des carrés des résidus, le R2, et d’autres statistiques qui dépendent de ces
quantités.
Il y a eu une grande quantité de travaux sur les propriétés des 2SLS avec
des échantillons finis, c’est-à-dire l’estimateur IV β̃. Parmi ces travaux, nous
pouvons citer Anderson (1982), Anderson et Sawa (1979), Mariano (1982),
Phillips (1983), et Taylor (1983). Malheureusement, beaucoup de résultats is-
sus de cette littérature ne sont spécifiques qu’aux modèles développés. Un des
résultats importants attribué à Kinal, est que le m ième moment de l’estimateur
2SLS existe si et seulement si
m < l − k + 1.
1.0 ...............................................................................................................................................................................................................................
.... ... ... ................
.. . .... ...... ← IV..3.....................
... .. .. ..... .. . . .
.. .. .. ......
... ... ... . . . ....
0.8 .. .. .. ...
...
... ... ... .....
. . .
.. .. .. ..← IV
.... .... .... .... 0
0.6 .... .... .... ....
. .. .
OLS → .... .... .... ....
... ... ... ...
0.4 ... ... ... ...
. .. .
.. .. .. .. ← Vraie valeur
.... .... .... ....
. ...
.. .. .. ..
... .........
0.2 IV6 −→ . . ..
.. .. .....
.... ...........
. . ..
... .. ...................
0.0 ................................................................................................
. ..
−1 0 1 2 3
Figure 7.2 Distributions des estimations IV6 pour plusieurs tailles d’échantillon
Cette fonction critère est l’équivalent non linéaire de (7.15). Les conditions
du premier ordre qui caractérisent les estimations IV β̃ sont
¡ ¢
X>(β̃)PW y − x(β̃) = 0, (7.33)
y = x(Z, β) + u, u ∼ IID(0, σ 2 In ),
où x(Z, β) est un vecteur avec un élément type xt (Zt , β), Z étant une matrice
des observations sur les variables explicatives, dont la ligne t est Zt et dont
230 Les Variables Instrumentales
Cette expression est l’analogue non linéaire de l’expression (7.30), excepté que
nous trouvons maintenant n−k au dénominateur de l’estimation de σ 2 au lieu
de n. Elle offre, à l’évidence, une manière valable d’estimer l’analogue avec
des échantillons finis de la matrice de covariance asymptotique qui apparaı̂t
dans (7.34). Il existe malgré tout un doute sur la pertinence de l’ajustement
des degrés de liberté, ainsi que nous l’avons remarqué avant (7.24), mais
l’expression (7.37) est tout de même exactement ce que nous voulons utiliser
pour estimer la matrice de covariance de β̃.
La GNR (7.36) peut être utilisée, bien sûr, pour d’autres usages. Si elle
est évaluée en des estimations convergentes mais non efficaces, elle peut être
utilisée pour calculer des estimations efficaces en une étape, qui sont asymp-
totiquement équivalentes à β̃; voir la Section 6.6. Elle peut être aussi utilisée
comme partie d’une procédure d’optimisation numérique pour minimiser la
fonction critère (7.32); voir la Section 6.8. Dans les deux cas, il n’existe pas de
différence majeure entre les résultats pour les versions NLS et IV de la GNR.
Cependant, l’application principale des régressions de Gauss-Newton consiste
probablement à calculer des statistiques de test basées sur les principes du
multiplicateur de Lagrange et C(α), c’est-à-dire tester des contraintes sur β
232 Les Variables Instrumentales
sans avoir recours à une estimation non contrainte du modèle. Puisque le cas
IV est un peu différent du cas NLS, ce sujet mérite une discussion.
Supposons que β̌ soit un vecteur d’estimations IV sujet à un ensemble
de r restrictions éventuellement non linéaires. Pour simplifier l’exposé, nous
supposons que le modèle est paramétrisé pour que x(β) ≡ x(β1 , β2 ), où β1
est de dimension (k − r) × 1 et β2 est de dimension r × 1, et que les restrictions
soient β2 = 0. Cependant, puisque la manière d’écrire ces contraintes n’est
qu’une question de paramétrisation, les résultats seraient les mêmes si nous
tenions compte des contraintes non linéaires générales de la forme r(β) = 0.
Quand nous évaluons la GNR (7.36) avec les estimations contraintes β̌,
elle devient
y − x̌ = PW X̌b + résidus, (7.38)
où x̌ ≡ x(β̌) et X̌ ≡ X(β̌). Cette régression artificielle génère des statistiques
de test de la même manière que la GNR dans le cas des moindres carrés non
linéaires. La somme des carrés expliquée de (7.38) est
¡ ¢−1
(y − x̌)>PW X̌ X̌>PW X̌ X̌>PW (y − x̌). (7.39)
Quand la somme des carrés expliquée est divisée par n’importe quelle esti-
mation convergente de σ 2, le résultat est asymptotiquement distribué, sous
l’hypothèse nulle, suivant une χ2 (r). Une statistique de test valable peut être
obtenue en calculant n fois le R2 non centré de la GNR (7.38). D’autres
statistiques de test seront abordées ultérieurement. Nous remarquons que le
R2 est celui des OLS, et non pas celui d’une procédure IV qui serait utilisée
si l’on régressait y − x̌ sur X̌ en utilisant W comme matrice d’instruments.
Afin de comprendre pourquoi les statistiques de test basées sur la GNR
sont valables, il est pratique de récrire (7.38) en partitionnant le vecteur de
paramètres β en β1 et β2 :
où ¡ ¢−1
M̌1 ≡ I − PW X̌1 X̌1>PW X̌1 X̌1>PW
est la matrice qui projette orthogonalement sur S⊥ (PW X̌1 ). Par conséquent,
nous voyons que la somme des carrés expliquée (7.39) peut se récrire comme
¡ ¢−1
(y − x̌)>M̌1 PW X̌2 X̌2>PW M̌1 PW X̌2 X̌2>PW M̌1 (y − x̌). (7.41)
7.7 Les Tests d’Hypothèses Basés sur la GNR 233
Nous ne démontrerons pas que l’expression (7.41), quand elle est divisée par
une estimation convergente de σ 2 , est asymptotiquement distribuée suivant
une χ2 (r). La preuve résulte étroitement de celle employée dans le cas des
moindres carrés non linéaires qui a été esquissée dans la Section 6.4. É-
videmment, le résultat s’ensuit immédiatement si nous pouvons montrer que
le vecteur à r composantes
Il peut être un bon exercice pour les lecteurs de démontrer ce résultat. Pour
une discussion plus détaillée, voir Engle (1982a).
Les tests qui viennent d’être décrits sont basés sur le principe LM. Il est,
bien sûr, aussi valable d’utiliser les tests basés sur le principe C(α), discuté
dans la Section 6.7. Les régressions de test ressembleraient à (7.40), excepté
que la régressande et les régresseurs seraient évalués en des estimations β́ qui
sont convergentes sous l’hypothèse nulle mais pour lesquelles les conditions
du premier ordre ne sont pas satisfaites:
(y − x́)>PW X́1 6= 0.
où n devrait être remplacé par (n−k+r). Cette estimation de σ 2 est basée sur
les estimations contraintes. Il est aussi valable d’utiliser n−1 ou (n − k)−1 fois
la somme des carrés des résidus de la GNR (7.40) elle-même, malgré le fait que
les régresseurs aient été multipliés par PW , parce que sous l’hypothèse nulle,
la GNR n’aurait pas de pouvoir explicatif asymptotiquement. De ce fait, que
l’on utilise la somme des carrés des résidus ou la somme des carrés expliquée,
cela ne donne aucune différence asymptotiquement si nous voulons simplement
tester l’hypothèse nulle β2 = 0. Cela implique qu’un test en F ordinaire pour
b2 = 0 basé sur l’estimation OLS de (7.40) serait asymptotiquement valable.
(RSSR − USSR)/r a
∼ F (r, n − k), (7.42)
USSR/(n − k)
où RSSR et USSR désignent la somme des carrés des résidus contraints et non
contraints. Des tests de ce type sont également disponibles pour des modèles
estimés par IV, mais ils ne sont pas véritablement les mêmes que (7.42), à
7.7 Les Tests d’Hypothèses Basés sur la GNR 235
moins que, comme plus haut, RSSR et USSR ne soient obtenues par une GNR.
A présent, nous allons discuter de ces tests plus en détails.
Pour simplifier, nous commençons par considérer le cas linéaire. Sup-
posons que les modèles contraint et non contraint soient:
qui présente une ressemblance frappante mais en aucun cas innocente avec
l’expression (7.41). Sous l’hypothèse nulle (7.43), y est égal à X1 β1 + u.
Puisque PW M1 annule X1 , (7.47) se réduit à
¡ ¢−1
u>M1 PW X2 X2>PW M1 PW X2 X2>PW M1 u
sous l’hypothèse nulle. Il serait facile de voir que, sous des hypothèses raison-
nables, cette quantité divisée par une estimation convergente de σ 2 , sera dis-
tribuée asymptotiquement par une χ2 (r). Les hypothèses nécessaires sont
essentiellement (7.18a)–(7.18c), plus les hypothèses suffisantes pour qu’un
théorème de la limite centrale puisse s’appliquer à n−1/2 W >u.
Alors, le problème est d’estimer σ 2. Remarquons que USSR∗ /(n − k)
n’estime pas σ 2 de manière convergente, pour les raisons discutées à la Sec-
tion 7.5. Comme nous l’avons vu, les résidus de la régression de la seconde
étape seront trop grands, au moins asymptotiquement. Par conséquent, les
estimations de σ 2 doivent être basées sur l’ensemble des résidus y −Xβ̃ plutôt
que sur l’ensemble y − PW Xβ̃. Une estimation valable est USSR/(n − k), où
° °2
USSR ≡ °y − X1 β̃1 − X2 β̃2 ° .
236 Les Variables Instrumentales
La différence entre les sommes des carrés expliquées des régressions (7.50) et
(7.51) est le numérateur de toutes les statistiques de test pour β2 = 0 qui
sont basées sur la GNR (7.38). Cette différence est égale à la valeur absolue
de la différence entre les deux sommes des carrés des résidus. La ESS de la
régression (7.51) est égale à zéro, d’après les conditions du premier ordre pour
la minimisation de la fonction somme-des-carrés contrainte. Donc, la SSR est
juste la somme des carrés totale, c’est-à-dire
° ¡ ¢°
°PW y − x(β̌) °2 ,
qui constitue le second terme de (7.49). Nous avons donc démontré que la
différence entre les valeurs contrainte et non contrainte de la fonction critère,
l’expression (7.49), est asymptotiquement équivalente à la somme des carrés
expliquée de la GNR (7.38). Puisque cette dernière peut être utilisée pour
construire une statistique de test valable, la première le peut aussi.
Ce résultat est important. Il nous enseigne que nous pouvons toujours
construire un test d’hypothèse sur β en prenant la différence entre les valeurs
contrainte et non contrainte de la fonction critère pour l’estimation IV et en
238 Les Variables Instrumentales
doit exister et être une matrice définie positive quand la limite en probabilité
est calculée sous n’importe quel DGP caractérisé par le vecteur paramétrique
β0 . Aucune de ces conditions ne diffère d’une manière substantielle des con-
ditions correspondantes pour les modèles de régression estimés par NLS. Les
seules différences résultent, de manière évidente, de la présence de PW dans
la fonction critère.
Les questions soulevées sur l’identification par l’utilisation des instru-
ments sont les mêmes que le modèle soit linéaire ou non. Puisque les modèles
7.8 Identification et Contraintes de Suridentification 239
linéaires sont plus faciles à traiter, nous supposons pour la suite de cette sec-
tion que le modèle est linéaire. Par conséquent, nous utiliserons le modèle
(7.01). Il peut être estimé de manière convergente, soit en minimisant la
fonction critère (7.15), soit par une procédure de doubles moindres carrés, à
condition que la matrice d’instruments W soit choisie de manière appropriée.
Ces deux procédures donneront des estimations β̃ identiques.
Il doit être évident que le modèle (7.01) ne sera ni localement ni globale-
ment identifié si la matrice X>PW X n’est pas définie positive. Une condition
nécessaire pour cela est que ρ(W ) ≥ k. Normalement ρ(W ) sera égal à l, le
nombre d’instruments, et nous supposerons que c’est le cas. Par conséquent,
la condition nécessaire exige qu’il y ait au moins autant d’instruments que de
régresseurs. Cela n’est pourtant pas une condition suffisante. Si une combi-
naison linéaire des colonnes de X se trouvait dans S⊥ (W ), PW X serait de
rang inférieur à k et X>PW X serait alors singulière, et donc ce cas doit être
écarté. Lorsque X>PW X n’est pas singulière, le modèle (7.01) sera localement
identifié et, parce qu’il est linéaire, il sera également identifié globalement. Il
est souvent utile de distinguer deux types d’identifications locales. Lorsqu’il
existe autant d’instruments que de régresseurs et que le modèle est identifié, le
modèle est dit juste identifié ou identifié exactement, parce que la suppression
d’une colonne quelconque de W le rendrait non identifié. Si au contraire, il
existe plus d’instruments que de régresseurs, si bien que le modèle resterait
identifié si une (et peut-être plus d’une) colonne de W était supprimée, le
modèle sera dit suridentifié.
Les modèles linéaires qui sont exactement identifiés possèdent plusieurs
propriétés intéressantes. Nous avons déjà vu que, pour un modèle identifié
exactement, l’estimateur des IV généralisé (7.17) est égal à l’estimateur IV
simple (7.25). Nous avons vu aussi que pour de tels modèles, l’estimateur
IV n’aura pas de moments d’ordre supérieur ou égal à un. Une troisième
propriété intéressante est que la valeur minimisée de la fonction critère (7.15)
est exactement zéro. Comme nous le verrons plus loin, cette propriété est
pratique pour certains usages.
Le résultat selon lequel la valeur minimisée de la fonction critère (7.15)
est nulle quand l = k est important et révélateur. Cette valeur est
Cette égalité résulte des conditions du premier ordre pour β̃, qui sont (y −
Xβ̃)>PW X = 0. En utilisant l’expression (7.17), la valeur minimisée de la
fonction critère peut alors se récrire comme
¡ ¢−1 ¡ ¢
y>PW y − y>PW X X>PW X X>PW y = y> PW − PPW X y. (7.53)
valeur de la fonction critère minimisée est donc nulle. L’intuition qui permet
d’aboutir à ce résultat est très simple. Nous avons vu que l’estimation IV
minimise seulement la portion de la distance entre y et S(X) qui appartient à
S(W ). Puisque dans ce cas S(W ) constitue un espace à k dimensions, et que
nous minimisons par rapport aux k paramètres, la procédure de minimisation
peut réduire cette distance à zéro, et par conséquent éliminer entièrement une
quelconque disjonction entre PW y et S(PW X).
Lorsque l’on dispose de plus d’instruments que de régresseurs (nous sup-
poserons encore que ρ(W ) est égal à l), le modèle sera dit suridentifié parce
qu’il existe plus d’instruments qu’il n’en faut pour garantir l’identification.
La terminologie vient de la littérature sur les modèles à équations simultanées
dans lesquels l’identification a été étudiée en détails; voir le Chapitre 18.
Nous avons vu dans la Section 7.5 qu’il est souvent préférable qu’un modèle
soit quelque peu suridentifié afin de garantir de bonnes propriétés pour
l’estimateur IV avec des échantillons finis. La possibilité de tester, dans une
certaine mesure, la validité du choix des instruments constitue une seconde
caractéristique attrayante des modèles suridentifiés. Cela est remarquable-
ment facile à exécuter et peut être, dans certains cas, très instructif.
Quand nous spécifions un modèle comme (7.01), nous supposons que y
dépend linéairement de X et ne dépend d’aucune autre variable observable.
En particulier, nous supposons qu’il ne dépend pas des colonnes de W qui
n’appartiennent pas à S(X). Autrement, l’hypothèse d’indépendance entre les
aléas u de (7.01) et les instruments serait fausse. Dans certains cas, et peut-
être même dans beaucoup de cas, nous ne pouvons pas être entièrement sûrs
que les colonnes de W puissent être écartées de X. Néanmoins, nous devons
exclure autant de colonnes de W que de variables endogènes dans X pour
identifier le modèle. Et si le modèle est suridentifié, c’est que nous avons exclu
encore plus de colonnes de W . Ces contraintes supplémentaires, appelées
contraintes de suridentification, peuvent être testées. Nous pouvons procéder
par plusieurs moyens différents. Basmann (1960) est une référence classique,
et d’autres encore comme Byron (1974), Wegge (1978), Hwang (1980), et
Fisher (1981). Cependant, notre approche est beaucoup plus simple que celles
évoquées dans ces articles.
Le moyen le plus simple de comprendre les tests des contraintes de suri-
dentification consiste à les assimiler à des cas particuliers des tests d’hypo-
thèses évoqués dans la section précédente. L’hypothèse nulle est le modèle
(7.01). L’hypothèse alternative est donc le modèle
où RSSR∗ et USSR∗ sont les sommes des carrés des résidus OLS de la seconde
étape à partir de l’estimation 2SLS de (7.01) et (7.54) respectivement, et USSR
est la somme des carrés des résidus IV de (7.54).
Cependant, une autre procédure très simple est aussi acceptable. Nous
avons vu pour le modèle non contraint (7.54) que la valeur de la fonction
critère (7.15) doit être égale, à l’optimum, à zéro. Donc, la différence entre
les valeurs contrainte et non contrainte de la fonction critère doit être égale à
la valeur pour le modèle contraint. A partir de (7.53), la valeur de la fonction
critère pour le modèle contraint est
° ° ¡ ¢
°PW (y − Xβ̃)°2 = y>PW y − y>PW X X>PW X −1X>PW y, (7.56)
et il est facile de voir que (7.56) est égale à la différence entre RSSR∗ − USSR∗
qui apparaı̂t dans (7.55). Cette expression peut être divisée par n’importe
quelle quantité qui estime σ 2 de façon convergente. Par conséquent, une
statistique de test alternative est
° °
°PW (y − Xβ̃)°2 a
° ° ∼ χ2 (l − k), (7.57)
°(y − Xβ̃)°2 /n
¡ ¢−1
β̂ = X>X X>y
avec l’estimateur IV
¡ ¢−1
β̃ = X>PW X X>PW y.
X>PW MX y (7.60)
est d’espérance nulle asymptotiquement. Il doit l’être parce que sous un DGP
appartenant à (7.01), il est égal à
X>PW MX u.
3
On doit utiliser une inverse généralisée dans les cas où la matrice de covariance
du vecteur de contrastes n’est pas de plein rang. Voir Hausman et Taylor
(1982).
7.9 Les Tests de Durbin-Wu-Hausman 245
Or,
¡ ¢−1
M ∗X = X − MW X∗ X∗>MW X∗ X∗>MW X.
Du fait que MW X = [MW X∗ 0], il s’ensuit que
£ ¤
X∗>MW X = X∗>MW X∗ 0 .
Par conséquent, on a
£ ¤
M ∗X = X − MW X∗ 0 = X − MW X = PW X.
où s̃2 désigne dans (7.63) l’estimation OLS de la variance des erreurs.
L’expression (7.67) ressemble assez à la matrice de covariance IV (7.24), ex-
cepté que s̃2 apparaı̂t à la place de σ̃ 2. Lorsque η n’est pas nul (pour que
l’estimation IV soit nécessaire), la variance des erreurs dans (7.63) sera plus
petite que σ 2. Par conséquent, s̃2 sera biaisée vers le bas en tant qu’estimateur
de σ 2. Bien sûr, il serait facile d’obtenir une matrice de covariance estimée
valable en multipliant (7.67) par σ̃ 2 /s̃2.
A présent, retournons au test DWH. Une variante de ce test s’applique
aussi bien aux modèles linéaires qu’aux modèles non linéaires comme (7.31).
Le test serait construit alors sur une variante de la régression de Gauss-
Newton. Si l’hypothèse nulle était que les estimations NLS β̂ étaient con-
vergentes, une statistique de test appropriée serait un test en F asymptotique
pour c = 0 dans la GNR
où MP1 X est la matrice qui projette sur S⊥ (P1 X). Ici, la troisième ligne est
déduite de l’égalité P2 P1 = P2 , qui est une conséquence du fait que S(W2 )
est un sous-espace de S(W1 ).
248 Les Variables Instrumentales
y = Xβ + P2 X∗ δ + résidus. (7.70)
Ici P2 X∗ contient les q colonnes de P2 X qui ne sont pas annulées par MP1 X .
La régression (7.70) doit être estimée par IV en utilisant W1 comme matrice
d’instruments, et un des tests discutés dans la Section 7.7 peut être utilisé
pour tester δ = 0.
7.10 Conclusion
Ce chapitre a introduit tous les concepts importants associés à la tech-
nique d’estimation des variables instrumentales. Pour un traitement plus
détaillé, voir Bowden et Turkington (1984). Une autre référence utile est
Godfrey (1988, Chapitre 5), où est abordé un nombre important de tests de
spécification pour les modèles linéaires et non linéaires qui ont été estimés par
IV.
Dans ce chapitre, nous avons appliqué la méthode des variables instru-
mentales seulement aux modèles de régression univariée linéaire et non linéaire
avec les erreurs i.i.d. Nous rencontrerons plus tard dans cet ouvrage de nom-
breuses autres applications, notamment dans les Chapitres 17 et 18 où nous
discutons, respectivement, de l’estimation GMM et des modèles à équations
simultanées. Dans bien d’autres cas, nous exposerons un résultat dans le con-
texte d’une estimation OLS ou NLS, et nous montrerons qu’il tend vers une
modification mineure dans le contexte d’une estimation IV.
Termes et Concepts 249
Termes et Concepts
biais des équations simultanées forme réduite non contrainte (URF)
contraintes de suridentification forme structurelle (d’un modèle
erreurs dans les variables d’équations simultanées)
estimateur doubles moindres carrés identification: locale, globale, et
(2SLS) asymptotique
estimateur des variables instruments (variables instrumentales)
instrumentales (IV) modèle d’équations simultanées
estimateur IV généralisé modèle exactement identifié (ou juste
estimateur IV simple identifié)
estimateur non linéaire des doubles modèle suridentifié
moindres carrés (NL2SLS) normalisation (d’un modèle
estimateur non linéaire IV d’équations simultanées)
fonction critère régression de Gauss-Newton (GNR)
forme réduite contrainte (RRF) tests de Durbin-Wu-Hausman (DWH)
forme réduite (d’un modèle variable prédéterminée
d’équations simultanées) vecteur de contrastes