P. 1
Ch18 Modèles d'équations Simultanées

Ch18 Modèles d'équations Simultanées

|Views: 261|Likes:
Publié parapi-3737025

More info:

Published by: api-3737025 on Oct 15, 2008
Droits d'auteur :Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/09/2014

pdf

text

original

Chapitre 18

Mod`eles d’Equations Simultan´ees
18.1 Introduction
Pendant de nombreuses ann´ees, le mod`eles d’´equations simultan´ees lin´eaire a
´et´e le centre d’int´erˆet de la th´eorie ´econom´etrique. Nous avons abord´e un cas
particulier de ce mod`ele, un mod`ele d’offre-demande `a deux ´equations, dans la
Section 7.3. L’objet de cette discussion ´etait simplement de monter que la si-
multan´eit´e implique une corr´elation entre les r´egresseurs et les termes d’erreur
de chaque ´equation de syst`eme, rendant les OLS non convergents et justifi-
ant l’usage des variables instrumentales. La non convergence des estimateurs
par moindres carr´es des ´equations individuelles dans les mod`eles d’´equations
simultan´ees n’est pourtant pas le seul r´esultat ´econom´etrique pour ce genre
de mod`ele. Dans ce chapitre, nou discutons donc des mod`eles d’´equations
simultan´ees en d´etail.
La grande majorit´e du travail r´ecent sur les mod`eles d’´equations simul-
tan´ees s’est d´evelopp´e sous la bienveillance de la Commisssion Cowles; Koop-
mans (1950) et Hood et Koopmans (1953) sont des r´ef´erences connues. Ce
travail a fortement influenc´e la direction suivie par la th´eorie ´econom´etrique
depuis de nombreuses ann´ees. Pour une histoire sur le d´eveloppement r´ecent
de l’´econom´etrie, consulter Morgan (1990). Parce que la litt´erature consacr´ee
aux mod`eles d’´equations simultan´ees est vaste, nous ne traiterons qu’une
petite partie de celle-ci. Il existe un grand nombre d’´etudes sur ce champ
th´eorique, et de nombreux ouvrages qui se situent `a des niveaux diff´erents.
Deux articles de synth`ese int´erssants sont ceux de Hausman (1983), qui traite
de la litt´erature traditionnelle, et Phillips (1983), qui traite du champ plus
sp´ecifique de la th´eorie en petit ´echantillon dans les mod`eles d’´equations si-
multan´ees, un sujet que nous n’aborderons pas du tout.
La caract´eristique essentielle des mod`eles d’´equations simultan´ees est
que deux ou plusieurs variables endog`enes sont d´etermin´ees simultan´ement
par le mod`ele, comme des fonctions de variables exog`enes, de variables
pr´ed´etermin´ees, et d’al´eas. A ce stade, nous en avons dit tr`es peu sur ce
que nous entendons par variables exog`enes et pr´ed´etermin´ees. Puisque le rˆole
de telles variables est essentiel dans les mod`eles d’´equations simutlan´ees, il
est temps de corriger le d´efaut. Dans la Section 18.2, nous discutons par
cons´equent en d´etail du concept important de l’exog´en´eit´e.
622
18.1 Introduction 623
La majeure partie du chapitre sra consacr´ee au mod`ele d’´equations si-
multan´ees. Supposons qu’il y ait g variables endog`enes, et par cons´equent g
´equations, et k variables exog`enes ou pr´ed´etermin´ees. Alors le mod`ele peut
ˆetre ´ecrit sous forme matricielle comme
YΓ = XB +U. (18.01)
Ici, Y d´esigne une matrice de dimension n × g de variables endog`enes, X
d´esigne une matrice de dimension n × k de variables exog`enes ou pr´ed´eter-
min´ees, Γ d´esigne une matrice de dimension g ×g de coefficients, B d´esigne
une matrice de dimension k × g de coefficients, et U d´esigen une matrice de
dimension n ×g de termes d’erreur.
Il est imm´ediatement clair que le mod`ele (18.01) comprend beaucoup trop
de param`etres `a estimer. Une observation type pour l’´equation l peut s’´ecrire
sous la forme
g
¸
i=1
Γ
il
Y
ti
=
k
¸
j=1
B
jl
X
tj
+ u
tl
.
La multiplication de tous les param`etres Γ
il
et B
jl
par n’importe quelle con-
stante non nulle aurait pour effet de multiplier u
tl
par cette constante pour
tout t, mais ne modifierait pas la structure des al´eas dans les observations.
Il est donc n´ecessaire d’imposer une sorte de nomrmalisation pour chaque
´equation du mod`ele. Une normalisation ´evidente consiste `a poser Γ
ii
= 1
pour tout i; chaque variable endog`ene, de y
1
`a y
g
, serait alors associ´ee `a un
coefficient unitaire dans une et une seule ´equation. Cependant, comme nous
l’avons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
ˆetre envisag´ees. Nous pourrions, par exemple, poser Γ
1l
= 1 pour tout l; le
coefficient associ´e `a la premi`ere variable endog`ene serait ainsi ´egal `a l’unit´e
dans chaque ´equation.
Le mod`ele (18.01) n’a pas de sens si la matrice Γ n’est pas inversible,
car sinons il serait impossible de d´eterminer Y de mani`ere unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par Γ
−1
pour obtenir
Y = XBΓ
−1
+UΓ
−1
(18.02)
= XΠ +V. (18.03)
L’expression (18.02) est la forme r´eduite contrainte, ou FRC, et l’expression
(18.03) est la forme r´eduite libre, ou FRL. Les contraintes sont Π = BΓ
−1
.
Notons que, mˆeme dans le cas improbable o` u les colonnes de U ´etaient
ind´ependantes, celles de V ne le seraient pas. Ainsi les diverses ´equations
de la forme r´eduite poss`edent preque sˆ urement des al´eas corr´el´es.
L’imposition des contraintes de normalisation est n´ecessaire mais non
suffisante pour obtenir des estimations de Γ et B. Le probl`eme est que, `a
624 Mod` eles d’Equations Simultan´ ees
moins de lui imposer des contrantes, le mod`ele (18.01) a beaucoup trop de
param`etres inconnus. La matrice Γ poss`ede g
2
−g coefficients, du fait des g
conraintes de normalisation, alors que la matrice B en poss`ede gk. Il y a donc
g
2
+ gk −g coefficents structurels au total. Mais la matrice Π sous la forme
r´eduite libre ne poss`ede que gk coefficients. Il est `a l’´evidence impossible de
d´eterminer les g
2
+ gk − g coefficients structurels `a partir des gk coefficients
de la FRL. Il faudra imposer au moins g
2
−g contraintes sur Γ et/ou B afin
d’ˆetre en mesure d’identifier le mod`ele. Il existe une vaste litt´erature con-
sacr´ee `a l’identification dans les mod`eles d’´equations simultan´ees, qui aborde
le probl`eme des conditions sous lesquelles certains ou tous les param`etres de
tel mod`ele peuvent ˆetre identifi´es. Nous livrerons les principaux r´esultats de
cette litt´erature dans la Section 18.3.
La grande partie restante du chapitre traite des m´erhodes d’estimation
diverses et vari´ees pour les mod`eles d’´equations simultan´ees. La Section 18.4
aborde l’estimation par maximum de vraisemblance du mod`ele dans son en-
semble sous l’hypoth`ese de normalit´e, une technique connue sous le nom de
maximum de vraisemblance en information compl`ete, ou FIML. La section qui
suit traite de l’estimation par maximum de vraisemblance de chaque ´equation
s´epar´ement, technique que l’on nomme maximum de vraisemblance en in-
formation limit´ee, ou LIML. Puis dans la Section 18.6, nous discuterons des
triples moindres carr´es, ou 3SLS, que l’on d´erive comme une application de la
m´ethode des moments g´en´eralis´ee. Enfin, les mod`eles d’´equations simultan´ees
seront abord´es dans la Section 18.7.
18.2 Exog
´
en
´
eit
´
e et Causalit
´
e
Dans le cas d’une ´equation de r´egression unique, nous estimons la distribu-
tion, ou du moins l’esp´erance et la variance, d’une variable endog`ene condi-
tionnellement aux valeurs de certaines variables explicatives. Dans le cas d’un
mod`ele d’´equations simultan´ees, nous estimons la distribution jointe de deux
ou plusieurs variables endog`enes conditionnellement aux valeurs de certaines
variables explicatives. Mais nous n’avons encore rien dit sur les conditions
sous lesquelles nous pouvons consid´erer une variable comme explicative. Pour
que l’inf´erence conditionnelle soit valable, les variables explicatives doivent
ˆetre soit pr´ed´etermin´ees soit exog`enes dans un sens ou un autre que nous
allons d´efinir.
Dans un contexte de s´erie temporelle, nous avons vu que les variables
al´eatoires qui sont pr´ed´etermin´ees peuvent ˆetre employ´ees sans risque en tant
que variables explicatives dans une estimation par moindres carr´es, du moins
asymptotiquement. En r´ealit´e, les variables endog`enes r´etard´ees sotn abon-
damment utilis´ees en tant que variables explicatives et en tant qu’instruments.
Cependant, il y a de nombreux cas, et parmi eux le cas des mod`eles es-
tim´es `a l’aide de donn´ees en coupe tranversale, o` u nous voulons utiliser en
tant que variables explicatives des variables qui ne sont pas des variables
18.2 Exog´ en´ eit´ e et Causalit´ e 625
pr´ed´etermin´ees. De plus, le concept de pr´ed´etermination se r´ev`ele ˆetre plus
d´elicat que ce que l’on imagine, puisque la pr´ed´etermination n’est pas invari-
ante `a la param´etrisation du mod`ele. Ainsi il est calir que nous avons besoin
d’un concept plus g´en´eral que celui de la pr´ed´etermination.
Il est pratique de d´ebuter par des d´efinitions formelles du concept de
pr´ed´etermination et du concept ´etraitement reli´e de l’exog´en´eit´e faible. Ce
faisant, nous suivons l’expos´e classique de ces th`emes, tel qu’il apparaˆıt chez
Engle, Hendry, et Richard (1983). Les lecteurs devraient ˆetre pr´evenus que
cet article, bien qu’´etant une r´ef´erence classique, n’est pas du tout ´evident `a
lire. Notre discussion sera grandement simplifi´ee par rapport `a la leur, et se
fondera sur un contexte plus g´en´eral, puisque ces auteurs se concentrent sur
les mod`eles param´etriques pleinement sp´ecifi´es et estimables par maximum
de vraisemblance. Nous nous r´ef´ererons, malgr´e tout, `a un de leurs exemples
pour une illustration concr`ete d’un nombre de points.
Soit Y
t
le vecteur de dimension 1 × g l’observation t d’un ensemble de
variables que nous voulons mod´eliser dans un processus simultan´e, et soit
X
t
le vecteur de dimension 1 × k l’observation t d’un ensemble de variables
explicatives, dont toutes ou certaines peuvent ˆetre des Y
t
retard´es. Nous
pouvons ´ecrire un mod`ele d’´equations simultan´ees, en g´en´eral nobn lin´eaire,
sous la forme
h
t
(Y
t
, X
t
, θ) = U
t
, (18.04)
o` u h
t
est un vecteur de dimension 1×g de fonctions, comparable `a la fonction
de r´egression d’un mod`ele univari´e, o` u θ est un vecteur de param`etres de
dimensionp, et o` u U
t
est un vecteur de dimension 1 × g d’al´eas. Le mod`ele
lin´eaire (18.01) peut ˆetre consid´er´e comme un cas particulier de (18.04) si
nous le mettons sous la forme
Y
t
Γ = X
t
B +U
t
et si nous faisons en sorte que θ soit compos´e de tous les ´el´ements de Γ
et B qu’il faut estimer. Ici X
t
et Y
t
sont les t
i`eme
lignes des matrices X
et Y. On pourrait baser un ensemble de conditions portant sur les moments
(conditionnels) sur (18.04), en ´ecrivant
E

h
t
(Y
t
, X
t
, θ)

= 0,
o` u l’esp´erance pourrait s’interpr´eter comme ´etant conditionnelle `a un ensemble
d’information appropri´e.
D´efinition 18.1.
Les variables explicatives X
t
sont pr´ed´etermin´ees dans l’´equation i du
mod`ele (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,
X
t

u
i,t+s
pour tout s ≥ 0.
626 Mod` eles d’Equations Simultan´ ees
Le symbole

est ici employ´e pour exprimer l’ind´ependance statistique. La
d´efinition est valable quel que soit le contexte, et en particulier le contexte des
s´eries temporelles pour lequel il existe un ordre naturel. Le prochain concept
ne n´ecessite pas un tel ordonnancement.
D´efinition 18.2.
Les variables explicatives X
t
sont strictement exog`enes dans l’´equation
i du mod`ele (18.04) si, pour tout t = 1, . . . , n,
X
t

U
s
pour tout s = 1, . . . , n.
Si (18.04) repr´esente une forme structurelle, alors autant la pr´ed´etermina-
tion que l’exog´en´eit´e stricte nous autorise `a traiter cette forme comme une
caract´erisation du processus g´en´erant Y
t
conditonnellement `a X
t
. Ainsi
nous pouvons, par exemple, ´ecrire une fonction de log-vraisemblance bas´ee
sur (18.04), que l’on peut maximiser pour obtenir des estimations conver-
gentes des param`etres θ; voir la Section 18.4. Si l’on pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
pr´ed´etermination que l’exog´en´eit´e stricte nous autorise `a employer les colonnes
de X comme instruments dans l’estimation de θ par une sorte quelconque de
proc´edure IV, telle que les 2SLS, 3SLS ou la GMM. En r´eclamant cette pro-
pri´et´e, nous supposons qu’il y a suffisamment d’instruments dans X pour
identifier tous les param`etres de θ.
H´elas, le concept de l’exog´en´eit´e stricte est beaucoup trop contraignant,
du moins pour les applications sur s´eries temporeles. Dans ce contexte, un
tr`es petit nombre de variables sont strictement exog`enes, bien que beaucoup
soient pr´ed´etermin´ees. Cependant, comme nous allons le montrer, une vari-
able peut ˆetre pr´ed´etermin´ee ou non dans un mˆeme mod`ele selon la mani`ere
de le param´etrer. En plus de cela, la pr´ed´etermination n’est pas toujours
n´ecessaire pour une estimation convergente. Ce concept est par cons´equent
tr`es peu satisfaisant.
Consid´erons le mod`ele simultan´e suivant, tir´e de Engle, Hendry, et
Richard (1983):
y
t
= βx
t
+ ε
1t
(18.05)
x
t
= δ
1
x
t−1
+ δ
2
y
t−1
+ ε
2t
, (18.06)
o` u les al´eas sont normalement, identiquement, et ind´ependemment distribu´es
pour tout t, avec une matrice de covariance donn´ee par
Σ ≡
¸
σ
11
σ
12
σ
12
σ
22

.
Si σ
12
= 0, x
t
est corr´el´e `a ε
1t
et l’estimation de (18.05) par OLS ne sera pas
convergente parce que x
t
n’est pas pr´ed´etermin´e dans (18.05).
18.2 Exog´ en´ eit´ e et Causalit´ e 627
Consid´erons `a pr´esent l’esp´erance de y
t
conditionnellement `a x
t
et `a tous
les y
t
et x
t
retard´es. Nous avons
E(y
t
| x
t
, y
t−1
, x
t−1
· · ·) = βx
t
+ E(ε
1t
| x
t
, y
t−1
, x
t−1
· · ·). (18.07)
Remarquons que ε
2t
est d´efini par (18.06) comme une combinaison lin´eaire
des variables conditionnantes. Ainsi l’esp´erance conditionnelle de ε
1t
dans
(18.07) est
E(ε
1t
| ε
2t
) =
σ
12
σ
22
ε
2t
=
σ
12
σ
22
(x
t
−δ
1
x
t−1
−δ
2
y
t−1
).
Nous pouvons par cons´equent ´ecrire
y
t
= bx
t
+ c
1
x
t−1
+ c
2
y
t−1
+ v
t
, (18.08)
avec
b = β +
σ
12
σ
22
, c
1
= −δ
1
σ
12
σ
22
, c
2
= −δ
2
σ
12
σ
22
, (18.09)
o` u v
t
est ind´ependent de x
t
. Ainsi x
t
est pr´ed´etermin´e dans (18.08), quelle
que soit la valeur de σ
12
, bien qu’il ne soit pas pr´ed´etermin´e dans (18.05)
lorsque σ
12
= 0.
Nous retournerons `a ce mod`ele plus tard. Pendant ce temps, progressons
vers un concept plus appropri´e que la pr´ed´etermination dans le contexte du
mod`ele simultan´e. Parce que nous voulons savoir si les variables explicatives
X
t
sont d´etermin´ees simultan´ement aux Y
t
nous aurons besoin de travailler
avec des DGP qui g´en`erent `a la fois Y
t
et X
t
. Comme d’habitude, nous
pouvons repr´esenter un DGP par une densit´e de probabilit´e, ou mieux par
son logarithme, que l’on peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de l’observation t est
de la forme

t
(Y
t
, X
t
| Ω
t
). (18.10)
Cette expression est le logarithme de la densit´e jointe de Y
t
et X
t
condition-
nellement `a l’ensemble d’information Ω
t
. Ce dernier est compos´e de toutes
les observations sur Y
t
et X
t
, de la premi`ere `a la (t −1)
th
.
L’expression (18.10) peut ˆetre d´ecompos´ee en deux contributions, l’une
correspondant au logarithme de la densit´e de Y
t
cnditionnellement `a X
t
et

t
, et la seconde correspondant au logarithme de la densit´e de X
t
condition-
nellement `a Ω
t
:

t
(Y
t
, X
t
| Ω
t
) =
Y
t
(Y
t
| X
t
, Ω
t
) +
X
t
(X
t
| Ω
t
), (18.11)
avec une notation ´evidente. A ce stade, nous souhaitons pouvoir faire ab-
straction de la seconde partie des contributions dans (18.11), puisqu’elle ne
concerne que les variables explicatives.
628 Mod` eles d’Equations Simultan´ ees
Sous quelles conditions pouvons-nous faire abstraction de la seconde con-
tribution? Pour r´epondre `a cette question, consid´erons tout d’abord un
mod`ele, M, compos´e de DGP repr´esent´es par des ensembles de contribu-
tions de la forme (18.11). Puis, d´efinissons une application d´efinissante des
param`etres: M → Θ ∈ R
p
qui associe un vecteur de param`etres `a p com-
posantes θ(µ) ∈ Θ `a chaque µ ∈ M. Le vecteur de param`etres θ contient
les param`etres d’int´erˆet, c’est-`a-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir d’autres param`etres, appel´es, param`etres
perturbateurs, que nous ne souhaitons pas estimer.
D´efinition 18.3.
Les variables expliatives X
t
sont faiblement exog`enes pour le mod`ele
param´etrique (M, θ) si
(i) il existe un sous-mod`ele M
X
qui contient les DGP pour les vari-
ables explicatives X
t
seulement;
(ii) il existe un sous-mod`ele conditionnel M
Y
qui contient les DGP
pour les variables endog`enes Y
t
conditionnellement aux variables
explicatives X
t
;
(iii) le mod`ele complet M comprend tous les DGP joints (µ
Y
, µ
X
), o` u
µ
X
est un ´el´ement arbitraire de M
X
et o` u µ
Y
est un ´el´ement
arbitraire de M
Y
; et
(iv) il existe une application d´efinissante des param`etres θ
Y
: M
Y
→Θ
telle que, pour tout µ ≡ (µ
Y
, µ
X
) ∈ M, θ(µ) = θ
Y

Y
).
Cette d´efinition n´ecessite quelques mots d’explication. Les DGP du sous-
mod`ele M
X
sont caract´eris´es par des s´erise des contributions telles que
X
t
dans (18.11), alors que ceux de M
Y
sont caract´eris´es par des contributions
telles que
Y
t
dans cette ´equation. Ainsi les contributions qui caract´erisent
les DGP des deux sous-mod`eles sont tels que, pour l’observation t, la densit´e
est conditionnelle `a tous les Ω
t
. Cela signifie en particulier que le processus
qui g´en`ere les X
t
peut tout `a fait d´ependre des Y
t
retard´es. La puissance
de point (iii) de la d´efinition est que le mod`ele complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons d’´el´ements de M
X
et M
Y
possibles. Le point (iv)
indique que les param`etres du mod`ele ne d´ependent que du DGP conditionnel
qui g´en`ere les Y
t
conditionnellement aux X
t
. Autrement dit, les param`etres
associ´es au DGP (µ
Y
, µ
X
) ne d´ependent que de µ
Y
. Si on remplace µ
X
par un
autre DGP pour les mˆemes variables explicatives, disons ν
X
, les param`etres
ne sont pas modifi´es.
Engle, Hendry, et Richard pr´etendent que l’exog´en´eit´e faible au sens de la
d´efiniiton pr´ec´edente est pr´ecis´ement cedont nous avons besoin pour estimer
et r´ealiser des inf´erences sur les param`etres θ without sans tenir compte du
sous-mod`ele M
X
. Afin d’estimer les mod`eles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-mod`ele
18.2 Exog´ en´ eit´ e et Causalit´ e 629
M
Y
, peut d´ependre de θ. La maximisation de la fonction de log-vraisemblance
dans sa totalit´e est donc ´equivalente `a la maximisation de la fonction de log-
vraisemblance partielle

Y
(Y
n
, X
n
; θ) ≡
n
¸
t=1

Y
t
(Y
t
| X
t
, Ω
t
; θ)
par rapport `a θ. De la mˆeme fa¸con, en ce qui concerne l’inf´erence, le gradient
et la matrice Hessienne de la fonction de log-vraisemblance compl`ete par
rapport `a θ sont identiques `a ceux de la fonction de log-vraisemblance partielle

Y
.
Voyons comment s’applique la D´efinition 18.3 au mod`ele d´efini par (18.05)
et (18.06). A l’´evidence, (18.06) correspond au sous-mod`ele M
X
et (18.05)
correspond au sous-mod`ele M
Y
. Notons que (18.06) fait usage des valeurs
retard´ees de y
t
. Remarquons que si les “param`etres” δ
1
et δ
2
´etaient d´efinis
par l’application d´efinissante des param`etres, l’exog´en´eit´e faible serait sans
pertinence, puisque les δ
i
apparaissent seulement dans le sous-mod`ele M
X
.
Pour ´eviter cette difficult´e apparente, nous supposerons que l’application
d´efinissante des param`etres ne d´efinit que le param`etre β. Ainsi, dans ce
cas, nous mettons les param`etres δ
i
et les ´el´ements de la matrice de covar-
iance Σ sur un pied d’´egalit´e, en tant que param`etres perturbateurs. Le seul
param`etre d’int´erˆet est β.
Un DGP du sous-mod`ele M
X
peut maintenant ˆetre sp´ecifi´e en donnant les
valeurs des param`etres perturbateurs δ
i
et la densit´e marginale des al´eas ε
2t
,
qui d´ependra de la variance non conditionnelle σ
22
mais pas de σ
11
ou de
σ
12
. Pour une DGP dans M
Y
, il est n´ecessaire de sp´ecifier la valeur de β, le
param`etre qui nous int´eresse, et la densit´e de ε
1t
conditionnellement `a ε
2t
,
qui impliquera σ
11
et σ
12
. A ce stade, les conditions (i), (ii), et (iv) de la
D´efinition 18.3 sont satisfaites. La variable x
t
est donc faiblement exog`ene
pour le mod`ele donn´e par (18.05), (18.06) et le param`etre β d`es que la con-
dition (iii) est satisfaite, ce qui implique que nous soyons capables d’associer
deux DGP, quels qu’ils soient, correspondant chacun `a un sous-mod`ele. Mais
cela n’est pas possible en g´en´eral, parce qu’il faut que σ
11
σ
22
≥ σ
2
12
afin que
la matrice de covariance de la distribution jointe de ε
1t
et ε
2t
soit semi-d´efinie
positive. Cette in´egalit´e ne sera satisfaite automatiquement que si nous con-
traignons le mod`ele global de sorte que σ
12
= 0, ce qui rend x
t
faiblement
exog`ene.
Nus voyons donc, dans ce cas, que la pr´ed´etermination de x
t
se con-
fond avec son exog´en´eit´e faible. Qu’advient-il si nous examinons le mod`ele
donn´e par (18.08) et (18.06)? Souvenons-nous que x
t
est pr´ed´etermin´e dans
(18.08) de mani`ere tout `a fait g´en´erale. En r´ealit´e, il sera ´egalement faiblement
exog`ene en g´en´eral si nous modifions l’application d´efinissante des param`etres
(mais pas le mod`ele M sous-jacent) afin qu’elle d´ecrive le param`etre b au lieu
de β. Remarquons que mˆeme si nous nous int´eressons aux param`etres c
1
, c
2
,
630 Mod` eles d’Equations Simultan´ ees
et `a la variance des al´eas v
t
dans (18.08)autant qu’`a b, β ne peut pas ˆetre
recompos´e `a partir de ces param`etres sans σ
12
. L’exog´en´eit´e faible provient
du fait que, par construction, v
t
est non corr´el´e `a ε
2t
.
L’avantage de l’exog´en´eit´e faible par rapport `a la pr´ed´etermination dans
ce contexte est que sa d´efinition fait r´ef´erence `a une application d´efinissante
des param`etres particuli`ere. cela signifie que nous pouvons dire que x
t
est
faiblement exog`ene pour β ou pas, selon le cas, et qu’elle est toujours faible-
ment exog`ene pour b. A l’inverse, la pr´ed´etermination est d´efinie relative-
ment `a un ´equation, telle que (18.05) ou (18.08), plutˆot qu’`a une application
d´efinissante des param`etres.
Le concept de causalit´e au sens de Granger est ´egalement un concept qui
peut ˆetre important pour celui qui d´esire travailler conditionnellement `a un
ensemble de variables explicatives. Comme son nom le sugg`ere, ce concept
a ´et´e d´evelopp´e par Granger (1969). D’autres d´efinitions de la causalit´e ont
´et´e propos´ees, en particulier par Sims (1972). Les d´efinitions de la causalit´e
au sens de Granger ou de Sims sont souvent ´equivalentes, mais pas toujours;
consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupart
des usages, il semble que la causalit´e au sens de Granger, ou plutˆot son oppos´e,
la non causalit´e au sens de Granger, soit le concept le plus utile.
Nous donnons `a pr´esent une d´efinition de la non causalit´e au sens de
Granger. Tout comme la d´efinition de l’exog´en´eit´e faible, elle est relative au
contexte des mod`eles M qui contiennent les DGP qui g´en`erent deux ensem-
bles de variables Y
t
et X
t
. Contrairement `a celle-ci, elle ne fait r´ef´erence
`a aucune application d´efinissante des param`etres, et n’op`ere pas de distinc-
tion entre les variables endog`enes Y
t
et les variables explicatives X
t
. Dans la
d´efinition, Y
t−1
et X
t−1
d´esignent les lignes des matrices Y et X, respective-
ment, ant´erieures `a la t
th
. Ainsi Ω
t
est compos´e de Y
t−1
et X
t−1
.
D´efinition 18.4.
Les variables Y
t−1
ne causent pas au sens de Granger les variables X
t
dans un mod`ele M comprenant les DGP caract´eris´es par les contribu-
tions (18.11) si et seulement si

X
t
(X
t
| Ω
t
) =
X
t
(X
t
| X
t−1
).
Cela signifie que Y
t−1
ne cause pas au sens de Granger X
t
si la dis-
tribution de X
t
conditionnellement au pass´e de X
t
et Y
t
est la mˆeme
que celle qui est conditionnelle au pass´e de X
t
.
Un moyen pratique d’exprimer la non causalit´e au sens de Granger consiste `a
dire que le pass´e de Y
t
ne contient aucune information sur X
t
qui ne soit d´ej`a
contenue dans le pass´e de X
t
. Bien que cela ne soit pas strictement exact,
il est fr´equent de parler de causalit´e au sens de Granger plutˆot que de non
causalit´e au sens de Granger. Cette pratique n’entraˆıne en g´en´eral aucune
ambiguit´e.
18.2 Exog´ en´ eit´ e et Causalit´ e 631
Il est ´evident `a partir de (18.06) que, dans le mod`ele donn´e par cette
´equation et par (18.05), y
t
cause au sens de Granger x
t
, `a moins que δ
2
= 0.
Ainsi, mˆeme si σ
12
= 0, ce qui signifie que x
t
est faiblement exog`ene pour
le param`etre β dans (18.05), le processus g´en´erateur de x
t
d´epend du pass´e
de la variable endog`ene y
t
. par ailleurs, si δ
2
= 0 mais que σ
12
= 0, y
t
ne
cause pas x
t
au sens de Granger, bien que x
t
ne soit pas faiblement exog`ene
pour β. Ainsi les deux id´ees de faible exog´en´eit´e et de non causalit´e au sens de
Granger sont distinctes: aucune n’implique l’autre et aucune n’est impliqu´ee
par l’autre.
Comme nous l’avons vu, la pr´esenc´e de la causalit´e au sens de Granger ne
nous empˆeche nullement d’estimer efficacement β et de r´ealiser des inf´erences
sur ce param`etre sans avoir recours au processus qui g´en`ere x
t
si x
t
est faible-
ment exog`ene pour β. Inversement, une absence d’exog´en´eit´e faible ne nous
empˆeche nullement de faire des pr´evisions efficaces de y
t
conditionnellement
`a x
t
si y
t
ne cause pas x
t
au sens de Granger. Plus pr´ecis´ement, supposons
que nous ´etablissions une ´equation d’anticipation de x
t
bas´ee sur sont pass´e
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
E(x
t
| x
t−1
) = (δ
1
+ βδ
2
)x
t−1
. (18.12)
On anticiperait alors x
t
en termes de la valeur retard´ee x
t−1
et d’une esti-
mation du param`etre d’autor´egression δ
1
+ βδ
2
, obtenu, sans doute, par une
r´egression de x
t
sur sa propre valeur retard´ee d’une p´eriode. Si par la suite
nous souhaitons anticiper y
t
conditionnellement `a notre pr´evision de x
t
, nous
d´evelopperions une ´equation de pr´evision de y
t
en fonction de celle de x
t
et
du pass´e des deux variables. De (18.08),
E(y
t
| x
t
, Ω
t
) = bx
t
+ c
1
x
t−1
+ c
2
y
t−1
, (18.13)
o` u b, c
1
, et c
2
sont d´efinis par (18.09). Si maintenant nous rempla¸cons x
t
dans
(18.13) par son anticipation (18.12), nous obtenons une pr´evision
b(δ
1
+ βδ
2
)x
t−1
+ c
1
x
t−1
+ c
2
y
t−1
. (18.14)
On d´eduit imm´ediatement de (18.05) et (18.06) que
E(y
t
| Ω
t
) = βδ
1
x
t−1
+ βδ
2
y
t−1
.
Par cons´equent, si (18.14) doit procurer une anticipation sans biais, il est
n´ecessaire que
b(δ
1
+ βδ
2
) + c
1
= βδ
1
et c
2
= βδ
2
.
A l’aide des d´efinitions (18.09), nous pouvons voir que ces ´egalit´es sont v´erifi´ees
si δ
2
= 0 ou si b = 0. La premi`ere condition est pr´ecisd´ement celle de la non
causalit´e au sens de Granger. La seconde corespond `a un cas particulier o` u
632 Mod` eles d’Equations Simultan´ ees
x
t
ne contient aucune information sur y
t
qui ne soit d´ej`a contenue dans Ω
t
,
et elle est moins int´eressante dabns le conteste actuel.
La conclusion en g´en´eral est que lorsque nous portons notre attention sur
la pr´evision, nous pouvons anticiper les valeurs des variables Y
t
conditionnelle-
ment aux anticipations sur les variables X
t
si Y
t−1
ne cause pas X
t
au sens
de Granger. D’autre part, si nous portons notre attention surl’estimation et
l’inf´erence pour certains param`etres, nous pouvons conditionner par rapport
`a X
t
si ces variables sont faiblement exog`enes pour les param`etres dans le con-
texte du mod`ele pour lequel ils sont d´efinis. Il est int´eressant de combiner les
deux id´ees pour d´efinir les circonstances pour lesquelles toutes des activit´es
peuvent ˆetre entreprises avec succ`es conditionnellement `a X
t
. Le concept
appropri´e est celui de l’exog´en´eit´e forte, que nous d´efinissons `a pr´esent.
D´efinition 18.5.
Les variables explicatives X
t
sont fortement exog`enes pour le mod`ele
param´etris´e (M, θ) comprenant les DGP qui g´en`erent `a la fois les
variables endog`enes Y
t
et les X
t
si elles sotn faiblement exog`enes et si
Y
t−1
ne cause pas X
t
au sens de Granger.
Ceci compl`ete notre discussion sur la causalit´e et sur l’exog´en´eit´e. Pour
une discussion encore plus compl`ete, nous orientons les lecteurs vers l’article
de Engle-Hendry-Richard. Au del`a de l’introduction des concepts de faible
et de forte exog´en´eit´e, cet raticle annonce un autre concept, appel´e super
exog´en´eit´e. Ce concept est importan tpour l’analyse politique, mais pas pour
l’estimation ou l’inf´erence, et n’est donc pas dans notre priorit´e imm´ediate.
18.3 L’Identification dans les Mod
`
eles Simultan
´
es
Le probl`eme de l’identification dans les mod`eles d’´equations simultan´ees est,
en principe, comparable `a ce dont nous avons discut´e dans le contexte g´en´eral
des mod`eles para´etris´es. si pour un mod`ele M donn´e, il est possible de d´efinir
une application d´efinissante des param`etres, alors les param`etres du mod`eles
sont identifi´es, dans le sens o` u un seul et unique vecteur de param`etres est
associ´e `a chaque DGP dans M. Cependant, mˆeme si une telle application
existe, les donn´ees doivent satisfaire certaines conditions pour que le mod`ele
soit identifi´e par les donn´ees, et le DGP doit en satisfaire d’autres pour que
le mod`ele soit identifi´e asymptotiquement. Dans le Chapitre 5, nous avons
d´efini et discut´e en d´etail du concept d’identification asymptotique, et nous
l’avons compar´e au conept d’identification par un ensemble d’observations
particulier. Dans le cadre des mod`eles d’´equations simultan´ees, c’est bien
sˆ ur le premier qui nous int´eresse. Toutes les m´ethodes d’estimation que nous
avons ´etudi´ees se fondent sur la th´eorie asymptotique, et on ne peut pas
esp´erer r´ealiser des estimations convergentes si les param`etres ne sont pas
identifi´es asymptotiquemen.
18.3 L’Identification dans les Mod` eles Simultan´ es 633
Dans cette section, nous traiterons de l’identification asymptotique d’une
mod`ele d’´equations simultan´ees par l’estimateur des doubles moindres carr´es,
que nous avons introduit dans la Section 7.5. Cela peut paraˆıtre un sujet
limit´e, et dans un certains sens, c’est un sujet limit´e. Cependant, c’est un
probl`eme qui a donn´e naissance `a une litt´erature tr`es vaste, et que nous
ne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).
Il existe des mod`eles qui ne sont pas identifi´es par l’estimateur des 2SLS
mais qui le sont par des d’autres, tels que l’estimateur FIML, et nous en
parlerons bri`evement. Il n’est pas tr`es facile d’´etendre la th´eorie que nous
pr´esentons dans le contexte des mod`eles non lin´eaires, contexte pour lequel il
est habituellement recommand´e de se recommander de se r´ef´erer `a la th´eorie
asymptotique d´evelopp´ee dans la Section 5.2.
Nous d´ebutons par le mod`ele d’´equations simultan´ees (18.01). Ce mod`ele
comprend les DGP qui g´en`erent les ´echantillons d’o` u sont issus le vecteur Y
t
des g variables d´ependantes, conditionnellement `a un ensemble de variables
exog`enes et d´ependante retard´ees X
t
. Puisque nous avons suppos´e que les
variables exog`enes X
t
sont faiblement exog`enes, nous pouvons faire abstrac-
tion du processus qui les g´en`ere. Afin de poursuivre notre discussion sur
l’identification, il fait poser quelques hypoth`eses sur les al´eas U
t
. Il faut bien
´evidemment que E(U
t
) = 0, et il semble raisonnable de supposer qu’ils sont
ind´ependants en s´erie et que E(U
t

U
t
) = Σ
t
, o` u Σ
t
est une matrice d´efinie
positive pour tout t. Si l’on veut r´ealiser de inf´erences `a partir de la matrice de
covariance des 2SLS, il est n´ecessaire d’imposer l’homosc´edasticit´e des al´eas,
c’est-`a-dire d’imposer Σ
t
= Σ pour tout t.
Il est pratique de traiter l’identification des param`etres ´equation par
´equation dans un mod`ele d’´equations simultan´ees, puisqu’il est parfaitement
envisageable d’identifier les param`etres d’une ´equation quelconque mˆeme si
ceux des autre ´equations ne le sont pas. Pour simplifier la notation, nous
ne consid`ererons, sans perte de g´en´eralit´e, que les parm`etres de la premi`ere
´equation du syst`eme, c’est-`a-dire les ´el´ements des premi`eres colonnes des ma-
trices Γ et B. Comme nous l’aons not´e dans la Section 18.1, il faut imposer
des contraintes sur les ´el´ements de ces matrices pour les identifier. Il est
habituel de supposer que ces contraintes prennent toutes la forme de con-
traintes de nullit´e de certains param`etres. On dit qu’une variable est ex-
clue d’une ´equation lorsque le coefficient correspondant est contraint `a z´ero;
autrement, on parle de variable incluse dans l’´equation. Comme nous l’avons
vu dans la Section 6.4, il est toujours possible de reparam´etriser les con-
traintes dans un contexte d’´equation unique pour leur donner la forme de
contraintes de nullit´e. Mais dans un contexte d’´equatiosn simultan´ees, de
telle reparam´etrisations n’existent en g´en´eral qu’en l’absence de contraintes
d’´equations crois´ees, c’est-`a-dire des contraintes qui impliquent les param`etres
de plus d’une ´equation du syst`eme. S’il existe des contraintes d’´equations
crois´ees, alors il faut abandonner le contexte des syst`emes lin´eaires, quoi que
634 Mod` eles d’Equations Simultan´ ees
l’on veuille tenter. Il nous faut ´egalement abandonner l’estimateur 2SLS si
nous voulons imposer des contraintes d’´equations crois´ees.
Partitionnons la matrice Y comme suit:
Y = [ y Y
1
Y
2
] , (18.15)
o` u le vecteur colonne y est la variable endog`ene associ´ee au coefficient uni-
taire dans a premi`ere ´equation du syst`eme, les colonnes de la matrice Y
1
de
dimension n×g
1
sonbt les variables endog`enes non exclues de cette ´equatiobn
par des contraintes de nullit´e, et o` u les colonnes de la matrice Y
2
de dimen-
sion n ×(g −g
1
−1) sont les variables endog`enes exclues. Pareillement, nous
partitionnons la matrice X des variables exog`enes:
X = [ X
1
X
2
] , (18.16)
o` u les colonnes de la matrice X
1
de dimension n×k
1
sont les variables exog`enes
qui sont incluses dans l’´equation, et o` u celles de la matrice X
2
de dimension
n ×(k −k
1
) sont les variables exog`enes exclues.
De fa¸con coh´erente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients Γ et B comme suit:
Γ =

1 Γ
02
−γ
1
Γ
12
0 Γ
22
¸
¸
et B =
¸
β
1
B
12
0 B
22

. (18.17)
Les lignes de Γ sont partitionn´ees comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionn´e les colonnes de Γ et B pour qu’elles puissent s´eparer
les premi`eres colonnes de chaque matrice des autres colonnes, puisque ce sont
les premi`eres colonnes qui contiennent les param`etres de la premi`ere ´equation
du syst`eme. On peut donc ´ecrire la premi`ere ´equation comme suit:
y = Y
1
γ
1
+X
1
β
1
+u = Zδ +u, (18.18)
o` u la matrice Z de dimension n × (g
1
+ k
1
) est [X
1
Y
1
], et o` u le vecteur
param´etrique δ est [ β
1
.
.
.
. γ
1
].
Pour obtenir une estimation 2SLS de δ, nous devons utiliser des variables
instrumentales. Les colonnes de X
1
, qui sont exog`enes, peuvent servir en tant
qu’instruments, et celles de X
2
constituent des instruments suppl´ementaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi qu’une
condition n´ecessaire `a l’identification de δ, que ce soit avec des ´echantillons
finis ou asymptotiquement, est que X poss`ede au moins autant de colonnes
que Z. Cela revient `a dire que X
2
doit poss´eder au moins autant de colonnes
que Y
1
, c’est-`a-dire que k−k
1
≥ g
1
. Autrement dit, il faut q`eue le nombre des
variables exog`enes exclues soit au moins aussi grand que celui des variables
endog`enes incluses. Cette condition est connue sous le nom de condition
d’ordre pour l’identification. Cependant, comme nous le verrons, c’est une
condition necessaire mais qui n’est pas suffisante en g´en´eral.
1
1
Si on adment la possibilit´e de contraintes d’´equations crois´ees, cette condition
d’ordre n’est plus du tout n´ecessaire.
18.3 L’Identification dans les Mod` eles Simultan´ es 635
Il n’est pas ´evident que X fournisse toutes les variable s instrumen-
tales requises. Pourquoi ne pas employer d’autres variables endog`enes ou
pr´ed´etermin´ees qui sont correl´ees aux variables endog`enes Y
1
? Mˆeme dans
le cas o` u la condition d’ordre est v´erifi´ee, ne pourrions-nous pas faire us-
age d’autres instruments disponibles pour obtenir des estimations plus effi-
caces? Il s’av`ere que l’usage d’instruments suppl´ementaires ne permet pas
d’indentifier asymptotiquement des param`etres qui ne le sont pas. De plus,
lorsque les al´eas u sont homosc´edastiques et ind´ependants en s´erie, les instru-
ments suppl´ementaires n’apportent aucun gain d’efficacit´e.
Pour mettre en ´evidence ces r´esultats, nous consid´erons la forme r´eduite
contraintes (18.02) correspondant `a (18.01). Par un l´eger abus de notation,
nous poserons simplement
Y = XΠ +V, (18.19)
en d´efinissant Π par BΓ
−1
. Il sera n´ecessaire de partitionner Π con-
form´ement aux partitions (18.17) de Γ et B:
Π =
¸
π
1
Π
11
Π
12
π
2
Π
21
Π
22

. (18.20)
La partition des lignes est ici la mˆeme que celle de B dans (18.17), et la
partition des colonnes est identique `a celle de Γ dans la mˆeme ´equation,
ainsi qu’`a celle de Y dans (18.15). Nous supposerons que les donn´ees ont ´et´e
g´en´er´ees par le processus (18.19) avec Π = Π
0
= B
0
Γ
−1
0
.
Consid´erons `a pr´esent l’identification du vecteur param´etrique δ dans
l’´equation (18.18) pour n’importe quelle matrice W d’instruments valables,
c’est-`a-dire n’importe quelle matrice W telle que plim(n
−1
W

W) est une
matrice d´efinie et d´eterministe, et telle que plim(n
−1
W

V ) = 0. A partir
des r´esultats de la Section 7.8, δ est identifiable par les donn´ees si la ma-
trice Z

P
W
Z est d´efinie positive, et il est identifiable asymptotiquement si
plim(n
−1
Z

P
W
Z) est d´efinie positive. Pour ´etudier cette limite en proba-
bilit´e, ´examinons la matrice
1

n
W

Z =
1

n
W

[ X
1
Y
1
]
=
1

n
W

[ X
1
X
1
Π
11
+X
2
Π
21
+V
1
] , (18.21)
o` u le bloc V
1
de la matrice d’al´eas V correspond au bloc Y
1
de Y dans (18.15),
et o` u les coefficients de la forme r´eduite sont ´evalu´ees avec Π = Π
0
.
L’orthogonalit´e asymptotique entre les instruments W et la matrice
d’al´eas V signifie que la limite en probabilit´e de (18.21) est
plim
n→∞

1

n
W

[ X
1
X
1
Π
11
+X
2
Π
21
]

. (18.22)
Ceci montre clairement que, quel que soit le choix d’une matrice d’instruments
W, le rang de la matrice (18.22) ne peut exc´eder k, qui est pr´ecis´ement le nom-
bre de variables exog`enes lin´eairement ind´ependantes. Toutes les colonnes de
636 Mod` eles d’Equations Simultan´ ees
la matrice partitionn´ee dans (18.22) sont des colonnes de X ou des combi-
naisons lin´eaires de ces colonnes. Il s’ensuit que le rang de plim(n
−1
Z

P
W
Z)
ne peut jamais d´epasser k lui non plus. Ainsi, si Z poss`ede plus de k colonnes,
ce qui implique une violation de la condition d’ordre, plim(n
−1
Z

P
W
Z) est
singuli`ere, et donc, non d´efinie positive. Nous concluons que la condition
d’ordre est bien n´ecessaire pour l’identification asymptotique de δ, quel que
soit l’ensemble d’instruments employ´e.
Puis nous montrons que, sous les hypoth`eses d’homosc´edasticit´e et d’in-
d´ependance en s´erie des al´eas u, les colonnes de X offrent des instruments
optimaux pour l’estimation de δ. Il y a deux ´eventualit´es possibles. Dans
la premi`ere, S(X) ⊂ S(W). Puisque X
1
et X
2
appartiennent `a S(X), nous
voyons `a partir de (18.22) que
plim
n→∞

1

n
Z

P
W
Z

= plim
n→∞

1

n
Z

P
X
Z

= plim
n→∞

1

n
[ X
1
X
1
Π
11
+X
2
Π
21
]

[ X
1
X
1
Π
11
+X
2
Π
21
]

.
Ainsi l’ajout d’instruments W `a ceux offerts par X ne produit aucun gain
d’efficacit´e asymptotique. Puique cela contribuera `a accroˆıtre le biais dans
les ´echantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser ces
instruments suppl´ementaires.
Dans la seconde, S(X) n’est pas un sous-espace de S(W). Cela implique
que, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inf´erieur
`a celui de X. Par cons´equent, plim(n
−1
Z

P
X
Z) − plim(n
−1
Z

P
W
Z) est
une matrice semi-d´efinie positive pour toute matrice d’instruments W. Il
s’ensuit que (voir l’Annexe A) plim(n
−1
Z

P
W
Z)
−1
− plim(n
−1
Z

P
X
Z)
−1
est ´egalement une matrice semi-d´efinie positive. Ainsi la matrice de covar-
iance asymptotique que l’on obtient `a l’aide de la matrice d’instruments X,
`a savoir σ
2
plim(n
−1
Z

P
X
Z)
−1
, ´etablit une borne inf´erieure pour la matrice
de covariance asymptotique pour tout estimateur IV.
De la discussion pr´ec´edente et des r´esultats de la Section 7.8, il ressort
que la condition n´ecessaire et suffisante pour l’identification asymptotique de
δ `a l’aide des instruments optimaux X est simplement que plim(n
−1
Z

P
X
Z)
soit non singuli`ere. La litt´erature traditionnelle sur les mod`eles d’´equations
simultan´ees fait r´ef´erence `a cette condition en tant que condition de rang pour
l’identification, pour des raisons ´evidentes. Cependant, un expos´e aussi simple
de cette condition est tr`esb rare. Au lieu de cela, la condition est typiquement
exprim´ee en termes des coefficients de Γ et B de la forme structurelle ou des
coefficients de la forme r´eduite contrainte. Etant donn´e que nous avons d´efini
Π en termes de Γ et B uniquement, toutes condition que l’on peut exprimer
en termes d’un ensemble de coefficients peut s’exprimer en termes de l’autre.
Nous allons `a pr´esent montrer comment on peut exprimer la condition,
qui veut que plim(n
−1
Z

P
X
Z) soit non singuli`ere, en termes de contraintes
18.3 L’Identification dans les Mod` eles Simultan´ es 637
sur Π dans le DGP. Les param`etres γ
1
et β
1
de la premi`ere ´equation struc-
turelle peuvent ˆetre identifi´es si et seulement on peut les retrouver de fa¸con
unique `a partir de la matrice Π des param`etres de la forme r´eduite contrainte.
Cette matrice, par d´efinition, satisfait l’´equation ΠΓ = B, dont nous pouvons
´ecrire la premi`ere colonne sous la forme
π
1

11
γ
1
= β
1
π
2

21
γ
1
= 0
en vertu des partitions de (18.17) et (18.20). La premi`ere de ces deux
´equations sert `a d´efinir β
1
en termes de Π et γ
1
, et nous permet de voir
que β
1
peut ˆetre identifi´e si γ
1
l’est aussi. La seconde ´equation montre que
γ
1
est d´etermin´e de fa¸con unique si et seulement si la sous-matrice Π
21
est de
plein rang en colonnes, c’est-`a-dire si le rang de la matrice est ´egal au nom-
bre de ses colonnes (voir l’Annexe A). La sous-matrice Π
21
poss`ede k − k
1
lignes et g
1
colonnes. Par cons´equent, si la condition d’ordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition `a l’identification
de γ
1
, mais aussi `a celle de β
1
, est que les colonnes de Π
21
soient lin´eairement
ind´ependantes.
Il est instructif de voir pourquoi cette derni`ere condition est ´equivalente
`a la condition de rang en termes de plim(n
−1
Z

P
X
Z). Si, comme nous
l’avons suppos´e tacitement tout au long de cette discussion, les variables
exog`enes X satisfont la condition que plim(n
−1
X

X) est d´efinie positive,
alors plim(n
−1
Z

P
X
Z) peut ne pas ˆetre de plein rang si plim(n
−1
X

Z) a un
rang inf´erieur `a g
1
+k
1
, le nombre de colonnes de Z. La limite en probabilit´e
de la matrice n
−1
X

Z provient de (18.22), en rempla¸cant W par X. Si nous
faisons abstractin de la limite en probabilit´e et du facteur n
−1
pour simplifier
la notation, la matrice pertinente peut s’´ecrire comme suit:
¸
X
1

X
1
X
1

X
1
Π
11
+X
1

X
2
Π
21
X
2

X
1
X
2

X
1
Π
11
+X
2

X
2
Π
21

. (18.23)
La matrice (18.23) n’est pas de plein rang g
1
+ k
1
si et seulement s’il existe
un vecteur non nul θ ≡ [θ
1
.
.
.
. θ
2
] de dimension (g
1
+k
1
) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les diff´erents termes, nous obtenons
¸
X
1

X
1
X
1

X
2
X
2

X
1
X
2

X
2
¸
θ
1

11
θ
2
Π
21
θ
2

= 0. (18.24)
La premi`ere matrice du membre de gauche est simplement X

X, et elle est
clairement non singuli`ere. La condition porte alors sur les deux ´equations
vectorielles
θ
1

11
θ
2
= 0 (18.25)
Π
21
θ
2
= 0. (18.26)
638 Mod` eles d’Equations Simultan´ ees
Si ces ´equations sont v´erifi´ees pour un vecteur θ non nul, il est clair que θ
2
ne peut pas ˆetre nul. Par cons´equent, la seconde ´equation n’est v´erifi´ee que
si Π
21
n’est pas de plein rang. Alors si la condition de rang en termes de
Z

P
X
Z n’est pas v´erifi´ee, alors elle ne l’est pas non plus en termes de Π
21
.
Inversement, supposons que (18.26) soit v´erifi´ee pour un vecteur θ
2
non nul
quelconque de dimension g
1
. Alors Π
21
n’est pas de plein rang. D´efinissons
θ
1
en termes de θ
2
et Π grˆace `a (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale n’est pas satisfaite. Ainsi les
deux versions de la condition de rang sont ´equivalentes.
Nous terminons cette section en ´etablissant, sans d´emonstration, une
troisi`eme version de la condition de rang, ´equivalente aux deux premi`eres, en
termes des param`etres structurels Γ et B. Il est impossible d’exprimer cette
condition exclusivement ne termes des param`etres γ
1
et β
1
de la premi`ere
´equation. Au contraire, ce sont uniquement les valeurs des autres param`etres
qui d´eterminent la possible identification de γ
1
et β
1
. Ce troisi`eme expos´e
de la condition de rang est formul´e de la mani`ere suivante. Construisons la
matrice de dimension (g −g
1
−1 + k −k
1
) ×(g −1)
¸
Γ
22
B
22

.
Alors la condition de rang est satisfaite si et seulement si cette matrice est de
plein rang g −1.
Nous n’avons discut´e dans cette section que des conclusions les plus im-
portantes d’un programme de recherche ambitieux. Hsiao (1983) donne un
traitement plus pr´ecis. Nous n’avons pas g´er´e des probl`emes tels que les
contraintes d’´equatios crois´ees ou les contraintes impliquant la matrice de
covariance Σ; voir Rothenberg (1971), Richmond (1974), et Hausman et
Taylor (1983), parmi d’autres. Dans la pratique, la condition d’ordre pour
l’identification est beaucoup plus utile que la condition de rang parce qu’elle
est beaucoup plus difficile `a v´erifier. Cependant, la condition de rang a un
int´erˆet th´eorique certain, et il est instructif de voir qu’elle peut s’exprimer
comme une condition tr`es simple portant sur la limite en probabilit´e d’une
certaine matrice qui doit ˆetre de plein rang. Elle est donc ´equivalente `a la
condition portant sur un certain estimateur 2SLS, celui qui utilise en tant
qu’instruments toutes les variables exog`enes et pr´ed´etermin´ees, qui doit avoir
une matrice de covariance asymptotique non singuli`ere.
18.4 Maximum de Vraisemblance en Information Compl
`
ete
Il est possible d’´etablir une classification de deux fa¸cons des mod`eles d’´equa-
tions simultan´ees. La premi`ere classification naturelle distingue les m´ethodes
´equation par ´equation des m´ethodes syst´emiques. Les premi`eres, dont les
repr´esentants principaux sont les 2SLS et le LIML, estiment le mod`ele
18.4 Maximum de Vraisemblance en Information Compl` ete 639
´equation par ´equation. Les secondes, dont les repr´esentants principaux sont les
3SLS et le FIML, estiment tous les param`etres du mod`ele en mˆeme temps. Les
adjectifs “information limit´ee” et “information compl`ete” qui composent les
noms LIML et FIML montrent clairement que la premi`ere m´ethode s’applique
´equation par ´equation, et que la seconde s’applique au syst`eme dans sa glob-
alit´e. Les m´ethodes ´equation par ´equation sont plus faciles `a mettre en oeuvre,
alors que les m´ethodes syst´emiques produisent des estimations potentiellement
plus efficaces.
L’autre classification naturelle distingue les m´ethodes bas´ees sur le max-
imum de vraisemblance, `a savoir le LIML et FIML, des m´ethodes bas´ees
sur les variables instrumentales ou la m´ethode des moments g´en´eralis´es, dont
les repr´esentants les plus connus sont les 2SLS et les 3SLS. Les m´ethodes
du ML produisent des estimations invariantes `a la reparam´etrisation (voir la
Section 8.3) alors que ce n’est pas le cas des m´ethodes des IV. Nous avons
d´ej`a vu en d´etail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement d´etaill´e de FIML, qui diff`ere des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacr´ees au LIML et
aux 3SLS.
Tous les estimateurs d’´equations simultan´ees tentent de g´erer le fait que
les al´eas des ´equations structurelles sont corr´el´es avec n’importe quelle variable
endog`ene apparaissant dans l’´equation. Cette corr´elation rend les OLS non
convergents. Nous avons vu que les 2SLS g`erent ce probl`eme en rempla¸cant
les r´egresseurs d´efectueux par des instruments. D’un autre cˆot´e, le FIML
g`ere ce probl`eme par la maximisation d’une fonction de log-vraisemblance
qui implique un terme Jacobien qui n’est pas simplement la transformation
d’une somme de r´esidus au carr´e. Le FIML g`ere ´egalement deux probl`emes
qui se manifestent dans le cadre de tout mod`ele multivari´e, qu’il y ait ou non
simultan´eit´e; voir la Section 9.9. Le premier probl`eme est que, en dehors de
rares cas, les al´eas des diff´erentes ´equations seront corr´el´es. Les techniques
´equation par ´equation telles que les 2SLS ou le LIML ingorent purement et
simplement ce probl`eme. Au contraire, les techniques syst´emiques telles que le
FIML ou les 3SLS assurent la gestion de ce probl`eme et devraient normalement
produire des estimations plus efficaces en g´en´eral. le second probl`eme est que,
dans de nombreux mod`eles, il existe des contraintes d’´equations crois´ees. Les
m´ethodes ´equation par ´equation ingorent n´ecessairement ce probl`eme, mais
les m´ethodes syst´emiques telles que le FIML en tiennent compte. Lorsque le
syst`eme complet est ´etabli, les param`etres qui apparaissent dans plus d’une
´equation sont automatiquement trait´es de fa¸con diff´erente des param`etres qui
n’apparaissent que dans une seule.
Le mod`ele d’´equations simultan´ees lin´eaire (18.01), dont les al´eas sont
suppos´es ˆetre normalement distribu´es, homosc´edastiques et indpendants en
s´erie, peut s’´ecrire
Y
t
Γ = X
t
B +U
t
, U
t
∼ N(0, Σ), (18.27)
640 Mod` eles d’Equations Simultan´ ees
avec une notation qui est d´esormais famili`ere. Souvenons-nous simplement
que Y
t
est de dimension 1 ×g, Γ est de dimension g ×g, X
t
est de dimension
1 × k, B est de dimension k × g, U
t
est de dimension 1 × g, et Σ est de
dimension g ×g. Le moyen le plus simple d’obtenir la densit´e de Y
t
consiste
`a ´ecrire celle de U
t
:
(2π)
−g/2
|Σ|
−1/2
exp


1

2
U
t
Σ
−1
U
t

.
Puis nous rempla¸cons U
t
par Y
t
Γ −X
t
B et multiplions per un terme Jacobien
appropri´e. ce treme est la valeur absolue du d´eterminant duJacobien de la
transformation de Y
t
en U
t
, c’est-`a-dire le d´eterminant de Γ. Ainsi le facteur
Jacobien est | det Γ|.
2
Le r´esultat est
(2π)
−g/2
| det Γ||Σ|
−1/2
exp


1

2

Y
t
Γ −X
t
B

Σ
−1

Y
t
Γ −X
t
B

.
De l`a, nous voyons que la fonction de log-vraisemblance est
(B, Γ, Σ) =
n
¸
t=1

t
(B, Γ, Σ) = −
ng
−−
2
log(2π) + nlog | det Γ|

n

2
log |Σ| −
1

2
n
¸
t=1

Y
t
Γ −X
t
B

Σ
−1

Y
t
Γ −X
t
B

.
(18.28)
Une premi`ere ´etape pratique dans la maximisation de (B, Γ, Σ) con-
siste `a la concentrer par rapport `a Σ ou, comme nous l’avons fait dans la
Section 9.9, par rapport `a son inverse, Σ
−1
. Etant donn´e que

∂Σ
−1
=
n

2
Σ −
1

2
n
¸
t=1

Y
t
Γ −X
t
B

Y
t
Γ −X
t
B

,
(voir Annexe A) il est ´evident que
Σ(B, Γ) =
1

n

YΓ −XB

YΓ −XB

. (18.29)
Nous pouvons substituer (18.29) `a Σ dans (18.28) pour obetnir

c
(B, Γ) = −
ng
−−
2

log(2π) + 1

+ nlog | det Γ|

n

2
log

1

n

YΓ −XB

YΓ −XB

.
(18.30)
2
Dans ce chapitre, nois notons |A| le d´eterminant de A et | det A| la velru
absolue du d´eterminant. il est n´ecessaire d’employer la notation “det”, que
nous pr´ef´erons ´eviter par ailleurs, lorsdque la valeur absolue apparaˆıt dans la
formule.
18.4 Maximum de Vraisemblance en Information Compl` ete 641
Cette fonction de log-vraisemblance concentr´ee ressemble ´etroitement `a (9.65),
la fonction de log-vraisemblance concentr´ee pour un mod`ele de r´egression
multivari´ee. Remarquons que nous avons us´e de la mˆeme astuce que pour
´evaluer le second terme de la derni`ere ligne de (18.28). La diff´erence entre
(9.65) et (18.30) provient de la pr´esnece du terme Jacobien nlog | det Γ|, dont
nous allons ´evaluer le rˆole plus tard. L’estimateur FIML ne sera pas d´efini si
la matrice (YΓ − XB)

(YΓ − XB) qui apparaˆıt dans (18.30) n’est pas de
plein rang pour toutes les valeurs admissibles de B et Γ, et cela n´ecessite que
n ≥ g +k. Ce r´esultat sugg`ere ´egalement que n doit ˆetre suffisamment grand
par rapport `a g + k pour conserver au FIML de bonnes propri´et´es; consulter
Sargan (1975) et Brown (1981).
Il est r´ev´elateur de d´eriver cete fonction de log-vraisemblance concentr´ee
d’une mani`ere radicalement oppos´ee. Cette fois, nous partons de la forme
r´eduire contrainte correspondant `a (18.27), qui est
Y
t
= X
t

−1
+V
t
. (18.31)
Ce syst`eme d’´equations est juste un cas particulier du mod`ele de r´egression
multivari´ee ´etudi´e dans la Section 9.9, mais sous la forme (9.43), avec un
ensemble de fonctions de r´egression donn´e par ξ
t
≡ X
t

−1
et qui sont
des fonctions non lin´eaires des ´el´ements de B et Γ. La fonction de log-
vraisemblance concentr´ee correspondant `a (18.31) est par cons´equent (9.65).
dans notre cas particulier, (9.65) devient

ng
−−
2

log(2π) + 1


n

2
log

1

n

Y −XBΓ
−1

Y −XBΓ
−1

. (18.32)
Cette nouvelle expression pour
c
(B, Γ) est ´egale `a celle d´eriv´ee pr´ec´edem-
ment, (18.30). L’´egalit´e entre (18.30) et (18.32) d´ecoule du fait que

n

2
log

1

n

Y −XBΓ
−1

Y −XBΓ
−1

= −
n

2
log

1

n

)
−1
Γ

Y −XBΓ
−1

Y −XBΓ
−1

ΓΓ
−1

= nlog | det Γ| −
n

2
log

1

n

YΓ −XB

YΓ −XB

.
Il est int´eressant de noter que la fonction de log-vraisemblance con-
centr´ee pour un mod`ele d’´equations simultan´ees peut s’´ecrire de deux mani`eres
diff´erentes, (18.30) et (18.32). Cela montre de fa¸con tout `a faut claire que
les formes structurelle et r´eduite contrainte sont silmplement des moyens
d’exprimer le mˆeme mod`ele. Nous pouvons assimiler le mod`ele d’´equations
simultan´ees soit `a un type particulier de mod`ele, dont la fonction de log-
vraisemblance concentr´ee est donn´ee par (18.30), soit `a un cas particulier
de mod`ele de r´egression multivari´ee non lin´eaire, dont la fonction de log-
vraisemblance concentr´ee est identique `a celle de n’importe quel autre mod`ele
642 Mod` eles d’Equations Simultan´ ees
de r´egression multivari´ee. Mis sous cette forme, nous pouvons lui appliquer
tous les r´esultats d´ej`a ´etablis dans le Chapitre 9 pour les mod`eles de r´egression
multivari´ee. Cependant, parce que la matrice des coefficients BΓ
−1
d´epend
non lin´eairement des coefficients de toutes les ´equations du mod`ele, (18.32)
est en g´en´eral moins pratique que (18.30).
Lorsqu’il fut propos´e `a l’origine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML n’´etait pas d’un calcul ais´e, parce que
les maximisation de la fonction de log-vraisemblance (18.30) n´ecessite une
optimisation num´erique. Au fur et `a mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se d´emocratisait, un certain nombre de
proc´edures de maximisation de la fonction de log-vraisemblance fut propos´e,
et la plupart des progiciels d’´econom´etrie modernes incopore au moins l’une
d’elles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des r´ef´erences `a consulter sur ce th`eme.
Comme d’habitude, la matrice de covariance asymptotique des estima-
tions param´etriques FIML
ˆ
B,
ˆ
Γ, et
ˆ
Σ peut ˆetre estim´e de diff´erentes fa¸cons.
Une approche qui reste relativement ais´ee mais peu recommand´ee avec de pe-
tits ´echantillons consiste `a ex´ecuter une r´egression OPG. Cette r´egression ar-
tificielle peut se baser sur la fonction de log-vraisemblance concentr´ee (18.28),
mais pas sur la fonction concentr´ee (18.30), parce que cette derni`ere n’est
pas ´ecrite sous la forme d’une somme de contributions. Une deuxi`eme ap-
proche consiste `a partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous l’avons mis en ´evidence dans la Section 9.9, le bloc de la matrice
d’information assovci´e aux param`etres des fonctions de r´egression d’un mod`ele
de r´egression multivari´ee est donn´e par (9.69), et ce bloc peut s’obtenir `a l’aide
de la GNR (9.58). Une troisi`eme approche pour estimer la matrice de covar-
iance asymptotique de
ˆ
B et
ˆ
Γ consiste `a utiliser la propri´et´e d’´equivalence
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log | det Γ| qui apparaˆıt explicitement dans (18.30)
joue un rˆole fondamental dans l’estimation. Sa pr´esence est essentielle `a la
convergence des estimations ML. De plus, lorsdque le d´eterminant de Γ tend
vers z´ero, ce terme tend vers l’infini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins l’infini chaque fois que le d´eterminant de Γ tend vers
z´ero. Cela est coh´erent, parce que le mod`ele n’est pas g´erable si | det Γ| = 0, ce
qui implique que la vraisemblance d’un tel ensemble de param`etres est nul. De
fait, cela signifie que l’espace des valeurs possibles de Γ est divis´e en un certain
nombre de r´egions, s´epar´ees par des singularit´es lorsque | det Γ| = 0. Dans le
cadre du mod`ele d’offre- demande discut´e dans la Section 7.3, par exemple, il
n’existe qu’une seule singularit´e, qui survient lorsque les pentes des fonctions
d’offre et de demande sont ´egales. On ne peut pas esp´erer qu’un algorithme
de maximisation num´erique passe `a travers ces singularit´es en g´en´eral, mˆeme
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser num´eriquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
18.4 Maximum de Vraisemblance en Information Compl` ete 643
maximum global si la r´egion dans laquelle l’algorithme d´ebute ne le contient
pas. Cela sugg`ere qu’il peut ˆetre tr`es important de bien choisir les valeurs
initiales lorsque nous employons le FIML.
Bien que le FIML se base sur l’hypoth`ese que les al´eas sont normaux mul-
tivari´es, cette hypoth`ese n’est pas n´ecessaire pour que les estimations
ˆ
B et
ˆ
Γ
soient convergentes et asymptotiquement normales. Lorsque le FIML est em-
ploy´e alors que les al´eas ne sont pas normalement distribu´es, c’est davantage
un estimateur QML qu’un estimateur ML, et il ne sera pas asymptotiquement
efficace. Comme nous l’avons vu dans la Section 9.6, tout mod`ele de r´egression
peut ˆetre estim´e de fa¸con satisfaisante par le ML sous l’hypoth`ese de distribu-
tion normale des al´eas, que celle-ci soit exacte ou pas. Ce r´esultat s’applique
aussi au FIML parce que, comme le montre (18.32), celui-ci estime en fait
un certain mod`ele de r´egression multivari´ee non lin´eaire. Toutefois, lorsque
le mod`ele d’´equations simultan´ees sous-jacent est non li´enaire, ce r´esultat ne
s’applique plus automatiquement; voir Phillips (1982).
Les tests de sp´ecification du mod`ele sont aussi importants pour les
mod`eles d’´equations simultan´ees que pour les autres mod`eles ´econom´etriques.
Le large ´eventail des tests classiques —LM, LR, Wald, et C(α) —est bien sˆ ur
disponible `a cet ´egard. Cepedant, du fait que l’estimation FIML est relative-
ment coˆ uteuse et difficile, les utilisateurs peuvent ˆetre tent´es de renoncer `a un
programme de tests de sp´ecification ambitieux pour les mod`eles estim´es par
FIML. Il est par cons´equent utile de garder `a l’esprit le fait que de nombreux
types de mauvaise sp´ecification du mod`ele structurel (18.01) impliquent une
mauvaise sp´ecification similaire de la forme r´eduite contrainte (18.03). Par
exemple, si un al´ea quelconque du mod`ele structurel ´etait corr´el´e en s´erie,
alors, `a de tr`es rares exceptions pr`es, tous les al´eas de la forme r´eduite con-
trainte doivent l’ˆetre aussi. De mani`ere comparable, si un al´ea quelconque
´etait h´et´erosc´edastique, alors tous les al´eas de la forme r´eduite doivent l’ˆetre.
Pareillement, si les param`etres du mod`ele structurel sont non constants sur
l’´echantillon, les param`etres de la FRL ne seront pas constants non plus.
Puisque les ´equations de la FRL sont estim´es par moindres carr´es ordinaires,
il est tr`es facile de les tester contre des mauvaises sp´ecifications telles que la
corr´elation en s´erie, l’h´et´erosc´edasticit´e, ou encore la non constance des co-
efficients. Si de tels ph´enom`enes sont mis en ´evidence par les tests, on peut
raisonnablement conclure que le mod`ele structurel est mal sp´ecifi´e, mˆeme s’il
n’a pas encore ´et´e estim´e. L’inverse n’est pas exact, cependant, puisque ces
tests peuvent manquer de puissance, en particulier si une seule ´equation struc-
turelle est mal sp´ecifi´ee.
Un test de mauvaise sp´ecification suppl´ementaire que l’on devrait tou-
jours mener est celui des contraintes de suridentification. Dans la Section 7.8,
nous avons examin´e la mani`ere de tester des contraintes de suridentifiction
pour une ´equation unique estim´ee par IV ou 2SLS. Nous sommes `a pr´esent
int´eress´es par toutes les contraintes de suridentification pour le syst`eme dans
sa globalit´e. Le nombre des degr´es de libert´e pour le test est ´egal au nombre
644 Mod` eles d’Equations Simultan´ ees
d’´el´ements dans la matrice Π de la FRL, gk, moins le nombre de param`etres
libres de B et Γ. Dans la plupart des cas, il y aura quelques contraintes de
suridentification, et dans de nombreux cas, il y en aura un grand nombre. La
mani`ere la plus naturelle de les tester est probablement d’employer un test
LR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de
(18.30) ´evalu´ee avec les estimations FIML
ˆ
B et
ˆ
Γ, et la valeur non contrainte
est

ng
−−
2

log(2π) + 1


n

2
log

1

n

Y −X
ˆ
Π

Y −X
ˆ
Π

, (18.33)
o` u
ˆ
Π d´esigne les estimations OLS des param`etres de la FRL. Comme
d’habitude, le double de la diff´erence entre les valeurs contrainte et non
contrainte de la fonction de log-vraisemblance sera asymptotiquement dis-
tribu´ee suivant un χ
2
dont le nombre de degr´es de libert´e est ´egal `a celui
des contraintes de suridentification. Si l’on s’attend `a ce que ces contraintes
de suridentification soient enfreintes et si l’on ne veut pas s’embarrasser de
l’estimation du mod`ele structurel, on peut employer un test de Wald, comme
Byron (1974) l’a sugg´er´e.
Nous n’avons pas encore expliqu´e pourquoi les estimations OLS
ˆ
Π sont
´egalement les estimations ML. On voit ais´ement `a partir de (18.33) que, pour
obtenir des estimations ML de Π, il est n´ecessaire de minimiser le d´eterminant

(Y −XΠ)

(Y −XΠ)

. (18.34)
Supposons que l’on ´evalue ce d´eterminant avec un ensemble d’estimations
´
Π
quelconque diff´erent de
ˆ
Π. Puisqu’il est toujours possible d’´ecrire
´
Π =
ˆ
Π+A
pour une certaine matrice A, (18.34) devient

(Y −X
ˆ
Π −XA)

(Y −X
ˆ
Π −XA)

=

(M
X
Y −XA)

(M
X
Y −XA)

=

Y

M
X
Y +A

X

XA

.
(18.35)
Parce que le d´eterminant de la somme de deux matrices d´efinies positives
est toujours sup´erieur `a chacun des d´eterminants des deux matrices (voir
l’Annexe A), il vient de (18.35) que (18.34) sera sup´erieur `a Y

M
X
Y pour
toute matrice A = 0. Cela implique que
ˆ
Π minimise (18.34), ce qui d´emontre
que les estimations OLS ´equations par ´equation de la FRL sont ´egalement les
estimations ML syst´emiques.
Si l’on ne dispose pas d’un progiciel de r´egression qui calcule (18.33), il
existe un moyen diff´erent d’y parvenir. Consid´erons le syst`eme r´ecursif
y
1
= Xη
1
+e
1
y
2
= Xη
2
+y
1
α
1
+e
2
y
3
= Xη
3
+ [y
1
y
2

2
+e
3
y
4
= Xη
4
+ [y
1
y
2
y
3

3
+e
4
,
(18.36)
18.5 Maximum de Vraisemblance ` a Information Limit´ ee 645
et ainsi de suite, o` u y
i
d´esigne la i
i`eme
colonne de Y. On peut interpr´eter ce
syst`eme d’´equations comme une simple reparam´etrisation de la FRL (18.03).
Il est ais´e de voir que si l’on estime ces ´equations par OLS, tous les vecteurs
de r´esidus seront orthogonaux: ˆ e
2
sera orthogonal `a ˆ e
1
, ˆ e
3
sera orthogonal
`a ˆ e
2
et `a ˆ e
1
, et ainsi de suite. Conform´ement `a la FRL, tous les y
i
sont
des combinaisons lin´eaires des colonnes de X et d’erreurs al´eatoires. Par
cons´equent, les ´equations de (18.36) sont correctes pour tout choix arbitraire
des param`etres α: les η
i
s’ajustent simplement selon le choix op´er´e. Toutefois,
si nous r´eclamons l’orthogonalit´e des termes d’erreur e
i
, cela sert `a identifier
un choix particulier unique des α. En r´ealit´e, le syst`eme r´ecursif (18.36)
poss`ede autant de param`etres que la FRL (18.03): g vecteurs η
i
, poss´edant
chacun k ´el´ements, g −1 vecteurs α
i
, avec en tout g(g −1)/2 param`etres, et
g param`etres de variance, ce qui donne un total g´en´eral de gk + (g
2
+ g)/2
param`etres. la FRL poss`ede gk param`etres pour la matrice de covariance Π
et (g
2
+g)/2 pour la matrice de covariance Ω, ce qui donne un total identique.
La diff´erence est que les param`etres α de (18.36) ont ´et´e remplac´es par les
´el´ements non diagonaux de la matrice de covariance de V dans la FRL.
Etant donn´e que le syst`eme r´ecursif (18.36) est une simple reparam´etrisa-
tion de la FRL (18.03), il ne devrait pas ˆetre surprenant d’apprendre que la
fonction de log-vraisemblance pour le syst`eme r´ecursif est ´egale `a (18.33).
Parce que les r´esidus des diverses ´equations dans (18.36) sont orthogo-
naux, la valeur des fonctions de log-vraisemblance des estimations OLS des
´equations individuelles. Ce r´esultat, que les lecteurs peuvent ais´ement v´erifier
num´eriquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les syst`emes r´ecursifs
sont d’une faible utilit´e. Ils ne procurent aucune information que ne soit d´ej`a
disponible dans la FRL, et la reparam´etrisation d´epend de l’ordonnancement
des ´equations.
18.5 Maximum de Vraisemblance
`
a Information Limit
´
ee
L’un des probl`eles qui se pose avec le FIML et les autres m´ethodes syst´emiques
est qu’elles n´ecessitent de la part du chercheur une sp´ecification de la struc-
ture de toutes les ´equations du mod`ele. La mauvaise sp´ecification d’une
´equation quelconque conduira en g´en´eral `a des estimations non convergentes
pour toutes les ´equations. Pour ´eviter ce probl`eme, `a condition que l’efficacit´e
ne soit pas cruciale, les chercheurs peuvent pr´ef´erer employer des m´ethodes
´equations par ´equation. La plus facile et la plus r´epandue est la m´ethode des
2SLS, mais elle souffre de deux inconv´enients majeurs. les estimations qu’elle
produit ne sont pas invariantes `a la reparam´etrisation, et, comme nous l’avons
vu dans la Section 7.5, elles peuvent ˆetre s´ev`erement biais´ees avec de petits
´echantillons. La m´ethode LIML est une technique alternative qui produit des
estimations invariantes et qsui, `a de nombreux ´egards, poss`ede de meilleures
propri´et´es avec des ´echantillons finis que les 2SLS. Bien qu’elle ait ´et´e propos´ee
646 Mod` eles d’Equations Simultan´ ees
par Anderson et Rubin (1949) avant l’invention des 2SLS, et qu’elle ait ´et´e
l’objet d’une ´etude plus th´eorique, elle a ´et´e peu utilis´ee par les ´econom`etres
dans la pratique.
Comme son nom le sugg`ere, l’id´ee de base du LIML consite `a employer
une information partielle sur la structure du mod`ele. Supposons que l’on
veuille estimer uen seule ´equation, disons la premi`ere, d’un mod`ele struc-
turel comme (18.01). Nous avons ´ecrit une ´equation comparable dans la Sec-
tion 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y
1
, sont endog`enes. Le meilleur moyen
d’en tenir compte consiste `a ´ecrire leurs ´equations sous la forme r´eduire libre:
Y
1
= X
1
Π
11
+X
2
Π
21
+V
1
, (18.37)
o` u la notation est identique `a celle utilis´ee dans la Section 18.3. La combinai-
son de (18.18) et (18.37)donne le syst`eme d’´equations
y −Y
1
γ
1
= X
1
β
1
+u
Y
1
= X
1
Π
11
+X
2
Π
21
+V
1
.
(18.38)
Remarquons que Y
2
n’apparaˆıt plus du tout dans ce syst`eme d’´equations.
Si nous focalisons notre attention sur la premi`ere ´equation, les variables en-
dog`enes qui n’ y apparaissent pas sont sans int´erˆet. On peut estimer le syst`eme
d’´equations (18.38) par maximum de vraisemblance, et les estimations γ
1
et
β
1
qui en r´esulten seront les estimations LIML. Tout progiciel de FIML peut
ˆetre employ´e `a cette fin.
En fait, nous n’avons pas besoin d’un progiciel de FIML pour obtenir des
estimations ML de (18.38). La matrice de coefficients des variables endog`enes
dans ce syst`eme d’´equations est
¸
1 0
−γ
1
I

. (18.39)
Parce que cette matrice est triangulaire, son d´eterminant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jaco-
bien dans la fonction de log-vraisemblabce disparaˆıt, et la fonction de log-
vraisemblance pour (18.38) a la mˆeme forme que celle de n’importe quel en-
semble de r´egression apparemment sans lien (voir la Section 9.9). Cela im-
plique que l’on peut utiliser n’importe quel programme pour l’estimation des
syst`emes SUR pour obtenir des estimations LIML. De plus, l’application des
GLS faisables `a un syst`eme tel que (18.38), en d´ebutant par des estimations
2SLS pour la premi`ere ´equaion et OLS pour les ´equations restantes, produira
des estimations asymptotiquement ´equivalentes aux estimations LIML. Pagan
(1979) a sugg´er´e une proc´edure o` u l’on it`ere la proc´edure de GLS faisables
jusqu’`a ce qu’elle converge vers les v´eritables estimations LIML.
18.5 Maximum de Vraisemblance ` a Information Limit´ ee 647
Dans la pratique, on calcule rarement les estimations LIML de cette fa¸con,
parce qu’il existe une m´ethode plus efficace pour les calculer. Il faudrait dis-
poser de davantage d’outils alg´ebriques pour la d´evelopper, mais les r´esultats
terminaux seront relativement simples. A partir de (18.30), (18.32), et du
fait que |Γ| = 1, nous voyons que les estimations ML peuvent s’obtenir en
minimisant

(Y −XBΓ
−1
)

(Y −XBΓ
−1
)

=

(YΓ −XB)

(YΓ −XB)

. (18.40)
Nous allons maintenant montrer que la minimisation du d´eterminant dans le
membre de droite est ici ´equivalente `a la minimisation du rapport de formes
quadratiques, et que cela peut ˆetre r´ealis´e, `a son tour, en r´esolvant un certain
probl`eme de valeurs propres.
Ecrivons tout d’abord la matrice BΓ
−1
qui apparaˆıt dans le membre de
gauche de (18.40). De (18.17) et d’une expression pour l’inverse de (18.39),
nous voyons que

−1
=
¸
β
1
B
12
0 B
22
¸
1 0
γ
1
I

=
¸
β
1
+B
12
γ
1
B
12
B
22
γ
1
B
22

.
La matrice la plus `a droite est simplement la version contrainte de Π.
L’´el´ement au “nord-ouest” correspond `a X
1
et la matrice au “sud-est” cor-
respond `a X
2
. Puisque β
1
n’apparaˆıt pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de γ
1
, nous pou-
vons trouver des valeurs de β
1
et B
12
telles que l’´el´ement au “nord-ouest”
prenne n’importe quelle valeur. Aurtrement dit, les contraintes sur l’´equation
structurelle (18.37) n’imposent aucune contrainte sur les lignes de Π qui cor-
respondent `a X
1
. En g´en´eral, cependant, elles imposent des contraintes sur
les lignes qui correspondent `a X
2
.
Comme nous l’avons vu dans la section qui pr´ec´edait, il y a ´equivalence
entre la minimisation d’un d´eterminant tel que (18.34) sur lequel ne p`ese
aucune contrainte et l’usage des OLS. Dans ce cas, puisqu’aucune contrainte
sur les lignes de Π ne correspond `a X
1
, nous pouvons employer les OLS pour
estimer ces aram`etres, et ensuite concentrer ce d´eterminant par rapport `a ces
param`etres. Ce faisant, le d´eterminant dans le membre de droite de (18.40)
devient

(YΓ −XB)

M
1
(YΓ −XB)

,
o` u, comme d’habitude, M
1
d´esigne la matrice qui projette orthogonalement
sur S

(X
1
).
Nous allons `a pr´esent introduire une notation nouvelle. Premi`erement,
notons γ le vecteur [1
.
.
.
. −γ
1
]; par cons´equent, Yγ ≡ y−Y
1
γ
1
. Deuxi`emement,
notons Y

M
1
Y, Y

1
M
1
Y
1
, et X

M
1
X
2
. On peut r´ecrire le d´eterminant
dans le membre de droite de (18.40) comme

(Y

γ)

(Y

γ) (Y

γ)

(Y

1
−X

B
22
)
(Y

1
−X

B
22
)

(Y

γ) (Y

1
−X

B
22
)

(Y

1
−X

B
22
)

. (18.41)
648 Mod` eles d’Equations Simultan´ ees
Ce d´eterminant ne d´epend que des param`etres γ et B
22
. La prochaine ´etape
consiste `a concentrer par rapport aux param`etres de B
22
, de mani`ere `a obtenir
une expression qui ne d´epend que de γ. Cela n´ecessitera un usage intensif du
r´esultat suivant, qui est d´emontr´e dans l’Annexe A:

A

A A

B
B

A B

B

= |A

A||B

M
A
B|, (18.42)
o` u, comme d’habitude, M
A
≡ I − A(A

A)
−1
A

. Lorsque ce r´esultat est
appliqu´e `a (18.41), nous obtenons
(Y

γ)

(Y

γ)

(Y

1
−X

B
22
)

M
v
(Y

1
−X

B
22
)

, (18.43)
o` u M
v
d´esigne la matrice qui projette orthogonalement sur S

(v), et v ≡
Y

γ. Il n’existe qu’un seul d´eterminant dans (18.43), et non pas deux, parce
que le premier est un scalaire.
Les param`etres B
22
n’apparaissent que dans le second facteur de (18.43).
Ce facteur est le d´eterminant de la matrice des sommes des carr´es et des
produits crois´es des r´esidus du syst`eme des r´egressions entier
M
v
Y

1
= M
v
X

B
22
+ r´esidus.
Comme nous l’avons vu dans la section pr´ec´edente, ce d´eterminant peut ˆetre
minimis´e en rempla¸cant B
22
par son estimation, obtenue en appliquant les
OLS `a chaque ´equation s´epar´ement. La matrice des r´esidus ainsi produite est
M
M
v
X
∗M
v
Y

1
, o` u M
M
v
X
∗ d´esigne la projection sur le compl´ement orthog-
onal de S(M
v
X

). Observons `a pr´esent que M
M
v
X
∗M
v
= M
v, X
∗, `a savoir
la matrice de projection associ´ee au compl´ement orthogonal de S(v, X

).
Cons´equemment, le second facteur de (18.43), lorsqu’il est minimis´e par rap-
port `a B
22
, est

(Y

1
)

M
v, X
∗Y

1

. (18.44)
On peut exploiter le fait que v et X

apparaissent de mani`ere sym´etrique
dans (18.44) afin de faire d´ependre (18.44) de γ uniquement `a travers un
scalaire. Consid´erons le d´eterminant

v

M
X
∗v v

M
X
∗Y

1
(Y

1
)

M
X
∗v (Y

1
)

M
X
∗Y

1

. (18.45)
En utilisant (18.42), ce d´eterminant peut ˆetre factoris´e tout comme (18.41).
Nous aboutissons `a
(v

M
X
∗v)

(Y

1
)

M
v, X
∗Y

1

. (18.46)
En faisant usage des d´efinitions M
1
M
X
∗ = M
X
et v = M
1
Yγ, (18.45) peut
ˆetre r´ecrit

γ

Y

M
X
Yγ γ

Y

M
X
Y
1
Y
1

M
X
Yγ Y
1

M
X
Y
1

=

Γ

Y

M
X

=

Y

M
X
Y

. (18.47)
18.5 Maximum de Vraisemblance ` a Information Limit´ ee 649
La premi`ere ´egalit´e est ici ais´ement v´erifi´ee en exploitant l’expression (18.39)
pour Γ et les d´efinitions de γ et Y ; souvenons- nous que γ est la premi`ere
colonne de Γ. La seconde ´egalit´e est un r´esultat du fait que |Γ| = 1. Elle
implique que (18.47) ne d´epend pas du tout de Γ.
Enfin, nous pouvons maintenant ´ecrire une expression simplifi´ee, qui,
lorsqu’elle est minimis´ee par rapport `a γ, est ´egale `a la valeur minimis´ee du
d´eterminant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)
est ´egal `a

(Y

1
)

M
v, X
∗Y

1

=
|Y

M
X
Y |
v

M
X
∗v
=
|Y

M
X
Y |
γ

Y

M
X

.
Ainsi, en utilisant (18.43), le d´eterminant d’origine (18.40) doit ˆetre ´egal `a
v

v |Y

M
X
Y |
γ

Y

M
X

=

Y

M
1
Yγ)|Y

M
X
Y |
γ

Y

M
X

= κ|Y

M
X
Y |, (18.48)
o` u le scalaire κ a ´et´e d´efini implicitement comme
κ ≡
γ

Y

M
1

γ

Y

M
X

. (18.49)
Puisque |Y

M
X
Y | ne d´epend pas du tout de γ, il y a ´equivalence entre
la minimisation de (18.48) et la minimisation de κ. Ainsi, si nous pouvons
minimiser (18.49) par rapport `a γ, nous pouvons obtenir des estimations LIML
ˆ γ et une valeur associ´ee de κ, disons ˆ κ. Lorsque les estimations LIML sont
obtenues de cette mani`ere, on les appelle quelquefois estimations du rapport
de moindre variance.
Avant de voir comment obtenir des estimations LIML ˆ γ, il nous faut
dire quelques mots des cons´equences de (18.48) et (18.49). En premier lieu, il
devrait ˆetre ´evident que ˆ κ ≥ 1. Etant donn´e que S(X
1
) est un sous-espace de
S(X), le num´erateur de (18.49) ne peut pas ˆetre inf´erieur au d´enominateur
pour tout γ possible. En fait, pour une ´equation suridentifi´ee, ˆ κ sera toujours
sup´erieur `a 1 avec des ´echantillons finis. En ce qui concerne une ´equation juste
identifi´ee, ˆ κ sera pr´ecis´ement ´egal `a 1 parce que le nombre de param`etres `a
estimer est aloors ´egal `a k, le rang de X. Ainsi, dans ce cas, il est possible
de choisir γ de sorte que le num´erateur et le d´enominateur de (18.49) soient
´egaux.
L’expression (18.48) implique que la valeur maximis´ee de la fonction de
log-vraisemblance concentr´ee pour l’estimation LIML d’une unique ´equation
est

ng
−−
2
log(2π) −
n

2
log(ˆ κ) −
n

2
log |Y

M
X
Y |. (18.50)
La valeur maximis´ee de la fonction de log-vraisemblance concentr´ee pour
l’estimation ML de la forme r´eduire libre est

ng
−−
2
log(2π) −
n

2
log |Y

M
X
Y |.
650 Mod` eles d’Equations Simultan´ ees
Par cons´equent une statistique LR portant sur les contraintes de suridentifi-
cation implicites dans une seule ´equation structurelle est simplement nlog(ˆ κ).
Cette statistique de test fut propos´ee `a l’origine par Anderson et Rubin (1950).
Il est ais´e d’´evaluer ˆ κ. L’ensemble des conditions du premier ordre obtenu
en d´erivant (18.49) par rapport `a γ est
2Y

M
1
Yγ(γ

Y

M
X
Yγ) −2Y

M
X
Yγ(γ

Y

M
1
Yγ) = 0.
Si nous divisons chaque membre de l’´egalit´e par 2γ

Y

M
X
Yγ, nous aboutis-
sons
Y

M
1
Yγ −κY

M
X
Yγ = 0. (18.51)
Un ensemble de conditions du premier ordre ´equivalent peut ˆetre ´etabli en
pr´emultipliant (18.51) par (Y

M
X
Y )
−1/2
et en ins´erant ce facteur multipli´e
par par son inverse devant γ. Apr`es manipulation, nous arrivons `a

(Y

M
X
Y )
−1/2
Y

M
1
Y (Y

M
X
Y )
−1/2
−κI

(Y

M
X
Y )
1/2
γ = 0.
Cet ensemble de conditions du premier ordre poss`ede d´esormais la forme d’un
probl`eme classique de valeurs propres et vecteurs propres pour une matrice
r´eelle sym´etrique (voir Annexe A). Il est clair d´esormais que ˆ κ sera une valeur
propre de la matrice
(Y

M
X
Y )
−1/2
Y

M
1
Y (Y

M
X
Y )
−1/2
(18.52)
et que (Y

M
X
Y )
1/2
ˆ γ sera son vecteur propre associ´e. En r´ealit´e, ˆ κ doit ˆetre
la valeur propre la plus petite, du fait que c’est la plus faible valeur du rapport
(18.49).
Alors, un moyen de calculer des estimations LIML consiste `a trouver le
vecteur propre (18.52) associ´e `a la valeur propre la plus petite, et de l`a, `a
calculer ˆ γ, qui sera [1
.
.
.
. −ˆ γ
1
] si le premier ´el´ement est normalis´e `a 1. On peut
ensuite obtenir
ˆ
β
1
en r´egressant y −Y
1
ˆ γ
1
sur X
1
. Une approche alternative
se r´ev´ele pourtant plus simple et plus r´ev´elatrice. Consid´erons les conditions
du premier ordre (18.51). Si nous les exprimons en termes de y et Y
1
au lieu
de Y, et les ´evaluons avec les estimations LIML, nous pouvons les r´ecrire sous
la forme

¸
y

M
1
y y

M
1
Y
1
Y
1

M
1
y Y
1

M
1
Y
1

− ˆ κ
¸
y

M
X
y y

M
X
Y
1
Y
1

M
X
y Y
1

M
X
Y
1

¸
1
−ˆ γ
1

= 0.
Pour ce qui concerne les lignes correspondant `a Y
1
, nous avons
Y
1

(M
1
− ˆ κM
X
)y −Y
1

(M
1
− ˆ κM
X
)Y
1
ˆ γ
1
= 0.
En r´esolvant par rapport `a ˆ γ
1
, nous obtenons
ˆ γ
1
=

Y
1

(M
1
− ˆ κM
X
)Y
1

−1
Y
1

(M
1
− ˆ κM
X
)y.
18.5 Maximum de Vraisemblance ` a Information Limit´ ee 651
Puisque X
1
∈ S(X), M
1
−ˆ κM
X
= M
1
(I−ˆ κM
X
). A l’aide de cette propri´et´e
et d’un peu d’alg`ebre, on peut montrer que ˆ γ
1
peut ´egalement se calculer
suivant la formule (nous laissons la manipulation en qu’exercice)
¸
ˆ
β
1
ˆ γ
1

=
¸
X
1

X
1
X
1

Y
1
Y
1

X
1
Y
1

(I − ˆ κM
X
)Y
1

−1
¸
X
1

y
Y
1

(I − ˆ κM
X
)y

, (18.53)
qui fournit ´egalement
ˆ
β
1
. Alors si nous d´efinissons Z par [X
1
Y
1
] et δ par
[ β
1
.
.
.
. γ
1
], tout comme dans (18.18), (18.53) peut se r´ecrire sous la forme tr`es
simple
ˆ
δ =

Z

(I − ˆ κM
X
)Z

−1
Z

(I − ˆ κM
X
)y. (18.54)
L’´equation (18.53) est un moyen parmi d’autres d’´ecrire le LIML comme
un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
L’´equation (18.54) est un moyen encore plus simple d’arriver au mˆeme but.
La classe K comprend tous les estimateurs que l’on peut ´ecrire sous une de
ces deux formes, mais avec un scalaire K arbitraire `a la place de ˆ κ. Nous
employons la notation K plutˆot que la notation plus conventionnelle k pour
d´esigner ce scalaire afin d’´eviter la confusion avec le nombre de variables
exog`enes dans le syst`eme. L’estimateur LIML est ainsi un estimateur de la
classe K, avec la param´etrisation K = ˆ κ. Identiquement, comme (18.54)le
montre clairement, l’estimateur 2SLS est un estimateur de la classe K avec
la param´etrisation K = 1, et celui des OLS est ´egalement un estimateur
de la classe K avec la param´etrisation K = 0. Puisque pour une ´equation
structurelle juste identifi´ee, ˆ κ = 1, il d´ecoule imm´ediatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement `a un taux plus fort que n
−1/2
; voir
Schmidt (1976), parmi d’autres auteurs. Bien que la convergence du LIML
provienne de r´esultats g´en´eraux sur les estimateurs ML, il reste int´eressant de
voir comment ce r´esultat pour la classe K s’y applique. Nous avons d´ej`a vu que
nlog(ˆ κ) est la statistique de test LR pour l’hypoth`ese nulle de pertinence des
contraintes de suridentification sur l’´equation structurelle. Un d´eveloppement
de Taylor sur le logarithme nous montre que nlog(ˆ κ)

= n(ˆ κ − 1). Puisque
cette statistique de test suit asymptotiquement une loi du χ
2
, elle doit ˆetre
O(1), de sorte que ˆ κ − 1 doit ˆetre O(n
−1
). Ceci ´etablit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) sugg´era un moyen de modifier l’estimateur 2SLS pour r´eduire
son biais, et Fuller (1977) et Morimune (1978, 1983) sugg´er`erent des ver-
sions modifi´ees de l’estimateur LIML. L’estimateur de Fuller, qui est le plus
simple d’entre eux, utilise la param´etrisation K = ˆ κ − α/(n − k), o` u α est
une constante positive que choisit l’exp´erimentateur. Un choix judicieux est
α = 1, puisqu’il produit des estimations approximativement non biais´ees. Par
652 Mod` eles d’Equations Simultan´ ees
contraste avec l’estimateur LIML qui ne poss`ede aucun moment fini (voir Mar-
iano (1982) et Phillips (1983) sur ce point), tous les moments de l’estimateur
modifi´e de Fuller sont finis `a condition que l’´echantillon soit suffisamment
important.
Il est possible d’estimer la matrice de covariance du vecteur
ˆ
δ des es-
timations de la classe K de diff´erentes fa¸cons. La plus naturelle consiste `a
utiliser
ˆ σ
2

Z

(I − ˆ κM
X
)Z

−1
, (18.55)
o` u
ˆ σ
2
=
1

n
(y −Z
ˆ
δ)

(y −Z
ˆ
δ).
Les statistiques de test de Wald pour les contraintes sur γ
1
et β
1
, et parmi
elles les t de Student asymptotiques, peuvent se calculer `a l’aide de (18.55)
de la mani`ere habituelle. Toutefois, il est sans doute pr´ef´erable d’employer
des statistiques LR, ´etant donn´e leur invariance `a la reparam´etrisation, mais
aussi compte tenu de leur facilit´e de calcul `a partir de la fonction de log-
vraisemblance concentr´ee (18.50).
Le r´esultat selon lequel les estimateurs de la classe K sont convergents
lorsque K tend asymptotiquement vers 1 `a un taux appropri´e peut sugg´erer
que les 2SLS poss`edent de meilleures propri´et´es avec des ´echantillons finis que
le LIML. Apr`es tout, pour les 2SLS, K est identiquement ´egal `a 1, alors que
pour le LIML, K = ˆ κ, et ˆ κ est toujours sup´erieur `a 1 avec des ´echantillons
finis. Le r´esultat selon lequel le LIML ne poss`ede pas de moment fini peut
´egalement sugg´erer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous l’avons vu dans la Section 7.5, l’estimateur des 2SLS
poss`edent autant de moments finis qu’il y a de contraintes de suridentification.
D’un autre cˆot´e, il apparaˆıt que dans de nombreux cas, les 2SLS poss`edent
en fait de pi`etres qualit´es face au LIML `a de multiples ´egards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des r´esultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement `a la distri-
bution de l’estimateur 2SLS, dont nous avons vu qu’elle est s´ev`erement bi-
ais´ee dans certains cas, la distribution de l’estimateur LIML est g´en´eralement
centr´e sur une valeur proche de la v´eritable valeur. Mais, ´etant donn´e que
cette derni`ere distribution ne poss`ede pas de moment fini, nous ne pouvons
pas conclure au moindre biais de l’estimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des ´echantillons finis. Elle montre les distributions de l’estimateur 2SLS,
l’estimateur LIML, et l’estimateur modifi´e de Fuller avec α = 1 (not´e LIMLF
sur la figure) dans le cas examin´e pr´ec´edemment dans la Section 7.5. La
pr´esence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport `a sa
distribution asymptotique. Dans ce cas, l’estimateur 2SLS est s´ev`erement
biais´e vers le bas. Par ailleurs, l’estimateur LIML semble ˆetre pratiquement
18.6 Les Triples Moindres Carr´ es 653
0.0 0.5 1.0 1.5 2.0
0.0
0.2
0.4
0.6
0.8
1.0
......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.......................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
.....................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................
2SLS →
←LIML
←−LIMLF
← Vraie valeur
Figure 18.1 Distributions des estimateurs 2SLS et LIML
sans biais dans le sens o` u sa m´ediane est tr`es proche de la v´eritable valeur
de 1. La distribution de l’estimateur modifi´e de Fuller se situe g´en´eralement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution sup´erieure
est beaucoup plus fine que celle du LIML, mais sa m´ediane est quelque peu
inf´erieure `a la v´eritable valeur.
Dans la pratique, il n’est pas toujours ais´e de d´ecider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de r´esultats an-
alytiques et donne des conseils sur l’opportunit´e d’une performance meilleure
du LIML par rapport aux 2SLS. Il faudrait ´eviter d’employer ce dernier
lorsque le nombre des contraintes de suridentification est important, par ex-
emple. Cependant, cela d´epend ´enorm´ement des caract´eristiques intrins`eques
du mod`ele et des donn´ees que l’on utilise. Si les r´esultats des 2SLS et du LIML
sont tr`es proches, alors le choix entre les deux est peu important. S’ils sont
relativement diff´erents, toutefois, ce choix devient important. Sans doute la
meilleure chose `a faire dans ces circonstances consiste `a r´ealiser des exp´eriences
Monte Carlo, qui sont typiquement con¸cues pour d´epartager les performances
relatives des diff´erents estimateurs pour le mod`ele et les donn´ees en cause; se
reporter au Chapitre 21.
18.6 Les Triples Moindres Carr
´
es
La derni`ere des quatre m´ethodes principales pour l’estimation des mod`eles
d’´equations simultan´ees dont nous allons discuter est celle des triples moin-
dres carr´es, ou 3SLS. Tout comme le FIML, la m´ethode des 3SLS est une
654 Mod` eles d’Equations Simultan´ ees
m´ethode syst´emique, pour laquelle tous les param`etres du mod`ele sont es-
tim´es conjointement. Ainsi que son nom le sugg`ere, on peut calculer les 3SLS
en trois ´etapes. Les deux premi`eres sont celles des 2SLS classiques, appliqu´ees
`a chaque ´equation du syst`eme s´epar´ement. La troisi`eme ´etape est alors es-
sentiellement la mˆeme que l’´etape terminale de l’estimation par GLS faisables
d’un syst`eme SUR (Section 9.7). La m´ethode fut propos´e par Zellner et Theil
(1962).
Le moyen le plus simple de d´eriver l’estimateur des 3SLS, ainsi que ses
propri´et´es asymptotiques, consiste `a appliquer les principes de la m´ethode des
moments g´en´eralis´ee au syst`eme des mod`eles d’´equations simultan´ees lin´eaires
(18.01). Pour l’observation t, ce syst`eme peut se mettre sous la forme
Y
t
Γ = X
t
B +U
t
.
L’hypoth`ese selon laquelle toutes les variables dans X sont soit exog`enes soit
pr´ed´etermin´ees implique que, pour toutes les observations t,
E

Y
t
Γ −X
t
B| X
t

= 0.
On interpr`ete imm´ediatement les ´egalit´es comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous l’avons
vu dans la Section 18.3, les variables exog`enes constituent des instruments
efficaces pour les 2SLS si les al´eas sont homosc´edastiques et ind´ependants en
s´erie, il semble raisonnable d’envisager l’ensemble suivant de conditions du
premier ordre:
E

X
t

(Y
t
Γ −X
t
B)

= 0. (18.56)
Etant donn´e que X
t
poss`ede k composantes et Y
t
Γ − X
t
B en poss`ede g, il
y a en tout gk conditions portant sur les moments. Si la condition d’ordre
pour l’idetnification est satisfaite avec une ´egalit´e, il y aurait exactement
gk param`etres `a estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments qu’il y a de param`etres dans le syst`eme,
et mˆeme davantage si le syst`eme est suridentifi´e. Bien ´evidemment, l’utilit´e
r´eelle de ces conditions sur les moments dans le processus d’identification des
param`etres d´epend asymptotiquement de la validit´e de la condition de rang.
Il est pratique d’ordonner diff´eremment les ´el´ements de la matrice de
dimension k×g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque ´equation du syst`eme dans une notation comparable `a
celle de (18.18):
y
i
= Z
i
δ
i
+u
i
, pour i = 1, . . . , g,
o` u la matrice de r´egresseurs Z
i
qui apparaˆıt dans l’´equation i est [X
i
Y
i
],
avec k
i
variables exog`enes X
i
incluses et g
i
variables endog`enes Y
i
incluses, et
o` u le vecteur de param`etres de dimension (k
i
+g
i
) δ
i
est [ β
i
.
.
.
. γ
i
]. D´efinissons
alors le vecteur ligne F
t
compos´e de gk ´el´ements comme:
F
t
≡ [u
t1
X
t
· · · u
tg
X
t
],
18.6 Les Triples Moindres Carr´ es 655
o` u u
ti
≡ y
ti
− (Z
i
)
t
δ
i
. Chaque composante de F
t
est la contribution de
l’observation t `a un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n ×gk est d´efinie pour avoir une ligne type F
t
.
Pour obtenir des estimations GMM, il est n´ecessaire de trouver une esti-
mation de la matrice de covariance des gk moments (18.56). Nous ferons les
mˆemes hypoth`eses pr´eliminaires sur les al´eas que pour le FIML et le LIML.
Nous supposons que chaque vecteur u
i
est homosc´edastique et ind´ependant en
s´erie (l’hypoth`ese d’homosc´edasticit´e sera relˆach´ee plus tard). Nous supposons
´egalement que, pour chaque observation t, les u
ti
sont corr´el´es entre eux, avec
une matrice de covariance contemporaine de dimension g×g Σ, ind´ependante
de t. Nous noterons σ
ij
un ´el´ement type de Σ et σ
ij
un ´el´ement type de Σ
−1
.
Il est relativement ais´e de trouver la matrice de covariance du vecteur des
moments empiriques F

ι. C’est
E

F

ιι

F

=
n
¸
t=1
E

F
t

F
t

=
n
¸
t=1
E[u
t1
X
t
· · · u
tg
X
t
]

[u
t1
X
t
· · · u
tg
X
t
]. (18.57)
La derni`ere expression dans (18.57) est une matrice de dimension gk ×gk qui
apparaˆıt sous une forme plus lisible lorsqu’elle est partitionn´ee, chaque bloc
´etant de dimension k × k. Pour chaque t, E(u
ti
u
tj
) = σ
ij
. Parce que les
´el´ements de σ
ij
ne d´ependent pas de t, nous obtenons

σ
11
X

X · · · σ
1g
X

X
.
.
.
.
.
.
.
.
.
σ
g1
X

X · · · σ
gg
X

X
¸
¸
, (18.58)
c’est-`a-dire une matrice dont le bloc type est σ
ij
X

X. Afin de construire une
fonction crit`ere comparable `a (17.54) et avec laquelle nous pourrons obtenir
des estimations des param`etres vectoriels δ
i
, i = 1, . . . , g, nous aurons be-
soin d’inverser la matrice (18.58)
˙
La structure en bloc de (18.58) facilite cette
manipulation. On peut v´erifer facilement par une simple multiplication de
matrices partitionn´ees que l’inverse est une matrice dont le bloc type est
σ
ij
(X

X)
−1
(souvenons-nous que σ
ij
est un ´el´ement type de Σ
−1
).
Il est pratique d’exprimer le vecteur des moments empiriques F

ι sous
une forme partitionn´ee comparable `a (18.58), comme une fonction des donn´ees
et des param`etres du mod`ele. Le r´esultat est un vecteur avec l’´el´ement type
X

(y
i
−Z
i
δ
i
), pour i = 1, . . . , g:
F

ι =

X

(y
1
−Z
1
δ
1
)
.
.
.
X

(y
g
−Z
g
δ
g
)
¸
¸
. (18.59)
656 Mod` eles d’Equations Simultan´ ees
Alors, si nous ´elaborons une forme quadratique `a parir du vecteur (18.59) et
de la matrice (18.58), nous aboutissons `a la fonction crit`ere
g
¸
i=1
g
¸
j=1
σ
ij

y
i
−Z
i
δ
i

X

X

X

−1
X

y
j
−Z
j
δ
j

=
g
¸
i=1
g
¸
j=1
σ
ij

y
i
−Z
i
δ
i

P
X

y
j
−Z
j
δ
j

.
(18.60)
Puisque nous supposons tacitement qu’il n’existe aucune contrainte d’´equa-
tions crois´ees, les param`etres δ
i
n’apparaissent que dans le r´esidus de l’´equa-
tion i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent s’´ecrire assez simplement comme
g
¸
j=1
σ
ij
Z
i

P
X

y
j
−Z
j
δ
j

= 0, pour i = 1, . . . , g. (18.61)
Afin de rendre (18.61) op´erationnelle, nous avons besoin d’estimer la
matrice de covariance des al´eas, Σ. Dans le cas du mod`ele SUR, nous pour-
rions employer les OLS pour chaque ´equation individuellement. Puisque les
OLS sont non convergents pour les mod`eles d’´equations simultan´ees, nous
employons `a la place les 2SLS sur chaque ´equation. Ainsi les deux premi`eres
“´etapes” des 3SLS correspondent exactement aux deux ´etapes des 2SLS, ap-
pliqu´e `a chaque ´equation de (18.01). Les covariances des al´eas sont alors
estim´es `a partir des r´esidus 2SLS:
˜ σ
ij
=
1

n
n
¸
t=1
˜ u
ti
˜ u
tj
. (18.62)
Bien sˆ ur, ces r´esidus doivent correspondre aux v´eritables r´esidus 2SLS, et non
aux r´esidus de l’estimation OLS de seconde ´etape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS,
˜
δ
1
`a
˜
δ
g
doivent conjointement r´esoudre
les conditions du premier ordre:
g
¸
j=1
˜ σ
ij
Z
i

P
X

y
j
−Z
j
˜
δ
j

= 0. (18.63)
La solution est ais´ee `a formuler. Si δ ≡ [δ
1
.
.
.
. · · ·
.
.
.
. δ
g
] et si les matrices entre
crochets d´esignent les matrices partitionn´ees caract´eris´ees par l’´el´ement ype
`a l’int´erieur du crochet, l’estimateur 3SLS
˜
δ se met sous la forme compacte
˜
δ =

˜ σ
ij
Z
i

P
X
Z
j

−1
¸
g
¸
j=1
˜ σ
ij
Z
i

P
X
y
j
¸
. (18.64)
18.6 Les Triples Moindres Carr´ es 657
L’´ecriture de l’estimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus fr´equente; consulter la plupart des ouvrages d’´econom´etrie.
Bien que les produits de Kronecker soient bien souvent tr`es utiles (Magnus et
Neudecker, (1988)), nous pr´ef´erons la notation compacte de (18.64).
L’estimateur 3SLS est intimement reli´e `a la fois `a celui des 2SLS et `a
celui des GLS pour les mod`eles SUR multivari´es pour lequel les variables
explicatives sont toutes exog`enes ou pr´ed´etermin´ees. Si nous supposons que Σ
est proportionnelle `a une matrice identit´e, les conditions (18.63) se ram`enent
`a
˜ σ
ii
Z
i

P
X

y
i
−Z
i
δ
i

= 0,
et ces conditions sont ´equivalentes aux conditions ´equation par ´equation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
num´eriquement) ´equivalents lorsque les al´eas contemporains de la forme struc-
turelle sont non corr´el´es. Il est ´egalement ais´e de voir que l’estimateur SUR
pour les mod`eles lin´eaires est juste un cas particulier de l’estimateur 3SLS.
Etant donn´e que tous les r´egresseurs peuvent servir en tant qu’instruments
dans le cas SUR, il n’est plus du tout besoin d’employer les 2SLS en premi`ere
´etape. En correspondance, le fait que chaque matrice de r´egresseur Z
i
soit
une sous-matrice de la matrice de tous les r´egresseurs, X, implique que
P
X
Z
i
= Z
i
. Ainsi (18.63) se ram`ene `a
g
¸
j=1
˜ σ
ij
Z
i

y
j
−Z
j
δ
j

= 0,
et c’est pr´ecis´ement ce que deviennent les ´equations d´efinissantes (9.54) dans
le cas lin´eaire pour l’estimateur des GLS faisables d’un syst`eme SUR sans
contrainte d’´equations crois´ees. Nous voyons que la relation entre 3SLS et les
2SLS ´equation par ´equation est identique `a celle qu’il existe entre l’estimation
SUR par GLS faisables et l’estimation OLS ´equation par ´equation.
Sur la base de (18.64), il est naturel de penser que l’estimation de la
matrice de covariance de l’estimateur 3SLS peut ˆetre estim´ee par
[˜ σ
ij
Z
i

P
X
Z
j
]
−1
. (18.65)
C’est en r´ealit´e le cas, comme on peut le montrer assez facilement `a l’aide du
r´esultat g´en´eral (17.55) pous l’estimation GMM. Nous avons vu que pour
˜
Φ
−1
dans cette expression nous devions employer la matrice dont l’´el´ement type
est ˜ σ
ij
(X

X)
−1
. Pour
˜
D, la matrice des d´eriv´ees des moments empiriques
par rapport aux param`etres du mod`ele, nous voyons que la matrice ad´equate
doit ˆetre bloc diagonale, avec des blocs types d´efinis par −X

Z
i
. (Nous ne
consid´erons pas volontairement les facteurs des puissances de n.) Puisque
nous traitons d’un syst`eme lin´eaire,
˜
D ne d´epend d’aucun param`etre estim´e.
Ainsi une estimation appropri´ee de la matrice de covariance asymptotique est
donn´ee par l’inverse de la matrice dont le bloc type est
Z
i

X˜ σ
ij

X

X

−1
X

Z
j
= ˜ σ
ij
Z
i

P
X
Z
j
,
658 Mod` eles d’Equations Simultan´ ees
ce qui correspond pr´ecis´ement `a (18.65).
Puisque le mod`ele d’´equations simultan´ees (18.01) est ´equivalent `a la
forme r´eduite contrainte (18.02), on peut raisonnablement se demander pour-
quoi un estimateur tel que celui des 3SLS ne peut pas ˆetre obtenu simple-
ment `a partir de (18.02), ´etant donn´e que sa forme est pr´ecis´ement celle d’un
sust`eme SUR. La r´eponse est, bien sˆ ur, que cela est possible. Cependant,
`a moins que chaque ´equation ne soit juste identifi´ee, les contraintes seront
non lin´eaires. Cette approche a ´et´e essentiellement utilis´ee par Chamberlain
(1984). L’avantage de l’approche que nous suivons est qu’elle ´evite les diffi-
cult´es associ´ees au traitement des contraintes non lin´eaires.
Une autre similitude entre les estimations 3SLS et SUR est que les deux
sont num´eriquement ´equivalentes `a la proc´edure ´equation par ´equation si
chaque ´equation est juste identifi´ee. Pour les syst`emes SUR, cela signifie
simplement que tous les r´egresseurs se confondent avec des variables explica-
tives dans chaque ´equation (sinon, il existerait des contraintes de suridentifi-
cation impliqu´ees par la n´ecessaire orthogonalit´e entre les al´eas des ´equations
o` u certains r´egresseurs sont absents et les r´egresseurs absents et inclus dans
l’´equation). Nous avons vu dans la Section 9.8, `a travers le Th´eor`eme de
Kruskal, que les estimations SUR sont num´eriquement idetniques aux estima-
tions OLS ´equation par ´equation dans ce cas. C’est un bon exercice que de
montrer la validit´e du mˆeme r´esultat dans le contexte 3SLS.
Si nous supposons que les al´eas contenus dans la matrice U de (18.01) sont
normalement distribu´es, les propri´et´es asymptotiques de toutes les proc´edures
d’estimation ML garantissent l’efficacit´e asymptotique de l’estimateur FIML.
Il est par cons´equent naturel de se demander si l’estimateur 3SLS partage la
propri´et´e asymptotique d’efficacit´e avec le FIML, et la r´eponse est, comme
nous le verrons assez directement, affirmative. Nous pourrions directement
obtenir une d´emonstration de ce r´esultat si nous avions une expression de la
matrice de covariance asymptotique de l’estimateur FIML, que nous pour-
rions comparer `a (18.65). Toutefois, nous pr´ef´erions ne pas obtenir une telle
expression dans la Section 18.4, parce qu’un moyen tr`es simple d’obtenir une
estimation de la matrice de covariance FIML consiste `a utiliser l’estimation
3SLS (18.65), ´evalu´ee avec les estimations FIML. Au lieu de cela, notre
d´emonstration de l’´equivalence asymptotique entre les 3SLS et le FIML se
base sur le fait que l’estimateur FIML peut s’interpr´eter comme un estima-
teur des variables instrumentales.
Ce r´esultat, que Hausman (1975) d´emontra le premier, est d’un int´erˆet
consid´erable en lui-mˆeme, du fait qu’il fournit des instruments optimaux as-
soci´es `a l’estimation ML du syst`eme (18.01). Comme nous pouvions nous y
attendre, on peut les trouver en consid´erant les conditions du premier ordre
pour la maximisation de la fonction de log-vraisemblance, que nous envis-
ageons sous la forme (18.28). Si nous notons Γ
i
ou B
i
la colonne i de Γ ou
B, respectivement, et notons une fois de plus σ
ij
l’´el´ement type de Σ
−1
, alors
18.6 Les Triples Moindres Carr´ es 659
(18.28) peut s’exprimer comme
(B, Γ, Σ) = −
ng
−−
2
log(2π) + nlog | det Γ| −
n

2
log |Σ|

1

2
n
¸
t=1
g
¸
i=1
g
¸
j=1
σ
ij

Y
t
Γ
i
−X
t
B
i

Y
t
Γ
j
−X
t
B
j

.
(18.66)
La difficult´e majeure dans l’explicitation des conditions du premier ordre pour
un maximum de (18.66) est que B et Γ sont contraintes `a poss´eder de nom-
breux ´el´ements nuls de sorte qu’un seul ´el´ement de Γ est ´egal `a 1. Par
cons´equent, nous ne pourrions annuler les d´eriv´ees de (18.66) par rapport `a
aux ´el´ements de Γ et B qui sont ainsi contraints. Pour contourner la difficult´e,
nous pouvons tout d’abord d´evelopper une matrice des d´eriv´ees partielles de
(B, Γ, Σ) par rapport `a B qui aura exactement la mˆeme forme que la ma-
trice B. Nous signifions que l’´el´ement ij de la matrice des d´eriv´ees partielles
sera ´egal `a la d´eriv´ee partielle de par rapport `a l’´el´ement ij de la matrice B.
Nous pouvons ex´ecuter une op´eration similaire pour Γ et annuler uniquement
les ´el´ements pertinents des deux matrices de d´eriv´ees.
La matrice B n’apparˆıt que dans le dernier terme de (18.66), aussi
pouvons-nous nous focaliser uniquement sur ce terme pour l’instant. Il est
commode de calculer la matrice des d´eriv´ees partielles ´el´ement par ´el´ement
et d’ordonner ces d´eriv´ees par la suite dans une matrice de dimension k ×g.
Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaque
d´eriv´ee est ais´ement calculable. Par rapport `a l’´el´ement ij, nous obtenons
n
¸
t=1
g
¸
m=1
σ
im
X
tj

Y
t
Γ
m
−X
t
B
m

. (18.67)
Nous souhaitons trouver une matrice dont l’´el´ement ij est (18.67). Puisque j
est l’indice associ´e `a l’´el´ement X
tj
, nous pouvons d´evelopper la colonne j de
ladite matrice en ordonnant les ´el´ements X
tj
en colonne. Cela donne
n
¸
t=1
g
¸
m=1
σ
im
X
t

Y
t
Γ
m
−X
t
B
m

=
g
¸
m=1
σ
im
X


m
−XB
m

= X

YΓ −XB


−1
)
i
, (18.68)
o` u (Σ
−1
)
i
est la i
i`eme
colonne de Σ
−1
. Observons maintenant que les ex-
pressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k ×g, et il est d´esormais ´evident que cette matrice
est X

(YΓ −XB)Σ
−1
.
660 Mod` eles d’Equations Simultan´ ees
Il nous faut maintenant calculer les d´eriv´ees (18.66) par rapport `a la
matrice de dimension g × g Γ. Des op´erations identiques `a celles men´ees
pour B montrent que la matrice des d´eriv´ees par rapport au dernier terme de
(18.66) est
−Y

(YΓ −XB)Σ
−1
.
Cette matrice est de dimension g × g, ce qui est coh´erent. Mais Γ ap-
paraˆıt ´egalement `a travers son d´eterminant dans le second terme de (18.66).
Souvenons-nous (ou bien consultons l’Annexe A) que la d´erive du logarithme
du d´eterminant d’une matrice par rapport `a l’´el´ement ij de cette matrice est
l’´el´ement ji de l’inverse de la matrice. Par cons´equent, la matrice des d´eriv´ees
partielles correspondant `a Γ est
n(Γ
−1
)

−Y

YΓ −XB

Σ
−1
. (18.69)
Nous pouvons aboutir `a une expression plus pratique que (18.69) en util-
isant les conditions du premier ordre pour les ´el´ements de la matrice de co-
variance Σ. De (18.29), nous voyons que ces conditions donnent
ˆ
Σ = n
−1
(Y
ˆ
Γ −X
ˆ
B)

(Y
ˆ
Γ −X
ˆ
B), (18.70)
o` u
ˆ
Σ,
ˆ
Γ, et
ˆ
B d´esignent des estimations FIML. Si nous pr´emultiplions cette
´equation par n
ˆ
Σ
−1
, la postmultiplions par
ˆ
Γ
−1
, et la transposons, nous ar-
rivons `a
n(
ˆ
Γ
−1
)

= Y

(Y
ˆ
Γ −X
ˆ
B)
ˆ
Σ
−1
−(
ˆ
Γ
−1
)

ˆ
B

X

(Y
ˆ
Γ −X
ˆ
B)
ˆ
Σ
−1
. (18.71)
Puisque X
ˆ
B
ˆ
Γ
−1
est la matrice des valeurs ajust´ees de l’estimation de la forme
r´eduite contrainte, nous la noterons
ˆ
Y: cela simplifiera la notation et aura le
m´erite de clarifier l’analyse ult´erieure. Ainsi (18.71) peut s’´ecrire
n(
ˆ
Γ
−1
)

= Y

(Y
ˆ
Γ −X
ˆ
B)
ˆ
Σ
−1

ˆ
Y

(Y
ˆ
Γ −X
ˆ
B)
ˆ
Σ
−1
.
Par suite, la matrice (18.69), ´evalu´ee avec les estimations ML, devient

ˆ
Y

(Y
ˆ
Γ −X
ˆ
B)
ˆ
Σ
−1
.
Nous pouvons, apr`es tant d’efforts, s´electionner les ´el´ements de deux
matrices de d´eriv´ees partielles qui sont v´eritablement nuls lorsque nous les
´evaluons avec les estimations ML. Les param`etres qui apparaissent dans
l’´equation i proviennent de la colonne i des matrices Γ et B, et les d´eriv´ees
partielles correspondantes proviennent des colonnes i des matrices de d´eriv´ees
partielles. En ce qui concerne la matrice B, cette colonne est X

(Y
ˆ
Γ −
X
ˆ
B)(
ˆ
Σ
−1
)
i
. Nous souhaitons s´electionner dans cette colonne uniquement
les lignes pour lesquelles l’´el´ement correspondant de B
i
est non contraint,
18.6 Les Triples Moindres Carr´ es 661
c’est-`a-dire les ´el´ements correspondant `a la matrice de dimension n × k
i
X
i
.
Puisque pour s´electionner les lignes d’un produit matriciel, il nous suffit de
s´electionner les lignes correspondant au facteur le plus `a gauche, les ´el´ements
nuls sont ceux du vecteur de dimension k
i
X
i

(Y
ˆ
Γ −X
ˆ
B)(
ˆ
Σ
−1
)
i
.
Par un rasionnement en tous points identique, nous trouvons que, pour
chaque i = 1, . . . , g, le vecteur
ˆ
Y
i

(Y
ˆ
Γ −X
ˆ
B)(
ˆ
Σ
−1
)
i
de dimension g
i
est nul,
o` u
ˆ
Y
i
ne contient que les colonnes de
ˆ
Y qui correspondent `a la matrice Y
i
des variables endog`enes incluses en tant que r´egresseurs dans l’´equation i. Si
nous d´efinissons
ˆ
Z
i
≡ [X
i
ˆ
Y
i
], alors nous pouvons ´ecrire toutes les conditions
du premier ordre correspondant aux param`etres de la i
i`eme
´equation sous la
forme
ˆ
Z
i

Y
ˆ
Γ −X
ˆ
B


−1
)
i
= 0.
Ces conditions peuvent se simplifier grandement. Remarquons que
(Y
ˆ
Γ −X
ˆ
B)(
ˆ
Σ
−1
)
i
=
g
¸
j=1
ˆ σ
ij

Y
ˆ
Γ
j
−X
ˆ
B
j

=
g
¸
j=1
ˆ σ
ij

y
j
−Z
j
ˆ
δ
j

.
L’ensemble complet des conditions du premier ordre d´efinissant les estimations
FIML peuvent donc s’´ecrire
g
¸
j=1
ˆ σ
ij
ˆ
Z
i

y
j
−Z
j
ˆ
δ
j

= 0, pour i = 1, . . . , g. (18.72)
Les conditions (18.72) apparaissent d´esormais sous une forme tr`es com-
parables `a celle des conditions (18.63) qui d´efinissent l’estimateur 3SLS. En
r´ealit´e, si nous notons
¯
Y
i
la matrice de dimension n ×g
i
des valeurs ajust´ees
de la forme r´eduite libre, de sorte que
¯
Y
i
= P
X
Y
i
for i = 1, . . . , g, alors
P
X
Z
i
= P
X

X
i
Y
i

=

X
i
¯
Y
i


¯
Z
i
.
Ainsi la conditions (18.63) qui d´efinit l’estimateur 3SLS peut s’´ecrire comme
g
¸
j=1
˜ σ
ij
¯
Z
i

y
j
−Z
j
˜
δ
j

= 0. (18.73)
Les diff´erences existant entre les conditions qui d´efinissent les etsimations
3SLS et celles qui d´efinissent les estimations FIML sont mises en ´evidence `a
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) l’estimation de la matrice de covariance provient des r´esidus 2SLS ´equa-
tion par ´equation en ce qui concerne les 3SLS, et des r´esidus FIML en ce
qui concerne le FIML;
662 Mod` eles d’Equations Simultan´ ees
(ii) Les valeurs ajust´ees de Y employ´ees en tant qu’instruments sont celles
de la forme r´eduite non contrainte en ce qui concerne les 3SLS et celle du
FIML en ce qui concerne le FIML.
Les deux diff´erences refl`etent le fait que, contrairement aux 3SLS, le FIML
est une proc´edure d’estimation jointe: il faut r´esoudre simultan´ement les con-
ditions (18.72) et les conditions (18.70) pour Σ si l’on veut obtenir une quel-
conque estimation ML.
Une autre fa¸con d’´etablir la diff´erence entre les deux proc´edures consiste
`a dire qu’elles emploient des estimations diff´erentes des mˆemes instruments
optimaux. Ces instruments sont quelque peu d´elicats `a ´ecrire. Afin de le faire
sans trop de difficult´e, nous pouvons construire un vecteur de dimension ng
constitu´e de toutes les contributions des moments empiriques. Sous forme
partitionn´ee, ce vecteur peut s’´ecrire

y
1
−Z
1
δ
1
.
.
.
. · · ·
.
.
.
. y
g
−Z
g
δ
g

, (18.74)
et un ´el´ement type est n--vector y
i
− Z
i
δ
i
. Au total, il faut identifier p ≡
¸
g
i=1
(g
i
+ k
i
) param`etres, de sorte qu’il faut pr´emultiplier le vecteur (18.74)
par exactement le nombre de vecteurs lignes, chacun ´etant de dimesnion ng,
si l’on veut obtenir les ´equations d´efinissantes pour ces estimations. On peut
voir sans grande difficult´e que la matrice de dimension p × ng n´ecessaire `a
l’obtention de (18.72) ou de (18.73) est constitu´ee de blocs de la forme σ
ij
W
i

,
o` u W
i
indique une matrice de la forme [XΠ
i
X
i
] pour un choix donn´e des
matrices Π
i
de dimension n ×g
i
. Ce bloc type est une matrice de dimension
(g
i
+ k
i
) ×n, ce qui est coh´erent.
Les estimateurs 3SLS et FIML diff`erent selon la mani`ere de choisir Σ et
les matrices Π
i
. Les instruments optimaux r´eel, mais non observables, sont
donn´es en posant Σ ´egale `a la v´eritable matrice de covariance des erreurs Σ
0
et en posant Π
i
= B
0
Γ
−1
0
, `a l’aide des v´eritables matrices de param`etres. A
l’´evidence, aussi bien
˜
Σ que
ˆ
Σ convergent vers Σ
0
. Identiquement, les ma-
trices
¯
Π telle que
¯
Y = P
X
Y = X
¯
Π obtenue de la forme r´eduite contrainte
que la matrice
ˆ
B
ˆ
Γ
−1
obtenue par l’estimation FIML convergent vers B
0
Γ
−1
0
.
Les deux proc´edures emploient par cons´equent des estimations convergentes
des v´eritables instruments optimaux, de sorte que les deux sont asympto-
tiquement ´equivalentes et asymptotiquement efficaces. Remarquons que cette
conclusion ne s’applique qu’`a l’estimation de Γ et B: les proc´edures ne sont
pas ´equivalentes en ce qui concerne l’estimation de la matrice de covariance Σ.
On peut obtenir l’´equivalence num´erique entre le FIML et les 3SLS en
it´erant ces derniers. A chaque it´eration, les r´esidus de la pr´ec´edente ´etape
sont utilis´es pour g´en´erer les estimations actualis´ees de Σ, alors que les es-
timations param´etriques de la pr´ec´edente ´etape sont utilis´ees pour g´en´erer
les estimations actualis´ees de Π. Une telle proc´edure it´erative, dont l’int´erˆet
reste surtout th´eorique, d´ebute par les 3SLS et converge vers le FIML pour
tous les param`etres, incluant ceux de Σ. Cette op´eration it´erative, et de nom-
breuses autres, sont abord´ees par Hendry (1976), qui fournit ´egalement une
18.6 Les Triples Moindres Carr´ es 663
bibliographie exhaustive de la plupart des th`emes de la litt´erature consacr´ee
aux ´equations simultan´ees existant `a cette ´epoque.
Comme nous l’avons sugg´er´e lors de la Section 18.4, un moyen pratique
de calculer une estimations de la matrice de covariance de l’estimateur FIML
de Γ et B consiste `a employer une expression comparable `a (18.65). Si nous
rempla¸cons l’estimation 3SLS
˜
Σ par l’estimation FIML
ˆ
Σ, et les matrices
P
X
Z
i
des 3SLS par les matrices
ˆ
Z
i
du FIML, le r´esultat est

ˆ σ
ij
ˆ
Z
i

ˆ
Z
j

−1
.
De mˆeme que le LIML appliqu´e `a une ´equation est un cas d´eg´en´er´e du
FIML appliqu´e `a ladite ´equation suridentifi´ee, les 2SLS sont un cas d´eg´en´er´e
des 3SLS appliqu´e `a une ´equation suridentifi´ee unique d’un syst`eme global
par ailleurs juste idetnifi´e. Ce r´esultat est d’une grande importance pratique,
bien que la d´emonstration ne soit gu`ere int´eressante, et donc ´elud´ee. Le
r´esultat implique que la raison invoqu´ee dans la Section 18.5 qui nous conduit
parfois `a pr´ef´erer le LIML au FIML, `a savoir que cela ´evite d’imposer des
contraintes de suridentification ´eventuellement inexactes, conduirait chaque
exp´erimentateur dans un contexte de moindres carr´es `a ne jamais d´epasser
le stade des 2SLS. Compte tenu du fait que le surcroˆıt de calcul pour obenir
les 3SLS par rapport aux 2SLS est consid´erable si l’on ne s’int´eresse qu’`a une
seule ´equation, il est fondamental de r´ealiser que ce travail suppl´ementaire ne
procure aucun avantage `a moins que certaines ´equations du syst`eme ne soient
suridentifi´ees.
Etant donn´e que les 3SLS sont un cas particulier de l’estimation par
GMM, on peut les g´en´eraliser pour tenir compte d’une h´et´erosc´edasticit´e de
forme inconnue des al´eas, chose impossible `a r´ealiser avec le FIML. Si nous ne
disposons d’aucune information quant `a la forme de l’h´et´erosc´edasticit´e, alors
nous ne pouvons pas am´eliorer le choix (18.56) des conditions portant sur
les moments empiriques employ´ee pour l’identification des param`etres. Par
contre nous pouvons remplacer l’estimation (18.58) de leur matrice de covar-
iance bas´ee sur l’hypoth`ese d’homosc´edasticit´e par une extimation robuste `a
l’´eh´etrosc´edasticit´e. Avec des al´eas corr´el´es en s´erie, (18.57) reste une expres-
sion correcte pour la matrice de covariance des moments empiriques. Un bloc
type de cette matrice est
n
¸
t=1
E

u
ti
u
tj
X
t

X
t

.
Il est clair que, tout comme pour les autres HCCME, il est possible d’estimer
de fa¸con convergente 1/n fois cette matrice par
1

n
n
¸
t=1
E

˜ u
ti
˜ u
tj
X
t

X
t

,
664 Mod` eles d’Equations Simultan´ ees
que l’on peut ´ecrire plus simplement sous la forme
1

n
X

˜

ij
X (18.75)
si l’on pose la d´efinition
˜

ij
= diag(˜ u
ti
˜ u
tj
), pour i, j = 1, . . . , g. Si nous
employons cette expression pour ´elaborer une fonction crit`ere bas´ee sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons `a un
nouvel estimateur, d´efini par les ´equations
g
¸
j=1
Z
i

X

X

˜

ij
X

−1
X

y
j
−Z
j
δ
j

= 0.
La r´esolution de ces ´equations nous conduit `a l’estimateur
ˇ
δ =

Z
i

X

X

˜

ij
X

−1
X

Z
j

−1
¸
g
¸
j=1
Z
i

X

X

˜

ij
X

−1
X

y
j
¸
. (18.76)
Il n’est pas surprenant de retrouver en (18.76) une structure tr`es ompara-
ble `a celle de l’estimateur H2SLS (17.44), aussi l’appellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par l’inverse
de la matrice avec le bloc type
Z
i

X

X

˜

ij
X

−1
X

Z
j
.
En pr´esence d’h´et´erosc´edasticit´e de forme inconnue, l’estimateur H3SLS de-
vrait ˆetre plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgr´e tout, ses performances avec des ´echantillons finis sont pratiquement
inconnus `a ce jour.
Il est ´evident que nous pourrions g´en´eraliser l’estimateur H3SLS en-
core davantage `a l’aide d’un estimateur HAC de la matrice de covariance
`a la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
Chapitre 6). Cependant, c’est une strat´egie ad´equate tant que la pr´esence
de corr´elation en s´erie reste compatible avec le mod`ele correctement sp´ecifi´e
et que la taille d’´echantillon est relativement importante. Pour la plupart des
applications sur donn´ees chronologiques, le FIML ou les 3SLS restent les esti-
mateurs syst´emiques pr´ef´er´es, du fait que l’h´et´erosc´edasticit´e sera largement
absente, alors que la corr´elation en s´erie largement r´epandue si le mod`ele est
mal sp´ecifi´e. Quoi qu’il en soit, lorsque la taille de l’´echantillon est importante
et que l’h´et´erosc´edasticit´e se manifeste fortement, comme c’est le cas avec de
nombreuses applications sur donn´ees en coupe transversale, il est fort prob-
able que l’estimateur H3SLS soit l’estimateur sysm´etique le plus appropri´e.
18.7 Mod` eles d’Equations Simultan´ ees Non Lin´ eaires 665
18.7 Mod
`
eles d’Equations Simultan
´
ees Non Lin
´
eaires
A ce stade de l’expos´e, nous avons tr`es peu parl´e des mod`eles d’´equations
simultan´ees non lin´eaires. Un mod`ele d’´equations simultan´ees peut ˆetre non
lin´eaire de trois mani`eres possibles. Pour la premi`ere, Y
t
peut d´ependre
de fonctions non li´enaires de quelques variables exog`enes ou pr´ed´etermin´ees.
Comme d’habitude, ce type de non lin´earit´e n’engendre pas de probl`eme et
peut ˆetre g´er´e de fa¸con simple en red´efinissant X
t
. Pour la deuxi`eme, cer-
tains param`etres peuvent agir de mani`ere non lin´eaire dans le mod`ele struc-
turel pour Y
t
, sans doute parce qu’ils sont soumis `a des contraintes non
lin´eaires. C’est le genre de non lin´earit´e que nous avons trait´e fr´equemment
avec l’estimation de mod`eles de r´egression non li´enaire, et elle ne cause pas
de probl`eme suppl´ementaire dans le contexte des mod`eles d’´equations simul-
tan´ees. Enfin, pour la troisi`eme, il peut exister des non lin´earit´es provoqu´ees
par les variables endog`enes. Ce type de non lin´earit´e ne pose pas non plus de
probl`eme s´erieux suppl´ementaire.
Le probl`eme avec les mod`eles qui sont non lin´eaires du fait des variables
endog`enes est que pour de tels mod`eles il n’existe aucun ´equivalent `a la forme
r´eduite non contrainte d’un mod`ele d’´equations simultan´ees lin´eaire. Il est
habituellement difficile voire impossible d’obtenir les variables endog`enes en
fonction de svariables exog`enes et des al´eas. Mˆeme lorsque cela est possible,
Y
t
d´ependra presque toujours de fa¸con non li´enaire `a la fois des exog`enes et
des al´eas. Soit, par exemple, le mod`ele simple `a deux ´equations
y
1
= αy
2
+X
1
β
1
+ u
1
y
2
= γ
1
y
1
+ γ
2
y
2
1
+X
2
β
2
+ u
2
,
(18.77)
o` u la notation reste conventionnelle et o` u l’indice t a ´et´e supprim´e pour ne
pas surcharger les expressions Si nous subsituons le membre de droite de la
premi`ere ´equation de (18.77) dans la seconde, nous obtenons
y
2
= γ
1

αy
2
+X
1
β
1
+ u
1

+ γ
2

αy
2
+X
1
β
1
+ u
1

2
+X
2
β
2
+ u
2
.
Puisque cette ´equation est une forme quadratique en y
2
, elle poss`edera
habituellement deux solutions. Selon les valeurs param´etriques et les valeurs
des X
i
et des u
i
, les deux solutions peuvent ˆetre r´eelles ou pas. Mˆeme s’il
existe une solution r´eelle, elle ne sera g´en´eralement pas lin´eaire en les variables
exog`enes. Par cons´equent, le simple usage des composantes de X
1
et de X
2
en tant qu’instruments ne sera pas optimal.
Cet exemple illustre la nature des probl`emes que l’on peut rencontrer
avec tout mod`ele d’´equations simultan´ees qui n’est pas lin´eaire en les variables
endog`enes. Nous sommes au moins confront´es `a un probl`eme de choix des in-
struments. Une approche, discut´ee dans la Section 7.6, consiste `a employer
des puissances et mˆeme des produits crois´es des des variables exog`enes en
666 Mod` eles d’Equations Simultan´ ees
tant qu’instruments, en mˆeme temps que les variables exog`enes elles-mˆemes.
Si la taille de l’´echantillon est suffisamment importante, cette approche est
judicieuse, mais dans de nombreux cas il sera difficile de d´eterminer le nom-
bre d’instruments `a employer, et mˆeme de savoir lesquels employer. L’ajout
d’instruments am´eliorera g´en´eralement l’efficacit´e asymptotique mais tendra
´egalement `a accroˆıtre le biais avec des ´echantillons finis. Plus s´erieusement,
il est fort possible d’estimer un mod`ele qui ne peut pas ˆetre r´esolu pour des
valeurs tout `a fait raisonables des variables exog`enes et des al´eas. Ainsi il
faudrait probablement ´eviter d’employer des mod`eles qui sont non lin´eaires
en les variables endog`enes, si cela est possible.
Il semble que le LIML ne soit pas une proc´edure viable pour l’estimation
de mod`eles d’´equations simultan´ees non li´enaires. La proc´edure LIML clas-
sique discut´ee dans la Section 18.5 est con¸cue exclusivement pour les mod`eles
lin´eaires. On peut imaginer obtenir des estimations LIML d’une ´equation
structurelle non lin´eaire en employant un programme pour le FIML non
lin´eaire appliqu´e `a un syst`eme constitu´e d’une seule ´equation structurelle et
de g − 1 ´equations lin´eaires sous forme r´eduite. Cela ne serait coh´erent que
si les ´equations sous forme r´eduite ´etaient en fait lin´eaires, ce qui ne sera
presque jamais le cas. Ainsi, pour l’estimation d’´equations isol´ees, les seules
proc´edures ad´equates sont celles bas´ees sur les variables instrumentales.
Nous avons discut´e de l’estimation de mod`eles non lin´eaires constitu´es
d’une seule ´equation par les m´ethodes IV dans la Section 7.6, et il reste seule-
ment quelques compl´ements `a livrer sur ce sujet. Supposons que l’´equation
structurelle qui nous int´eresse puisse s’´ecrire
y = x(δ) +u,
o` u δ est un vecteur compos´e de l param`etres, et le vecteur de fonctions non
lin´eaires x(δ) d´epend implicitement d’au moins une variable endog`ene et d’un
certain nombre de variables exog`enes et pr´ed´etermin´ees. Alors si W d´esigne
une matrice d’instruments de dimension n × m, nous avons vu que les esti-
mations IV peuvent ˆetre calcul´ees en minimisant la fonction crit`ere

y −x(δ)

P
W

y −x(δ)

. (18.78)
Les estimations qui en r´esultent sont souvent nomm´ees moindres carr´es non
lin´eaires en deux ´etapes ou estimations NL2SLS, si l’on se r´ef`ere `a la termi-
nologie d’Amemiya (1974), bien que ces estimations ne soient pas obtenues en
deux ´etapes. Nous avons vu ce d´etail dans la Section 7.6.
La fonction crit`ere (18.78) peut se d´eriver comme une proc´edure GMM
en d´ebutant par les conditions portant sur les moments
E

W

y −x(δ)

= 0
et en supposant que E(uu

) = σ
2
I. Cette hypoth`ese peut se r´ev´eler parfois
trop contraignante. Si elle ´etait correcte, la minimisation de (18.78) produirait
18.7 Mod` eles d’Equations Simultan´ ees Non Lin´ eaires 667
des estimations non efficaces et une estimation non convergentes de la matrice
de covariance des param`etres estim´es. Une hypoth`ese plus souple est que
E(uu

) = ∆, o` u ∆ est une matrice diagonale dont les ´elements diagonaux
sont inconnus (mais finis). Nous pouvons obtenir des estimations analogues
aux estimations H2SLS de la Section 17.3 `a l’aide d’une proc´edure en deux
´etapes. Dans la premi`ere ´etape, nous minimisons (18.78), de mani`ere `a obtenir
des estimations param´etriques convergentes mais non efficaces et des r´esidus
˜ u
t
, et nous utilisons ces derniers pour construire la matrice W

˜
∆W, o` u
˜
∆ a
comme ´el´ement type ˜ u
2
t
. Dans la seconde ´etape, nous minimisons la fonction
crit`ere

y −x(δ)

W

W

˜
∆W

−1
W

y −x(δ)

.
Comme d’habitude, nous pourrions abandonner l’hypoth`ese de diagonalit´e de
∆ et employer un estimateur HAC, si cela s’av´erait utile (voir les remarques
`a la fin de la section pr´ec´edente).
L’estimation syst´emique des mod`eles d’´equations simultan´ees non lin´e-
aires rel`eve typiquement d’une sorte de proc´edure IV (ou GMM) ou FIML.
Nous discuterons bri`evement de ces deux approches `a tour de rˆole. Supposons
que la i
i`eme
´equation du syst`eme puisse s’´ecrire pour toutes les observations
sous la forme
f
i
(Y, X, θ) = u
i
, (18.79)
o` u f
i
(·) est un vecteur de dimension n de fonctions non lin´eaires, u
i
est un
vecteur de dimension n d’al´eas, et o` u θ est un vecteur de dimension p de
param`etres qu’il s’agit d’estimer. En g´en´eral, toutes les variables endog`enes
et exog`enes et tous les param`etres peuvent apparaˆıtre dans n’importe quelle
´equation, compte tenu des contraintes quelconques que l’on peut vouloir leur
imposer pour identifier le syst`eme.
La premi`ere ´etape dans toute proc´edure IV consiste `a choisir les instru-
ments que l’on va utiliser. Si le mod`ele est non lin´eaire seulement en les
param`etres, la matrice des instruments optimaux est X. Cependant, comme
nous l’avons vu, il n’existe pas de moyen simple de choisir les instruments pour
les mod`eles qui sont non lin´eaires en une ou plusieurs variables endog`enes. La
th´eorie de la Section 17.4 peut s’appliquer, bien entendu, mais le r´esultat
qu’elle entraˆıne n’est pas d’un grand int´erˆet pratique. Il apparaˆıt que sous les
hypoth`eses habituelles sur les termes d’erreur, `a savoir leur homosc´edasticit´e
et leur ind´ependance en s´erie mais pas entre les ´equations, la matrice des
instruments W sera optimale si S(W) correspond `a l’union des sous-espaces
engendr´es par les colonnes de E(∂f
i
/∂θ). Ce r´esultat est du `a Amemiya
(1977). Il reste pertinent mais g´en´eralement, il n’est pas utile dans la pra-
tique. Pour l’instant, nous supposons simplement qu’une certaine matrice
d’instruments W de dimension n ×m est disponible, avec m ≥ p.
Une proc´edure IV non lin´eaire pour l’estimation syst´emique, compara-
ble dans l’esprit `a la proc´edure ´equation par ´equation des NL2SLS bas´ee sur
la minimisation de (18.78), fut propos´ee `a l’origine par Jorgenson et Laf-
font (1974) et fut nomm´ee moindres carr´es en trois ´etapes, ou NL3SLS.
668 Mod` eles d’Equations Simultan´ ees
L’appellation est quelque peu trompeuse, pour une raison identique `a celle
qui fait que le nom` u “NL2SLS” est ´egalement trompeuse. Par analogie avec
(18.60), la fonction crit`ere que nous voudrions r´eellement minimiser est
g
¸
i=1
g
¸
j=1
σ
ij
f
i

(Y, X, θ)P
W
f
j
(Y, X, θ). (18.80)
Quoi qu’il en soit, dans la pratique, les ´el´ements σ
ij
de l’inverse de la matrice
de covariance contemporaine Σ ne seront pas connus et il nous faudra les
estimer. Plusieurs possibilit´es s’offrent `a nous. On peut tout d’abord employer
les NL2SLS pour chaque ´equation s´epar´ement. Cela sera traditionnellement
plus ais´e, mais pas toujours possible si certains param`etres ne sont identifi´es
que grˆace `a des contraintes d’´equations crois´ees. Une autre approche qui
fonctionnera dans ce cas consiste `a minimiser la fonction crit`ere
g
¸
i=1
g
¸
j=1
f
i

(Y, X, θ)P
W
f
j
(Y, X, θ), (18.81)
pour laquelle la matrice de covariance Σ est remplac´ee par la matrice identit´e.
La minimisation de (18.81) conduira `a un estimateur qui sera `a l’´evidence un
estimateur GMM valable, et par cons´equent convergent mˆeme s’il n’est pas
efficace. Quel que soit l’estimateur non efficace utilis´e `a l’´etape initiale, il pro-
duira g vecteur de r´esidus ´ u
i
`a partir desquels on peut estimer de fa¸con con-
vergente la matrice Σ, exactement de la mˆeme mani`ere que pour les mod`eles
lin´eaires; voir (18.62). On obtient alors la fonction crit`ere
g
¸
i=1
g
¸
j=1
´ σ
ij
f
i

(Y, X, θ)P
W
f
j
(Y, X, θ), (18.82)
en rempla¸cant les σ
ij
inconnus dans (18.80) par les ´el´ements ´ σ
ij
de l’inverse de
l’estimation de Σ. Cette fonction crit`ere peut v´eritablement ˆetre minimis´ee
dans la pratique.
Comme d’habitude, la valeur minimis´ee de la fonction crit`ere (18.82)
fournit une statistique de test pour les contraintes de suridentification; voir
les Sections 7.8 et 17.6. Si le mod`ele et les instruments sont correctement
sp´ecifi´es, cette statistique de test sera asymptotiquement distribu´ee suivant
une χ
2
(m− p); souvenons-nous que les instruments sont au nombre de m et
que les param`etres libres sont au nombre de p. De plus, si le mod`ele est estim´e
sans contrainte puis sous r contraintes distinctes, la diff´erence entre les deux
valeurs des fonctions crit`eres aura une distributions asymptotique du χ
2
(r).
Si cette derni`ere statistique de test doit ˆetre utilis´ee, il est fondamental que la
mˆeme estimation de Σ soit emply´ee dans les deux estimations, car autrement
la statistique de test peut mˆeme ne pas ˆetre positive avec des ´echantillons
finis.
18.7 Mod` eles d’Equations Simultan´ ees Non Lin´ eaires 669
Lorsdque la taille de l’´echantillon est importante, il est peut ˆetre plus
facile d’obtenir des estimations efficaces en une ´etape plutˆot que de minimiser
(18.82). Supposons que l’on note
´
θ les estimations efficaces initiales, qui peu-
vent ˆetre soit des estimations NL2SLS soit des estimations syst´emiques bas´ees
sur (18.81). Un d´eveloppement en s´erie de Taylor de f
i
(θ) ≡ f
i
(Y, X, θ) au-
tour de
´
θ est
f
i
(
´
θ) +F
i
(
´
θ)(θ −
´
θ),
o` u F
i
est une matrice de dimension n × p des d´eriv´ees de f
i
(θ) par rap-
port aux p ´el´ements de θ. Si quelques param`etres n’apparaissent pas dans
l’´equation i, les colonnes correspondantes de F
i
seront identiquement nulles.
Les estimations en une ´etape, qui seront asymptotiquement ´equvalentes aux
estimations NL3SLS, sont simplement
`
θ =
´
θ −
´
t, o` u
´
t d´esigne le vecteur des
estimations 3SLS lin´eaires
´
t =

´ σ
ij
´
F
i

P
W
´
F
j

−1
¸
g
¸
j=1
´ σ
ij
´
F
i

P
W
´
f
j
¸
. (18.83)
Cette expression doit ˆetre compar´ee `a (18.64).
Il est clair que l’on peut g´en´eraliser les NL3SLS pour g´erer une h´et´erosc´e-
dasticit´e de forme inconnue, une corr´elation s´erielle de forme inconnue, ou les
deux simultan´ement. Par exemple, afin de tenir compte d’une h´et´erosc´edasti-
cit´e, nous remplacerions simplement la matrice P
W
dans (18.82) et (18.83)
par la matrice
W

W

´

ij
W

−1
W

,
o` u, par analmogie avec (18.76),
´

ij
= diag(´ u
ti
´ u
tj
) pour i, j = 1, . . . , g. Les
estimations initiales
´
θ peuvent ne pas tenir compte de l’h´et´erosc´edasticit´e.
pour une discussion plus d´etaill´ee sur cette sorte de proc´edure, et de NL3SLS
en g´en´eral, consulter Gallant (1987, Chapitre 6).
L’autre m´ethode d’estimation syst´emique qui est largement employ´ee est
celle du FIML non lin´eaire. Pour l’examiner, il est judicieux d’´ecrire le syst`eme
d’´equations `a estimer non pas sous la forme (18.79) mais plutˆot sous la forme
h
t
(Y
t
, X
t
, θ) = U
t
, U
t
∼ NID(0, Σ), (18.84)
o` u θ demeure un vecteur de p param`etres, h
t
un vecteur de dimension 1 ×g
de fonctions non lin´eaires, et U
t
un vecteur de dimension 1 × g de termes
d’erreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit d’imaginer que le i
i`eme
´el´ement de h
t
(·) est identique au t
i`eme
´el´ement
de f
i
(·).
La densit´e du vecteur U
t
est
(2π)
−g/2
|Σ|
−1/2
exp


1

2
U
t
Σ
−1
U
t

.
670 Mod` eles d’Equations Simultan´ ees
Pour se ramener `a la densit´e de Y
t
, nous devons remplacer U
t
par h
t
(Y
t
, X
t
, θ)
et multiplier par le terme jacobien | det J
t
|, o` u J
t
≡ ∂h
t
(θ)/∂Y
t
, c’est-`a-dire
la matrice de dimension g ×g des d´eriv´ees de h
t
par rapport aux ´el´ements de
Y
t
. La r´esultat est
(2π)
−g/2
| det J
t
||Σ|
−1/2
exp


1

2
h
t
(Y
t
, X
t
, θ)Σ
−1
h
t

(Y
t
, X
t
, θ)

.
Il s’ensuit imm´ediatement que la fonction de logvraisemblance est
(θ, Σ) = −
ng
−−
2
log(2π) +
n
¸
t=1
log | det J
t
| −
n

2
log |Σ|

1

2
n
¸
t=1
h
t
(Y
t
, X
t
, θ)Σ
−1
h
t

(Y
t
, X
t
, θ).
(18.85)
Cette expression peut ˆetre maximis´ee par rapport `a Σ et le r´esultat inject´e
pour mener `a l fonction de logvraisemblance concentr´ee

c
(θ) = −
ng
−−
2

log(2π) + 1

+
n
¸
t=1
log | det J
t
|

n

2
log

1

n
n
¸
t=1
h
t

(Y
t
, X
t
, θ)h
t
(Y
t
, X
t
, θ)

.
(18.86)
De toute ´evidence, il existe une forte ressemblance entre (18.85) et (18.86) et
leurs contreparties (18.28) et (18.30) pour le cas lin´eaire. La diff´erence ma-
jeure est que le terme jacobien dans (18.85) et (18.86) correspond `a la somme
des logarithmes de n d´eterminants diff´erents. Ainsi `a chaque ´evaluation de ces
fonctions de logvraisemblance, il faut calculer n d´eterminants diff´erents. Cela
peut s’av´erer coˆ uteux lorsque g ou n est important. Bien sˆ ur, le probl`eme
disparaˆıt si le mod`ele est lin´eaire n les variables endog`enes, puisqu’alors J
t
sera constant.
Une difficult´e avec le FIML non lin´eaire est que l’on ne sait pas trop
bien comment tester les contraintes de suridentification, ni mˆeme `a quoi elles
peuvent ressembler dans de nombreux cas. Dans le contexte d’un mod`ele
d’´equations simultan´ees lin´eaire, toute forme structurelle impose des con-
traintes non lin´eaires `a la forme r´eduite non contrainte, et un test LR permet
de tester simplement ces contraintes. Cependant, dans le cas d’un mod`ele
d’´equations simultan´ees non lin´eaire en les variables endog`enes, nous ne pou-
vons en g´en´eral pas mˆeme ´ecrire la FRL, let alone estimate it. On peut
toujours tester n’importe quelle contrainte `a l’aide des tests classiques, qu’il
s’agisse de contraintes d’´equations crois´ees ou de contraintes portant sur une
´equation isol´ee. Mais il sera en g´en´eral impossible de tester toutes les con-
traintes de suridentification en mˆeme temps. Il existe un probl`eme connexe
18.8 Conclusion 671
avec l’estimation NL3SLS, bien sˆ ur. Bien que la valeur minimis´ee de la fonc-
tion crit`ere (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associ´ees `a une matrice d’instruments
particuli`ere W, qui peut parfaitement ne pas procurer une approximation sat-
isfaisante `a la v´eritable forme r´eduite non contrainte, qui est inconnue.
La relation entre le FIML non lin´eaire et les NL3SLS n’est pas de na-
ture comparable `a celle qui existe entre le FIML lin´eaire et les 3SLS. Les
deux m´ethodes non lin´eaires seront asymptotiquement ´equivalentes lorsque le
mod`ele est lin´eaire en les variables endog`enes. Toutefois, dans la majorit´e des
situations, elles ne le seront pas. Dans l’´eventualit´e d’une non ´equivalence,
le FIML non lin´eaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacit´e se paye. Lorsque le FIML non lin´eaire et les
NL3SLS ne sont pas ´equivalents, le premier peut ˆetre non convergent si les
al´eas sont en r´ealit´e distribu´es autrement que suivant la loi normale multi-
vari´ee. Au contraire, comme nous l’avons vu, l’hypoth`ese de normalit´e n’est
pas n´ecessaire pour assurer la convergence du FIML lin´eaire. Pour plus de
d´etails sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non lin´eaire que le notre.
Il existe une litt´erature v´eritablement vaste sur le calcul des estuiimations
par le FIML non lin´eaire. Comme d’habitude, on peut employer de nom-
breux algorithmes diff´erents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentr´ee, dont certains exploitent des car-
act´eristiques sp´eciales des classes particuli`eres de mod`eles. Le r´ef´erences clas-
siques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).
18.8 Conclusion
Le fait que nous traitions un th`eme aussi important que les mod`eles d’´equa-
tions simultan´ees aussi tard peut heurter certains lecteurs. Nous avons bien
´evidemment abord´e certains aspects du probl`eme dans le Chapitre 7, en tant
que contribution `a notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
compr´ehension claire de l’estimation et des tests de sp´ecification par maximum
de vraisemblance et de la m´ethode des moments g´en´eralis´ee. Cela nous a alors
permis de d´evelopper toutes les m´ethodes d’estimation et de test discut´ees
dans ce chapitre en tant qu’applications imm´ediates du ML et de la GMM.
Si l’on admet cela, il est beaucoup plus facile de comprendre les mod`eles
d’´equations simultan´ees et les techniques statistiques qui leur sont associ´ees.
Termes et Concepts
672 Mod` eles d’Equations Simultan´ ees
causalit´e au sens de Granger
condition d’ordre pour l’identification
condition de rang pour l’identification
contraintes d’´equation crois´ees
contraintes de suridentification
doubles moindres carr´es non lin´eaires
(NL2SLS)
estimateur de classe K
estimateur du ratio de moindre
variance
estimateur H3SLS
exog´en´eit´e
exog´en´eit´e faible
exog´en´eit´e stricte
FIML non lin´eaire
fonction de logvraisemblance partielle
forme r´eduite contrainte (FRC)
forme r´eduite libre (FRL)
maximum de vraisemblance en
information compl`ete (FIML)
maximum de vraisemblance en
information limit´ee (LIML)
mod`eles d’´equations simultan´ees
mod`eles d’´equations simultan´ees
lin´eaire
mod`eles d’´equations simultan´ees non
lin´eaire
non causalit´e au sens de Granger
param`etres de nuisance
param`etre d’int´erˆet
super exog´en´eit´e
syst`eme r´ecursif
triples moindres carr´es (3SLS)
triples moindres carr´es non lin´eaires
(NL3SLS)
variable endog`ene
variable exclue
variable exog`ene
variable incluse
variable pr´ed´etermin´ee

You're Reading a Free Preview

Télécharger
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->