Vous êtes sur la page 1sur 51

Chapitre 18

Mod`eles dEquations Simultanees


18.1 Introduction
Pendant de nombreuses annees, le mod`eles dequations simultanees lineaire a
ete le centre dinteret de la theorie econometrique. Nous avons aborde un cas
particulier de ce mod`ele, un mod`ele doffre-demande `a deux equations, dans la
Section 7.3. Lobjet de cette discussion etait simplement de monter que la simultaneite implique une correlation entre les regresseurs et les termes derreur
de chaque equation de syst`eme, rendant les OLS non convergents et justifiant lusage des variables instrumentales. La non convergence des estimateurs
par moindres carres des equations individuelles dans les mod`eles dequations
simultanees nest pourtant pas le seul resultat econometrique pour ce genre
de mod`ele. Dans ce chapitre, nou discutons donc des mod`eles dequations
simultanees en detail.
La grande majorite du travail recent sur les mod`eles dequations simultanees sest developpe sous la bienveillance de la Commisssion Cowles; Koopmans (1950) et Hood et Koopmans (1953) sont des references connues. Ce
travail a fortement influence la direction suivie par la theorie econometrique
depuis de nombreuses annees. Pour une histoire sur le developpement recent
de leconometrie, consulter Morgan (1990). Parce que la litterature consacree
aux mod`eles dequations simultanees est vaste, nous ne traiterons quune
petite partie de celle-ci. Il existe un grand nombre detudes sur ce champ
theorique, et de nombreux ouvrages qui se situent `a des niveaux differents.
Deux articles de synth`ese interssants sont ceux de Hausman (1983), qui traite
de la litterature traditionnelle, et Phillips (1983), qui traite du champ plus
specifique de la theorie en petit echantillon dans les mod`eles dequations simultanees, un sujet que nous naborderons pas du tout.
La caracteristique essentielle des mod`eles dequations simultanees est
que deux ou plusieurs variables endog`enes sont determinees simultanement
par le mod`ele, comme des fonctions de variables exog`enes, de variables
predeterminees, et daleas. A ce stade, nous en avons dit tr`es peu sur ce
que nous entendons par variables exog`enes et predeterminees. Puisque le role
de telles variables est essentiel dans les mod`eles dequations simutlanees, il
est temps de corriger le defaut. Dans la Section 18.2, nous discutons par
consequent en detail du concept important de lexogeneite.
622

18.1 Introduction

623

La majeure partie du chapitre sra consacree au mod`ele dequations simultanees. Supposons quil y ait g variables endog`enes, et par consequent g
equations, et k variables exog`enes ou predeterminees. Alors le mod`ele peut
etre ecrit sous forme matricielle comme
Y = XB + U.

(18.01)

Ici, Y designe une matrice de dimension n g de variables endog`enes, X


designe une matrice de dimension n k de variables exog`enes ou predeterminees, designe une matrice de dimension g g de coefficients, B designe
une matrice de dimension k g de coefficients, et U desigen une matrice de
dimension n g de termes derreur.
Il est immediatement clair que le mod`ele (18.01) comprend beaucoup trop
de param`etres `a estimer. Une observation type pour lequation l peut secrire
sous la forme
g
k
X
X
il Yti =
Bjl Xtj + utl .
i=1

j=1

La multiplication de tous les param`etres il et Bjl par nimporte quelle constante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aleas dans les observations.
Il est donc necessaire dimposer une sorte de nomrmalisation pour chaque
equation du mod`ele. Une normalisation evidente consiste `a poser ii = 1
pour tout i; chaque variable endog`ene, de y1 `a yg , serait alors associee `a un
coefficient unitaire dans une et une seule equation. Cependant, comme nous
lavons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
etre envisagees. Nous pourrions, par exemple, poser 1l = 1 pour tout l; le
coefficient associe `a la premi`ere variable endog`ene serait ainsi egal `a lunite
dans chaque equation.
Le mod`ele (18.01) na pas de sens si la matrice nest pas inversible,
car sinons il serait impossible de determiner Y de mani`ere unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par 1 pour obtenir
Y = XB 1 + U 1
= X + V.

(18.02)
(18.03)

Lexpression (18.02) est la forme reduite contrainte, ou FRC, et lexpression


(18.03) est la forme reduite libre, ou FRL. Les contraintes sont = B 1.
Notons que, meme dans le cas improbable o`
u les colonnes de U etaient
independantes, celles de V ne le seraient pas. Ainsi les diverses equations
de la forme reduite poss`edent preque s
urement des aleas correles.
Limposition des contraintes de normalisation est necessaire mais non
suffisante pour obtenir des estimations de et B. Le probl`eme est que, `a

624

`les dEquations Simultane


es
Mode

moins de lui imposer des contrantes, le mod`ele (18.01) a beaucoup trop de


param`etres inconnus. La matrice poss`ede g 2 g coefficients, du fait des g
conraintes de normalisation, alors que la matrice B en poss`ede gk. Il y a donc
g 2 + gk g coefficents structurels au total. Mais la matrice sous la forme
reduite libre ne poss`ede que gk coefficients. Il est `a levidence impossible de
determiner les g 2 + gk g coefficients structurels `a partir des gk coefficients
de la FRL. Il faudra imposer au moins g 2 g contraintes sur et/ou B afin
detre en mesure didentifier le mod`ele. Il existe une vaste litterature consacree `a lidentification dans les mod`eles dequations simultanees, qui aborde

ne
ite
et Causalite

18.2 Exoge

625

predeterminees. De plus, le concept de predetermination se rev`ele etre plus


delicat que ce que lon imagine, puisque la predetermination nest pas invariante `a la parametrisation du mod`ele. Ainsi il est calir que nous avons besoin
dun concept plus general que celui de la predetermination.
Il est pratique de debuter par des definitions formelles du concept de
predetermination et du concept etraitement relie de lexogeneite faible. Ce
faisant, nous suivons lexpose classique de ces th`emes, tel quil apparat chez
Engle, Hendry, et Richard (1983). Les lecteurs devraient etre prevenus que
cet article, bien quetant une reference classique, nest pas du tout evident `a
lire. Notre discussion sera grandement simplifiee par rapport `a la leur, et se
fondera sur un contexte plus general, puisque ces auteurs se concentrent sur
les mod`eles parametriques pleinement specifies et estimables par maximum
de vraisemblance. Nous nous refererons, malgre tout, `a un de leurs exemples
pour une illustration concr`ete dun nombre de points.
Soit Yt le vecteur de dimension 1 g lobservation t dun ensemble de
variables que nous voulons modeliser dans un processus simultane, et soit
Xt le vecteur de dimension 1 k lobservation t dun ensemble de variables
explicatives, dont toutes ou certaines peuvent etre des Yt retardes. Nous
pouvons ecrire un mod`ele dequations simultanees, en general nobn lineaire,
sous la forme
ht (Yt , Xt , ) = Ut ,
(18.04)
o`
u ht est un vecteur de dimension 1 g de fonctions, comparable `a la fonction
de regression dun mod`ele univarie, o`
u est un vecteur de param`etres de
dimensionp, et o`
u Ut est un vecteur de dimension 1 g daleas. Le mod`ele
lineaire (18.01) peut etre considere comme un cas particulier de (18.04) si
nous le mettons sous la forme
Yt = Xt B + Ut
et si nous faisons en sorte que soit compose de tous les elements de
et B quil faut estimer. Ici Xt et Yt sont les t i`eme lignes des matrices X
et Y. On pourrait baser un ensemble de conditions portant sur les moments
(conditionnels) sur (18.04), en ecrivant

E ht (Yt , Xt , ) = 0,
o`
u lesperance pourrait sinterpreter comme etant conditionnelle `a un ensemble
dinformation approprie.
Definition 18.1.
Les variables explicatives Xt sont predeterminees dans lequation i du
mod`ele (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,
Xt k ui,t+s

pour tout s 0.

`les dEquations Simultane


es
Mode

626

Le symbole k est ici employe pour exprimer lindependance statistique. La


definition est valable quel que soit le contexte, et en particulier le contexte des
series temporelles pour lequel il existe un ordre naturel. Le prochain concept
ne necessite pas un tel ordonnancement.
Definition 18.2.
Les variables explicatives Xt sont strictement exog`enes dans lequation
i du mod`ele (18.04) si, pour tout t = 1, . . . , n,
Xt k Us

pour tout s = 1, . . . , n.

Si (18.04) represente une forme structurelle, alors autant la predetermination que lexogeneite stricte nous autorise `a traiter cette forme comme une
caracterisation du processus generant Yt conditonnellement `a Xt . Ainsi
nous pouvons, par exemple, ecrire une fonction de log-vraisemblance basee
sur (18.04), que lon peut maximiser pour obtenir des estimations convergentes des param`etres ; voir la Section 18.4. Si lon pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
predetermination que lexogeneite stricte nous autorise `a employer les colonnes
de X comme instruments dans lestimation de par une sorte quelconque de
procedure IV, telle que les 2SLS, 3SLS ou la GMM. En reclamant cette propriete, nous supposons quil y a suffisamment dinstruments dans X pour
identifier tous les param`etres de .
Helas, le concept de lexogeneite stricte est beaucoup trop contraignant,
du moins pour les applications sur series temporeles. Dans ce contexte, un
tr`es petit nombre de variables sont strictement exog`enes, bien que beaucoup
soient predeterminees. Cependant, comme nous allons le montrer, une variable peut etre predeterminee ou non dans un meme mod`ele selon la mani`ere
de le parametrer. En plus de cela, la predetermination nest pas toujours
necessaire pour une estimation convergente. Ce concept est par consequent
tr`es peu satisfaisant.
Considerons le mod`ele simultane suivant, tire de Engle, Hendry, et
Richard (1983):
yt = xt + 1t

(18.05)

xt = 1 xt1 + 2 yt1 + 2t ,

(18.06)

o`
u les aleas sont normalement, identiquement, et independemment distribues
pour tout t, avec une matrice de covariance donnee par

11 12

.
12 22
Si 12 6= 0, xt est correle `a 1t et lestimation de (18.05) par OLS ne sera pas
convergente parce que xt nest pas predetermine dans (18.05).

ne
ite
et Causalite

18.2 Exoge

627

Considerons `a present lesperance de yt conditionnellement `a xt et `a tous


les yt et xt retardes. Nous avons
E(yt | xt , yt1 , xt1 ) = xt + E(1t | xt , yt1 , xt1 ).

(18.07)

Remarquons que 2t est defini par (18.06) comme une combinaison lineaire
des variables conditionnantes. Ainsi lesperance conditionnelle de 1t dans
(18.07) est
E(1t | 2t ) =

12
12
2t =
(x 1 xt1 2 yt1 ).
22
22 t

Nous pouvons par consequent ecrire


yt = bxt + c1 xt1 + c2 yt1 + vt ,
avec
b=+

12
,
22

c 1 = 1

12
,
22

c2 = 2

(18.08)
12
,
22

(18.09)

o`
u vt est independent de xt . Ainsi xt est predetermine dans (18.08), quelle
que soit la valeur de 12 , bien quil ne soit pas predetermine dans (18.05)
lorsque 12 6= 0.
Nous retournerons `a ce mod`ele plus tard. Pendant ce temps, progressons
vers un concept plus approprie que la predetermination dans le contexte du
mod`ele simultane. Parce que nous voulons savoir si les variables explicatives
Xt sont determinees simultanement aux Yt nous aurons besoin de travailler
avec des DGP qui gen`erent `a la fois Yt et Xt . Comme dhabitude, nous
pouvons representer un DGP par une densite de probabilite, ou mieux par
son logarithme, que lon peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de lobservation t est
de la forme
`t (Yt , Xt | t ).
(18.10)
Cette expression est le logarithme de la densite jointe de Yt et Xt conditionnellement `a lensemble dinformation t . Ce dernier est compose de toutes
les observations sur Yt et Xt , de la premi`ere `a la (t 1)th .
Lexpression (18.10) peut etre decomposee en deux contributions, lune
correspondant au logarithme de la densite de Yt cnditionnellement `a Xt et
t , et la seconde correspondant au logarithme de la densite de Xt conditionnellement `a t :
`t (Yt , Xt | t ) = `Yt (Yt | Xt , t ) + `X
t (Xt | t ),

(18.11)

avec une notation evidente. A ce stade, nous souhaitons pouvoir faire abstraction de la seconde partie des contributions dans (18.11), puisquelle ne
concerne que les variables explicatives.

628

`les dEquations Simultane


es
Mode

Sous quelles conditions pouvons-nous faire abstraction de la seconde contribution? Pour repondre `a cette question, considerons tout dabord un
mod`ele, M, compose de DGP representes par des ensembles de contributions de la forme (18.11). Puis, definissons une application definissante des
param`etres: M Rp qui associe un vecteur de param`etres `a p composantes () `a chaque M. Le vecteur de param`etres contient
les param`etres dinteret, cest-`a-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir dautres param`etres, appeles, param`etres
perturbateurs, que nous ne souhaitons pas estimer.
Definition 18.3.
Les variables expliatives Xt sont faiblement exog`enes pour le mod`ele
parametrique (M, ) si
(i) il existe un sous-mod`ele M X qui contient les DGP pour les variables explicatives Xt seulement;
(ii) il existe un sous-mod`ele conditionnel M Y qui contient les DGP
pour les variables endog`enes Yt conditionnellement aux variables
explicatives Xt ;
(iii) le mod`ele complet M comprend tous les DGP joints (Y, X ), o`
u
X
X
Y
est un element arbitraire de M et o`
u est un element
Y
arbitraire de M ; et
(iv) il existe une application definissante des param`etres Y : M Y
telle que, pour tout (Y, X ) M, () = Y (Y ).
Cette definition necessite quelques mots dexplication. Les DGP du sousmod`ele M X sont caracterises par des serise des contributions telles que `X
t
dans (18.11), alors que ceux de M Y sont caracterises par des contributions
telles que `Yt dans cette equation. Ainsi les contributions qui caracterisent
les DGP des deux sous-mod`eles sont tels que, pour lobservation t, la densite
est conditionnelle `a tous les t . Cela signifie en particulier que le processus
qui gen`ere les Xt peut tout `a fait dependre des Yt retardes. La puissance
de point (iii) de la definition est que le mod`ele complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons delements de M X et M Y possibles. Le point (iv)
indique que les param`etres du mod`ele ne dependent que du DGP conditionnel
qui gen`ere les Yt conditionnellement aux Xt . Autrement dit, les param`etres
associes au DGP (Y , X ) ne dependent que de Y . Si on remplace X par un
autre DGP pour les memes variables explicatives, disons X, les param`etres
ne sont pas modifies.
Engle, Hendry, et Richard pretendent que lexogeneite faible au sens de la
definiiton precedente est precisement cedont nous avons besoin pour estimer
et realiser des inferences sur les param`etres without sans tenir compte du
sous-mod`ele M X . Afin destimer les mod`eles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-mod`ele

ne
ite
et Causalite

18.2 Exoge

629

M Y, peut dependre de . La maximisation de la fonction de log-vraisemblance


dans sa totalite est donc equivalente `a la maximisation de la fonction de logvraisemblance partielle
`Y (Y n, X n ; )

n
X

`Yt (Yt | Xt , t ; )

t=1

par rapport `a . De la meme facon, en ce qui concerne linference, le gradient


et la matrice Hessienne de la fonction de log-vraisemblance compl`ete ` par
rapport `a sont identiques `a ceux de la fonction de log-vraisemblance partielle
`Y .
Voyons comment sapplique la Definition 18.3 au mod`ele defini par (18.05)
et (18.06). A levidence, (18.06) correspond au sous-mod`ele M X et (18.05)
correspond au sous-mod`ele M Y. Notons que (18.06) fait usage des valeurs
retardees de yt . Remarquons que si les param`etres 1 et 2 etaient definis
par lapplication definissante des param`etres, lexogeneite faible serait sans
pertinence, puisque les i apparaissent seulement dans le sous-mod`ele M X.
Pour eviter cette difficulte apparente, nous supposerons que lapplication
definissante des param`etres ne definit que le param`etre . Ainsi, dans ce
cas, nous mettons les param`etres i et les elements de la matrice de covariance sur un pied degalite, en tant que param`etres perturbateurs. Le seul
param`etre dinteret est .
Un DGP du sous-mod`ele M X peut maintenant etre specifie en donnant les
valeurs des param`etres perturbateurs i et la densite marginale des aleas 2t ,
qui dependra de la variance non conditionnelle 22 mais pas de 11 ou de
12 . Pour une DGP dans M Y, il est necessaire de specifier la valeur de , le
param`etre qui nous interesse, et la densite de 1t conditionnellement `a 2t ,
qui impliquera 11 et 12 . A ce stade, les conditions (i), (ii), et (iv) de la
Definition 18.3 sont satisfaites. La variable xt est donc faiblement exog`ene
pour le mod`ele donne par (18.05), (18.06) et le param`etre d`es que la condition (iii) est satisfaite, ce qui implique que nous soyons capables dassocier
deux DGP, quels quils soient, correspondant chacun `a un sous-mod`ele. Mais
2
cela nest pas possible en general, parce quil faut que 11 22 12
afin que
la matrice de covariance de la distribution jointe de 1t et 2t soit semi-definie
positive. Cette inegalite ne sera satisfaite automatiquement que si nous contraignons le mod`ele global de sorte que 12 = 0, ce qui rend xt faiblement
exog`ene.
Nus voyons donc, dans ce cas, que la predetermination de xt se confond avec son exogeneite faible. Quadvient-il si nous examinons le mod`ele
donne par (18.08) et (18.06)? Souvenons-nous que xt est predetermine dans
(18.08) de mani`ere tout `a fait generale. En realite, il sera egalement faiblement
exog`ene en general si nous modifions lapplication definissante des param`etres
(mais pas le mod`ele M sous-jacent) afin quelle decrive le param`etre b au lieu
de . Remarquons que meme si nous nous interessons aux param`etres c1 , c2 ,

`les dEquations Simultane


es
Mode

630

et `a la variance des aleas vt dans (18.08)autant qu`a b, ne peut pas etre


recompose `a partir de ces param`etres sans 12 . Lexogeneite faible provient
du fait que, par construction, vt est non correle `a 2t .
Lavantage de lexogeneite faible par rapport `a la predetermination dans
ce contexte est que sa definition fait reference `a une application definissante
des param`etres particuli`ere. cela signifie que nous pouvons dire que xt est
faiblement exog`ene pour ou pas, selon le cas, et quelle est toujours faiblement exog`ene pour b. A linverse, la predetermination est definie relativement `a un equation, telle que (18.05) ou (18.08), plutot qu`a une application
definissante des param`etres.
Le concept de causalite au sens de Granger est egalement un concept qui
peut etre important pour celui qui desire travailler conditionnellement `a un
ensemble de variables explicatives. Comme son nom le sugg`ere, ce concept
a ete developpe par Granger (1969). Dautres definitions de la causalite ont
ete proposees, en particulier par Sims (1972). Les definitions de la causalite
au sens de Granger ou de Sims sont souvent equivalentes, mais pas toujours;
consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupart
des usages, il semble que la causalite au sens de Granger, ou plutot son oppose,
la non causalite au sens de Granger, soit le concept le plus utile.
Nous donnons `a present une definition de la non causalite au sens de
Granger. Tout comme la definition de lexogeneite faible, elle est relative au
contexte des mod`eles M qui contiennent les DGP qui gen`erent deux ensembles de variables Yt et Xt . Contrairement `a celle-ci, elle ne fait reference
a aucune application definissante des param`etres, et nop`ere pas de distinc`
tion entre les variables endog`enes Yt et les variables explicatives Xt . Dans la
definition, Y t1 et X t1 designent les lignes des matrices Y et X, respectivement, anterieures `a la t th. Ainsi t est compose de Y t1 et X t1.
Definition 18.4.
Les variables Y t1 ne causent pas au sens de Granger les variables Xt
dans un mod`ele M comprenant les DGP caracterises par les contributions (18.11) si et seulement si
t1
X
).
`X
t (Xt | t ) = `t (Xt | X

Cela signifie que Y t1 ne cause pas au sens de Granger Xt si la distribution de Xt conditionnellement au passe de Xt et Yt est la meme
que celle qui est conditionnelle au passe de Xt .
Un moyen pratique dexprimer la non causalite au sens de Granger consiste `a
dire que le passe de Yt ne contient aucune information sur Xt qui ne soit dej`a
contenue dans le passe de Xt . Bien que cela ne soit pas strictement exact,
il est frequent de parler de causalite au sens de Granger plutot que de non
causalite au sens de Granger. Cette pratique nentrane en general aucune
ambiguite.

ne
ite
et Causalite

18.2 Exoge

631

Il est evident `a partir de (18.06) que, dans le mod`ele donne par cette
equation et par (18.05), yt cause au sens de Granger xt , `a moins que 2 = 0.
Ainsi, meme si 12 = 0, ce qui signifie que xt est faiblement exog`ene pour
le param`etre dans (18.05), le processus generateur de xt depend du passe
de la variable endog`ene yt . par ailleurs, si 2 = 0 mais que 12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exog`ene
pour . Ainsi les deux idees de faible exogeneite et de non causalite au sens de
Granger sont distinctes: aucune nimplique lautre et aucune nest impliquee
par lautre.
Comme nous lavons vu, la presence de la causalite au sens de Granger ne
nous empeche nullement destimer efficacement et de realiser des inferences
sur ce param`etre sans avoir recours au processus qui gen`ere xt si xt est faiblement exog`ene pour . Inversement, une absence dexogeneite faible ne nous
empeche nullement de faire des previsions efficaces de yt conditionnellement
a xt si yt ne cause pas xt au sens de Granger. Plus precisement, supposons
`
que nous etablissions une equation danticipation de xt basee sur sont passe
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que
E(xt | xt1 ) = (1 + 2 )xt1 .

(18.12)

On anticiperait alors xt en termes de la valeur retardee xt1 et dune estimation du param`etre dautoregression 1 + 2 , obtenu, sans doute, par une
regression de xt sur sa propre valeur retardee dune periode. Si par la suite
nous souhaitons anticiper yt conditionnellement `a notre prevision de xt , nous
developperions une equation de prevision de yt en fonction de celle de xt et
du passe des deux variables. De (18.08),
E(yt | xt , t ) = bxt + c1 xt1 + c2 yt1 ,

(18.13)

o`
u b, c1 , et c2 sont definis par (18.09). Si maintenant nous remplacons xt dans
(18.13) par son anticipation (18.12), nous obtenons une prevision
b(1 + 2 )xt1 + c1 xt1 + c2 yt1 .

(18.14)

On deduit immediatement de (18.05) et (18.06) que


E(yt | t ) = 1 xt1 + 2 yt1 .
Par consequent, si (18.14) doit procurer une anticipation sans biais, il est
necessaire que
b(1 + 2 ) + c1 = 1 et c2 = 2 .
A laide des definitions (18.09), nous pouvons voir que ces egalites sont verifiees
si 2 = 0 ou si b = 0. La premi`ere condition est precisdement celle de la non
causalite au sens de Granger. La seconde corespond `a un cas particulier o`
u

`les dEquations Simultane


es
Mode

632

xt ne contient aucune information sur yt qui ne soit dej`a contenue dans t ,


et elle est moins interessante dabns le conteste actuel.
La conclusion en general est que lorsque nous portons notre attention sur
la prevision, nous pouvons anticiper les valeurs des variables Yt conditionnellement aux anticipations sur les variables Xt si Y t1 ne cause pas Xt au sens
de Granger. Dautre part, si nous portons notre attention surlestimation et
linference pour certains param`etres, nous pouvons conditionner par rapport
a Xt si ces variables sont faiblement exog`enes pour les param`etres dans le con`
texte du mod`ele pour lequel ils sont definis. Il est interessant de combiner les
deux idees pour definir les circonstances pour lesquelles toutes des activites
peuvent etre entreprises avec succ`es conditionnellement `a Xt . Le concept
approprie est celui de lexogeneite forte, que nous definissons `a present.
Definition 18.5.
Les variables explicatives Xt sont fortement exog`enes pour le mod`ele
parametrise (M, ) comprenant les DGP qui gen`erent `a la fois les
variables endog`enes Yt et les Xt si elles sotn faiblement exog`enes et si
Y t1 ne cause pas Xt au sens de Granger.
Ceci compl`ete notre discussion sur la causalite et sur lexogeneite. Pour
une discussion encore plus compl`ete, nous orientons les lecteurs vers larticle
de Engle-Hendry-Richard. Au del`a de lintroduction des concepts de faible
et de forte exogeneite, cet raticle annonce un autre concept, appele super
exogeneite. Ce concept est importan tpour lanalyse politique, mais pas pour
lestimation ou linference, et nest donc pas dans notre priorite immediate.

`les Simultane
s
18.3 LIdentification dans les Mode
Le probl`eme de lidentification dans les mod`eles dequations simultanees est,
en principe, comparable `a ce dont nous avons discute dans le contexte general
des mod`eles paraetrises. si pour un mod`ele M donne, il est possible de definir
une application definissante des param`etres, alors les param`etres du mod`eles
sont identifies, dans le sens o`
u un seul et unique vecteur de param`etres est
associe `a chaque DGP dans M. Cependant, meme si une telle application
existe, les donnees doivent satisfaire certaines conditions pour que le mod`ele
soit identifie par les donnees, et le DGP doit en satisfaire dautres pour que
le mod`ele soit identifie asymptotiquement. Dans le Chapitre 5, nous avons
defini et discute en detail du concept didentification asymptotique, et nous
lavons compare au conept didentification par un ensemble dobservations
particulier. Dans le cadre des mod`eles dequations simultanees, cest bien
s
ur le premier qui nous interesse. Toutes les methodes destimation que nous
avons etudiees se fondent sur la theorie asymptotique, et on ne peut pas
esperer realiser des estimations convergentes si les param`etres ne sont pas
identifies asymptotiquemen.

`les Simultane
s
18.3 LIdentification dans les Mode

633

Dans cette section, 6ous traiterons de lidentification asymptotique dune


mod`ele dequations simultanees par lestimateur des doubles moindres carres,
que 6ous avons introduit dans la Section 7.5. Cela peut paratre un sujet
limite, et dans un certains sens, cest un sujet limite. Cependant, cest un
probl`eme qui a donne naissance `a une litterature tr`es vaste, et que 6ous
ne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).
Il existe des mod`eles qui ne sont pas identifies par lestimateur des 2SLS
mais qui le sont par des dautres, tels que lestimateur FIML, et 6ous en
parlerons bri`evement. Il nest pas tr`es facile detendre la theorie que nous
presentons dans le contexte des mod`eles non lineaires, contexte pour lequel il
est habituellement recommande de se recommander de se referer `a la theorie
asymptotique developpee dans la Section 5.2.
Nous debutons par le mod`ele dequations simultanees (18.01). Ce mod`ele
comprend les DGP qui gen`erent les echantillons do`
u sont issus le vecteur Yt
des g variables dependantes, conditionnellement `a un ensemble de variables
exog`enes et dependante retardees Xt . Puisque 6ous avons suppose que les
variables exog`enes Xt sont faiblement exog`enes, 6ous pouvons faire abstraction du processus qui les gen`ere. Afin de poursuivre notre discussion sur
lidentification, il fait poser quelques hypoth`eses sur les aleas Ut . Il faut bien
evidemment que E(Ut ) = 0, et il semble raisonnable de supposer quils sont
independants en serie et que E(Ut>Ut ) = t , o`
u t est une matrice definie
positive pour tout t. Si lon veut realiser de inferences `a partir de la matrice de
covariance des 2SLS, il est necessaire dimposer lhomoscedasticite des aleas,
cest-`
a-dire dimposer t = pour tout t.
Il est pratique de traiter lidentification des param`etres equation par
equation dans un mod`ele dequations simultanees, puisquil est parfaitement
envisageable didentifier les param`etres dune equation quelconque meme si
ceux des autre equations 6e le sont pas. Pour simplifier la 6otation, 6ous
ne consid`ererons, sans perte de generalite, que les parm`etres de la premi`ere
equation du syst`eme, cest-`a-dire les elements des premi`eres colonnes des matrices et B. Comme 6ous laons 6ote dans la Section 18.1, il faut imposer
des contraintes sur les elements de ces matrices pour les identifier. Il est
habituel de supposer que ces contraintes prennent toutes la forme de contraintes de nullite de certains param`etres. On dit quune variable est exclue dune equation lorsque le coefficient correspondant est contraint `a zero;
autrement, on parle de variable incluse dans lequation. Comme 6ous lavons
vu dans la Section 6.4, il est toujours possible de reparametriser les contraintes dans un contexte dequation unique pour leur donner la forme de
contraintes de nullite. Mais dans un contexte dequatiosn simultanees, de
telle reparametrisations nexistent en general quen labsence de contraintes
dequations croisees, cest-`a-dire des contraintes qui impliquent les param`etres
de plus dune equation du syst`eme. Sil existe des contraintes dequations
croisees, alors il faut abandonner le contexte des syst`emes lineaires, quoi que

`les dEquations Simultane


es
Mode

634

lon veuille tenter. Il nous faut egalement abandonner lestimateur 2SLS si


nous voulons imposer des contraintes dequations croisees.
Partitionnons la matrice Y comme suit:
Y = [y

Y1

Y2 ],

(18.15)

o`
u le vecteur colonne y est la variable endog`ene associee au coefficient unitaire dans a premi`ere equation du syst`eme, les colonnes de la matrice Y1 de
dimension n g1 sonbt les variables endog`enes non exclues de cette equatiobn
par des contraintes de nullite, et o`
u les colonnes de la matrice Y2 de dimension n (g g1 1) sont les variables endog`enes exclues. Pareillement, nous
partitionnons la matrice X des variables exog`enes:
X = [ X1

X2 ],

(18.16)

o`
u les colonnes de la matrice X1 de dimension nk1 sont les variables exog`enes
qui sont incluses dans lequation, et o`
u celles de la matrice X2 de dimension
n (k k1 ) sont les variables exog`enes exclues.
De facon coherente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients
et Bcomme suit:

1 02

B
1
12
.
(18.17)
= 1 12 et B =
0 B22
0 22
Les lignes de sont partitionnees comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionne les colonnes de et B pour quelles puissent separer
les premi`eres colonnes de chaque matrice des autres colonnes, puisque ce sont
les premi`eres colonnes qui contiennent les param`etres de la premi`ere equation
du syst`eme. On peut donc ecrire la premi`ere equation comme suit:
y = Y1 1 + X1 1 + u = Z + u,

(18.18)

o`
u la matrice Z de dimension n (g1 + k1 ) est [X1 Y1 ], et o`
u le vecteur
...
parametrique est [1 . 1 ].
Pour obtenir une estimation 2SLS de , nous devons utiliser des variables
instrumentales. Les colonnes de X1 , qui sont exog`enes, peuvent servir en tant
quinstruments, et celles de X2 constituent des instruments supplementaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi quune
condition necessaire `a lidentification de , que ce soit avec des echantillons
finis ou asymptotiquement, est que X poss`ede au moins autant de colonnes
que Z. Cela revient `a dire que X2 doit posseder au moins autant de colonnes
que Y1 , cest-`a-dire que k k1 g1 . Autrement dit, il faut q`eue le nombre des
variables exog`enes exclues soit au moins aussi grand que celui des variables
endog`enes incluses. Cette condition est connue sous le nom de condition
dordre pour lidentification. Cependant, comme nous le verrons, cest une
condition necessaire mais qui nest pas suffisante en general.1
1

Si on adment la possibilite de contraintes dequations croisees, cette condition


dordre nest plus du tout necessaire.

`les Simultane
s
18.3 LIdentification dans les Mode

635

Il nest pas evident que X fournisse toutes les variable s instrumentales requises. Pourquoi ne pas employer dautres variables endog`enes ou
predeterminees qui sont correlees aux variables endog`enes Y1 ? Meme dans
le cas o`
u la condition dordre est verifiee, ne pourrions-nous pas faire usage dautres instruments disponibles pour obtenir des estimations plus efficaces? Il sav`ere que lusage dinstruments supplementaires ne permet pas
dindentifier asymptotiquement des param`etres qui ne le sont pas. De plus,
lorsque les aleas u sont homoscedastiques et independants en serie, les instruments supplementaires napportent aucun gain defficacite.
Pour mettre en evidence ces resultats, nous considerons la forme reduite
contraintes (18.02) correspondant `a (18.01). Par un leger abus de notation,
nous poserons simplement
Y = X + V ,
(18.19)
en definissant par B 1. Il sera necessaire de partitionner conformement aux partitions (18.17) de et B:

1 11 12
=
.
(18.20)
2 21 22
La partition des lignes est ici la meme que celle de B dans (18.17), et la
partition des colonnes est identique `a celle de dans la meme equation,
ainsi qu`a celle de Y dans (18.15). Nous supposerons que les donnees ont ete
generees par le processus (18.19) avec = 0 = B0 01.
Considerons `a present lidentification du vecteur parametrique dans
lequation (18.18) pour nimporte quelle matrice W dinstruments valables,
cest-`
a-dire nimporte quelle matrice W telle que plim(n1 W >W ) est une
matrice definie et deterministe, et telle que plim(n1 W >V ) = 0. A partir
des resultats de la Section 7.8, est identifiable par les donnees si la matrice Z>PW Z est definie positive, et il est identifiable asymptotiquement si
plim(n1Z>PW Z) est definie positive. Pour etudier cette limite en probabilite, examinons la matrice
1
1

W >Z =
W > [ X1
n
n
1
=
W > [ X1
n

Y1 ]
X1 11 + X2 21 + V1 ],

(18.21)

o`
u le bloc V1 de la matrice daleas V correspond au bloc Y1 de Y dans (18.15),
et o`
u les coefficients de la forme reduite sont evaluees avec = 0 .
Lorthogonalite asymptotique entre les instruments W et la matrice
daleas V signifie que la limite en probabilite de (18.21) est

1
>
plim
W [ X1 X1 11 + X2 21 ] .
(18.22)
n
n

Ceci montre clairement que, quel que soit le choix dune matrice dinstruments
W, le rang de la matrice (18.22) ne peut exceder k, qui est precisement le nombre de variables exog`enes lineairement independantes. Toutes les colonnes de

`les dEquations Simultane


es
Mode

636

la matrice partitionnee dans (18.22) sont des colonnes de X ou des combinaisons lineaires de ces colonnes. Il sensuit que le rang de plim(n1Z>PW Z)
ne peut jamais depasser k lui non plus. Ainsi, si Z poss`ede plus de k colonnes,
ce qui implique une violation de la condition dordre, plim(n1Z>PW Z) est
singuli`ere, et donc, non definie positive. Nous concluons que la condition
dordre est bien necessaire pour lidentification asymptotique de , quel que
soit lensemble dinstruments employe.
Puis nous montrons que, sous les hypoth`eses dhomoscedasticite et dindependance en serie des aleas u, les colonnes de X offrent des instruments
optimaux pour lestimation de . Il y a deux eventualites possibles. Dans
la premi`ere, S(X) S(W ). Puisque X1 et X2 appartiennent `a S(X), nous
voyons `
a partir de (18.22) que

1 >
1 >

Z
plim
Z
P
Z
=
plim
P
Z
W
X
n n
n n

1
>
[ X1 X1 11 + X2 21 ] [ X1 X1 11 + X2 21 ] .
= plim
n
n

Ainsi lajout dinstruments W `


a ceux offerts par X ne produit aucun gain
defficacite asymptotique. Puique cela contribuera `a accrotre le biais dans
les echantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser ces
instruments supplementaires.
Dans la seconde, S(X) nest pas un sous-espace de S(W ). Cela implique
que, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inferieur
a celui de X. Par consequent, plim(n1Z>PXZ) plim(n1Z>PW Z) est
`
une matrice semi-definie positive pour toute matrice dinstruments W. Il
sensuit que (voir lAnnexe A) plim(n1Z>PW Z)1 plim(n1Z>PXZ)1
est egalement une matrice semi-definie positive. Ainsi la matrice de covariance asymptotique que lon obtient `a laide de la matrice dinstruments X,
a savoir 2 plim(n1Z>PXZ)1, etablit une borne inferieure pour la matrice
`
de covariance asymptotique pour tout estimateur IV.
De la discussion precedente et des resultats de la Section 7.8, il ressort
que la condition necessaire et suffisante pour lidentification asymptotique de
`a laide des instruments optimaux X est simplement que plim(n1Z>PX Z)
soit non singuli`ere. La litterature traditionnelle sur les mod`eles dequations
simultanees fait reference `a cette condition en tant que condition de rang pour
lidentification, pour des raisons evidentes. Cependant, un expose aussi simple
de cette condition est tr`esb rare. Au lieu de cela, la condition est typiquement
exprimee en termes des coefficients de et B de la forme structurelle ou des
coefficients de la forme reduite contrainte. Etant donne que nous avons defini
en termes de et B uniquement, toutes condition que lon peut exprimer

`les Simultane
s
18.3 LIdentification dans les Mode

637

sur dans le DGP. Les param`etres 1 et 1 de la premi`ere equation structurelle peuvent etre identifies si et seulement on peut les retrouver de facon
unique `a partir de la matrice des param`etres de la forme reduite contrainte.
Cette matrice, par definition, satisfait lequation = B, dont nous pouvons
ecrire la premi`ere colonne sous la forme
1 + 11 1 = 1
2 + 21 1 = 0
en vertu des partitions de (18.17) et (18.20). La premi`ere de ces deux
equations sert `a definir 1 en termes de et 1 , et nous permet de voir
que 1 peut etre identifie si 1 lest aussi. La seconde equation montre que
1 est determine de facon unique si et seulement si la sous-matrice 21 est de
plein rang en colonnes, cest-`a-dire si le rang de la matrice est egal au nombre de ses colonnes (voir lAnnexe A). La sous-matrice 21 poss`ede k k1
lignes et g1 colonnes. Par consequent, si la condition dordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition `a lidentification
de 1 , mais aussi `a celle de 1 , est que les colonnes de 21 soient lineairement
independantes.
Il est instructif de voir pourquoi cette derni`ere condition est equivalente
a la condition de rang en termes de plim(n1Z>PX Z). Si, comme nous
`
lavons suppose tacitement tout au long de cette discussion, les variables
exog`enes X satisfont la condition que plim(n1X>X) est definie positive,
alors plim(n1Z>PX Z) peut ne pas etre de plein rang si plim(n1X>Z) a un
rang inferieur `a g1 + k1 , le nombre de colonnes de Z. La limite en probabilite
de la matrice n1 X>Z provient de (18.22), en remplacant W par X. Si nous
faisons abstractin de la limite en probabilite et du facteur n1 pour simplifier
la notation, la matrice pertinente peut secrire comme suit:
>

X1 X1 X1>X1 11 + X1>X2 21
.
(18.23)
X2>X1 X2>X1 11 + X2>X2 21
La matrice (18.23) nest pas de plein rang g1 + k1 si et seulement sil existe
.
un vecteur non nul [1 ... 2 ] de dimension (g1 + k1 ) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les differents termes, nous obtenons
>

X1 X1 X1>X2
1 + 11 2
= 0.
(18.24)
21 2
X2>X1 X2>X2
La premi`ere matrice du membre de gauche est simplement X>X, et elle est
clairement non singuli`ere. La condition porte alors sur les deux equations
vectorielles
1 + 11 2 = 0

(18.25)

21 2 = 0.

(18.26)

`les dEquations Simultane


es
Mode

638

Si ces equations sont verifiees pour un vecteur non nul, il est clair que 2
ne peut pas etre nul. Par consequent, la seconde equation nest verifiee que
si 21 nest pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z nest pas verifiee, alors elle ne lest pas non plus en termes de 21 .
Inversement, supposons que (18.26) soit verifiee pour un vecteur 2 non nul
quelconque de dimension g1 . Alors 21 nest pas de plein rang. Definissons
1 en termes de 2 et grace `a (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale nest pas satisfaite. Ainsi les
deux versions de la condition de rang sont equivalentes.
Nous terminons cette section en etablissant, sans demonstration, une
troisi`eme version de la condition de rang, equivalente aux deux premi`eres, en
termes des param`etres structurels et B. Il est impossible dexprimer cette
condition exclusivement ne termes des param`etres 1 et 1 de la premi`ere
equation. Au contraire, ce sont uniquement les valeurs des autres param`etres
qui determinent la possible identification de 1 et 1 . Ce troisi`eme expose
de la condition de rang est formule de la mani`ere suivante. Construisons la
matrice de dimension (g g1 1 + k k1 ) (g 1)

22
.
B22

Alors la condition de rang est satisfaite si et seulement si cette matrice est de


plein rang g 1.
Nous navons discute dans cette section que des conclusions les plus importantes dun programme de recherche ambitieux. Hsiao (1983) donne un
traitement plus precis. Nous navons pas gere des probl`emes tels que les
contraintes dequatios croisees ou les contraintes impliquant la matrice de
covariance ; voir Rothenberg (1971), Richmond (1974), et Hausman et
Taylor (1983), parmi dautres. Dans la pratique, la condition dordre pour
lidentification est beaucoup plus utile que la condition de rang parce quelle
est beaucoup plus difficile `a verifier. Cependant, la condition de rang a un
interet theorique certain, et il est instructif de voir quelle peut sexprimer
comme une condition tr`es simple portant sur la limite en probabilite dune
certaine matrice qui doit etre de plein rang. Elle est donc equivalente `a la
condition portant sur un certain estimateur 2SLS, celui qui utilise en tant
quinstruments toutes les variables exog`enes et predeterminees, qui doit avoir
une matrice de covariance asymptotique non singuli`ere.

`te
18.4 Maximum de Vraisemblance en Information Comple
Il est possible detablir une classification de deux facons des mod`eles dequations simultanees. La premi`ere classification naturelle distingue les methodes
equation par equation des methodes systemiques. Les premi`eres, dont les
representants principaux sont les 2SLS et le LIML, estiment le mod`ele

`te
18.4 Maximum de Vraisemblance en Information Comple

639

equation par equation. Les secondes, dont les representants principaux sont les
3SLS et le FIML, estiment tous les param`etres du mod`ele en meme temps. Les
adjectifs information limitee et information compl`ete qui composent les
noms LIML et FIML montrent clairement que la premi`ere methode sapplique
equation par equation, et que la seconde sapplique au syst`eme dans sa globalite. Les methodes equation par equation sont plus faciles `a mettre en oeuvre,
alors que les methodes systemiques produisent des estimations potentiellement
plus efficaces.
Lautre classification naturelle distingue les methodes basees sur le maximum de vraisemblance, `a savoir le LIML et FIML, des methodes basees
sur les variables instrumentales ou la methode des moments generalises, dont
les representants les plus connus sont les 2SLS et les 3SLS. Les methodes
du ML produisent des estimations invariantes `a la reparametrisation (voir la
Section 8.3) alors que ce nest pas le cas des methodes des IV. Nous avons
dej`
a vu en detail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement detaille de FIML, qui diff`ere des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrees au LIML et
aux 3SLS.
Tous les estimateurs dequations simultanees tentent de gerer le fait que
les aleas des equations structurelles sont correles avec nimporte quelle variable
endog`ene apparaissant dans lequation. Cette correlation rend les OLS non
convergents. Nous avons vu que les 2SLS g`erent ce probl`eme en remplacant
les regresseurs defectueux par des instruments. Dun autre cote, le FIML
g`ere ce probl`eme par la maximisation dune fonction de log-vraisemblance
qui implique un terme Jacobien qui nest pas simplement la transformation
dune somme de residus au carre. Le FIML g`ere egalement deux probl`emes
qui se manifestent dans le cadre de tout mod`ele multivarie, quil y ait ou non
simultaneite; voir la Section 9.9. Le premier probl`eme est que, en dehors de
rares cas, les aleas des differentes equations seront correles. Les techniques
equation par equation telles que les 2SLS ou le LIML ingorent purement et
simplement ce probl`eme. Au contraire, les techniques systemiques telles que le
FIML ou les 3SLS assurent la gestion de ce probl`eme et devraient normalement
produire des estimations plus efficaces en general. le second probl`eme est que,
dans de nombreux mod`eles, il existe des contraintes dequations croisees. Les
methodes equation par equation ingorent necessairement ce probl`eme, mais
les methodes systemiques telles que le FIML en tiennent compte. Lorsque le
syst`eme complet est etabli, les param`etres qui apparaissent dans plus dune
equation sont automatiquement traites de facon differente des param`etres qui
napparaissent que dans une seule.
Le mod`ele dequations simultanees lineaire (18.01), dont les aleas sont
supposes etre normalement distribues, homoscedastiques et indpendants en
serie, peut secrire
Yt = Xt B + Ut ,

Ut N (0, ),

(18.27)

`les dEquations Simultane


es
Mode

640

avec une notation qui est desormais famili`ere. Souvenons-nous simplement


que Yt est de dimension 1 g, est de dimension g g, Xt est de dimension
1 k, B est de dimension k g, Ut est de dimension 1 g, et est de
dimension g g. Le moyen le plus simple dobtenir la densite de Yt consiste
a ecrire celle de Ut :
`

1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2

Puis nous remplacons Ut par Yt Xt B et multiplions per un terme Jacobien


approprie. ce treme est la valeur absolue du determinant duJacobien de la
transformation de Yt en Ut , cest-`a-dire le determinant de . Ainsi le facteur
Jacobien est |det |.2 Le resultat est

1
>
1
g/2
1/2
(2)
Yt Xt B
|det |||
exp Yt Xt B
.
2

De l`a, nous voyons que la fonction de log-vraisemblance est


`(B, , ) =

n
X

ng

`t (B, , ) = log(2) + n log |det |


2

t=1

n
X

n
1

log ||
Yt Xt B 1 Yt Xt B >.

(18.28)

t=1

Une premi`ere etape pratique dans la maximisation de `(B, , ) consiste `a la concentrer par rapport `a ou, comme nous lavons fait dans la
Section 9.9, par rapport `a son inverse, 1. Etant donne que
n
X

`
n
1
=
Yt Xt B > Yt Xt B ,
1
2
2

t=1

(voir Annexe A) il est evident que

1
(B, ) =
Y XB > Y XB .
n

(18.29)

Nous pouvons substituer (18.29) `a dans (18.28) pour obetnir

ng
`c (B, ) = log(2) + 1 + n log |det |
2

>

1
n
log
Y XB Y XB .
n

(18.30)

Dans ce chapitre, nois notons |A| le determinant de A et |det A| la velru


absolue du determinant. il est necessaire demployer la notation det, que
nous preferons eviter par ailleurs, lorsdque la valeur absolue apparat dans la
formule.

`te
18.4 Maximum de Vraisemblance en Information Comple

641

Cette fonction de log-vraisemblance concentree ressemble etroitement `a (9.65),


la fonction de log-vraisemblance concentree pour un mod`ele de regression
multivariee. Remarquons que nous avons use de la meme astuce que pour
evaluer le second terme de la derni`ere ligne de (18.28). La difference entre
(9.65) et (18.30) provient de la presnece du terme Jacobien n log |det |, dont
nous allons evaluer le r230(ole)-332(plus)-334(tard.)-446(Lestimateur)-333(FIML)-334(ne)-334(sera)-3
n doit etre t grand
par ort `a
g + k pour conserver FIML de bonnes proprietes; consulter
Sargan (1975) et Brown (1981).
Il est revelateur de deriver cete fonction de log-vraisemblance concentree
dune mani`ere t osee. Cette fois, nous partons de la forme
reduire contrainte correspondant `a (18.27), qui est
Yt = Xt B 1 + Vt .

(18.31)

Ce syst`eme dequations est juste un cas particulier du mod`ele de regression


multivariee etudie dans la Section 9.9, mais sous la forme (9.43), avec un
ensemble de fonctions de regression donne par t Xt B 1 et qui sont
des fonctions non lineaires des elements de B et . La fonction de logvraisemblance concentree correspondant `a (18.31) est par consequent (9.65).
dans notre cas particulier, (9.65) devient

n

ng
1
1 >
1
log(2) + 1
log
Y

XB
Y

XB
(18.32)
.
n
2

Cette nouvelle expression pour `c (B, ) est egale `a celle derivee precedemment, (18.30). Legalite entre (18.30) et (18.32) decoule du fait que

1
n
1 >
1
log
Y XB
Y XB

n
2

1 > 1 >
n
1 >
1
1
=
log
(
)

XB
Y

XB

n
2


>

1
n
= n log |det |
log
Y

XB
Y

XB
.
n
2

Il est interessant de noter que la fonction de log-vraisemblance concentree pour un mod`ele dequations simultanees peut secrire de deux mani`eres
differentes, (18.30) et (18.32). Cela montre de facon tout `a faut claire que
les formes structurelle et reduite contrainte sont silmplement des moyens
dexprimer le meme mod`ele. Nous pouvons assimiler le mod`ele dequations
simultanees soit `a un type particulier de mod`ele, dont la fonction de logvraisemblance concentree est donnee par (18.30), soit `a un cas particulier
de mod`ele de regression multivariee non lineaire, dont la fonction de logvraisemblance concentree est identique `a celle de nimporte quel autre mod`ele

642

`les dEquations Simultane


es
Mode

de regression multivariee. Mis sous cette forme, nous pouvons lui appliquer
tous les resultats dej`
a etablis dans le Chapitre 9 pour les mod`eles de regression
multivariee. Cependant, parce que la matrice des coefficients B 1 depend
non lineairement des coefficients de toutes les equations du mod`ele, (18.32)
est en general moins pratique que (18.30).
Lorsquil fut propose `a lorigine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML netait pas dun calcul aise, parce que
les maximisation de la fonction de log-vraisemblance (18.30) necessite une
optimisation numerique. Au fur et `a mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se democratisait, un certain nombre de
procedures de maximisation de la fonction de log-vraisemblance fut propose,
et la plupart des progiciels deconometrie modernes incopore au moins lune
delles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des references `a consulter sur ce th`eme.
Comme dhabitude, la matrice de covariance asymptotique des estima ,
et
peut etre estime de differentes facons.
tions parametriques FIML B,
Une approche qui reste relativement aisee mais peu recommandee avec de petits echantillons consiste `a executer une regression OPG. Cette regression artificielle peut se baser sur la fonction de log-vraisemblance concentree (18.28),
mais pas sur la fonction concentree (18.30), parce que cette derni`ere nest
pas ecrite sous la forme dune somme de contributions. Une deuxi`eme approche consiste `a partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous lavons mis en evidence dans la Section 9.9, le bloc de la matrice
dinformation assovcie aux param`etres des fonctions de regression dun mod`ele
de regression multivariee est donne par (9.69), et ce bloc peut sobtenir `a laide
de la GNR (9.58). Une troisi`eme approche pour estimer la matrice de covar et consiste `a utiliser la propriete dequivalence
iance asymptotique de B
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det | qui apparat explicitement dans (18.30)
joue un role fondamental dans lestimation. Sa presence est essentielle `a la
convergence des estimations ML. De plus, lorsdque le determinant de tend
vers zero, ce terme tend vers linfini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins linfini chaque fois que le determinant de tend vers
zero. Cela est coherent, parce que le mod`ele nest pas gerable si |det | = 0, ce
qui implique que la vraisemblance dun tel ensemble de param`etres est nul. De
fait, cela signifie que lespace des valeurs possibles de est divise en un certain
nombre de regions, separees par des singularites lorsque |det | = 0. Dans le
cadre du mod`ele doffre- demande discute dans la Section 7.3, par exemple, il
nexiste quune seule singularite, qui survient lorsque les pentes des fonctions
doffre et de demande sont egales. On ne peut pas esperer quun algorithme
de maximisation numerique passe `a travers ces singularites en general, meme
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numeriquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le

`te
18.4 Maximum de Vraisemblance en Information Comple

643

maximum global si la region dans laquelle lalgorithme debute ne le contient


pas. Cela sugg`ere quil peut etre tr`es important de bien choisir les valeurs
initiales lorsque nous employons le FIML.
Bien que le FIML se base sur lhypoth`ese que les aleas sont normaux mul et
tivaries, cette hypoth`ese nest pas necessaire pour que les estimations B
soient convergentes et asymptotiquement normales. Lorsque le FIML est employe alors que les aleas ne sont pas normalement distribues, cest davantage
un estimateur QML quun estimateur ML, et il ne sera pas asymptotiquement
efficace. Comme nous lavons vu dans la Section 9.6, tout mod`ele de regression
peut etre estime de facon satisfaisante par le ML sous lhypoth`ese de distribution normale des aleas, que celle-ci soit exacte ou pas. Ce resultat sapplique
aussi au FIML parce que, comme le montre (18.32), celui-ci estime en fait
un certain mod`ele de regression multivariee non lineaire. Toutefois, lorsque
le mod`ele dequations simultanees sous-jacent est non lienaire, ce resultat ne
sapplique plus automatiquement; voir Phillips (1982).
Les tests de specification du mod`ele sont aussi importants pour les
mod`eles dequations simultanees que pour les autres mod`eles econometriques.
Le large eventail des tests classiques LM, LR, Wald, et C() est bien s
ur
disponible `a cet egard. Cepedant, du fait que lestimation FIML est relativement co
uteuse et difficile, les utilisateurs peuvent etre tentes de renoncer `a un
programme de tests de specification ambitieux pour les mod`eles estimes par
FIML. Il est par consequent utile de garder `a lesprit le fait que de nombreux
types de mauvaise specification du mod`ele structurel (18.01) impliquent une
mauvaise specification similaire de la forme reduite contrainte (18.03). Par
exemple, si un alea quelconque du mod`ele structurel etait correle en serie,
alors, `a de tr`es rares exceptions pr`es, tous les aleas de la forme reduite contrainte doivent letre aussi. De mani`ere comparable, si un alea quelconque
etait heteroscedastique, alors tous les aleas de la forme reduite doivent letre.
Pareillement, si les param`etres du mod`ele structurel sont non constants sur
lechantillon, les param`etres de la FRL ne seront pas constants non plus.
Puisque les equations de la FRL sont estimes par moindres carres ordinaires,
il est tr`es facile de les tester contre des mauvaises specifications telles que la
correlation en serie, lheteroscedasticite, ou encore la non constance des coefficients. Si de tels phenom`enes sont mis en evidence par les tests, on peut
raisonnablement conclure que le mod`ele structurel est mal specifie, meme sil
na pas encore ete estime. Linverse nest pas exact, cependant, puisque ces
tests peuvent manquer de puissance, en particulier si une seule equation structurelle est mal specifiee.
Un test de mauvaise specification supplementaire que lon devrait toujours mener est celui des contraintes de suridentification. Dans la Section 7.8,
nous avons examine la mani`ere de tester des contraintes de suridentifiction
pour une equation unique estimee par IV ou 2SLS. Nous sommes `a present
interesses par toutes les contraintes de suridentification pour le syst`eme dans
sa globalite. Le nombre des degres de liberte pour le test est egal au nombre

`les dEquations Simultane


es
Mode

644

delements dans la matrice de la FRL, gk, moins le nombre de param`etres


libres de B et . Dans la plupart des cas, il y aura quelques contraintes de
suridentification, et dans de nombreux cas, il y en aura un grand nombre. La
mani`ere la plus naturelle de les tester est probablement demployer un test
LR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de
et ,
et la valeur non contrainte
(18.30) evaluee avec les estimations FIML B
est

>

n
ng
1

Y X Y X ,
(18.33)
log(2) + 1 log
n
2

designe les estimations OLS des param`etres de la FRL. Comme


o`
u
dhabitude, le double de la difference entre les valeurs contrainte et non
contrainte de la fonction de log-vraisemblance sera asymptotiquement distribuee suivant un 2 dont le nombre de degres de liberte est egal `a celui
des contraintes de suridentification. Si lon sattend `a ce que ces contraintes
de suridentification soient enfreintes et si lon ne veut pas sembarrasser de
lestimation du mod`ele structurel, on peut employer un test de Wald, comme
Byron (1974) la suggere.
sont
Nous navons pas encore explique pourquoi les estimations OLS
egalement les estimations ML. On voit aisement `a partir de (18.33) que, pour
obtenir des estimations ML de , il est necessaire de minimiser le determinant

(Y X)>(Y X).
(18.34)

Supposons que lon evalue ce determinant avec un ensemble destimations


Puisquil est toujours possible decrire
=
+A
quelconque different de .
pour une certaine matrice A, (18.34) devient

XA)>(Y X
XA)
(Y X

(18.35)
= (MXY XA)>(MXY XA)
>

= Y MXY + A>X>XA.
Parce que le determinant de la somme de deux matrices definies positives
est toujours superieur `a chacun des determinants des deux matrices (voir
lAnnexe A), il vient de (18.35) que (18.34) sera superieur `a Y >MXY pour
minimise (18.34), ce qui demontre
toute matrice A 6= 0. Cela implique que
que les estimations OLS equations par equation de la FRL sont egalement les
estimations ML systemiques.
Si lon ne dispose pas dun progiciel de regression qui calcule (18.33), il
existe un moyen different dy parvenir. Considerons le syst`eme recursif
y1 = X1 + e1
y2 = X2 + y1 1 + e2
y3 = X3 + [y1 y2 ]2 + e3
y4 = X4 + [y1 y2 y3 ]3 + e4 ,

(18.36)

` Information Limite
e
18.5 Maximum de Vraisemblance a

645

et ainsi de suite, o`
u yi designe la i i`eme colonne de Y. On peut interpreter ce
syst`eme dequations comme une simple reparametrisation de la FRL (18.03).
Il est aise de voir que si lon estime ces equations par OLS, tous les vecteurs
de residus seront orthogonaux: e2 sera orthogonal `a e1 , e3 sera orthogonal
a e2 et `a e1 , et ainsi de suite. Conformement `a la FRL, tous les yi sont
`
des combinaisons lineaires des colonnes de X et derreurs aleatoires. Par
consequent, les equations de (18.36) sont correctes pour tout choix arbitraire
des param`etres : les i sajustent simplement selon le choix opere. Toutefois,
si nous reclamons lorthogonalite des termes derreur ei , cela sert `a identifier
un choix particulier unique des . En realite, le syst`eme recursif (18.36)
poss`ede autant de param`etres que la FRL (18.03): g vecteurs i , possedant
chacun k elements, g 1 vecteurs i , avec en tout g(g 1)/2 param`etres, et
g param`etres de variance, ce qui donne un total general de gk + (g 2 + g)/2
param`etres. la FRL poss`ede gk param`etres pour la matrice de covariance
et (g 2 +g)/2 pour la matrice de covariance , ce qui donne un total identique.
La difference est que les param`etres de (18.36) ont ete remplaces par les
elements non diagonaux de la matrice de covariance de V dans la FRL.
Etant donne que le syst`eme recursif (18.36) est une simple reparametrisation de la FRL (18.03), il ne devrait pas etre surprenant dapprendre que la
fonction de log-vraisemblance pour le syst`eme recursif est egale `a (18.33).
Parce que les residus des diverses equations dans (18.36) sont orthogonaux, la valeur des fonctions de log-vraisemblance des estimations OLS des
equations individuelles. Ce resultat, que les lecteurs peuvent aisement verifier
numeriquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les syst`emes recursifs
sont dune faible utilite. Ils ne procurent aucune information que ne soit dej`a
disponible dans la FRL, et la reparametrisation depend de lordonnancement
des equations.

` Information Limite
e
18.5 Maximum de Vraisemblance a
Lun des probl`eles qui se pose avec le FIML et les autres methodes systemiques
est quelles necessitent de la part du chercheur une specification de la structure de toutes les equations du mod`ele. La mauvaise specification dune
equation quelconque conduira en general `a des estimations non convergentes
pour toutes les equations. Pour eviter ce probl`eme, `a condition que lefficacite
ne soit pas cruciale, les chercheurs peuvent preferer employer des methodes
equations par equation. La plus facile et la plus repandue est la methode des
2SLS, mais elle souffre de deux inconvenients majeurs. les estimations quelle
produit ne sont pas invariantes `a la reparametrisation, et, comme nous lavons
vu dans la Section 7.5, elles peuvent etre sev`erement biaisees avec de petits
echantillons. La methode LIML est ne
technique alternative qui produit des
estimations invariantes et qsui, `a de nombreux egards, poss`ede de meilleures
proprietes avec des echantillons finis que les 2SLS. Bien quelle ait ete proposee

646

`les dEquations Simultane


es
Mode

par Anderson et Rubin (1949) avant linvention des 2SLS, et quelle ait ete
lobjet dune etude plus theorique, elle a ete peu utilisee par les econom`etres
dans la pratique.
Comme son nom le sugg`ere, lidee de base du LIML consite `a employer
une information partielle sur la structure du mod`ele. Supposons que lon
veuille estimer uen seule equation, disons la premi`ere, dun mod`ele structurel comme (18.01). Nous avons ecrit une equation comparable dans la Section 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endog`enes. Le meilleur moyen
den tenir compte consiste `a ecrire leurs equations sous la forme reduire libre:
Y1 = X1 11 + X2 21 + V1 ,

(18.37)

o`
u la notation est identique `a celle utilisee dans la Section 18.3. La combinaison de (18.18) et (18.37)donne le syst`eme dequations
y Y1 1 = X1 1 + u
Y1 = X1 11 + X2 21 + V1 .

(18.38)

Remarquons que Y2 napparat plus du tout dans ce syst`eme dequations.


Si nous focalisons notre attention sur la premi`ere equation, les variables endog`enes qui n y apparaissent pas sont sans interet. On peut estimer le syst`eme
dequations (18.38) par maximum de vraisemblance, et les estimations 1 et
1 qui en resulten seront les estimations LIML. Tout progiciel de FIML peut
etre employe `
a cette fin.
En fait, nous navons pas besoin dun progiciel de FIML pour obtenir des
estimations ML de (18.38). La matrice de coefficients des variables endog`enes
dans ce syst`eme dequations est

1 0
.
(18.39)
1 I
Parce que cette matrice est triangulaire, son determinant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jacobien dans la fonction de log-vraisemblabce disparat, et la fonction de logvraisemblance pour (18.38) a la meme forme que celle de nimporte quel ensemble de regression apparemment sans lien (voir la Section 9.9). Cela implique que lon peut utiliser nimporte quel programme pour lestimation des
syst`emes SUR pour obtenir des estimations LIML. De plus, lapplication des
GLS faisables `a un syst`eme tel que (18.38), en debutant par des estimations
2SLS pour la premi`ere equaion et OLS pour les equations restantes, produira
des estimations asymptotiquement equivalentes aux estimations LIML. Pagan
(1979) a suggere une procedure o`
u lon it`ere la procedure de GLS faisables
jusqu`
a ce quelle converge vers les veritables estimations LIML.

` Information Limite
e
18.5 Maximum de Vraisemblance a

647

Dans la pratique, on calcule rarement les estimations LIML de cette facon,


parce quil existe une methode plus efficace pour les calculer. Il faudrait disposer de davantage doutils algebriques pour la developper, mais les resultats
terminaux seront relativement simples. A partir de (18.30), (18.32), et du
fait que | | = 1, nous voyons que les estimations ML peuvent sobtenir en
minimisant

(Y XB 1 )>(Y XB 1 ) = (Y XB)>(Y XB). (18.40)


Nous allons maintenant montrer que la minimisation du determinant dans le
membre de droite est ici equivalente `a la minimisation du rapport de formes
quadratiques, et que cela peut etre realise, `a son tour, en resolvant un certain
probl`eme de valeurs propres.
Ecrivons tout dabord la matrice B 1 qui apparat dans le membre de
gauche de (18.40). De (18.17) et dune expression pour linverse de (18.39),
nous voyons que

1 B12
1 0
1 + B12 1 B12
1
B
=
=
.
0 B22 1 I
B22 1
B22
La matrice la plus `a droite est simplement la version contrainte de .
Lelement au nord-ouest correspond `a X1 et la matrice au sud-est correspond `a X2 . Puisque 1 napparat pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de 1 , nous pouvons trouver des valeurs de 1 et B12 telles que lelement au nord-ouest
prenne nimporte quelle valeur. Aurtrement dit, les contraintes sur lequation
structurelle (18.37) nimposent aucune contrainte sur les lignes de qui correspondent `a X1 . En general, cependant, elles imposent des contraintes sur
les lignes qui correspondent `a X2 .
Comme nous lavons vu dans la section qui precedait, il y a equivalence
entre la minimisation dun determinant tel que (18.34) sur lequel ne p`ese
aucune contrainte et lusage des OLS. Dans ce cas, puisquaucune contrainte
sur les lignes de ne correspond `a X1 , nous pouvons employer les OLS pour
estimer ces aram`etres, et ensuite concentrer ce determinant par rapport `a ces
param`etres. Ce faisant, le determinant dans le membre de droite de (18.40)
devient

(Y XB)>M1 (Y XB),
o`
u, comme dhabitude, M1 designe la matrice qui projette orthogonalement
sur S (X1 ).
Nous allons `a present introduire une notation nouvelle. Premi`erement,
.
notons le vecteur [1 ... 1 ]; par consequent, Y yY1 1 . Deuxi`emement,
notons Y M1 Y, Y1 M1 Y1 , et X M1 X2 . On peut recrire le determinant
dans le membre de droite de (18.40) comme

(Y )>(Y )
(Y )>(Y1 X B22 )

(18.41)
(Y X B )>(Y ) (Y X B )>(Y X B ) .
22
22
22
1
1
1

648

`les dEquations Simultane


es
Mode

Ce determinant ne depend que des param`etres et B22 . La prochaine etape


consiste `a concentrer par rapport aux param`etres de B22 , de mani`ere `a obtenir
une expression qui ne depend que de . Cela necessitera un usage intensif du
resultat suivant, qui est demontre dans lAnnexe A:
>

A A A>B
>
>

(18.42)
B >A B >B = |A A||B MA B|,
o`
u, comme dhabitude, MA I A(A>A)1A>. Lorsque ce resultat est
applique `a (18.41), nous obtenons

(Y )>(Y ) (Y1 X B22 )>Mv (Y1 X B22 ),


(18.43)
o`
u Mv designe la matrice qui projette orthogonalement sur S (v), et v
Y . Il nexiste quun seul determinant dans (18.43), et non pas deux, parce
que le premier est un scalaire.
Les param`etres B22 napparaissent que dans le second facteur de (18.43).
Ce facteur est le determinant de la matrice des sommes des carres et des
produits croises des residus du syst`eme des regressions entier
Mv Y1 = Mv X B22 + residus.
Comme nous lavons vu dans la section precedente, ce determinant peut etre
minimise en remplacant B22 par son estimation, obtenue en appliquant les
OLS `a chaque equation separement. La matrice des residus ainsi produite est
u MMv X designe la projection sur le complement orthogMMv X Mv Y1 , o`

onal de S(Mv X ). Observons `a present que MMv X Mv = Mv, X , `a savoir


la matrice de projection associee au complement orthogonal de S(v, X ).
Consequemment, le second facteur de (18.43), lorsquil est minimise par rapport `a B22 , est

>
(Y1 ) Mv, X Y1 .
(18.44)
On peut exploiter le fait que v et X apparaissent de mani`ere symetrique
dans (18.44) afin de faire dependre (18.44) de uniquement `a travers un
scalaire. Considerons le determinant

>
v MX v
v>MX Y1

(18.45)
(Y )>M v (Y )>M Y .
X
X
1
1
1
En utilisant (18.42), ce determinant peut etre factorise tout comme (18.41).
Nous aboutissons `a

(v>MX v) (Y1 )>Mv, X Y1 .


(18.46)
En faisant usage des definitions M1 MX = MX et v = M1 Y , (18.45) peut
etre recrit
> >

Y MXY >Y >MXY1 > >


= Y MXY = Y >MXY .
(18.47)
Y >M Y

>
Y1 MXY1
1
X

` Information Limite
e
18.5 Maximum de Vraisemblance a

649

La premi`ere egalite est ici aisement verifiee en exploitant lexpression (18.39)


pour et les definitions de et Y ; souvenons- nous que est la premi`ere
colonne de . La seconde egalite est un resultat du fait que | | = 1. Elle
implique que (18.47) ne depend pas du tout de .
Enfin, nous pouvons maintenant ecrire une expression simplifiee, qui,
lorsquelle est minimisee par rapport `a , est egale `a la valeur minimisee du
determinant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)
est egal `a
>
>
>

(Y1 ) Mv, X Y1 = |Y MXY | = |Y MXY | .


v>MX v
>Y >MXY

Ainsi, en utilisant (18.43), le determinant dorigine (18.40) doit etre egal `a


v>v |Y >MXY |
(>Y >M1 Y )|Y >MXY |
=
= |Y >MXY |,
>Y >MXY
>Y >MXY

(18.48)

o`
u le scalaire a ete defini implicitement comme

>Y >M1 Y
.
>Y >MXY

(18.49)

Puisque |Y >MXY | ne depend pas du tout de , il y a equivalence entre


la minimisation de (18.48) et la minimisation de . Ainsi, si nous pouvons
minimiser (18.49) par rapport `a , nous pouvons obtenir des estimations LIML
et une valeur associee de , disons

. Lorsque les estimations LIML sont


obtenues de cette mani`ere, on les appelle quelquefois estimations du rapport
de moindre variance.
, il nous faut
Avant de voir comment obtenir des estimations LIML
dire quelques mots des consequences de (18.48) et (18.49). En premier lieu, il
devrait etre evident que
1. Etant donne que S(X1 ) est un sous-espace de
S(X), le numerateur de (18.49) ne peut pas etre inferieur au denominateur
pour tout possible. En fait, pour une equation suridentifiee,
sera toujours
superieur `a 1 avec des echantillons finis. En ce qui concerne une equation juste
identifiee,
sera precisement egal `a 1 parce que le nombre de param`etres `a
estimer est aloors egal `a k, le rang de X. Ainsi, dans ce cas, il est possible
de choisir de sorte que le numerateur et le denominateur de (18.49) soient
egaux.
Lexpression (18.48) implique que la valeur maximisee de la fonction de
log-vraisemblance concentree pour lestimation LIML dune unique equation
est
ng
n
n
log(
)
log |Y >MXY |.
(18.50)
log(2)
2

La valeur maximisee de la fonction de log-vraisemblance concentree pour


lestimation ML de la forme reduire libre est
ng

n
log(2)
log |Y >MXY |.
2

` Information Limite
e
18.5 Maximum de Vraisemblance a

651

Puisque X1 S(X), M1
MX = M1 (I
MX ). A laide de cette propriete
1 peut egalement se calculer
et dun peu dalg`ebre, on peut montrer que
suivant la formule (nous laissons la manipulation en quexercice)
>
X1 X1
1
=
1

Y1>X1

X1>Y1
Y1>(I
MX )Y1

X1>y
Y1>(I
MX )y

(18.53)

qui fournit egalement 1 . Alors si nous definissons Z par [X1 Y1 ] et par


.
[1 ... 1 ], tout comme dans (18.18), (18.53) peut se recrire sous la forme tr`es
simple

1
= Z>(I
MX )Z Z>(I
MX )y.
(18.54)
Lequation (18.53) est un moyen parmi dautres decrire le LIML comme
un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
Lequation (18.54) est un moyen encore plus simple darriver au meme but.
La classe K comprend tous les estimateurs que lon peut ecrire sous une de
ces deux formes, mais avec un scalaire K arbitraire `a la place de
. Nous
employons la notation K plutot que la notation plus conventionnelle k pour
designer ce scalaire afin deviter la confusion avec le nombre de variables
exog`enes dans le syst`eme. Lestimateur LIML est ainsi un estimateur de la
classe K, avec la parametrisation K =
. Identiquement, comme (18.54)le
montre clairement, lestimateur 2SLS est un estimateur de la classe K avec
la parametrisation K = 1, et celui des OLS est egalement un estimateur
de la classe K avec la parametrisation K = 0. Puisque pour une equation
structurelle juste identifiee,
= 1, il decoule immediatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement `a un taux plus fort que n1/2 ; voir
Schmidt (1976), parmi dautres auteurs. Bien que la convergence du LIML
provienne de resultats generaux sur les estimateurs ML, il reste interessant de
voir comment ce resultat pour la classe K sy applique. Nous avons dej`a vu que
n log(
) est la statistique de test LR pour lhypoth`ese nulle de pertinence des
contraintes de suridentification sur lequation structurelle. Un developpement
de Taylor sur le logarithme nous montre que n log(
)
1). Puisque
= n(
cette statistique de test suit asymptotiquement une loi du 2 , elle doit etre
O(1), de sorte que
1 doit etre O(n1 ). Ceci etablit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) suggera un moyen de modifier lestimateur 2SLS pour reduire
son biais, et Fuller (1977) et Morimune (1978, 1983) sugger`erent des versions modifiees de lestimateur LIML. Lestimateur de Fuller, qui est le plus
simple dentre eux, utilise la parametrisation K =
/(n k), o`
u est
une constante positive que choisit lexperimentateur. Un choix judicieux est
= 1, puisquil produit des estimations approximativement non biaisees. Par

652

`les dEquations Simultane


es
Mode

contraste avec lestimateur LIML qui ne poss`ede aucun moment fini (voir Mariano (1982) et Phillips (1983) sur ce point), tous les moments de lestimateur
modifie de Fuller sont finis `a condition que lechantillon soit suffisamment
important.
Il est possible destimer la matrice de covariance du vecteur des estimations de la classe K de differentes facons. La plus naturelle consiste `a
utiliser

2 Z>(I
MX )Z ,
(18.55)
o`
u

1
>(y Z ).

2 =
(y Z )
n
Les statistiques de test de Wald pour les contraintes sur 1 et 1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer `a laide de (18.55)
de la mani`ere habituelle. Toutefois, il est sans doute preferable demployer
des statistiques LR, etant donne leur invariance `a la reparametrisation, mais
aussi compte tenu de leur facilite de calcul `a partir de la fonction de logvraisemblance concentree (18.50).

Le resultat selon lequel les estimateurs de la classe K sont convergents


lorsque K tend asymptotiquement vers 1 `a un taux approprie peut suggerer
que les 2SLS poss`edent de meilleures proprietes avec des echantillons finis que
le LIML. Apr`es tout, pour les 2SLS, K est identiquement egal `a 1, alors que
pour le LIML, K =
, et
est toujours superieur `a 1 avec des echantillons
finis. Le resultat selon lequel le LIML ne poss`ede pas de moment fini peut
egalement suggerer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous lavons vu dans la Section 7.5, lestimateur des 2SLS
poss`edent autant de moments finis quil y a de contraintes de suridentification.
Dun autre cote, il apparat que dans de nombreux cas, les 2SLS poss`edent
en fait de pi`etres qualites face au LIML `a de multiples egards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des resultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement `a la distribution de lestimateur 2SLS, dont nous avons vu quelle est sev`erement biaisee dans certains cas, la distribution de lestimateur LIML est generalement
centre sur une valeur proche de la veritable valeur. Mais, etant donne que
cette derni`ere distribution ne poss`ede pas de moment fini, nous ne pouvons
pas conclure au moindre biais de lestimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des echantillons finis. Elle montre les distributions de lestimateur 2SLS,
lestimateur LIML, et lestimateur modifie de Fuller avec = 1 (note LIMLF
sur la figure) dans le cas examine precedemment dans la Section 7.5. La
presence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport `a sa
distribution asymptotique. Dans ce cas, lestimateur 2SLS est sev`erement
biaise vers le bas. Par ailleurs, lestimateur LIML semble etre pratiquement

s
18.6 Les Triples Moindres Carre
1.0

0.8

0.6

0.4

0.2

0.0

653

...........................................
.................................. ...........................................
............
..
.
.
.
.
.
.
.
.
..............
.
.
.
.
.
.
.
....... ............................
.....
.
.
.
.
.
.
.
.
.
.
.
.
.
....
...
....
....... .........
....
..... .............
.
.
.
.
.
.
... ...
...
.... ......
...
.... ........
.
.
.
.
..
... ....
...
... ...... LIML
.
.....
.
. .
... .....
...
..
.
.....
.
. ... LIMLF
.
... .....
.
.....
.
.. ..
...
... ...
.....
..........
..
.. ..
2SLS ..... ..........
...
... ...
Vraie valeur
..
.. ..
...
......
..... ..........
... ......
... ..........
.
.
... ......
... .............
.
.
.
.
.
.... ..........
.....................
.
.
.
.
.
..........
.............................................

0.0

0.5

1.0

1.5

2.0

Figure 18.1 Distributions des estimateurs 2SLS et LIML

sans biais dans le sens o`


u sa mediane est tr`es proche de la veritable valeur
de 1. La distribution de lestimateur modifie de Fuller se situe generalement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution superieure
est beaucoup plus fine que celle du LIML, mais sa mediane est quelque peu
inferieure `a la veritable valeur.
Dans la pratique, il nest pas toujours aise de decider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de resultats analytiques et donne des conseils sur lopportunite dune performance meilleure
du LIML par rapport aux 2SLS. Il faudrait eviter demployer ce dernier
lorsque le nombre des contraintes de suridentification est important, par exemple. Cependant, cela depend enormement des caracteristiques intrins`eques
du mod`ele et des donnees que lon utilise. Si les resultats des 2SLS et du LIML
sont tr`es proches, alors le choix entre les deux est peu important. Sils sont
relativement differents, toutefois, ce choix devient important. Sans doute la
meilleure chose `a faire dans ces circonstances consiste `a realiser des experiences
Monte Carlo, qui sont typiquement concues pour departager les performances
relatives des differents estimateurs pour le mod`ele et les donnees en cause; se
reporter au Chapitre 21.

s
18.6 Les Triples Moindres Carre
La derni`ere des quatre methodes principales pour lestimation des mod`eles
dequations simultanees dont nous allons discuter est celle des triples moindres carres, ou 3SLS. Tout comme le FIML, la methode des 3SLS est une

654

`les dEquations Simultane


es
Mode

methode systemique, pour laquelle tous les param`etres du mod`ele sont estimes conjointement. Ainsi que son nom le sugg`ere, on peut calculer les 3SLS
en trois etapes. Les deux premi`eres sont celles des 2SLS classiques, appliquees
a chaque equation du syst`eme separement. La troisi`eme etape est alors es`
sentiellement la meme que letape terminale de lestimation par GLS faisables
dun syst`eme SUR (Section 9.7). La methode fut propose par Zellner et Theil
(1962).
Le moyen le plus simple de deriver lestimateur des 3SLS, ainsi que ses
proprietes asymptotiques, consiste `a appliquer les principes de la methode des
moments generalisee au syst`eme des mod`eles dequations simultanees lineaires
(18.01). Pour lobservation t, ce syst`eme peut se mettre sous la forme
Yt = Xt B + Ut .
Lhypoth`ese selon laquelle toutes les variables dans X sont soit exog`enes soit
predeterminees implique que, pour toutes les observations t,

E Yt Xt B | Xt = 0.
On interpr`ete immediatement les egalites comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous lavons
vu dans la Section 18.3, les variables exog`enes constituent des instruments
efficaces pour les 2SLS si les aleas sont homoscedastiques et independants en
serie, il semble raisonnable denvisager lensemble suivant de conditions du
premier ordre:

E Xt>(Yt Xt B) = 0.
(18.56)
Etant donne que Xt poss`ede k composantes et Yt Xt B en poss`ede g, il
y a en tout gk conditions portant sur les moments. Si la condition dordre
pour lidetnification est satisfaite avec une egalite, il y aurait exactement
gk param`etres `a estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments quil y a de param`etres dans le syst`eme,
et meme davantage si le syst`eme est suridentifie. Bien evidemment, lutilite
reelle de ces conditions sur les moments dans le processus didentification des
param`etres depend asymptotiquement de la validite de la condition de rang.
Il est pratique dordonner differemment les elements de la matrice de
dimension k g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque equation du syst`eme dans une notation comparable `a
celle de (18.18):
yi = Zi i + ui , pour i = 1, . . . , g,
o`
u la matrice de regresseurs Zi qui apparat dans lequation i est [Xi Yi ],
avec ki variables exog`enes Xi incluses et gi variables endog`enes Yi incluses, et
.
o`
u le vecteur de param`etres de dimension (ki + gi ) i est [i ... i ]. Definissons
alors le vecteur ligne Ft compose de gk elements comme:
Ft [ut1 Xt utg Xt ],

s
18.6 Les Triples Moindres Carre

655

o`
u uti yti (Zi )t i . Chaque composante de Ft est la contribution de
lobservation t `
a un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n gk est definie pour avoir une ligne type Ft .
Pour obtenir des estimations GMM, il est necessaire de trouver une estimation de la matrice de covariance des gk moments (18.56). Nous ferons les
memes hypoth`eses preliminaires sur les aleas que pour le FIML et le LIML.
Nous supposons que chaque vecteur ui est homoscedastique et independant en
serie (lhypoth`ese dhomoscedasticite sera relachee plus tard). Nous supposons
egalement que, pour chaque observation t, les uti sont correles entre eux, avec
une matrice de covariance contemporaine de dimension g g , independante
de t. Nous noterons ij un element type de et ij un element type de 1.
Il est relativement aise de trouver la matrice de covariance du vecteur des
moments empiriques F >. Cest
n
> > X

E F F =
E Ft>Ft

t=1
n
X

E[ut1 Xt utg Xt ]>[ut1 Xt utg Xt ]. (18.57)

t=1

La derni`ere expression dans (18.57) est une matrice de dimension gk gk qui


apparat sous une forme plus lisible lorsquelle est partitionnee, chaque bloc
etant de dimension k k. Pour chaque t, E(uti utj ) = ij . Parce que les
elements de ij ne dependent pas de t, nous obtenons

11 X>X
..

.
>

g1 X X

..
.

1g X>X
..
,
.

(18.58)

>

gg X X

cest-`
a-dire une matrice dont le bloc type est ij X>X. Afin de construire une
fonction crit`ere comparable `a (17.54) et avec laquelle nous pourrons obtenir
des estimations des param`etres vectoriels i , i = 1, . . . , g, nous aurons be structure en bloc de (18.58) facilite cette
soin dinverser la matrice (18.58)La
manipulation. On peut verifer facilement par une simple multiplication de
matrices partitionnees que linverse est une matrice dont le bloc type est
ij (X>X)1 (souvenons-nous que ij est un element type de 1 ).
Il est pratique dexprimer le vecteur des moments empiriques F > sous
une forme partitionnee comparable `a (18.58), comme une fonction des donnees
et des param`etres du mod`ele. Le resultat est un vecteur avec lelement type
X>(yi Zi i ), pour i = 1, . . . , g:

F > =

`les dEquations Simultane


es
Mode

656

Alors, si nous elaborons une forme quadratique `a parir du vecteur (18.59) et


de la matrice (18.58), nous aboutissons `a la fonction crit`ere
g X
g
X

i=1 j=1
g X
g
X

1
ij yi Zi i >X X>X X> yj Zj j

ij

yi Zi i >PX yj Zj j .

(18.60)

i=1 j=1

Puisque nous supposons tacitement quil nexiste aucune contrainte dequations croisees, les param`etres i napparaissent que dans le residus de lequation i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent secrire assez simplement comme
g
X

ij Zi>PX yj Zj j = 0, pour i = 1, . . . , g.

(18.61)

j=1

Afin de rendre (18.61) operationnelle, nous avons besoin destimer la


matrice de covariance des aleas, . Dans le cas du mod`ele SUR, nous pourrions employer les OLS pour chaque equation individuellement. Puisque les
OLS sont non convergents pour les mod`eles dequations simultanees, nous
employons `a la place les 2SLS sur chaque equation. Ainsi les deux premi`eres
etapes des 3SLS correspondent exactement aux deux etapes des 2SLS, applique `a chaque equation de (18.01). Les covariances des aleas sont alors
estimes `a partir des residus 2SLS:
1

ij =
n

n
X

u
ti u
tj .

(18.62)

t=1

Bien s
ur, ces residus doivent correspondre aux veritables residus 2SLS, et non
aux residus de lestimation OLS de seconde etape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, 1 `a g doivent conjointement resoudre
les conditions du premier ordre:
g
X

ij Zi>PX yj Zj j = 0.

(18.63)

j=1

.
.
La solution est aisee `a formuler. Si [1 ... ... g ] et si les matrices entre
crochets designent les matrices partitionnees caracterisees par lelement ype
a linterieur du crochet, lestimateur 3SLS se met sous la forme compacte
`
" g
#
ij >
1 X
=
Zi PXZj

ij Zi>PX yj .
(18.64)
j=1

s
18.6 Les Triples Moindres Carre

657

Lecriture de lestimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus frequente; consulter la plupart des ouvrages deconometrie.
Bien que les produits de Kronecker soient bien souvent tr`es utiles (Magnus et
Neudecker, (1988)), nous preferons la notation compacte de (18.64).
Lestimateur 3SLS est intimement relie `a la fois `a celui des 2SLS et `a
celui des GLS pour les mod`eles SUR multivaries pour lequel les variables
explicatives sont toutes exog`enes ou predeterminees. Si nous supposons que
est proportionnelle `a une matrice identite, les conditions (18.63) se ram`enent
a
`

ii Zi>PX yi Zi i = 0,
et ces conditions sont equivalentes aux conditions equation par equation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numeriquement) equivalents lorsque les aleas contemporains de la forme structurelle sont non correles. Il est egalement aise de voir que lestimateur SUR
pour les mod`eles lineaires est juste un cas particulier de lestimateur 3SLS.
Etant donne que tous les regresseurs peuvent servir en tant quinstruments
dans le cas SUR, il nest plus du tout besoin demployer les 2SLS en premi`ere
etape. En correspondance, le fait que chaque matrice de regresseur Zi soit
une sous-matrice de la matrice de tous les regresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ram`ene `a
g
X

ij Zi> yj Zj j = 0,

j=1

et cest precisement ce que deviennent les equations definissantes (9.54) dans


le cas lineaire pour lestimateur des GLS faisables dun syst`eme SUR sans
contrainte dequations croisees. Nous voyons que la relation entre 3SLS et les
2SLS equation par equation est identique `a celle quil existe entre lestimation
SUR par GLS faisables et lestimation OLS equation par equation.
Sur la base de (18.64), il est naturel de penser que lestimation de la
matrice de covariance de lestimateur 3SLS peut etre estimee par
[
ij Zi>PXZj ]1 .

(18.65)

Cest en realite le cas, comme on peut le montrer assez facilement `a laide du


1
resultat general (17.55) pous lestimation GMM. Nous avons vu que pour
dans cette expression nous devions employer la matrice dont lelement type
la matrice des derivees des moments empiriques
est
ij (X>X)1. Pour D,
par rapport aux param`etres du mod`ele, nous voyons que la matrice adequate
doit etre bloc diagonale, avec des blocs types definis par X>Zi . (Nous ne
considerons pas volontairement les facteurs des puissances de n.) Puisque
ne depend daucun param`etre estime.
nous traitons dun syst`eme lineaire, D
Ainsi une estimation appropriee de la matrice de covariance asymptotique est
donnee par linverse de la matrice dont le bloc type est

1
ij Zi>PXZj ,
Zi>X
ij X>X X>Zj =

658

`les dEquations Simultane


es
Mode

ce qui correspond precisement `a (18.65).


Puisque le mod`ele dequations simultanees (18.01) est equivalent `a la
forme reduite contrainte (18.02), on peut raisonnablement se demander pourquoi un estimateur tel que celui des 3SLS ne peut pas etre obtenu simplement `a partir de (18.02), etant donne que sa forme est precisement celle dun
sust`eme SUR. La reponse est, bien s
ur, que cela est possible. Cependant,
a moins que chaque equation ne soit juste identifiee, les contraintes seront
`
non lineaires. Cette approche a ete essentiellement utilisee par Chamberlain
(1984). Lavantage de lapproche que nous suivons est quelle evite les difficultes associees au traitement des contraintes non lineaires.
Une autre similitude entre les estimations 3SLS et SUR est que les deux
sont numeriquement equivalentes `a la procedure equation par equation si
chaque equation est juste identifiee. Pour les syst`emes SUR, cela signifie
simplement que tous les regresseurs se confondent avec des variables explicatives dans chaque equation (sinon, il existerait des contraintes de suridentification impliquees par la necessaire orthogonalite entre leseeas des equations
o`
u certains regresseurs sont absents et les regresseurs absents et inclus dans
lequation). Nous avons vu dans la Section 9.8, `a travers le Theor`eme de
Kruskal, que les estimations SUR sont numeriquement idetniques aux estimations OLS equation par equation dans ce cas. Cest un bon exercice que de
montrer la validite du meme resultat dans le contexte 3SLS.
Si nous supposons que les eas contenus dans la matrice U de (18.01) sont
normalement distribues, les proprietes asymptotiques de toutes les procedures
destimation ML garantissent lefficacite asymptotique de lestimateur FIML.
Il est par consequent naturel de se demander si lestimateur 3SLS partage la
propriete asymptotique defficacite avec le FIML, et la reponse est, comme
nous le verrons assez directement, affirmative. Nous pourrions directement
obtenir une demonstration de ce resultat si nous avions une expression de la
matrice de covariance asymptotique de lestimateur FIML, que nous pourrions comparer `a (18.65). Toutefois, nous preferions ne pas obtenir une telle
expression dans la Section 18.4, parce quun moyen tr`es simple dobtenir une
estimation de la matrice de covariance FIML consiste `a utiliser lestimation
3SLS (18.65), evaluee avec les estimations FIML. Au lieu de cela, notre
demonstration de lequivalence asymptotique entre les 3SLS et le FIML se
base sur le fait que lestimateur FIML peut sinterpreter comme un estimateur des variables instrumentales.
Ce resultat, que Hausman (1975) demontra le premier, est dun interet
considerable en lui-meme, du fait quil fournit des instruments optimaux associes `a lestimation ML du syst`eme (18.01). Comme nous pouvions nous y
attendre, on peut les trouver en considerant les conditions du premier ordre
pour la maximisation de la fonction de log-vraisemblance, que nous envisageons sous la forme (18.28). Si nous notons i ou Bi la colonne i de ou
B, respectivement, et notons une fois de plus ij lelement type de 1, alors

s
18.6 Les Triples Moindres Carre

659

(18.28) peut sexprimer comme


ng

n
`(B, , ) = log(2) + n log |det |
log ||
2

g
g X
n X
X

ij Yt i Xt Bi Yt j Xt Bj .

(18.66)

t=1 i=1 j=1

La difficulte majeure dans lexplicitation des conditions du premier ordre pour


un maximum de (18.66) est que B et sont contraintes `a posseder de nombreux elements nuls de sorte quun seul element de est egal `a 1. Par
consequent, nous ne pourrions annuler les derivees de (18.66) par rapport `a
aux elements de et B qui sont ainsi contraints. Pour contourner la difficulte,
nous pouvons tout dabord developper une matrice des derivees partielles de
`(B, , ) par rapport `a B qui aura exactement la meme forme que la matrice B. Nous signifions que lelement ij de la matrice des derivees partielles
sera egal `a la derivee partielle de ` par rapport `a lelement ij de la matrice B.
Nous pouvons executer une operation similaire pour et annuler uniquement
les elements pertinents des deux matrices de derivees.
La matrice B nappart que dans le dernier terme de (18.66), aussi
pouvons-nous nous focaliser uniquement sur ce terme pour linstant. Il est
commode de calculer la matrice des derivees partielles element par element
et dordonner ces derivees par la suite dans une matrice de dimension k g.
Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaque
derivee est aisement calculable. Par rapport `a lelement ij, nous obtenons
g
n X
X

im Xtj Yt m Xt Bm .

(18.67)

t=1 m=1

Nous souhaitons trouver une matrice dont lelement ij est (18.67). Puisque j
est lindice associe `a lelement Xtj , nous pouvons developper la colonne j de
ladite matrice en ordonnant les elements Xtj en colonne. Cela donne
g
n X
X

im Xt> Yt m Xt Bm

t=1 m=1
g
X
im

X> Ym XBm

m=1

= X> Y XB ( 1 )i ,

(18.68)

o`
u ( 1 )i est la i i`eme colonne de 1. Observons maintenant que les expressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k g, et il est desormais evident que cette matrice
est X>(Y XB) 1.

660

`les dEquations Simultane


es
Mode

Il nous faut maintenant calculer les derivees (18.66) par rapport `a la


matrice de dimension g g . Des operations identiques `a celles menees
pour B montrent que la matrice des derivees par rapport au dernier terme de
(18.66) est
Y >(Y XB) 1.
Cette matrice est de dimension g g, ce qui est coherent. Mais apparat egalement `a travers son determinant dans le second terme de (18.66).
Souvenons-nous (ou bien consultons lAnnexe A) que la derive du logarithme
du determinant dune matrice par rapport `a lelement ij de cette matrice est
lelement ji de linverse de la matrice. Par consequent, la matrice des derivees
partielles correspondant `a est

n( 1 )> Y > Y XB 1.

(18.69)

Nous pouvons aboutir `a une expression plus pratique que (18.69) en utilisant les conditions du premier ordre pour les elements de la matrice de covariance . De (18.29), nous voyons que ces conditions donnent
= n1 (Y XB)
>(Y XB),

(18.70)

,
et B
designent des estimations FIML. Si nous premultiplions cette
o`
u ,
1, la postmultiplions par 1, et la transposons, nous arequation par n
rivons `a

1 ( 1 )>B
>X>(Y XB)

1.
n( 1 )> = Y >(Y XB)

(18.71)

1 est la matrice des valeurs ajustees de lestimation de la forme


Puisque XB
cela simplifiera la notation et aura le
reduite contrainte, nous la noterons Y:
merite de clarifier lanalyse ulterieure. Ainsi (18.71) peut secrire

1 Y >(Y XB)

1.
n( 1 )> = Y >(Y XB)
Par suite, la matrice (18.69), evaluee avec les estimations ML, devient

1.
Y >(Y XB)
Nous pouvons, apr`es tant defforts, selectionner les elements de deux
matrices de derivees partielles qui sont veritablement nuls lorsque nous les
evaluons avec les estimations ML. Les param`etres qui apparaissent dans
lequation i proviennent de la colonne i des matrices et B, et les derivees
partielles correspondantes proviennent des colonnes i des matrices de derivees
partielles. En ce qui concerne la matrice B, cette colonne est X>(Y

1 )i . Nous souhaitons selectionner dans cette colonne uniquement
XB)(
les lignes pour lesquelles lelement correspondant de B

s
18.6 Les Triples Moindres Carre

661

cest-`
a-dire les elements correspondant `a la matrice de dimension n ki Xi .
Puisque pour selectionner les lignes dun produit matriciel, il nous suffit de
selectionner les lignes correspondant au facteur le plus `a gauche, les elements

1 )i .
nuls sont ceux du vecteur de dimension ki Xi>(Y XB)(
Par un rasionnement en tous points identique, nous trouvons que, pour

1 )i de dimension gi est nul,
chaque i = 1, . . . , g, le vecteur Yi>(Y XB)(
o`
u Yi ne contient que les colonnes de Y qui correspondent `a la matrice Yi
des variables endog`enes incluses en tant que regresseurs dans lequation i. Si
i [Xi Yi ], alors nous pouvons ecrire toutes les conditions
nous definissons Z
du premier ordre correspondant aux param`etres de la i i`eme equation sous la
forme

i> Y XB
( 1 )i = 0.
Z
Ces conditions peuvent se simplifier grandement. Remarquons que

1 )i =
(Y XB)(
=

g
X
j=1
g
X

ij Y j XB

ij yj Zj j .

j=1

Lensemble complet des conditions du premier ordre definissant les estimations


FIML peuvent donc secrire
g
X

i> yj Zj j = 0,

ij Z

pour i = 1, . . . , g.

(18.72)

j=1

Les conditions (18.72) apparaissent desormais sous une forme tr`es comparables `a celle des conditions (18.63) qui definissent lestimateur 3SLS. En
realite, si nous notons Yi la matrice de dimension n gi des valeurs ajustees
de la forme reduite libre, de sorte que Yi = PX Yi for i = 1, . . . , g, alors

i .
PXZi = PX Xi Yi = Xi Yi Z
Ainsi la conditions (18.63) qui definit lestimateur 3SLS peut secrire comme
g
X

i> yj Zj j = 0.

ij Z

(18.73)

j=1

Les differences existant entre les conditions qui definissent les etsimations
3SLS et celles qui definissent les estimations FIML sont mises en evidence `a
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) lestimation de la matrice de covariance provient des residus 2SLS equation par equation en ce qui concerne les 3SLS, et des residus FIML en ce
qui concerne le FIML;

662

`les dEquations Simultane


es
Mode

(ii) Les valeurs ajustees de Y employees en tant quinstruments sont celles


de la forme reduite non contrainte en ce qui concerne les 3SLS et celle du
FIML en ce qui concerne le FIML.
Les deux differences refl`etent le fait que, contrairement aux 3SLS, le FIML
est une procedure destimation jointe: il faut resoudre simultanement les conditions (18.72) et les conditions (18.70) pour si lon veut obtenir une quelconque estimation ML.
Une autre facon detablir la difference entre les deux procedures consiste
a dire quelles emploient des estimations differentes des memes instruments
`
optimaux. Ces instruments sont quelque peu delicats `a ecrire. Afin de le faire
sans trop de difficulte, nous pouvons construire un vecteur de dimension ng
constitue de toutes les contributions des moments empiriques. Sous forme
partitionnee, ce vecteur peut secrire

.
.
y1 Z1 1 ... ... yg Zg g ,
(18.74)
et
Pgun element type est n--vector yi Zi i . Au total, il faut identifier p
etres, de sorte quil faut premultiplier le vecteur (18.74)
i=1 (gi + ki ) param`
par exactement le nombre de vecteurs lignes, chacun etant de dimesnion ng,
si lon veut obtenir les equations definissantes pour ces estimations. On peut
voir sans grande difficulte que la matrice de dimension p ng necessaire `a
lobtention de (18.72) ou de (18.73) est constituee de blocs de la forme ij Wi>,
o`
u Wi indique une matrice de la forme [Xi Xi ] pour un choix donne des
matrices i de dimension n gi . Ce bloc type est une matrice de dimension
(gi + ki ) n, ce qui est coherent.
Les estimateurs 3SLS et FIML diff`erent selon la mani`ere de choisir et
les matrices i . Les instruments optimaux reel, mais non observables, sont
donnes en posant egale `a la veritable matrice de covariance des erreurs 0
et en posant i = B0 01, `a laide des veritables matrices de param`etres. A
que
convergent vers 0 . Identiquement, les malevidence, aussi bien

obtenue de la forme reduite contrainte


trices telle que Y = PX Y = X
1 obtenue par lestimation FIML convergent vers B0 1.
que la matrice B
0
Les deux procedures emploient par consequent des estimations convergentes
des veritables instruments optimaux, de sorte que les deux sont asymptotiquement equivalentes et asymptotiquement efficaces. Remarquons que cette
conclusion ne sapplique qu`a lestimation de et B: les procedures ne sont
pas equivalentes en ce qui concerne lestimation de la matrice de covariance .
On peut obtenir lequivalence numerique entre le FIML et les 3SLS en
iterant ces derniers. A chaque iteration, les residus de la precedente etape
sont utilises pour generer les estimations actualisees de , alors que les estimations parametriques de la precedente etape sont utilisees pour generer
les estimations actualisees de . Une telle procedure iterative, dont linteret
reste surtout theorique, debute par les 3SLS et converge vers le FIML pour
tous les param`etres, incluant ceux de . Cette operation iterative, et de nombreuses autres, sont abordees par Hendry (1976), qui fournit egalement une

s
18.6 Les Triples Moindres Carre

663

bibliographie exhaustive de la plupart des th`emes de la litterature consacree


aux equations simultanees existant `a cette epoque.
Comme nous lavons suggere lors de la Section 18.4, un moyen pratique
de calculer une estimations de la matrice de covariance de lestimateur FIML
de et B consiste `a employer une expression comparable `a (18.65). Si nous
par lestimation FIML ,
et les matrices
remplacons lestimation 3SLS
PX

`les dEquations Simultane


es
Mode

664

que lon peut ecrire plus simplement sous la forme


1 >

X ij X
n

(18.75)

ij = diag(
si lon pose la definition
uti u
tj ), pour i, j = 1, . . . , g. Si nous
employons cette expression pour elaborer une fonction crit`ere basee sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons `a un
nouvel estimateur, defini par les equations
g
X

ij X 1X> yj Zj j = 0.
Zi>X X>

j=1

La resolution de ces equations nous conduit `a lestimateur


" g
#
> >
1 > 1 X

ij X X Zj
ij X 1X>yj .
= Zi X X
Zi>X X>

(18.76)

j=1

Il nest pas surprenant de retrouver en (18.76) une structure tr`es omparable `a celle de lestimateur H2SLS (17.44), aussi lappellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par linverse
de la matrice avec le bloc type

ij X 1X>Zj .
Zi>X X>
En presence dheteroscedasticite de forme inconnue, lestimateur H3SLS devrait etre plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgre tout, ses performances avec des echantillons finis sont pratiquement
inconnus `a ce jour.
Il est evident que nous pourrions generaliser lestimateur H3SLS encore davantage `a laide dun estimateur HAC de la matrice de covariance
a la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
`
Chapitre 6). Cependant, cest une strategie adequate tant que la presence
de correlation en serie reste compatible avec le mod`ele correctement specifie
et que la taille dechantillon est relativement importante. Pour la plupart des
applications sur donnees chronologiques, le FIML ou les 3SLS restent les estimateurs systemiques preferes, du fait que lheteroscedasticite sera largement
absente, alors que la correlation en serie largement repandue si le mod`ele est
mal specifie. Quoi quil en soit, lorsque la taille de lechantillon est importante
et que lheteroscedasticite se manifeste fortement, comme cest le cas avec de
nombreuses applications sur donnees en coupe transversale, il est fort probable que lestimateur H3SLS soit lestimateur sysmetique le plus approprie.

`les dEquations Simultane


es Non Line
aires
18.7 Mode

665

`les dEquations Simultane


es Non Line
aires
18.7 Mode
A ce stade de lexpose, nous avons tr`es peu parle des mod`eles dequations
simultanees non lineaires. Un mod`ele dequations simultanees peut etre non
lineaire de trois mani`eres possibles. Pour la premi`ere, Yt peut dependre
de fonctions non lienaires de quelques variables exog`enes ou predeterminees.
Comme dhabitude, ce type de non linearite nengendre pas de probl`eme et
peut etre gere de facon simple en redefinissant Xt . Pour la deuxi`eme, certains param`etres peuvent agir de mani`ere non lineaire dans le mod`ele structurel pour Yt , sans doute parce quils sont soumis `a des contraintes non
lineaires. Cest le genre de non linearite que nous avons traite frequemment
avec lestimation de mod`eles de regression non lienaire, et elle ne cause pas
de probl`eme supplementaire dans le contexte des mod`eles dequations simultanees. Enfin, pour la troisi`eme, il peut exister des non linearites provoquees
par les variables endog`enes. Ce type de non linearite ne pose pas non plus de
probl`eme serieux supplementaire.
Le probl`eme avec les mod`eles qui sont non lineaires du fait des variables
endog`enes est que pour de tels mod`eles il nexiste aucun equivalent `a la forme
reduite non contrainte dun mod`ele dequations simultanees lineaire. Il est
habituellement difficile voire impossible dobtenir les variables endog`enes en
fonction de svariables exog`enes et des aleas. Meme lorsque cela est possible,
Yt dependra presque toujours de facon non lienaire `a la fois des exog`enes et
des aleas. Soit, par exemple, le mod`ele simple `a deux equations
y1 = y2 + X1 1 + u1
y2 = 1 y1 + 2 y12 + X2 2 + u2 ,

(18.77)

o`
u la notation reste conventionnelle et o`
u lindice t a ete supprime pour ne
pas surcharger les expressions Si nous subsituons le membre de droite de la
premi`ere equation de (18.77) dans la seconde, nous obtenons

2
y2 = 1 y2 + X1 1 + u1 + 2 y2 + X1 1 + u1 + X2 2 + u2 .
Puisque cette equation est une forme quadratique en y2 , elle poss`edera
habituellement deux solutions. Selon les valeurs parametriques et les valeurs
des Xi et des ui , les deux solutions peuvent etre reelles ou pas. Meme sil
existe une solution reelle, elle ne sera generalement pas lineaire en les variables
exog`enes. Par consequent, le simple usage des composantes de X1 et de X2
en tant quinstruments ne sera pas optimal.

Cet exemple illustre la nature des probl`emes que lon peut rencontrer-292(p)-28(our)-291(de)ave
endog`enes. Nous sommes au moins confrontes `a un probl`eme de choix des instruments. Une approche, discutee dans la Section 7.6, consiste `a employer
des puissances et meme des produits croises des des variables exog`enes en

666

`les dEquations Simultane


es
Mode

tant quinstruments, en meme temps que les variables exog`enes elles-memes.


Si la taille de lechantillon est suffisamment importante, cette approche est
judicieuse, mais dans de nombreux cas il sera difficile de determiner le nombre dinstruments `a employer, et meme de savoir lesquels employer. Lajout
dinstruments ameliorera generalement lefficacite asymptotique mais tendra
egalement `a accrotre le biais avec des echantillons finis. Plus serieusement,
il est fort possible destimer un mod`ele qui ne peut pas etre resolu pour des
valeurs tout `a fait raisonables des variables exog`enes et des aleas. Ainsi il
faudrait probablement eviter demployer des mod`eles qui sont non lineaires
en les variables endog`enes, si cela est possible.
Il semble que le LIML ne soit pas une procedure viable pour lestimation
de mod`eles dequations simultanees non lienaires. La procedure LIML classique discutee dans la Section 18.5 est concue exclusivement pour les mod`eles
lineaires. On peut imaginer obtenir des estimations LIML dune equation
structurelle non lineaire en employant un programme pour le FIML non
lineaire applique `a un syst`eme constitue dune seule equation structurelle et
de g 1 equations lineaires sous forme reduite. Cela ne serait coherent que
si les equations sous forme reduite etaient en fait lineaires, ce qui ne sera
presque jamais le cas. Ainsi, pour lestimation dequations isolees, les seules
procedures adequates sont celles basees sur les variables instrumentales.
Nous avons discute de lestimation de mod`eles non lineaires constitues
dune seule equation par les methodes IV dans la Section 7.6, et il reste seulement quelques complements `a livrer sur ce sujet. Supposons que lequation
structurelle qui nous interesse puisse secrire
y = x() + u,
o`
u est un vecteur compose de l param`etres, et le vecteur de fonctions non
lineaires x() depend implicitement dau moins une variable endog`ene et dun
certain nombre de variables exog`enes et predeterminees. Alors si W designe
une matrice dinstruments de dimension n m, nous avons vu que les estimations IV peuvent etre calculees en minimisant la fonction crit`ere

y x() >PW y x() .


(18.78)
Les estimations qui en resultent sont souvent nommees moindres carres non
lineaires en deux etapes ou estimations NL2SLS, si lon se ref`ere `a la terminologie dAmemiya (1974), bien que ces estimations ne soient pas obtenues en
deux etapes. Nous avons vu ce detail dans la Section 7.6.
La fonction crit`ere (18.78) peut se deriver comme une procedure GMM
en debutant par les conditions portant sur les moments

E W > y x() = 0
et en supposant que E(uu> ) = 2 I. Cette hypoth`ese peut se reveler parfois
trop contraignante. Si elle etait correcte, la minimisation de (18.78) produirait

`les dEquations Simultane


es Non Line
aires
18.7 Mode

667

des estimations non efficaces et une estimation non convergentes de la matrice


de covariance des param`etres estimes. Une hypoth`ese plus souple est que
E(uu> ) = , o`
u est une matrice diagonale dont les elements diagonaux
sont inconnus (mais finis). Nous pouvons obtenir des estimations analogues
aux estimations H2SLS de la Section 17.3 `a laide dune procedure en deux
etapes. Dans la premi`ere etape, nous minimisons (18.78), de mani`ere `a obtenir
des estimations parametriques convergentes mais non efficaces et des residus

a
o`
u
u
t , et nous utilisons ces derniers pour construire la matrice W >W,
2
comme element type u
t . Dans la seconde etape, nous minimisons la fonction
crit`ere

1 >

y x() >W W >W


W y x() .
Comme dhabitude, nous pourrions abandonner lhypoth`ese de diagonalite de
et employer un estimateur HAC, si cela saverait utile (voir les remarques
a la fin de la section precedente).
`
Lestimation systemique des mod`eles dequations simultanees non lineaires rel`eve typiquement dune sorte de procedure IV (ou GMM) ou FIML.
Nous discuterons bri`evement de ces deux approches `a tour de role. Supposons
que la i i`eme equation du syst`eme puisse secrire pour toutes les observations
sous la forme
fi (Y, X, ) = ui ,
(18.79)
o`
u fi () est un vecteur de dimension n de fonctions non lineaires, ui est un
vecteur de dimension n daleas, et o`
u est un vecteur de dimension p de
param`etres quil sagit destimer. En general, toutes les variables endog`enes
et exog`enes et tous les param`etres peuvent apparatre dans nimporte quelle
equation, compte tenu des contraintes quelconques que lon peut vouloir leur
imposer pour identifier le syst`eme.
La premi`ere etape dans toute procedure IV consiste `a choisir les instruments que lon va utiliser. Si le mod`ele est non lineaire seulement en les
param`etres, la matrice des instruments optimaux est X. Cependant, comme
nous lavons vu, il nexiste pas de moyen simple de choisir les instruments pour
les mod`eles qui sont non lineaires en une ou plusieurs variables endog`enes. La
theorie de la Section 17.4 peut sappliquer, bien entendu, mais le resultat
quelle entrane nest pas dun grand interet pratique. Il apparat que sous les
hypoth`eses habituelles sur les termes derreur, `a savoir leur homoscedasticite
et leur independance en serie mais pas entre les equations, la matrice des
instruments W sera optimale si S(W ) correspond `a lunion des sous-espaces
engendres par les colonnes de E(fi /). Ce resultat est du `a Amemiya
(1977). Il reste pertinent mais generalement, il nest pas utile dans la pratique. Pour linstant, nous supposons simplement quune certaine matrice
dinstruments W de dimension n m est disponible, avec m p.
Une procedure IV non lineaire pour lestimation systemique, comparable dans lesprit `a la procedure equation par equation des NL2SLS basee sur
la minimisation de (18.78), fut proposee `a lorigine par Jorgenson et Laffont (1974) et fut nommee moindres carres en trois etapes, ou NL3SLS.

668

`les dEquations Simultane


es
Mode

Lappellation est quelque peu trompeuse, pour une raison identique `a celle
qui fait que le nom`
u NL2SLS est egalement trompeuse. Par analogie avec
6.96T6163.1803.87od

`les dEquations Simultane


es Non Line
aires
18.7 Mode

669

Lorsdque la taille de lechantillon est importante, il est peut etre plus


facile dobtenir des estimations efficaces en une etape plutot que de minimiser
(18.82). Supposons que lon note les estimations efficaces initiales, qui peuvent etre soit des estimations NL2SLS soit des estimations systemiques basees
sur (18.81). Un developpement en serie de Taylor de fi () fi (Y, X, ) autour de est
+ Fi ()(

fi ()
),
o`
u Fi est une matrice de dimension n p des derivees de fi () par rapport aux p elements de . Si quelques param`etres napparaissent pas dans
lequation i, les colonnes correspondantes de Fi seront identiquement nulles.
Les estimations en une etape, qui seront asymptotiquement equvalentes aux
o`
estimations NL3SLS, sont simplement ` = t,
u t designe le vecteur des
estimations 3SLS lineaires
" g
#
ij >
1 X
t =
Fi PW Fj

ij Fi>PW fj .
(18.83)
j=1

Cette expression doit etre comparee `a (18.64).


Il est clair que lon peut generaliser les NL3SLS pour gerer une heteroscedasticite de forme inconnue, une correlation serielle de forme inconnue, ou les
deux simultanement. Par exemple, afin de tenir compte dune heteroscedasticite, nous remplacerions simplement la matrice PW dans (18.82) et (18.83)
par la matrice

ij W 1 W >,
W W >
ij = diag(
o`
u, par analmogie avec (18.76),
uti u
tj ) pour i, j = 1, . . . , g. Les
estimations initiales peuvent ne pas tenir compte de lheteroscedasticite.
pour une discussion plus detaillee sur cette sorte de procedure, et de NL3SLS
en general, consulter Gallant (1987, Chapitre 6).
Lautre methode destimation systemique qui est largement employee est
celle du FIML non lineaire. Pour lexaminer, il est judicieux decrire le syst`eme
dequations `a estimer non pas sous la forme (18.79) mais plutot sous la forme
ht (Yt , Xt , ) = Ut ,

Ut NID(0, ),

(18.84)

o`
u demeure un vecteur de p param`etres, ht un vecteur de dimension 1 g
de fonctions non lineaires, et Ut un vecteur de dimension 1 g de termes
derreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit dimaginer que le i i`eme element de ht () est identique au t i`eme element
de fi ().
La densite du vecteur Ut est

1
(2)g/2 ||1/2 exp
Ut 1 Ut> .
2

`les dEquations Simultane


es
Mode

670

Pour se ramener `a la densite de Yt , nous devons remplacer Ut par ht (Yt , Xt , )


et multiplier par le terme jacobien |det Jt |, o`
u Jt ht ()/Yt , cest-`a-dire
la matrice de dimension g g des derivees de ht par rapport aux elements de
Yt . La resultat est

1
(2)g/2 |det Jt |||1/2 exp
ht (Yt , Xt , ) 1 ht>(Yt , Xt , ) .
2

Il sensuit immediatement que la fonction de logvraisemblance est


ng

`(, ) = log(2) +
2

n
X

n
log |det Jt |
log ||
2

t=1
n
X

(18.85)

ht (Yt , Xt , ) 1 ht>(Yt , Xt , ).

t=1

Cette expression peut etre maximisee par rapport `a et le resultat injecte


pour mener `a l fonction de logvraisemblance concentree
c

ng

` () = log(2) + 1 +
2

n
X

log |det Jt |

t=1

n
X

n
>
log
h
(Y
,
X
,
)h
(Y
,
X
,
)
.
t
t
t
t
t
t
n
2

(18.86)

t=1

De toute evidence, il existe une forte ressemblance entre (18.85) et (18.86) et


leurs contreparties (18.28) et (18.30) pour le cas lineaire. La difference majeure est que le terme jacobien dans (18.85) et (18.86) correspond `a la somme
des logarithmes de n determinants differents. Ainsi `a chaque evaluation de ces
fonctions de logvraisemblance, il faut calculer n determinants differents. Cela
peut saverer co
uteux lorsque g ou n est important. Bien s
ur, le probl`eme
disparat si le mod`ele est lineaire n les variables endog`enes, puisqualors Jt
sera constant.
Une difficulte avec le FIML non lineaire est que lon ne sait pas trop
bien comment tester les contraintes de suridentification, ni meme `a quoi elles
peuvent ressembler dans de nombreux cas. Dans le contexte dun mod`ele
dequations simultanees lineaire, toute forme structurelle impose des contraintes non lineaires `a la forme reduite non contrainte, et un test LR permet
de tester simplement ces contraintes. Cependant, dans le cas dun mod`ele
dequations simultanees non lineaire en les variables endog`enes, nous ne pouvons en general pas meme ecrire la FRL, let alone estimate it. On peut
toujours tester nimporte quelle contrainte `a laide des tests classiques, quil
sagisse de contraintes dequations croisees ou de contraintes portant sur une
equation isolee. Mais il sera en general impossible de tester toutes les contraintes de suridentification en meme temps. Il existe un probl`eme connexe

18.8 Conclusion

671

avec lestimation NL3SLS, bien s


ur. Bien que la valeur minimisee de la fonction crit`ere (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associees `a une matrice dinstruments
particuli`ere W, qui peut parfaitement ne pas procurer une approximation satisfaisante `a la veritable forme reduite non contrainte, qui est inconnue.
La relation entre le FIML non lineaire et les NL3SLS nest pas de nature comparable `a celle qui existe entre le FIML lineaire et les 3SLS. Les
deux methodes non lineaires seront asymptotiquement equivalentes lorsque le
mod`ele est lineaire en les variables endog`enes. Toutefois, dans la majorite des
situations, elles ne le seront pas. Dans leventualite dune non equivalence,
le FIML non lineaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacite se paye. Lorsque le FIML non lineaire et les
NL3SLS ne sont pas equivalents, le premier peut etre non convergent si les
aleas sont en realite distribues autrement que suivant la loi normale multivariee. Au contraire, comme nous lavons vu, lhypoth`ese de normalite nest
pas necessaire pour assurer la convergence du FIML lineaire. Pour plus de
details sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non lineaire que le notre.
Il existe une litterature veritablement vaste sur le calcul des estuiimations
par le FIML non lineaire. Comme dhabitude, on peut employer de nombreux algorithmes differents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentree, dont certains exploitent des caracteristiques speciales des classes particuli`eres de mod`eles. Le references classiques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).

18.8 Conclusion
Le fait que nous traitions un th`eme aussi important que les mod`eles dequations simultanees aussi tard peut heurter certains lecteurs. Nous avons bien
evidemment aborde certains aspects du probl`eme dans le Chapitre 7, en tant
que contribution `a notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
comprehension claire de lestimation et des tests de specification par maximum
de vraisemblance et de la methode des moments generalisee. Cela nous a alors
permis de developper toutes les methodes destimation et de test discutees
dans ce chapitre en tant quapplications immediates du ML et de la GMM.
Si lon admet cela, il est beaucoup plus facile de comprendre les mod`eles
dequations simultanees et les techniques statistiques qui leur sont associees.

Termes et Concepts

672
causalite au sens de Granger
condition dordre pour lidentification
condition de rang pour lidentification
contraintes dequation croisees
contraintes de suridentification
doubles moindres carres non lineaires
(NL2SLS)
estimateur de classe K
estimateur du ratio de moindre
variance
estimateur H3SLS
exogeneite
exogeneite faible
exogeneite stricte
FIML non lineaire
fonction de logvraisemblance partielle
forme reduite contrainte (FRC)
forme reduite libre (FRL)
maximum de vraisemblance en
information compl`ete (FIML)

`les dEquations Simultane


es
Mode
maximum de vraisemblance en
information limitee (LIML)
mod`eles dequations simultanees
mod`eles dequations simultanees
lineaire
mod`eles dequations simultanees non
lineaire
non causalite au sens de Granger
param`etres de nuisance
param`etre dinteret
super exogeneite
syst`eme recursif
triples moindres carres (3SLS)
triples moindres carres non lineaires
(NL3SLS)
variable endog`ene
variable exclue
variable exog`ene
variable incluse
variable predeterminee