Vous êtes sur la page 1sur 51

Chapitre 18

Modèles d’Equations Simultanées

18.1 Introduction
Pendant de nombreuses années, le modèles d’équations simultanées linéaire a
été le centre d’intérêt de la théorie économétrique. Nous avons abordé un cas
particulier de ce modèle, un modèle d’offre-demande à deux équations, dans la
Section 7.3. L’objet de cette discussion était simplement de monter que la si-
multanéité implique une corrélation entre les régresseurs et les termes d’erreur
de chaque équation de système, rendant les OLS non convergents et justifi-
ant l’usage des variables instrumentales. La non convergence des estimateurs
par moindres carrés des équations individuelles dans les modèles d’équations
simultanées n’est pourtant pas le seul résultat économétrique pour ce genre
de modèle. Dans ce chapitre, nou discutons donc des modèles d’équations
simultanées en détail.
La grande majorité du travail récent sur les modèles d’équations simul-
tanées s’est développé sous la bienveillance de la Commisssion Cowles; Koop-
mans (1950) et Hood et Koopmans (1953) sont des références connues. Ce
travail a fortement influencé la direction suivie par la théorie économétrique
depuis de nombreuses années. Pour une histoire sur le développement récent
de l’économétrie, consulter Morgan (1990). Parce que la littérature consacrée
aux modèles d’équations simultanées est vaste, nous ne traiterons qu’une
petite partie de celle-ci. Il existe un grand nombre d’études sur ce champ
théorique, et de nombreux ouvrages qui se situent à des niveaux différents.
Deux articles de synthèse intérssants sont ceux de Hausman (1983), qui traite
de la littérature traditionnelle, et Phillips (1983), qui traite du champ plus
spécifique de la théorie en petit échantillon dans les modèles d’équations si-
multanées, un sujet que nous n’aborderons pas du tout.
La caractéristique essentielle des modèles d’équations simultanées est
que deux ou plusieurs variables endogènes sont déterminées simultanément
par le modèle, comme des fonctions de variables exogènes, de variables
prédéterminées, et d’aléas. A ce stade, nous en avons dit très peu sur ce
que nous entendons par variables exogènes et prédéterminées. Puisque le rôle
de telles variables est essentiel dans les modèles d’équations simutlanées, il
est temps de corriger le défaut. Dans la Section 18.2, nous discutons par
conséquent en détail du concept important de l’exogénéité.

622
18.1 Introduction 623

La majeure partie du chapitre sra consacrée au modèle d’équations si-


multanées. Supposons qu’il y ait g variables endogènes, et par conséquent g
équations, et k variables exogènes ou prédéterminées. Alors le modèle peut
être écrit sous forme matricielle comme

YΓ = XB + U. (18.01)

Ici, Y désigne une matrice de dimension n × g de variables endogènes, X


désigne une matrice de dimension n × k de variables exogènes ou prédéter-
minées, Γ désigne une matrice de dimension g × g de coefficients, B désigne
une matrice de dimension k × g de coefficients, et U désigen une matrice de
dimension n × g de termes d’erreur.
Il est immédiatement clair que le modèle (18.01) comprend beaucoup trop
de paramètres à estimer. Une observation type pour l’équation l peut s’écrire
sous la forme
Xg Xk
Γil Yti = Bjl Xtj + utl .
i=1 j=1

La multiplication de tous les paramètres Γil et Bjl par n’importe quelle con-
stante non nulle aurait pour effet de multiplier utl par cette constante pour
tout t, mais ne modifierait pas la structure des aléas dans les observations.
Il est donc nécessaire d’imposer une sorte de nomrmalisation pour chaque
équation du modèle. Une normalisation évidente consiste à poser Γii = 1
pour tout i; chaque variable endogène, de y1 à yg , serait alors associée à un
coefficient unitaire dans une et une seule équation. Cependant, comme nous
l’avons vu dans la Section 7.3, de nombreuses autres normalisations pourraient
être envisagées. Nous pourrions, par exemple, poser Γ1l = 1 pour tout l; le
coefficient associé à la première variable endogène serait ainsi égal à l’unité
dans chaque équation.
Le modèle (18.01) n’a pas de sens si la matrice Γ n’est pas inversible,
car sinons il serait impossible de déterminer Y de manière unique en tant que
fonction de X et U. Nous pouvons donc postmultiplier des deux membres de
(18.01) par Γ −1 pour obtenir

Y = XBΓ −1 + UΓ −1 (18.02)
= XΠ + V. (18.03)

L’expression (18.02) est la forme réduite contrainte, ou FRC, et l’expression


(18.03) est la forme réduite libre, ou FRL. Les contraintes sont Π = BΓ −1.
Notons que, même dans le cas improbable où les colonnes de U étaient
indépendantes, celles de V ne le seraient pas. Ainsi les diverses équations
de la forme réduite possèdent preque sûrement des aléas corrélés.
L’imposition des contraintes de normalisation est nécessaire mais non
suffisante pour obtenir des estimations de Γ et B. Le problème est que, à
624 Modèles d’Equations Simultanées

moins de lui imposer des contrantes, le modèle (18.01) a beaucoup trop de


paramètres inconnus. La matrice Γ possède g 2 − g coefficients, du fait des g
conraintes de normalisation, alors que la matrice B en possède gk. Il y a donc
g 2 + gk − g coefficents structurels au total. Mais la matrice Π sous la forme
réduite libre ne possède que gk coefficients. Il est à l’évidence impossible de
déterminer les g 2 + gk − g coefficients structurels à partir des gk coefficients
de la FRL. Il faudra imposer au moins g 2 − g contraintes sur Γ et/ou B afin
d’être en mesure d’identifier le modèle. Il existe une vaste littérature con-
sacrée à l’identification dans les modèles d’équations simultanées, qui aborde
le problème des conditions sous lesquelles certains ou tous les paramètres de
tel modèle peuvent être identifiés. Nous livrerons les principaux résultats de
cette littérature dans la Section 18.3.
La grande partie restante du chapitre traite des mérhodes d’estimation
diverses et variées pour les modèles d’équations simultanées. La Section 18.4
aborde l’estimation par maximum de vraisemblance du modèle dans son en-
semble sous l’hypothèse de normalité, une technique connue sous le nom de
maximum de vraisemblance en information complète, ou FIML. La section qui
suit traite de l’estimation par maximum de vraisemblance de chaque équation
séparément, technique que l’on nomme maximum de vraisemblance en in-
formation limitée, ou LIML. Puis dans la Section 18.6, nous discuterons des
triples moindres carrés, ou 3SLS, que l’on dérive comme une application de la
méthode des moments généralisée. Enfin, les modèles d’équations simultanées
seront abordés dans la Section 18.7.

18.2 Exogénéité et Causalité


Dans le cas d’une équation de régression unique, nous estimons la distribu-
tion, ou du moins l’espérance et la variance, d’une variable endogène condi-
tionnellement aux valeurs de certaines variables explicatives. Dans le cas d’un
modèle d’équations simultanées, nous estimons la distribution jointe de deux
ou plusieurs variables endogènes conditionnellement aux valeurs de certaines
variables explicatives. Mais nous n’avons encore rien dit sur les conditions
sous lesquelles nous pouvons considérer une variable comme explicative. Pour
que l’inférence conditionnelle soit valable, les variables explicatives doivent
être soit prédéterminées soit exogènes dans un sens ou un autre que nous
allons définir.
Dans un contexte de série temporelle, nous avons vu que les variables
aléatoires qui sont prédéterminées peuvent être employées sans risque en tant
que variables explicatives dans une estimation par moindres carrés, du moins
asymptotiquement. En réalité, les variables endogènes rétardées sotn abon-
damment utilisées en tant que variables explicatives et en tant qu’instruments.
Cependant, il y a de nombreux cas, et parmi eux le cas des modèles es-
timés à l’aide de données en coupe tranversale, où nous voulons utiliser en
tant que variables explicatives des variables qui ne sont pas des variables
18.2 Exogénéité et Causalité 625

prédéterminées. De plus, le concept de prédétermination se révèle être plus


délicat que ce que l’on imagine, puisque la prédétermination n’est pas invari-
ante à la paramétrisation du modèle. Ainsi il est calir que nous avons besoin
d’un concept plus général que celui de la prédétermination.
Il est pratique de débuter par des définitions formelles du concept de
prédétermination et du concept étraitement relié de l’exogénéité faible. Ce
faisant, nous suivons l’exposé classique de ces thèmes, tel qu’il apparaı̂t chez
Engle, Hendry, et Richard (1983). Les lecteurs devraient être prévenus que
cet article, bien qu’étant une référence classique, n’est pas du tout évident à
lire. Notre discussion sera grandement simplifiée par rapport à la leur, et se
fondera sur un contexte plus général, puisque ces auteurs se concentrent sur
les modèles paramétriques pleinement spécifiés et estimables par maximum
de vraisemblance. Nous nous référerons, malgré tout, à un de leurs exemples
pour une illustration concrète d’un nombre de points.
Soit Yt le vecteur de dimension 1 × g l’observation t d’un ensemble de
variables que nous voulons modéliser dans un processus simultané, et soit
Xt le vecteur de dimension 1 × k l’observation t d’un ensemble de variables
explicatives, dont toutes ou certaines peuvent être des Yt retardés. Nous
pouvons écrire un modèle d’équations simultanées, en général nobn linéaire,
sous la forme
ht (Yt , Xt , θ) = Ut , (18.04)
où ht est un vecteur de dimension 1 × g de fonctions, comparable à la fonction
de régression d’un modèle univarié, où θ est un vecteur de paramètres de
dimensionp, et où Ut est un vecteur de dimension 1 × g d’aléas. Le modèle
linéaire (18.01) peut être considéré comme un cas particulier de (18.04) si
nous le mettons sous la forme

Yt Γ = Xt B + Ut

et si nous faisons en sorte que θ soit composé de tous les éléments de Γ


et B qu’il faut estimer. Ici Xt et Yt sont les t ième lignes des matrices X
et Y. On pourrait baser un ensemble de conditions portant sur les moments
(conditionnels) sur (18.04), en écrivant
¡ ¢
E ht (Yt , Xt , θ) = 0,

où l’espérance pourrait s’interpréter comme étant conditionnelle à un ensemble


d’information approprié.
Définition 18.1.
Les variables explicatives Xt sont prédéterminées dans l’équation i du
modèle (18.04), pour i = 1, . . . , g, si, pour tout t = 1, . . . , n,

Xt k ui,t+s pour tout s ≥ 0.


626 Modèles d’Equations Simultanées

Le symbole k est ici employé pour exprimer l’indépendance statistique. La


définition est valable quel que soit le contexte, et en particulier le contexte des
séries temporelles pour lequel il existe un ordre naturel. Le prochain concept
ne nécessite pas un tel ordonnancement.
Définition 18.2.
Les variables explicatives Xt sont strictement exogènes dans l’équation
i du modèle (18.04) si, pour tout t = 1, . . . , n,

Xt k Us pour tout s = 1, . . . , n.

Si (18.04) représente une forme structurelle, alors autant la prédétermina-


tion que l’exogénéité stricte nous autorise à traiter cette forme comme une
caractérisation du processus générant Yt conditonnellement à Xt . Ainsi
nous pouvons, par exemple, écrire une fonction de log-vraisemblance basée
sur (18.04), que l’on peut maximiser pour obtenir des estimations conver-
gentes des paramètres θ; voir la Section 18.4. Si l’on pense que (18.04) doit
fournir des conditions portant sur les moments conditionnels, alors autant la
prédétermination que l’exogénéité stricte nous autorise à employer les colonnes
de X comme instruments dans l’estimation de θ par une sorte quelconque de
procédure IV, telle que les 2SLS, 3SLS ou la GMM. En réclamant cette pro-
priété, nous supposons qu’il y a suffisamment d’instruments dans X pour
identifier tous les paramètres de θ.
Hélas, le concept de l’exogénéité stricte est beaucoup trop contraignant,
du moins pour les applications sur séries temporeles. Dans ce contexte, un
très petit nombre de variables sont strictement exogènes, bien que beaucoup
soient prédéterminées. Cependant, comme nous allons le montrer, une vari-
able peut être prédéterminée ou non dans un même modèle selon la manière
de le paramétrer. En plus de cela, la prédétermination n’est pas toujours
nécessaire pour une estimation convergente. Ce concept est par conséquent
très peu satisfaisant.
Considérons le modèle simultané suivant, tiré de Engle, Hendry, et
Richard (1983):

yt = βxt + ε1t (18.05)


xt = δ1 xt−1 + δ2 yt−1 + ε2t , (18.06)

où les aléas sont normalement, identiquement, et indépendemment distribués


pour tout t, avec une matrice de covariance donnée par
· ¸
σ11 σ12
Σ≡ .
σ12 σ22

Si σ12 6= 0, xt est corrélé à ε1t et l’estimation de (18.05) par OLS ne sera pas
convergente parce que xt n’est pas prédéterminé dans (18.05).
18.2 Exogénéité et Causalité 627

Considérons à présent l’espérance de yt conditionnellement à xt et à tous


les yt et xt retardés. Nous avons

E(yt | xt , yt−1 , xt−1 · · ·) = βxt + E(ε1t | xt , yt−1 , xt−1 · · ·). (18.07)

Remarquons que ε2t est défini par (18.06) comme une combinaison linéaire
des variables conditionnantes. Ainsi l’espérance conditionnelle de ε1t dans
(18.07) est
σ12 σ12
E(ε1t | ε2t ) = ε2t = (x − δ1 xt−1 − δ2 yt−1 ).
σ22 σ22 t

Nous pouvons par conséquent écrire

yt = bxt + c1 xt−1 + c2 yt−1 + vt , (18.08)

avec
σ12 σ12 σ12
b=β+ , c 1 = − δ1 , c2 = − δ2 , (18.09)
σ22 σ22 σ22
où vt est indépendent de xt . Ainsi xt est prédéterminé dans (18.08), quelle
que soit la valeur de σ12 , bien qu’il ne soit pas prédéterminé dans (18.05)
lorsque σ12 6= 0.
Nous retournerons à ce modèle plus tard. Pendant ce temps, progressons
vers un concept plus approprié que la prédétermination dans le contexte du
modèle simultané. Parce que nous voulons savoir si les variables explicatives
Xt sont déterminées simultanément aux Yt nous aurons besoin de travailler
avec des DGP qui génèrent à la fois Yt et Xt . Comme d’habitude, nous
pouvons représenter un DGP par une densité de probabilité, ou mieux par
son logarithme, que l’on peut exprimer comme la somme de contributions de
chaque observation; voir la Section 8.2. La contribution de l’observation t est
de la forme
`t (Yt , Xt | Ωt ). (18.10)
Cette expression est le logarithme de la densité jointe de Yt et Xt condition-
nellement à l’ensemble d’information Ωt . Ce dernier est composé de toutes
les observations sur Yt et Xt , de la première à la (t − 1)th .
L’expression (18.10) peut être décomposée en deux contributions, l’une
correspondant au logarithme de la densité de Yt cnditionnellement à Xt et
Ωt , et la seconde correspondant au logarithme de la densité de Xt condition-
nellement à Ωt :

`t (Yt , Xt | Ωt ) = `Yt (Yt | Xt , Ωt ) + `X


t (Xt | Ωt ), (18.11)

avec une notation évidente. A ce stade, nous souhaitons pouvoir faire ab-
straction de la seconde partie des contributions dans (18.11), puisqu’elle ne
concerne que les variables explicatives.
628 Modèles d’Equations Simultanées

Sous quelles conditions pouvons-nous faire abstraction de la seconde con-


tribution? Pour répondre à cette question, considérons tout d’abord un
modèle, M, composé de DGP représentés par des ensembles de contribu-
tions de la forme (18.11). Puis, définissons une application définissante des
paramètres: M → Θ ∈ Rp qui associe un vecteur de paramètres à p com-
posantes θ(µ) ∈ Θ à chaque µ ∈ M. Le vecteur de paramètres θ contient
les paramètres d’intérêt, c’est-à-dire ceux que nous vouons estimer. Comme
nous allons le voir, il peut y avoir d’autres paramètres, appelés, paramètres
perturbateurs, que nous ne souhaitons pas estimer.
Définition 18.3.
Les variables expliatives Xt sont faiblement exogènes pour le modèle
paramétrique (M, θ) si
(i) il existe un sous-modèle M X qui contient les DGP pour les vari-
ables explicatives Xt seulement;
(ii) il existe un sous-modèle conditionnel M Y qui contient les DGP
pour les variables endogènes Yt conditionnellement aux variables
explicatives Xt ;
(iii) le modèle complet M comprend tous les DGP joints (µY, µX ), où
µX est un élément arbitraire de M X et où µY est un élément
arbitraire de M Y ; et
(iv) il existe une application définissante des paramètres θ Y : M Y → Θ
telle que, pour tout µ ≡ (µY, µX ) ∈ M, θ(µ) = θ Y (µY ).
Cette définition nécessite quelques mots d’explication. Les DGP du sous-
modèle M X sont caractérisés par des sérise des contributions telles que `Xt
dans (18.11), alors que ceux de M Y sont caractérisés par des contributions
telles que `Yt dans cette équation. Ainsi les contributions qui caractérisent
les DGP des deux sous-modèles sont tels que, pour l’observation t, la densité
est conditionnelle à tous les Ωt . Cela signifie en particulier que le processus
qui génère les Xt peut tout à fait dépendre des Yt retardés. La puissance
de point (iii) de la définition est que le modèle complet M, les DGP qui ont
des contributions comparables au membre de droite de (18.11), doit contenir
toutes les combinaisons d’éléments de M X et M Y possibles. Le point (iv)
indique que les paramètres du modèle ne dépendent que du DGP conditionnel
qui génère les Yt conditionnellement aux Xt . Autrement dit, les paramètres
associés au DGP (µY , µX ) ne dépendent que de µY . Si on remplace µX par un
autre DGP pour les mêmes variables explicatives, disons ν X, les paramètres
ne sont pas modifiés.
Engle, Hendry, et Richard prétendent que l’exogénéité faible au sens de la
définiiton précédente est précisément cedont nous avons besoin pour estimer
et réaliser des inférences sur les paramètres θ without sans tenir compte du
sous-modèle M X . Afin d’estimer les modèles par maximum de vraisemblance,
cela est suffisament clair. La fonction de log-vraisemblance est la somme des
contributions du type (18.11). Seul le premier terme, issu du sous-modèle
18.2 Exogénéité et Causalité 629

M Y, peut dépendre de θ. La maximisation de la fonction de log-vraisemblance


dans sa totalité est donc équivalente à la maximisation de la fonction de log-
vraisemblance partielle
n
X
`Y (Y n, X n ; θ) ≡ `Yt (Yt | Xt , Ωt ; θ)
t=1

par rapport à θ. De la même façon, en ce qui concerne l’inférence, le gradient


et la matrice Hessienne de la fonction de log-vraisemblance complète ` par
rapport à θ sont identiques à ceux de la fonction de log-vraisemblance partielle
`Y .
Voyons comment s’applique la Définition 18.3 au modèle défini par (18.05)
et (18.06). A l’évidence, (18.06) correspond au sous-modèle M X et (18.05)
correspond au sous-modèle M Y. Notons que (18.06) fait usage des valeurs
retardées de yt . Remarquons que si les “paramètres” δ1 et δ2 étaient définis
par l’application définissante des paramètres, l’exogénéité faible serait sans
pertinence, puisque les δi apparaissent seulement dans le sous-modèle M X.
Pour éviter cette difficulté apparente, nous supposerons que l’application
définissante des paramètres ne définit que le paramètre β. Ainsi, dans ce
cas, nous mettons les paramètres δi et les éléments de la matrice de covar-
iance Σ sur un pied d’égalité, en tant que paramètres perturbateurs. Le seul
paramètre d’intérêt est β.
Un DGP du sous-modèle M X peut maintenant être spécifié en donnant les
valeurs des paramètres perturbateurs δi et la densité marginale des aléas ε2t ,
qui dépendra de la variance non conditionnelle σ22 mais pas de σ11 ou de
σ12 . Pour une DGP dans M Y, il est nécessaire de spécifier la valeur de β, le
paramètre qui nous intéresse, et la densité de ε1t conditionnellement à ε2t ,
qui impliquera σ11 et σ12 . A ce stade, les conditions (i), (ii), et (iv) de la
Définition 18.3 sont satisfaites. La variable xt est donc faiblement exogène
pour le modèle donné par (18.05), (18.06) et le paramètre β dès que la con-
dition (iii) est satisfaite, ce qui implique que nous soyons capables d’associer
deux DGP, quels qu’ils soient, correspondant chacun à un sous-modèle. Mais
2
cela n’est pas possible en général, parce qu’il faut que σ11 σ22 ≥ σ12 afin que
la matrice de covariance de la distribution jointe de ε1t et ε2t soit semi-définie
positive. Cette inégalité ne sera satisfaite automatiquement que si nous con-
traignons le modèle global de sorte que σ12 = 0, ce qui rend xt faiblement
exogène.
Nus voyons donc, dans ce cas, que la prédétermination de xt se con-
fond avec son exogénéité faible. Qu’advient-il si nous examinons le modèle
donné par (18.08) et (18.06)? Souvenons-nous que xt est prédéterminé dans
(18.08) de manière tout à fait générale. En réalité, il sera également faiblement
exogène en général si nous modifions l’application définissante des paramètres
(mais pas le modèle M sous-jacent) afin qu’elle décrive le paramètre b au lieu
de β. Remarquons que même si nous nous intéressons aux paramètres c1 , c2 ,
630 Modèles d’Equations Simultanées

et à la variance des aléas vt dans (18.08)autant qu’à b, β ne peut pas être


recomposé à partir de ces paramètres sans σ12 . L’exogénéité faible provient
du fait que, par construction, vt est non corrélé à ε2t .
L’avantage de l’exogénéité faible par rapport à la prédétermination dans
ce contexte est que sa définition fait référence à une application définissante
des paramètres particulière. cela signifie que nous pouvons dire que xt est
faiblement exogène pour β ou pas, selon le cas, et qu’elle est toujours faible-
ment exogène pour b. A l’inverse, la prédétermination est définie relative-
ment à un équation, telle que (18.05) ou (18.08), plutôt qu’à une application
définissante des paramètres.
Le concept de causalité au sens de Granger est également un concept qui
peut être important pour celui qui désire travailler conditionnellement à un
ensemble de variables explicatives. Comme son nom le suggère, ce concept
a été développé par Granger (1969). D’autres définitions de la causalité ont
été proposées, en particulier par Sims (1972). Les définitions de la causalité
au sens de Granger ou de Sims sont souvent équivalentes, mais pas toujours;
consulter Chamberlain (1982) et Florens et Mouchart (1982). Pour la plupart
des usages, il semble que la causalité au sens de Granger, ou plutôt son opposé,
la non causalité au sens de Granger, soit le concept le plus utile.
Nous donnons à présent une définition de la non causalité au sens de
Granger. Tout comme la définition de l’exogénéité faible, elle est relative au
contexte des modèles M qui contiennent les DGP qui génèrent deux ensem-
bles de variables Yt et Xt . Contrairement à celle-ci, elle ne fait référence
à aucune application définissante des paramètres, et n’opère pas de distinc-
tion entre les variables endogènes Yt et les variables explicatives Xt . Dans la
définition, Y t−1 et X t−1 désignent les lignes des matrices Y et X, respective-
ment, antérieures à la t th. Ainsi Ωt est composé de Y t−1 et X t−1.
Définition 18.4.
Les variables Y t−1 ne causent pas au sens de Granger les variables Xt
dans un modèle M comprenant les DGP caractérisés par les contribu-
tions (18.11) si et seulement si

`X X
t (Xt | Ωt ) = `t (Xt | X
t−1
).

Cela signifie que Y t−1 ne cause pas au sens de Granger Xt si la dis-


tribution de Xt conditionnellement au passé de Xt et Yt est la même
que celle qui est conditionnelle au passé de Xt .
Un moyen pratique d’exprimer la non causalité au sens de Granger consiste à
dire que le passé de Yt ne contient aucune information sur Xt qui ne soit déjà
contenue dans le passé de Xt . Bien que cela ne soit pas strictement exact,
il est fréquent de parler de causalité au sens de Granger plutôt que de non
causalité au sens de Granger. Cette pratique n’entraı̂ne en général aucune
ambiguité.
18.2 Exogénéité et Causalité 631

Il est évident à partir de (18.06) que, dans le modèle donné par cette
équation et par (18.05), yt cause au sens de Granger xt , à moins que δ2 = 0.
Ainsi, même si σ12 = 0, ce qui signifie que xt est faiblement exogène pour
le paramètre β dans (18.05), le processus générateur de xt dépend du passé
de la variable endogène yt . par ailleurs, si δ2 = 0 mais que σ12 6= 0, yt ne
cause pas xt au sens de Granger, bien que xt ne soit pas faiblement exogène
pour β. Ainsi les deux idées de faible exogénéité et de non causalité au sens de
Granger sont distinctes: aucune n’implique l’autre et aucune n’est impliquée
par l’autre.
Comme nous l’avons vu, la présencé de la causalité au sens de Granger ne
nous empêche nullement d’estimer efficacement β et de réaliser des inférences
sur ce paramètre sans avoir recours au processus qui génère xt si xt est faible-
ment exogène pour β. Inversement, une absence d’exogénéité faible ne nous
empêche nullement de faire des prévisions efficaces de yt conditionnellement
à xt si yt ne cause pas xt au sens de Granger. Plus précisément, supposons
que nous établissions une équation d’anticipation de xt basée sur sont passé
uniquement. Si (18.05) et (18.06) sont exactes, nous trouvons que

E(xt | xt−1 ) = (δ1 + βδ2 )xt−1 . (18.12)

On anticiperait alors xt en termes de la valeur retardée xt−1 et d’une esti-


mation du paramètre d’autorégression δ1 + βδ2 , obtenu, sans doute, par une
régression de xt sur sa propre valeur retardée d’une période. Si par la suite
nous souhaitons anticiper yt conditionnellement à notre prévision de xt , nous
développerions une équation de prévision de yt en fonction de celle de xt et
du passé des deux variables. De (18.08),

E(yt | xt , Ωt ) = bxt + c1 xt−1 + c2 yt−1 , (18.13)

où b, c1 , et c2 sont définis par (18.09). Si maintenant nous remplaçons xt dans


(18.13) par son anticipation (18.12), nous obtenons une prévision

b(δ1 + βδ2 )xt−1 + c1 xt−1 + c2 yt−1 . (18.14)

On déduit immédiatement de (18.05) et (18.06) que

E(yt | Ωt ) = βδ1 xt−1 + βδ2 yt−1 .

Par conséquent, si (18.14) doit procurer une anticipation sans biais, il est
nécessaire que
b(δ1 + βδ2 ) + c1 = βδ1 et c2 = βδ2 .
A l’aide des définitions (18.09), nous pouvons voir que ces égalités sont vérifiées
si δ2 = 0 ou si b = 0. La première condition est précisdément celle de la non
causalité au sens de Granger. La seconde corespond à un cas particulier où
632 Modèles d’Equations Simultanées

xt ne contient aucune information sur yt qui ne soit déjà contenue dans Ωt ,


et elle est moins intéressante dabns le conteste actuel.
La conclusion en général est que lorsque nous portons notre attention sur
la prévision, nous pouvons anticiper les valeurs des variables Yt conditionnelle-
ment aux anticipations sur les variables Xt si Y t−1 ne cause pas Xt au sens
de Granger. D’autre part, si nous portons notre attention surl’estimation et
l’inférence pour certains paramètres, nous pouvons conditionner par rapport
à Xt si ces variables sont faiblement exogènes pour les paramètres dans le con-
texte du modèle pour lequel ils sont définis. Il est intéressant de combiner les
deux idées pour définir les circonstances pour lesquelles toutes des activités
peuvent être entreprises avec succès conditionnellement à Xt . Le concept
approprié est celui de l’exogénéité forte, que nous définissons à présent.
Définition 18.5.
Les variables explicatives Xt sont fortement exogènes pour le modèle
paramétrisé (M, θ) comprenant les DGP qui génèrent à la fois les
variables endogènes Yt et les Xt si elles sotn faiblement exogènes et si
Y t−1 ne cause pas Xt au sens de Granger.
Ceci complète notre discussion sur la causalité et sur l’exogénéité. Pour
une discussion encore plus complète, nous orientons les lecteurs vers l’article
de Engle-Hendry-Richard. Au delà de l’introduction des concepts de faible
et de forte exogénéité, cet raticle annonce un autre concept, appelé super
exogénéité. Ce concept est importan tpour l’analyse politique, mais pas pour
l’estimation ou l’inférence, et n’est donc pas dans notre priorité immédiate.

18.3 L’Identification dans les Modèles Simultanés

Le problème de l’identification dans les modèles d’équations simultanées est,


en principe, comparable à ce dont nous avons discuté dans le contexte général
des modèles paraétrisés. si pour un modèle M donné, il est possible de définir
une application définissante des paramètres, alors les paramètres du modèles
sont identifiés, dans le sens où un seul et unique vecteur de paramètres est
associé à chaque DGP dans M. Cependant, même si une telle application
existe, les données doivent satisfaire certaines conditions pour que le modèle
soit identifié par les données, et le DGP doit en satisfaire d’autres pour que
le modèle soit identifié asymptotiquement. Dans le Chapitre 5, nous avons
défini et discuté en détail du concept d’identification asymptotique, et nous
l’avons comparé au conept d’identification par un ensemble d’observations
particulier. Dans le cadre des modèles d’équations simultanées, c’est bien
sûr le premier qui nous intéresse. Toutes les méthodes d’estimation que nous
avons étudiées se fondent sur la théorie asymptotique, et on ne peut pas
espérer réaliser des estimations convergentes si les paramètres ne sont pas
identifiés asymptotiquemen.
18.3 L’Identification dans les Modèles Simultanés 633

Dans cette section, nous traiterons de l’identification asymptotique d’une


modèle d’équations simultanées par l’estimateur des doubles moindres carrés,
que nous avons introduit dans la Section 7.5. Cela peut paraı̂tre un sujet
limité, et dans un certains sens, c’est un sujet limité. Cependant, c’est un
problème qui a donné naissance à une littérature très vaste, et que nous
ne pouvons pas exposer en entier ici; voir Fisher (1976) et Hsiao (1983).
Il existe des modèles qui ne sont pas identifiés par l’estimateur des 2SLS
mais qui le sont par des d’autres, tels que l’estimateur FIML, et nous en
parlerons brièvement. Il n’est pas très facile d’étendre la théorie que nous
présentons dans le contexte des modèles non linéaires, contexte pour lequel il
est habituellement recommandé de se recommander de se référer à la théorie
asymptotique développée dans la Section 5.2.

Nous débutons par le modèle d’équations simultanées (18.01). Ce modèle


comprend les DGP qui génèrent les échantillons d’où sont issus le vecteur Yt
des g variables dépendantes, conditionnellement à un ensemble de variables
exogènes et dépendante retardées Xt . Puisque nous avons supposé que les
variables exogènes Xt sont faiblement exogènes, nous pouvons faire abstrac-
tion du processus qui les génère. Afin de poursuivre notre discussion sur
l’identification, il fait poser quelques hypothèses sur les aléas Ut . Il faut bien
évidemment que E(Ut ) = 0, et il semble raisonnable de supposer qu’ils sont
indépendants en série et que E(Ut>Ut ) = Σt , où Σt est une matrice définie
positive pour tout t. Si l’on veut réaliser de inférences à partir de la matrice de
covariance des 2SLS, il est nécessaire d’imposer l’homoscédasticité des aléas,
c’est-à-dire d’imposer Σt = Σ pour tout t.

Il est pratique de traiter l’identification des paramètres équation par


équation dans un modèle d’équations simultanées, puisqu’il est parfaitement
envisageable d’identifier les paramètres d’une équation quelconque même si
ceux des autre équations ne le sont pas. Pour simplifier la notation, nous
ne considèrerons, sans perte de généralité, que les parmètres de la première
équation du système, c’est-à-dire les éléments des premières colonnes des ma-
trices Γ et B. Comme nous l’aons noté dans la Section 18.1, il faut imposer
des contraintes sur les éléments de ces matrices pour les identifier. Il est
habituel de supposer que ces contraintes prennent toutes la forme de con-
traintes de nullité de certains paramètres. On dit qu’une variable est ex-
clue d’une équation lorsque le coefficient correspondant est contraint à zéro;
autrement, on parle de variable incluse dans l’équation. Comme nous l’avons
vu dans la Section 6.4, il est toujours possible de reparamétriser les con-
traintes dans un contexte d’équation unique pour leur donner la forme de
contraintes de nullité. Mais dans un contexte d’équatiosn simultanées, de
telle reparamétrisations n’existent en général qu’en l’absence de contraintes
d’équations croisées, c’est-à-dire des contraintes qui impliquent les paramètres
de plus d’une équation du système. S’il existe des contraintes d’équations
croisées, alors il faut abandonner le contexte des systèmes linéaires, quoi que
634 Modèles d’Equations Simultanées

l’on veuille tenter. Il nous faut également abandonner l’estimateur 2SLS si


nous voulons imposer des contraintes d’équations croisées.
Partitionnons la matrice Y comme suit:
Y = [y Y1 Y2 ], (18.15)
où le vecteur colonne y est la variable endogène associée au coefficient uni-
taire dans a première équation du système, les colonnes de la matrice Y1 de
dimension n × g1 sonbt les variables endogènes non exclues de cette équatiobn
par des contraintes de nullité, et où les colonnes de la matrice Y2 de dimen-
sion n × (g − g1 − 1) sont les variables endogènes exclues. Pareillement, nous
partitionnons la matrice X des variables exogènes:
X = [ X1 X2 ], (18.16)
où les colonnes de la matrice X1 de dimension n×k1 sont les variables exogènes
qui sont incluses dans l’équation, et où celles de la matrice X2 de dimension
n × (k − k1 ) sont les variables exogènes exclues.
De façon cohérente avec la partition de Y et X, nous pouvons partitionner
le smatrices de coefficients
 Γ et Bcomme suit:
1 Γ02 · ¸
β1 B 12
Γ =  −γ1 Γ12  et B = . (18.17)
0 B22
0 Γ22
Les lignes de Γ sont partitionnées comme les colonnes de Y dans (18.15), et
celle de B le sont comme les colonnes de X dans (18.16). En plus de cela,
nous avons partitionné les colonnes de Γ et B pour qu’elles puissent séparer
les premières colonnes de chaque matrice des autres colonnes, puisque ce sont
les premières colonnes qui contiennent les paramètres de la première équation
du système. On peut donc écrire la première équation comme suit:
y = Y1 γ1 + X1 β1 + u = Zδ + u, (18.18)
où la matrice Z de dimension n × (g1 + k1 ) est [X1 Y1 ], et où le vecteur
.
paramétrique δ est [β1 ... γ1 ].
Pour obtenir une estimation 2SLS de δ, nous devons utiliser des variables
instrumentales. Les colonnes de X1 , qui sont exogènes, peuvent servir en tant
qu’instruments, et celles de X2 constituent des instruments supplémentaires.
Si les colonnes de X sont les seuls instruments disponibles, il va de soi qu’une
condition nécessaire à l’identification de δ, que ce soit avec des échantillons
finis ou asymptotiquement, est que X possède au moins autant de colonnes
que Z. Cela revient à dire que X2 doit posséder au moins autant de colonnes
que Y1 , c’est-à-dire que k − k1 ≥ g1 . Autrement dit, il faut qèue le nombre des
variables exogènes exclues soit au moins aussi grand que celui des variables
endogènes incluses. Cette condition est connue sous le nom de condition
d’ordre pour l’identification. Cependant, comme nous le verrons, c’est une
condition necessaire mais qui n’est pas suffisante en général.1
1
Si on adment la possibilité de contraintes d’équations croisées, cette condition
d’ordre n’est plus du tout nécessaire.
18.3 L’Identification dans les Modèles Simultanés 635

Il n’est pas évident que X fournisse toutes les variable s instrumen-


tales requises. Pourquoi ne pas employer d’autres variables endogènes ou
prédéterminées qui sont correlées aux variables endogènes Y1 ? Même dans
le cas où la condition d’ordre est vérifiée, ne pourrions-nous pas faire us-
age d’autres instruments disponibles pour obtenir des estimations plus effi-
caces? Il s’avère que l’usage d’instruments supplémentaires ne permet pas
d’indentifier asymptotiquement des paramètres qui ne le sont pas. De plus,
lorsque les aléas u sont homoscédastiques et indépendants en série, les instru-
ments supplémentaires n’apportent aucun gain d’efficacité.
Pour mettre en évidence ces résultats, nous considérons la forme réduite
contraintes (18.02) correspondant à (18.01). Par un léger abus de notation,
nous poserons simplement
Y = XΠ + V , (18.19)
en définissant Π par BΓ −1. Il sera nécessaire de partitionner Π con-
formément aux partitions (18.17) de Γ et B:
· ¸
π1 Π11 Π12
Π= . (18.20)
π2 Π21 Π22
La partition des lignes est ici la même que celle de B dans (18.17), et la
partition des colonnes est identique à celle de Γ dans la même équation,
ainsi qu’à celle de Y dans (18.15). Nous supposerons que les données ont été
générées par le processus (18.19) avec Π = Π0 = B0 Γ0−1.
Considérons à présent l’identification du vecteur paramétrique δ dans
l’équation (18.18) pour n’importe quelle matrice W d’instruments valables,
c’est-à-dire n’importe quelle matrice W telle que plim(n−1 W >W ) est une
matrice définie et déterministe, et telle que plim(n−1 W >V ) = 0. A partir
des résultats de la Section 7.8, δ est identifiable par les données si la ma-
trice Z>PW Z est définie positive, et il est identifiable asymptotiquement si
plim(n−1Z>PW Z) est définie positive. Pour étudier cette limite en proba-
bilité, éxaminons la matrice
1 1

n
W >Z = −
n
W > [ X1 Y1 ]
1
=−
n
W > [ X1 X1 Π11 + X2 Π21 + V1 ], (18.21)

où le bloc V1 de la matrice d’aléas V correspond au bloc Y1 de Y dans (18.15),


et où les coefficients de la forme réduite sont évaluées avec Π = Π0 .
L’orthogonalité asymptotique entre les instruments W et la matrice
d’aléas V signifie que la limite en probabilité de (18.21) est
³ ´
1 >
plim − n
W [ X1 X1 Π11 + X2 Π21 ] . (18.22)
n→∞

Ceci montre clairement que, quel que soit le choix d’une matrice d’instruments
W, le rang de la matrice (18.22) ne peut excéder k, qui est précisément le nom-
bre de variables exogènes linéairement indépendantes. Toutes les colonnes de
636 Modèles d’Equations Simultanées

la matrice partitionnée dans (18.22) sont des colonnes de X ou des combi-


naisons linéaires de ces colonnes. Il s’ensuit que le rang de plim(n−1Z>PW Z)
ne peut jamais dépasser k lui non plus. Ainsi, si Z possède plus de k colonnes,
ce qui implique une violation de la condition d’ordre, plim(n−1Z>PW Z) est
singulière, et donc, non définie positive. Nous concluons que la condition
d’ordre est bien nécessaire pour l’identification asymptotique de δ, quel que
soit l’ensemble d’instruments employé.
Puis nous montrons que, sous les hypothèses d’homoscédasticité et d’in-
dépendance en série des aléas u, les colonnes de X offrent des instruments
optimaux pour l’estimation de δ. Il y a deux éventualités possibles. Dans
la première, S(X) ⊂ S(W ). Puisque X1 et X2 appartiennent à S(X), nous
voyons à partir de (18.22) que
³ ´ ³ ´
1 > 1 >
plim − Z P W Z = plim −Z P X Z
n→∞ n n→∞ n
³ ´
1 >
= plim −n
[ X1 X1 Π11 + X2 Π21 ] [ X1 X1 Π11 + X2 Π21 ] .
n→∞

Ainsi l’ajout d’instruments W à ceux offerts par X ne produit aucun gain


d’efficacité asymptotique. Puique cela contribuera à accroı̂tre le biais dans
les échantillons finis (voir la Section 7.5), il vaut mieux ne pas utiliser ces
instruments supplémentaires.
Dans la seconde, S(X) n’est pas un sous-espace de S(W ). Cela implique
que, asymptotiquement, W doit avoir un pouvoir explicatif sur Z inférieur
à celui de X. Par conséquent, plim(n−1Z>PXZ) − plim(n−1Z>PW Z) est
une matrice semi-définie positive pour toute matrice d’instruments W. Il
s’ensuit que (voir l’Annexe A) plim(n−1Z>PW Z)−1 − plim(n−1Z>PXZ)−1
est également une matrice semi-définie positive. Ainsi la matrice de covar-
iance asymptotique que l’on obtient à l’aide de la matrice d’instruments X,
à savoir σ 2 plim(n−1Z>PXZ)−1, établit une borne inférieure pour la matrice
de covariance asymptotique pour tout estimateur IV.
De la discussion précédente et des résultats de la Section 7.8, il ressort
que la condition nécessaire et suffisante pour l’identification asymptotique de
δ à l’aide des instruments optimaux X est simplement que plim(n−1Z>PX Z)
soit non singulière. La littérature traditionnelle sur les modèles d’équations
simultanées fait référence à cette condition en tant que condition de rang pour
l’identification, pour des raisons évidentes. Cependant, un exposé aussi simple
de cette condition est trèsb rare. Au lieu de cela, la condition est typiquement
exprimée en termes des coefficients de Γ et B de la forme structurelle ou des
coefficients de la forme réduite contrainte. Etant donné que nous avons défini
Π en termes de Γ et B uniquement, toutes condition que l’on peut exprimer
en termes d’un ensemble de coefficients peut s’exprimer en termes de l’autre.
Nous allons à présent montrer comment on peut exprimer la condition,
qui veut que plim(n−1Z>PX Z) soit non singulière, en termes de contraintes
18.3 L’Identification dans les Modèles Simultanés 637

sur Π dans le DGP. Les paramètres γ1 et β1 de la première équation struc-


turelle peuvent être identifiés si et seulement on peut les retrouver de façon
unique à partir de la matrice Π des paramètres de la forme réduite contrainte.
Cette matrice, par définition, satisfait l’équation ΠΓ = B, dont nous pouvons
écrire la première colonne sous la forme

π1 + Π11 γ1 = β1
π2 + Π21 γ1 = 0

en vertu des partitions de (18.17) et (18.20). La première de ces deux


équations sert à définir β1 en termes de Π et γ1 , et nous permet de voir
que β1 peut être identifié si γ1 l’est aussi. La seconde équation montre que
γ1 est déterminé de façon unique si et seulement si la sous-matrice Π21 est de
plein rang en colonnes, c’est-à-dire si le rang de la matrice est égal au nom-
bre de ses colonnes (voir l’Annexe A). La sous-matrice Π21 possède k − k1
lignes et g1 colonnes. Par conséquent, si la condition d’ordre est satisfaite, il
y a au moins autant de lignes que de colonnes. La condition à l’identification
de γ1 , mais aussi à celle de β1 , est que les colonnes de Π21 soient linéairement
indépendantes.
Il est instructif de voir pourquoi cette dernière condition est équivalente
à la condition de rang en termes de plim(n−1Z>PX Z). Si, comme nous
l’avons supposé tacitement tout au long de cette discussion, les variables
exogènes X satisfont la condition que plim(n−1X>X) est définie positive,
alors plim(n−1Z>PX Z) peut ne pas être de plein rang si plim(n−1X>Z) a un
rang inférieur à g1 + k1 , le nombre de colonnes de Z. La limite en probabilité
de la matrice n−1 X>Z provient de (18.22), en remplaçant W par X. Si nous
faisons abstractin de la limite en probabilité et du facteur n−1 pour simplifier
la notation, la matrice pertinente peut s’écrire comme suit:
· > ¸
X1 X1 X1>X1 Π11 + X1>X2 Π21
. (18.23)
X2>X1 X2>X1 Π11 + X2>X2 Π21
La matrice (18.23) n’est pas de plein rang g1 + k1 si et seulement s’il existe
.
un vecteur non nul θ ≡ [θ1 ... θ2 ] de dimension (g1 + k1 ) tel que (18.23) fois ce
vecteur donne un vecteur nul. Si nous explicitons cette condition, et si nous
arrangeons les différents termes, nous obtenons
· > ¸· ¸
X1 X1 X1>X2 θ1 + Π11 θ2
= 0. (18.24)
X2>X1 X2>X2 Π21 θ2

La première matrice du membre de gauche est simplement X>X, et elle est


clairement non singulière. La condition porte alors sur les deux équations
vectorielles

θ1 + Π11 θ2 = 0 (18.25)
Π21 θ2 = 0. (18.26)
638 Modèles d’Equations Simultanées

Si ces équations sont vérifiées pour un vecteur θ non nul, il est clair que θ2
ne peut pas être nul. Par conséquent, la seconde équation n’est vérifiée que
si Π21 n’est pas de plein rang. Alors si la condition de rang en termes de
Z>PX Z n’est pas vérifiée, alors elle ne l’est pas non plus en termes de Π21 .
Inversement, supposons que (18.26) soit vérifiée pour un vecteur θ2 non nul
quelconque de dimension g1 . Alors Π21 n’est pas de plein rang. Définissons
θ1 en termes de θ2 et Π grâce à (18.25). Alors (18.25) et (18.26) impliquent
ensemble (18.24), et la condition de rang initiale n’est pas satisfaite. Ainsi les
deux versions de la condition de rang sont équivalentes.
Nous terminons cette section en établissant, sans démonstration, une
troisième version de la condition de rang, équivalente aux deux premières, en
termes des paramètres structurels Γ et B. Il est impossible d’exprimer cette
condition exclusivement ne termes des paramètres γ1 et β1 de la première
équation. Au contraire, ce sont uniquement les valeurs des autres paramètres
qui déterminent la possible identification de γ1 et β1 . Ce troisième exposé
de la condition de rang est formulé de la manière suivante. Construisons la
matrice de dimension (g − g1 − 1 + k − k1 ) × (g − 1)
· ¸
Γ22
.
B22

Alors la condition de rang est satisfaite si et seulement si cette matrice est de


plein rang g − 1.
Nous n’avons discuté dans cette section que des conclusions les plus im-
portantes d’un programme de recherche ambitieux. Hsiao (1983) donne un
traitement plus précis. Nous n’avons pas géré des problèmes tels que les
contraintes d’équatios croisées ou les contraintes impliquant la matrice de
covariance Σ; voir Rothenberg (1971), Richmond (1974), et Hausman et
Taylor (1983), parmi d’autres. Dans la pratique, la condition d’ordre pour
l’identification est beaucoup plus utile que la condition de rang parce qu’elle
est beaucoup plus difficile à vérifier. Cependant, la condition de rang a un
intérêt théorique certain, et il est instructif de voir qu’elle peut s’exprimer
comme une condition très simple portant sur la limite en probabilité d’une
certaine matrice qui doit être de plein rang. Elle est donc équivalente à la
condition portant sur un certain estimateur 2SLS, celui qui utilise en tant
qu’instruments toutes les variables exogènes et prédéterminées, qui doit avoir
une matrice de covariance asymptotique non singulière.

18.4 Maximum de Vraisemblance en Information Complète


Il est possible d’établir une classification de deux façons des modèles d’équa-
tions simultanées. La première classification naturelle distingue les méthodes
équation par équation des méthodes systémiques. Les premières, dont les
représentants principaux sont les 2SLS et le LIML, estiment le modèle
18.4 Maximum de Vraisemblance en Information Complète 639

équation par équation. Les secondes, dont les représentants principaux sont les
3SLS et le FIML, estiment tous les paramètres du modèle en même temps. Les
adjectifs “information limitée” et “information complète” qui composent les
noms LIML et FIML montrent clairement que la première méthode s’applique
équation par équation, et que la seconde s’applique au système dans sa glob-
alité. Les méthodes équation par équation sont plus faciles à mettre en oeuvre,
alors que les méthodes systémiques produisent des estimations potentiellement
plus efficaces.
L’autre classification naturelle distingue les méthodes basées sur le max-
imum de vraisemblance, à savoir le LIML et FIML, des méthodes basées
sur les variables instrumentales ou la méthode des moments généralisés, dont
les représentants les plus connus sont les 2SLS et les 3SLS. Les méthodes
du ML produisent des estimations invariantes à la reparamétrisation (voir la
Section 8.3) alors que ce n’est pas le cas des méthodes des IV. Nous avons
déjà vu en détail les 2SLS dans le Chapitre 7. Au cours de cette section, nous
fournirons un traitement détaillé de FIML, qui diffère des 2SLS quelle que soit
la classification retenue. Les sections suivantes seront consacrées au LIML et
aux 3SLS.
Tous les estimateurs d’équations simultanées tentent de gérer le fait que
les aléas des équations structurelles sont corrélés avec n’importe quelle variable
endogène apparaissant dans l’équation. Cette corrélation rend les OLS non
convergents. Nous avons vu que les 2SLS gèrent ce problème en remplaçant
les régresseurs défectueux par des instruments. D’un autre côté, le FIML
gère ce problème par la maximisation d’une fonction de log-vraisemblance
qui implique un terme Jacobien qui n’est pas simplement la transformation
d’une somme de résidus au carré. Le FIML gère également deux problèmes
qui se manifestent dans le cadre de tout modèle multivarié, qu’il y ait ou non
simultanéité; voir la Section 9.9. Le premier problème est que, en dehors de
rares cas, les aléas des différentes équations seront corrélés. Les techniques
équation par équation telles que les 2SLS ou le LIML ingorent purement et
simplement ce problème. Au contraire, les techniques systémiques telles que le
FIML ou les 3SLS assurent la gestion de ce problème et devraient normalement
produire des estimations plus efficaces en général. le second problème est que,
dans de nombreux modèles, il existe des contraintes d’équations croisées. Les
méthodes équation par équation ingorent nécessairement ce problème, mais
les méthodes systémiques telles que le FIML en tiennent compte. Lorsque le
système complet est établi, les paramètres qui apparaissent dans plus d’une
équation sont automatiquement traités de façon différente des paramètres qui
n’apparaissent que dans une seule.
Le modèle d’équations simultanées linéaire (18.01), dont les aléas sont
supposés être normalement distribués, homoscédastiques et indpendants en
série, peut s’écrire

Yt Γ = Xt B + Ut , Ut ∼ N (0, Σ), (18.27)


640 Modèles d’Equations Simultanées

avec une notation qui est désormais familière. Souvenons-nous simplement


que Yt est de dimension 1 × g, Γ est de dimension g × g, Xt est de dimension
1 × k, B est de dimension k × g, Ut est de dimension 1 × g, et Σ est de
dimension g × g. Le moyen le plus simple d’obtenir la densité de Yt consiste
à écrire celle de Ut :
³ ´
1
(2π)−g/2 |Σ|−1/2 exp −− Ut Σ −1 Ut> .
2

Puis nous remplaçons Ut par Yt Γ −Xt B et multiplions per un terme Jacobien


approprié. ce treme est la valeur absolue du déterminant duJacobien de la
transformation de Yt en Ut , c’est-à-dire le déterminant de Γ. Ainsi le facteur
Jacobien est |det Γ |.2 Le résultat est
³ ¡ ¢ −1 ¡ ¢>´
−g/2 −1/2 1
(2π) |det Γ ||Σ| exp −− Yt Γ − Xt B Σ Yt Γ − Xt B .
2

De là, nous voyons que la fonction de log-vraisemblance est


n
X ng
`(B, Γ, Σ) = `t (B, Γ, Σ) = − −− log(2π) + n log |det Γ |
2
t=1
n
(18.28)
n 1
X ¡ ¢ ¡ ¢
−− log |Σ| − − Yt Γ − Xt B Σ −1 Yt Γ − Xt B >.
2 2
t=1

Une première étape pratique dans la maximisation de `(B, Γ, Σ) con-


siste à la concentrer par rapport à Σ ou, comme nous l’avons fait dans la
Section 9.9, par rapport à son inverse, Σ −1. Etant donné que

Xn
∂` n 1 ¡ ¢¡ ¢
−1
= −Σ − − Yt Γ − Xt B > Yt Γ − Xt B ,
∂Σ 2 2
t=1

(voir Annexe A) il est évident que


1¡ ¢¡ ¢
Σ(B, Γ ) = −
n
YΓ − XB > YΓ − XB . (18.29)

Nous pouvons substituer (18.29) à Σ dans (18.28) pour obetnir


ng ¡ ¢
`c (B, Γ ) = − −− log(2π) + 1 + n log |det Γ |
2
¯ ¡ ¢>¡ ¢¯¯ (18.30)
n ¯1
− − log ¯−
n
YΓ − XB YΓ − XB ¯.
2

2
Dans ce chapitre, nois notons |A| le déterminant de A et |det A| la velru
absolue du déterminant. il est nécessaire d’employer la notation “det”, que
nous préférons éviter par ailleurs, lorsdque la valeur absolue apparaı̂t dans la
formule.
18.4 Maximum de Vraisemblance en Information Complète 641

Cette fonction de log-vraisemblance concentrée ressemble étroitement à (9.65),


la fonction de log-vraisemblance concentrée pour un modèle de régression
multivariée. Remarquons que nous avons usé de la même astuce que pour
évaluer le second terme de la dernière ligne de (18.28). La différence entre
(9.65) et (18.30) provient de la présnece du terme Jacobien n log |det Γ |, dont
nous allons évaluer le rôle plus tard. L’estimateur FIML ne sera pas défini si
la matrice (YΓ − XB)>(YΓ − XB) qui apparaı̂t dans (18.30) n’est pas de
plein rang pour toutes les valeurs admissibles de B et Γ, et cela nécessite que
n ≥ g + k. Ce résultat suggère également que n doit être suffisamment grand
par rapport à g + k pour conserver au FIML de bonnes propriétés; consulter
Sargan (1975) et Brown (1981).
Il est révélateur de dériver cete fonction de log-vraisemblance concentrée
d’une manière radicalement opposée. Cette fois, nous partons de la forme
réduire contrainte correspondant à (18.27), qui est

Yt = Xt BΓ −1 + Vt . (18.31)

Ce système d’équations est juste un cas particulier du modèle de régression


multivariée étudié dans la Section 9.9, mais sous la forme (9.43), avec un
ensemble de fonctions de régression donné par ξt ≡ Xt BΓ −1 et qui sont
des fonctions non linéaires des éléments de B et Γ . La fonction de log-
vraisemblance concentrée correspondant à (18.31) est par conséquent (9.65).
dans notre cas particulier, (9.65) devient
¯ ¡ ¢¯
ng ¡ ¢ n ¯1 ¢¡
−1 > −1 ¯
− −− log(2π) + 1 − − log ¯−
n
Y − XBΓ Y − XBΓ ¯. (18.32)
2 2

Cette nouvelle expression pour `c (B, Γ ) est égale à celle dérivée précédem-
ment, (18.30). L’égalité entre (18.30) et (18.32) découle du fait que
¯ ¡ ¢¡ ¢¯
n ¯1 −1 > −1 ¯
− − log ¯−
n
Y − XBΓ Y − XBΓ ¯
2
¯ ¯
n ¯ 1 > −1 >¡ ¢¡
−1 > −1
¢ −1 ¯
= − − log ¯−n
(Γ ) Γ Y − XBΓ Y − XBΓ ΓΓ ¯
2
¯ ¡ ¢>¡ ¢¯¯
n ¯1
= n log |det Γ | − − log ¯−
n
YΓ − XB YΓ − XB ¯.
2

Il est intéressant de noter que la fonction de log-vraisemblance con-


centrée pour un modèle d’équations simultanées peut s’écrire de deux manières
différentes, (18.30) et (18.32). Cela montre de façon tout à faut claire que
les formes structurelle et réduite contrainte sont silmplement des moyens
d’exprimer le même modèle. Nous pouvons assimiler le modèle d’équations
simultanées soit à un type particulier de modèle, dont la fonction de log-
vraisemblance concentrée est donnée par (18.30), soit à un cas particulier
de modèle de régression multivariée non linéaire, dont la fonction de log-
vraisemblance concentrée est identique à celle de n’importe quel autre modèle
642 Modèles d’Equations Simultanées

de régression multivariée. Mis sous cette forme, nous pouvons lui appliquer
tous les résultats déjà établis dans le Chapitre 9 pour les modèles de régression
multivariée. Cependant, parce que la matrice des coefficients BΓ −1 dépend
non linéairement des coefficients de toutes les équations du modèle, (18.32)
est en général moins pratique que (18.30).
Lorsqu’il fut proposé à l’origine par les chercheurs de la Commission
Cowles (Koopmans, 1950), le FIML n’était pas d’un calcul aisé, parce que
les maximisation de la fonction de log-vraisemblance (18.30) nécessite une
optimisation numérique. Au fur et à mesure que les ordinateurs devenaient
plus puissants et que ce genre de calcul se démocratisait, un certain nombre de
procédures de maximisation de la fonction de log-vraisemblance fut proposé,
et la plupart des progiciels d’économétrie modernes incopore au moins l’une
d’elles. Rothenberg et Leenders (1964), Chow (1968), Hausman (1974, 1975),
et Dagenais (1978) sont des références à consulter sur ce thème.
Comme d’habitude, la matrice de covariance asymptotique des estima-
tions paramétriques FIML B̂, Γ̂, et Σ̂ peut être estimé de différentes façons.
Une approche qui reste relativement aisée mais peu recommandée avec de pe-
tits échantillons consiste à exécuter une régression OPG. Cette régression ar-
tificielle peut se baser sur la fonction de log-vraisemblance concentrée (18.28),
mais pas sur la fonction concentrée (18.30), parce que cette dernière n’est
pas écrite sous la forme d’une somme de contributions. Une deuxième ap-
proche consiste à partir de la forme (18.32) de la fonction de log-vraisemblance.
Comme nous l’avons mis en évidence dans la Section 9.9, le bloc de la matrice
d’information assovcié aux paramètres des fonctions de régression d’un modèle
de régression multivariée est donné par (9.69), et ce bloc peut s’obtenir à l’aide
de la GNR (9.58). Une troisième approche pour estimer la matrice de covar-
iance asymptotique de B̂ et Γ̂ consiste à utiliser la propriété d’équivalence
asymptotique entre les 3SLS et le FIML; nous verrons cette approche dans la
Section 18.6.
Le terme Jacobien log |det Γ | qui apparaı̂t explicitement dans (18.30)
joue un rôle fondamental dans l’estimation. Sa présence est essentielle à la
convergence des estimations ML. De plus, lorsdque le déterminant de Γ tend
vers zéro, ce terme tend vers l’infini. Ainsi la fonction de log-vraisemblance
doit tendre vers moins l’infini chaque fois que le déterminant de Γ tend vers
zéro. Cela est cohérent, parce que le modèle n’est pas gérable si |det Γ | = 0, ce
qui implique que la vraisemblance d’un tel ensemble de paramètres est nul. De
fait, cela signifie que l’espace des valeurs possibles de Γ est divisé en un certain
nombre de régions, séparées par des singularités lorsque |det Γ | = 0. Dans le
cadre du modèle d’offre- demande discuté dans la Section 7.3, par exemple, il
n’existe qu’une seule singularité, qui survient lorsque les pentes des fonctions
d’offre et de demande sont égales. On ne peut pas espérer qu’un algorithme
de maximisation numérique passe à travers ces singularités en général, même
si cela peut arriver. Ainsi, lorsque nous tentons de maximiser numériquement
une fonction de log-vraisemblance, il y a peu de chances que nous trouvions le
18.4 Maximum de Vraisemblance en Information Complète 643

maximum global si la région dans laquelle l’algorithme débute ne le contient


pas. Cela suggère qu’il peut être très important de bien choisir les valeurs
initiales lorsque nous employons le FIML.
Bien que le FIML se base sur l’hypothèse que les aléas sont normaux mul-
tivariés, cette hypothèse n’est pas nécessaire pour que les estimations B̂ et Γ̂
soient convergentes et asymptotiquement normales. Lorsque le FIML est em-
ployé alors que les aléas ne sont pas normalement distribués, c’est davantage
un estimateur QML qu’un estimateur ML, et il ne sera pas asymptotiquement
efficace. Comme nous l’avons vu dans la Section 9.6, tout modèle de régression
peut être estimé de façon satisfaisante par le ML sous l’hypothèse de distribu-
tion normale des aléas, que celle-ci soit exacte ou pas. Ce résultat s’applique
aussi au FIML parce que, comme le montre (18.32), celui-ci estime en fait
un certain modèle de régression multivariée non linéaire. Toutefois, lorsque
le modèle d’équations simultanées sous-jacent est non liénaire, ce résultat ne
s’applique plus automatiquement; voir Phillips (1982).
Les tests de spécification du modèle sont aussi importants pour les
modèles d’équations simultanées que pour les autres modèles économétriques.
Le large éventail des tests classiques — LM, LR, Wald, et C(α) — est bien sûr
disponible à cet égard. Cepedant, du fait que l’estimation FIML est relative-
ment coûteuse et difficile, les utilisateurs peuvent être tentés de renoncer à un
programme de tests de spécification ambitieux pour les modèles estimés par
FIML. Il est par conséquent utile de garder à l’esprit le fait que de nombreux
types de mauvaise spécification du modèle structurel (18.01) impliquent une
mauvaise spécification similaire de la forme réduite contrainte (18.03). Par
exemple, si un aléa quelconque du modèle structurel était corrélé en série,
alors, à de très rares exceptions près, tous les aléas de la forme réduite con-
trainte doivent l’être aussi. De manière comparable, si un aléa quelconque
était hétéroscédastique, alors tous les aléas de la forme réduite doivent l’être.
Pareillement, si les paramètres du modèle structurel sont non constants sur
l’échantillon, les paramètres de la FRL ne seront pas constants non plus.
Puisque les équations de la FRL sont estimés par moindres carrés ordinaires,
il est très facile de les tester contre des mauvaises spécifications telles que la
corrélation en série, l’hétéroscédasticité, ou encore la non constance des co-
efficients. Si de tels phénomènes sont mis en évidence par les tests, on peut
raisonnablement conclure que le modèle structurel est mal spécifié, même s’il
n’a pas encore été estimé. L’inverse n’est pas exact, cependant, puisque ces
tests peuvent manquer de puissance, en particulier si une seule équation struc-
turelle est mal spécifiée.
Un test de mauvaise spécification supplémentaire que l’on devrait tou-
jours mener est celui des contraintes de suridentification. Dans la Section 7.8,
nous avons examiné la manière de tester des contraintes de suridentifiction
pour une équation unique estimée par IV ou 2SLS. Nous sommes à présent
intéressés par toutes les contraintes de suridentification pour le système dans
sa globalité. Le nombre des degrés de liberté pour le test est égal au nombre
644 Modèles d’Equations Simultanées

d’éléments dans la matrice Π de la FRL, gk, moins le nombre de paramètres


libres de B et Γ . Dans la plupart des cas, il y aura quelques contraintes de
suridentification, et dans de nombreux cas, il y en aura un grand nombre. La
manière la plus naturelle de les tester est probablement d’employer un test
LR. La valeur contrainte de la fonction de log-vraisemblance est la valeur de
(18.30) évaluée avec les estimations FIML B̂ et Γ̂, et la valeur non contrainte
est ¯ ¡ ¢¯¯
ng ¡ ¢ n ¯1 ¢>¡
− −− log(2π) + 1 − − log ¯− n
Y − XΠ̂ Y − XΠ̂ ¯ , (18.33)
2 2

où Π̂ désigne les estimations OLS des paramètres de la FRL. Comme


d’habitude, le double de la différence entre les valeurs contrainte et non
contrainte de la fonction de log-vraisemblance sera asymptotiquement dis-
tribuée suivant un χ2 dont le nombre de degrés de liberté est égal à celui
des contraintes de suridentification. Si l’on s’attend à ce que ces contraintes
de suridentification soient enfreintes et si l’on ne veut pas s’embarrasser de
l’estimation du modèle structurel, on peut employer un test de Wald, comme
Byron (1974) l’a suggéré.
Nous n’avons pas encore expliqué pourquoi les estimations OLS Π̂ sont
également les estimations ML. On voit aisément à partir de (18.33) que, pour
obtenir des estimations ML de Π, il est nécessaire de minimiser le déterminant
¯ ¯
¯(Y − XΠ)>(Y − XΠ)¯. (18.34)

Supposons que l’on évalue ce déterminant avec un ensemble d’estimations Π́


quelconque différent de Π̂. Puisqu’il est toujours possible d’écrire Π́ = Π̂ +A
pour une certaine matrice A, (18.34) devient
¯ ¯
¯(Y − XΠ̂ − XA)>(Y − XΠ̂ − XA)¯
¯ ¯
= ¯(MXY − XA)>(MXY − XA)¯ (18.35)
¯ > ¯
= ¯Y MXY + A>X>XA¯.
Parce que le déterminant de la somme de deux matrices définies positives
est toujours supérieur à chacun des déterminants des deux matrices (voir
l’Annexe A), il vient de (18.35) que (18.34) sera supérieur à Y >MXY pour
toute matrice A 6= 0. Cela implique que Π̂ minimise (18.34), ce qui démontre
que les estimations OLS équations par équation de la FRL sont également les
estimations ML systémiques.
Si l’on ne dispose pas d’un progiciel de régression qui calcule (18.33), il
existe un moyen différent d’y parvenir. Considérons le système récursif
y1 = Xη1 + e1
y2 = Xη2 + y1 α1 + e2
(18.36)
y3 = Xη3 + [y1 y2 ]α2 + e3
y4 = Xη4 + [y1 y2 y3 ]α3 + e4 ,
18.5 Maximum de Vraisemblance à Information Limitée 645

et ainsi de suite, où yi désigne la i ième colonne de Y. On peut interpréter ce


système d’équations comme une simple reparamétrisation de la FRL (18.03).
Il est aisé de voir que si l’on estime ces équations par OLS, tous les vecteurs
de résidus seront orthogonaux: ê2 sera orthogonal à ê1 , ê3 sera orthogonal
à ê2 et à ê1 , et ainsi de suite. Conformément à la FRL, tous les yi sont
des combinaisons linéaires des colonnes de X et d’erreurs aléatoires. Par
conséquent, les équations de (18.36) sont correctes pour tout choix arbitraire
des paramètres α: les ηi s’ajustent simplement selon le choix opéré. Toutefois,
si nous réclamons l’orthogonalité des termes d’erreur ei , cela sert à identifier
un choix particulier unique des α. En réalité, le système récursif (18.36)
possède autant de paramètres que la FRL (18.03): g vecteurs ηi , possédant
chacun k éléments, g − 1 vecteurs αi , avec en tout g(g − 1)/2 paramètres, et
g paramètres de variance, ce qui donne un total général de gk + (g 2 + g)/2
paramètres. la FRL possède gk paramètres pour la matrice de covariance Π
et (g 2 +g)/2 pour la matrice de covariance Ω, ce qui donne un total identique.
La différence est que les paramètres α de (18.36) ont été remplacés par les
éléments non diagonaux de la matrice de covariance de V dans la FRL.
Etant donné que le système récursif (18.36) est une simple reparamétrisa-
tion de la FRL (18.03), il ne devrait pas être surprenant d’apprendre que la
fonction de log-vraisemblance pour le système récursif est égale à (18.33).
Parce que les résidus des diverses équations dans (18.36) sont orthogo-
naux, la valeur des fonctions de log-vraisemblance des estimations OLS des
équations individuelles. Ce résultat, que les lecteurs peuvent aisément vérifier
numériquement, fournit parfois un moyen pratique de calculer la fonction de
log-vraisemblance de la FRL. En dehors de cet usage, les systèmes récursifs
sont d’une faible utilité. Ils ne procurent aucune information que ne soit déjà
disponible dans la FRL, et la reparamétrisation dépend de l’ordonnancement
des équations.

18.5 Maximum de Vraisemblance à Information Limitée


L’un des problèles qui se pose avec le FIML et les autres méthodes systémiques
est qu’elles nécessitent de la part du chercheur une spécification de la struc-
ture de toutes les équations du modèle. La mauvaise spécification d’une
équation quelconque conduira en général à des estimations non convergentes
pour toutes les équations. Pour éviter ce problème, à condition que l’efficacité
ne soit pas cruciale, les chercheurs peuvent préférer employer des méthodes
équations par équation. La plus facile et la plus répandue est la méthode des
2SLS, mais elle souffre de deux inconvénients majeurs. les estimations qu’elle
produit ne sont pas invariantes à la reparamétrisation, et, comme nous l’avons
vu dans la Section 7.5, elles peuvent être sévèrement biaisées avec de petits
échantillons. La méthode LIML est une technique alternative qui produit des
estimations invariantes et qsui, à de nombreux égards, possède de meilleures
propriétés avec des échantillons finis que les 2SLS. Bien qu’elle ait été proposée
646 Modèles d’Equations Simultanées

par Anderson et Rubin (1949) avant l’invention des 2SLS, et qu’elle ait été
l’objet d’une étude plus théorique, elle a été peu utilisée par les économètres
dans la pratique.
Comme son nom le suggère, l’idée de base du LIML consite à employer
une information partielle sur la structure du modèle. Supposons que l’on
veuille estimer uen seule équation, disons la première, d’un modèle struc-
turel comme (18.01). Nous avons écrit une équation comparable dans la Sec-
tion 18.3 sous la forme (18.18). Nous devons prendre en compte le fait que
certaines variables apparaissant dans le membre de droite de (18.18), celles
qui correspondent aux colonnes de Y1 , sont endogènes. Le meilleur moyen
d’en tenir compte consiste à écrire leurs équations sous la forme réduire libre:

Y1 = X1 Π11 + X2 Π21 + V1 , (18.37)

où la notation est identique à celle utilisée dans la Section 18.3. La combinai-
son de (18.18) et (18.37)donne le système d’équations

y − Y1 γ1 = X1 β1 + u
(18.38)
Y1 = X1 Π11 + X2 Π21 + V1 .

Remarquons que Y2 n’apparaı̂t plus du tout dans ce système d’équations.


Si nous focalisons notre attention sur la première équation, les variables en-
dogènes qui n’ y apparaissent pas sont sans intérêt. On peut estimer le système
d’équations (18.38) par maximum de vraisemblance, et les estimations γ1 et
β1 qui en résulten seront les estimations LIML. Tout progiciel de FIML peut
être employé à cette fin.
En fait, nous n’avons pas besoin d’un progiciel de FIML pour obtenir des
estimations ML de (18.38). La matrice de coefficients des variables endogènes
dans ce système d’équations est
· ¸
1 0
. (18.39)
−γ1 I

Parce que cette matrice est triangulaire, son déterminant est simplement le
produit des termes de la diagonale, et sa valeur est 1. Ainsi le terme Jaco-
bien dans la fonction de log-vraisemblabce disparaı̂t, et la fonction de log-
vraisemblance pour (18.38) a la même forme que celle de n’importe quel en-
semble de régression apparemment sans lien (voir la Section 9.9). Cela im-
plique que l’on peut utiliser n’importe quel programme pour l’estimation des
systèmes SUR pour obtenir des estimations LIML. De plus, l’application des
GLS faisables à un système tel que (18.38), en débutant par des estimations
2SLS pour la première équaion et OLS pour les équations restantes, produira
des estimations asymptotiquement équivalentes aux estimations LIML. Pagan
(1979) a suggéré une procédure où l’on itère la procédure de GLS faisables
jusqu’à ce qu’elle converge vers les véritables estimations LIML.
18.5 Maximum de Vraisemblance à Information Limitée 647

Dans la pratique, on calcule rarement les estimations LIML de cette façon,


parce qu’il existe une méthode plus efficace pour les calculer. Il faudrait dis-
poser de davantage d’outils algébriques pour la développer, mais les résultats
terminaux seront relativement simples. A partir de (18.30), (18.32), et du
fait que |Γ | = 1, nous voyons que les estimations ML peuvent s’obtenir en
minimisant
¯ ¯ ¯ ¯
¯(Y − XBΓ −1 )>(Y − XBΓ −1 )¯ = ¯(YΓ − XB)>(YΓ − XB)¯. (18.40)

Nous allons maintenant montrer que la minimisation du déterminant dans le


membre de droite est ici équivalente à la minimisation du rapport de formes
quadratiques, et que cela peut être réalisé, à son tour, en résolvant un certain
problème de valeurs propres.
Ecrivons tout d’abord la matrice BΓ −1 qui apparaı̂t dans le membre de
gauche de (18.40). De (18.17) et d’une expression pour l’inverse de (18.39),
nous voyons que
· ¸· ¸ · ¸
−1 β1 B12 1 0 β1 + B12 γ1 B12
BΓ = = .
0 B22 γ1 I B22 γ1 B22
La matrice la plus à droite est simplement la version contrainte de Π.
L’élément au “nord-ouest” correspond à X1 et la matrice au “sud-est” cor-
respond à X2 . Puisque β1 n’apparaı̂t pas dans la matrice du bas et peut
varier librement, il est clair que, quelle que soit la valeur de γ1 , nous pou-
vons trouver des valeurs de β1 et B12 telles que l’élément au “nord-ouest”
prenne n’importe quelle valeur. Aurtrement dit, les contraintes sur l’équation
structurelle (18.37) n’imposent aucune contrainte sur les lignes de Π qui cor-
respondent à X1 . En général, cependant, elles imposent des contraintes sur
les lignes qui correspondent à X2 .
Comme nous l’avons vu dans la section qui précédait, il y a équivalence
entre la minimisation d’un déterminant tel que (18.34) sur lequel ne pèse
aucune contrainte et l’usage des OLS. Dans ce cas, puisqu’aucune contrainte
sur les lignes de Π ne correspond à X1 , nous pouvons employer les OLS pour
estimer ces aramètres, et ensuite concentrer ce déterminant par rapport à ces
paramètres. Ce faisant, le déterminant dans le membre de droite de (18.40)
devient ¯ ¯
¯(YΓ − XB)>M1 (YΓ − XB)¯,
où, comme d’habitude, M1 désigne la matrice qui projette orthogonalement
sur S⊥ (X1 ).
Nous allons à présent introduire une notation nouvelle. Premièrement,
.
notons γ le vecteur [1 ... −γ1 ]; par conséquent, Y γ ≡ y−Y1 γ1 . Deuxièmement,
notons Y ∗ M1 Y, Y1∗ M1 Y1 , et X ∗ M1 X2 . On peut récrire le déterminant
dans le membre de droite de (18.40) comme
¯ ¯
¯ (Y ∗ γ)>(Y ∗ γ) (Y ∗ γ)>(Y1∗ − X ∗ B22 ) ¯
¯ ¯
¯ (Y ∗ − X ∗ B )>(Y ∗ γ) (Y ∗ − X ∗ B )>(Y ∗ − X ∗ B ) ¯ . (18.41)
1 22 1 22 1 22
648 Modèles d’Equations Simultanées

Ce déterminant ne dépend que des paramètres γ et B22 . La prochaine étape


consiste à concentrer par rapport aux paramètres de B22 , de manière à obtenir
une expression qui ne dépend que de γ. Cela nécessitera un usage intensif du
résultat suivant, qui est démontré dans l’Annexe A:
¯ > ¯
¯ A A A>B ¯
¯ ¯ > >
¯ B >A B >B ¯ = |A A||B MA B|, (18.42)

où, comme d’habitude, MA ≡ I − A(A>A)−1A>. Lorsque ce résultat est


appliqué à (18.41), nous obtenons
¯ ¯
(Y ∗ γ)>(Y ∗ γ) ¯(Y1∗ − X ∗ B22 )>Mv (Y1∗ − X ∗ B22 )¯, (18.43)

où Mv désigne la matrice qui projette orthogonalement sur S⊥ (v), et v ≡


Y ∗ γ. Il n’existe qu’un seul déterminant dans (18.43), et non pas deux, parce
que le premier est un scalaire.
Les paramètres B22 n’apparaissent que dans le second facteur de (18.43).
Ce facteur est le déterminant de la matrice des sommes des carrés et des
produits croisés des résidus du système des régressions entier

Mv Y1∗ = Mv X ∗ B22 + résidus.

Comme nous l’avons vu dans la section précédente, ce déterminant peut être


minimisé en remplaçant B22 par son estimation, obtenue en appliquant les
OLS à chaque équation séparément. La matrice des résidus ainsi produite est
MMv X ∗ Mv Y1∗ , où MMv X ∗ désigne la projection sur le complément orthog-
onal de S(Mv X ∗ ). Observons à présent que MMv X ∗ Mv = Mv, X ∗ , à savoir
la matrice de projection associée au complément orthogonal de S(v, X ∗ ).
Conséquemment, le second facteur de (18.43), lorsqu’il est minimisé par rap-
port à B22 , est ¯ ∗> ¯
¯(Y1 ) Mv, X ∗ Y1∗ ¯. (18.44)
On peut exploiter le fait que v et X ∗ apparaissent de manière symétrique
dans (18.44) afin de faire dépendre (18.44) de γ uniquement à travers un
scalaire. Considérons le déterminant
¯ > ¯
¯ v MX ∗ v v>MX ∗ Y1∗ ¯
¯ ¯
¯ (Y ∗ )>M ∗ v (Y ∗ )>M ∗ Y ∗ ¯ . (18.45)
1 X 1 X 1

En utilisant (18.42), ce déterminant peut être factorisé tout comme (18.41).


Nous aboutissons à
¯ ¯
(v>MX ∗ v) ¯(Y1∗ )>Mv, X ∗ Y1∗ ¯. (18.46)

En faisant usage des définitions M1 MX ∗ = MX et v = M1 Y γ, (18.45) peut


être récrit
¯ > > ¯
¯ γ Y MXY γ γ>Y >MXY1 ¯ ¯ > > ¯ ¯ ¯
¯ ¯ = ¯Γ Y MXYΓ ¯ = ¯Y >MXY ¯. (18.47)
¯ Y >M Y γ >
Y1 MXY1 ¯
1 X
18.5 Maximum de Vraisemblance à Information Limitée 649

La première égalité est ici aisément vérifiée en exploitant l’expression (18.39)


pour Γ et les définitions de γ et Y ; souvenons- nous que γ est la première
colonne de Γ. La seconde égalité est un résultat du fait que |Γ | = 1. Elle
implique que (18.47) ne dépend pas du tout de Γ .
Enfin, nous pouvons maintenant écrire une expression simplifiée, qui,
lorsqu’elle est minimisée par rapport à γ, est égale à la valeur minimisée du
déterminant originel (18.40). De (18.46) et (18.47), nous voyons que (18.44)
est égal à
¯ ∗> ¯ > >
¯(Y1 ) Mv, X ∗ Y1∗ ¯ = |Y MXY | = |Y MXY | .
v>MX ∗ v γ>Y >MXY γ
Ainsi, en utilisant (18.43), le déterminant d’origine (18.40) doit être égal à
v>v |Y >MXY | (γ>Y >M1 Y γ)|Y >MXY |
= = κ|Y >MXY |, (18.48)
γ>Y >MXY γ γ>Y >MXY γ
où le scalaire κ a été défini implicitement comme
γ>Y >M1 Y γ
κ≡ . (18.49)
γ>Y >MXY γ

Puisque |Y >MXY | ne dépend pas du tout de γ, il y a équivalence entre


la minimisation de (18.48) et la minimisation de κ. Ainsi, si nous pouvons
minimiser (18.49) par rapport à γ, nous pouvons obtenir des estimations LIML
γ̂ et une valeur associée de κ, disons κ̂. Lorsque les estimations LIML sont
obtenues de cette manière, on les appelle quelquefois estimations du rapport
de moindre variance.
Avant de voir comment obtenir des estimations LIML γ̂, il nous faut
dire quelques mots des conséquences de (18.48) et (18.49). En premier lieu, il
devrait être évident que κ̂ ≥ 1. Etant donné que S(X1 ) est un sous-espace de
S(X), le numérateur de (18.49) ne peut pas être inférieur au dénominateur
pour tout γ possible. En fait, pour une équation suridentifiée, κ̂ sera toujours
supérieur à 1 avec des échantillons finis. En ce qui concerne une équation juste
identifiée, κ̂ sera précisément égal à 1 parce que le nombre de paramètres à
estimer est aloors égal à k, le rang de X. Ainsi, dans ce cas, il est possible
de choisir γ de sorte que le numérateur et le dénominateur de (18.49) soient
égaux.
L’expression (18.48) implique que la valeur maximisée de la fonction de
log-vraisemblance concentrée pour l’estimation LIML d’une unique équation
est
ng n n
− −− log(2π) − − log(κ̂) − − log |Y >MXY |. (18.50)
2 2 2
La valeur maximisée de la fonction de log-vraisemblance concentrée pour
l’estimation ML de la forme réduire libre est
ng n
− −− log(2π) − − log |Y >MXY |.
2 2
650 Modèles d’Equations Simultanées

Par conséquent une statistique LR portant sur les contraintes de suridentifi-


cation implicites dans une seule équation structurelle est simplement n log(κ̂).
Cette statistique de test fut proposée à l’origine par Anderson et Rubin (1950).
Il est aisé d’évaluer κ̂. L’ensemble des conditions du premier ordre obtenu
en dérivant (18.49) par rapport à γ est

2Y >M1 Y γ (γ>Y >MXY γ) − 2Y >MXY γ (γ>Y >M1 Y γ) = 0.

Si nous divisons chaque membre de l’égalité par 2γ>Y >MX Y γ, nous aboutis-
sons
Y >M1 Y γ − κY >MXY γ = 0. (18.51)
Un ensemble de conditions du premier ordre équivalent peut être établi en
prémultipliant (18.51) par (Y >MXY )−1/2 et en insérant ce facteur multiplié
par par son inverse devant γ. Après manipulation, nous arrivons à
¡ > ¢
(Y MXY )−1/2 Y >M1 Y (Y >MXY )−1/2 − κI (Y >MXY )1/2 γ = 0.

Cet ensemble de conditions du premier ordre possède désormais la forme d’un


problème classique de valeurs propres et vecteurs propres pour une matrice
réelle symétrique (voir Annexe A). Il est clair désormais que κ̂ sera une valeur
propre de la matrice

(Y >MXY )−1/2 Y >M1 Y (Y >MXY )−1/2 (18.52)

et que (Y >MXY )1/2 γ̂ sera son vecteur propre associé. En réalité, κ̂ doit être
la valeur propre la plus petite, du fait que c’est la plus faible valeur du rapport
(18.49).
Alors, un moyen de calculer des estimations LIML consiste à trouver le
vecteur propre (18.52) associé à la valeur propre la plus petite, et de là, à
.
calculer γ̂, qui sera [1 ... − γ̂1 ] si le premier élément est normalisé à 1. On peut
ensuite obtenir β̂1 en régressant y − Y1 γ̂1 sur X1 . Une approche alternative
se révéle pourtant plus simple et plus révélatrice. Considérons les conditions
du premier ordre (18.51). Si nous les exprimons en termes de y et Y1 au lieu
de Y, et les évaluons avec les estimations LIML, nous pouvons les récrire sous
la forme
÷ ¸ · > ¸!· ¸
y>M1 y y>M1 Y1 y MX y y>MX Y1 1
− κ̂ = 0.
Y1>M1 y Y1>M1 Y1 Y1>MX y Y1>MX Y1 −γ̂1

Pour ce qui concerne les lignes correspondant à Y1 , nous avons

Y1>(M1 − κ̂MX )y − Y1>(M1 − κ̂MX )Y1 γ̂1 = 0.

En résolvant par rapport à γ̂1 , nous obtenons


¡ ¢−1
γ̂1 = Y1>(M1 − κ̂MX )Y1 Y1>(M1 − κ̂MX )y.
18.5 Maximum de Vraisemblance à Information Limitée 651

Puisque X1 ∈ S(X), M1 − κ̂MX = M1 (I− κ̂MX ). A l’aide de cette propriété


et d’un peu d’algèbre, on peut montrer que γ̂1 peut également se calculer
suivant la formule (nous laissons la manipulation en qu’exercice)
· ¸ · ¸−1 · ¸
β̂1 X1>X1 X1>Y1 X1>y
= , (18.53)
γ̂1 Y1>X1 Y1>(I − κ̂MX )Y1 Y1>(I − κ̂MX )y

qui fournit également β̂1 . Alors si nous définissons Z par [X1 Y1 ] et δ par
.
[β1 ... γ1 ], tout comme dans (18.18), (18.53) peut se récrire sous la forme très
simple
¡ ¢−1
δ̂ = Z>(I − κ̂MX )Z Z>(I − κ̂MX )y. (18.54)

L’équation (18.53) est un moyen parmi d’autres d’écrire le LIML comme


un membre des estimateurs de classe K; voir Theil (1961) et Nagar (1959).
L’équation (18.54) est un moyen encore plus simple d’arriver au même but.
La classe K comprend tous les estimateurs que l’on peut écrire sous une de
ces deux formes, mais avec un scalaire K arbitraire à la place de κ̂. Nous
employons la notation K plutôt que la notation plus conventionnelle k pour
désigner ce scalaire afin d’éviter la confusion avec le nombre de variables
exogènes dans le système. L’estimateur LIML est ainsi un estimateur de la
classe K, avec la paramétrisation K = κ̂. Identiquement, comme (18.54)le
montre clairement, l’estimateur 2SLS est un estimateur de la classe K avec
la paramétrisation K = 1, et celui des OLS est également un estimateur
de la classe K avec la paramétrisation K = 0. Puisque pour une équation
structurelle juste identifiée, κ̂ = 1, il découle immédiatement de (18.54) que
les estimateurs LIML et 2SLS se confondent dans ce cas particulier.
On peut montrer que les estimaturs de la classe K sont convergents
lorsque K tend vers 1 asymptotiquement à un taux plus fort que n−1/2 ; voir
Schmidt (1976), parmi d’autres auteurs. Bien que la convergence du LIML
provienne de résultats généraux sur les estimateurs ML, il reste intéressant de
voir comment ce résultat pour la classe K s’y applique. Nous avons déjà vu que
n log(κ̂) est la statistique de test LR pour l’hypothèse nulle de pertinence des
contraintes de suridentification sur l’équation structurelle. Un développement
de Taylor sur le logarithme nous montre que n log(κ̂) ∼ = n(κ̂ − 1). Puisque
cette statistique de test suit asymptotiquement une loi du χ2 , elle doit être
O(1), de sorte que κ̂ − 1 doit être O(n−1 ). Ceci établit la convergence du
LIML.
Il existe de nombreux autres estimateurs de la classe K. Par exemple,
Sawa (1973) suggéra un moyen de modifier l’estimateur 2SLS pour réduire
son biais, et Fuller (1977) et Morimune (1978, 1983) suggérèrent des ver-
sions modifiées de l’estimateur LIML. L’estimateur de Fuller, qui est le plus
simple d’entre eux, utilise la paramétrisation K = κ̂ − α/(n − k), où α est
une constante positive que choisit l’expérimentateur. Un choix judicieux est
α = 1, puisqu’il produit des estimations approximativement non biaisées. Par
652 Modèles d’Equations Simultanées

contraste avec l’estimateur LIML qui ne possède aucun moment fini (voir Mar-
iano (1982) et Phillips (1983) sur ce point), tous les moments de l’estimateur
modifié de Fuller sont finis à condition que l’échantillon soit suffisamment
important.
Il est possible d’estimer la matrice de covariance du vecteur δ̂ des es-
timations de la classe K de différentes façons. La plus naturelle consiste à
utiliser ¡ ¢−1
σ̂ 2 Z>(I − κ̂MX )Z , (18.55)
où
1
σ̂ 2 = −
n
(y − Z δ̂)>(y − Z δ̂).
Les statistiques de test de Wald pour les contraintes sur γ1 et β1 , et parmi
elles les t de Student asymptotiques, peuvent se calculer à l’aide de (18.55)
de la manière habituelle. Toutefois, il est sans doute préférable d’employer
des statistiques LR, étant donné leur invariance à la reparamétrisation, mais
aussi compte tenu de leur facilité de calcul à partir de la fonction de log-
vraisemblance concentrée (18.50).
Le résultat selon lequel les estimateurs de la classe K sont convergents
lorsque K tend asymptotiquement vers 1 à un taux approprié peut suggérer
que les 2SLS possèdent de meilleures propriétés avec des échantillons finis que
le LIML. Après tout, pour les 2SLS, K est identiquement égal à 1, alors que
pour le LIML, K = κ̂, et κ̂ est toujours supérieur à 1 avec des échantillons
finis. Le résultat selon lequel le LIML ne possède pas de moment fini peut
également suggérer que cet estimateur est plus pauvre que celui des 2SLS,
puisque, comme nous l’avons vu dans la Section 7.5, l’estimateur des 2SLS
possèdent autant de moments finis qu’il y a de contraintes de suridentification.
D’un autre côté, il apparaı̂t que dans de nombreux cas, les 2SLS possèdent
en fait de piètres qualités face au LIML à de multiples égards. Anderson,
Kunitomo, et Sawa (1982), par exemple, exposent des résultats analytiques
qui montrent que le LIML converge vers sa distribution asymptotique normale
beaucoup plus rapidement que ne le font les 2SLS. Contrairement à la distri-
bution de l’estimateur 2SLS, dont nous avons vu qu’elle est sévèrement bi-
aisée dans certains cas, la distribution de l’estimateur LIML est généralement
centré sur une valeur proche de la véritable valeur. Mais, étant donné que
cette dernière distribution ne possède pas de moment fini, nous ne pouvons
pas conclure au moindre biais de l’estimateur LIML.
La Figure 18.1 donne une illustration du fonctionnement du LIML avec
des échantillons finis. Elle montre les distributions de l’estimateur 2SLS,
l’estimateur LIML, et l’estimateur modifié de Fuller avec α = 1 (noté LIMLF
sur la figure) dans le cas examiné précédemment dans la Section 7.5. La
présence de 6 contraintes de suridentification et de seulement 25 observation
explique la divergence importante pour chaque estimateur par rapport à sa
distribution asymptotique. Dans ce cas, l’estimateur 2SLS est sévèrement
biaisé vers le bas. Par ailleurs, l’estimateur LIML semble être pratiquement
18.6 Les Triples Moindres Carrés 653

...........................................
1.0 .................................. ...........................................
...
. ............ .......
. ..............
.
.........
.
....
........... ............................
...
. ... ....
.... ....... .........
.
. .... ......... .............
... ... ...
0.8 ... .... ......
. . ...... ........
.. ... ....
... ... ...... ← LIML
..... ..
. .
... ... .....
..←−
0.6 ..... .
. ... LIMLF
.
.....
.
..... .....
.. ..
... ... ...
..... ..........
.. .. ..
0.4 2SLS →..... ..........
... ... ...
.. .. .. ← Vraie valeur
... ......
..... ..........
... ......
.... ..........
.
0.2 ... ......
...... .............
. .
.... ..........
.
...
......................
..........
0.0 .............................................
0.0 0.5 1.0 1.5 2.0

Figure 18.1 Distributions des estimateurs 2SLS et LIML

sans biais dans le sens où sa médiane est très proche de la véritable valeur
de 1. La distribution de l’estimateur modifié de Fuller se situe généralement
entre celles des estimateurs 2SLS et LIML. Sa queue de distribution supérieure
est beaucoup plus fine que celle du LIML, mais sa médiane est quelque peu
inférieure à la véritable valeur.
Dans la pratique, il n’est pas toujours aisé de décider quel estimateur de
la classe K utiliser. Mariano (1982) aborde un certain nombre de résultats an-
alytiques et donne des conseils sur l’opportunité d’une performance meilleure
du LIML par rapport aux 2SLS. Il faudrait éviter d’employer ce dernier
lorsque le nombre des contraintes de suridentification est important, par ex-
emple. Cependant, cela dépend énormément des caractéristiques intrinsèques
du modèle et des données que l’on utilise. Si les résultats des 2SLS et du LIML
sont très proches, alors le choix entre les deux est peu important. S’ils sont
relativement différents, toutefois, ce choix devient important. Sans doute la
meilleure chose à faire dans ces circonstances consiste à réaliser des expériences
Monte Carlo, qui sont typiquement conçues pour départager les performances
relatives des différents estimateurs pour le modèle et les données en cause; se
reporter au Chapitre 21.

18.6 Les Triples Moindres Carrés


La dernière des quatre méthodes principales pour l’estimation des modèles
d’équations simultanées dont nous allons discuter est celle des triples moin-
dres carrés, ou 3SLS. Tout comme le FIML, la méthode des 3SLS est une
654 Modèles d’Equations Simultanées

méthode systémique, pour laquelle tous les paramètres du modèle sont es-
timés conjointement. Ainsi que son nom le suggère, on peut calculer les 3SLS
en trois étapes. Les deux premières sont celles des 2SLS classiques, appliquées
à chaque équation du système séparément. La troisième étape est alors es-
sentiellement la même que l’étape terminale de l’estimation par GLS faisables
d’un système SUR (Section 9.7). La méthode fut proposé par Zellner et Theil
(1962).
Le moyen le plus simple de dériver l’estimateur des 3SLS, ainsi que ses
propriétés asymptotiques, consiste à appliquer les principes de la méthode des
moments généralisée au système des modèles d’équations simultanées linéaires
(18.01). Pour l’observation t, ce système peut se mettre sous la forme

Yt Γ = Xt B + Ut .

L’hypothèse selon laquelle toutes les variables dans X sont soit exogènes soit
prédéterminées implique que, pour toutes les observations t,
¡ ¢
E Yt Γ − Xt B | Xt = 0.

On interprète immédiatement les égalités comme des conditions portant sur les
moments conditionnels au sens du Chapitre 17. Puisque, comme nous l’avons
vu dans la Section 18.3, les variables exogènes constituent des instruments
efficaces pour les 2SLS si les aléas sont homoscédastiques et indépendants en
série, il semble raisonnable d’envisager l’ensemble suivant de conditions du
premier ordre: ¡ ¢
E Xt>(Yt Γ − Xt B) = 0. (18.56)
Etant donné que Xt possède k composantes et Yt Γ − Xt B en possède g, il
y a en tout gk conditions portant sur les moments. Si la condition d’ordre
pour l’idetnification est satisfaite avec une égalité, il y aurait exactement
gk paramètres à estimer. Ainsi (18.56) fournit toujours au moins autant de
conditions portant sur les moments qu’il y a de paramètres dans le système,
et même davantage si le système est suridentifié. Bien évidemment, l’utilité
réelle de ces conditions sur les moments dans le processus d’identification des
paramètres dépend asymptotiquement de la validité de la condition de rang.
Il est pratique d’ordonner différemment les éléments de la matrice de
dimension k × g (18.56) pour en faire un vecteur de dimension gk. En premier
lieu, exprimons chaque équation du système dans une notation comparable à
celle de (18.18):
yi = Zi δi + ui , pour i = 1, . . . , g,
où la matrice de régresseurs Zi qui apparaı̂t dans l’équation i est [Xi Yi ],
avec ki variables exogènes Xi incluses et gi variables endogènes Yi incluses, et
.
où le vecteur de paramètres de dimension (ki + gi ) δi est [βi ... γi ]. Définissons
alors le vecteur ligne Ft composé de gk éléments comme:

Ft ≡ [ut1 Xt · · · utg Xt ],
18.6 Les Triples Moindres Carrés 655

où uti ≡ yti − (Zi )t δi . Chaque composante de Ft est la contribution de


l’observation t à un des moments empiriques provenant de is the (18.56). La
matrice F de dimension n × gk est définie pour avoir une ligne type Ft .
Pour obtenir des estimations GMM, il est nécessaire de trouver une esti-
mation de la matrice de covariance des gk moments (18.56). Nous ferons les
mêmes hypothèses préliminaires sur les aléas que pour le FIML et le LIML.
Nous supposons que chaque vecteur ui est homoscédastique et indépendant en
série (l’hypothèse d’homoscédasticité sera relâchée plus tard). Nous supposons
également que, pour chaque observation t, les uti sont corrélés entre eux, avec
une matrice de covariance contemporaine de dimension g ×g Σ, indépendante
de t. Nous noterons σij un élément type de Σ et σ ij un élément type de Σ −1.
Il est relativement aisé de trouver la matrice de covariance du vecteur des
moments empiriques F >ι. C’est
n
¡ > > ¢ X ¡ ¢
E F ιι F = E Ft>Ft
t=1
Xn
= E[ut1 Xt · · · utg Xt ]>[ut1 Xt · · · utg Xt ]. (18.57)
t=1

La dernière expression dans (18.57) est une matrice de dimension gk × gk qui


apparaı̂t sous une forme plus lisible lorsqu’elle est partitionnée, chaque bloc
étant de dimension k × k. Pour chaque t, E(uti utj ) = σij . Parce que les
éléments de σij ne dépendent pas de t, nous obtenons
 
σ11 X>X ··· σ1g X>X
 .. .. .. ,
. . . (18.58)
> >
σg1 X X ··· σgg X X

c’est-à-dire une matrice dont le bloc type est σij X>X. Afin de construire une
fonction critère comparable à (17.54) et avec laquelle nous pourrons obtenir
des estimations des paramètres vectoriels δi , i = 1, . . . , g, nous aurons be-
soin d’inverser la matrice (18.58)L̇a structure en bloc de (18.58) facilite cette
manipulation. On peut vérifer facilement par une simple multiplication de
matrices partitionnées que l’inverse est une matrice dont le bloc type est
σ ij (X>X)−1 (souvenons-nous que σ ij est un élément type de Σ −1 ).
Il est pratique d’exprimer le vecteur des moments empiriques F >ι sous
une forme partitionnée comparable à (18.58), comme une fonction des données
et des paramètres du modèle. Le résultat est un vecteur avec l’élément type
X>(yi − Zi δi ), pour i = 1, . . . , g:
 
X>(y1 − Z1 δ1 )
..
F >ι =  . . (18.59)
>
X (yg − Zg δg )
656 Modèles d’Equations Simultanées

Alors, si nous élaborons une forme quadratique à parir du vecteur (18.59) et


de la matrice (18.58), nous aboutissons à la fonction critère
g X
X g
¡ ¢ ¡ ¢−1 ¡ ¢
σ ij yi − Zi δi >X X>X X> yj − Zj δj
i=1 j=1
g X g
(18.60)
X ¡ ¢ ¡ ¢
ij
= σ yi − Zi δi >PX yj − Zj δj .
i=1 j=1

Puisque nous supposons tacitement qu’il n’existe aucune contrainte d’équa-


tions croisées, les paramètres δi n’apparaissent que dans le résidus de l’équa-
tion i. Ainsi les conditions du premier ordre pour un minimum de (18.60)
peuvent s’écrire assez simplement comme
g
X ¡ ¢
σ ij Zi>PX yj − Zj δj = 0, pour i = 1, . . . , g. (18.61)
j=1

Afin de rendre (18.61) opérationnelle, nous avons besoin d’estimer la


matrice de covariance des aléas, Σ. Dans le cas du modèle SUR, nous pour-
rions employer les OLS pour chaque équation individuellement. Puisque les
OLS sont non convergents pour les modèles d’équations simultanées, nous
employons à la place les 2SLS sur chaque équation. Ainsi les deux premières
“étapes” des 3SLS correspondent exactement aux deux étapes des 2SLS, ap-
pliqué à chaque équation de (18.01). Les covariances des aléas sont alors
estimés à partir des résidus 2SLS:
n
X
1
σ̃ij = −
n
ũti ũtj . (18.62)
t=1

Bien sûr, ces résidus doivent correspondre aux véritables résidus 2SLS, et non
aux résidus de l’estimation OLS de seconde étape: voir la Section 7.5. Nous
voyons donc que les estimateurs 3SLS, δ̃1 à δ̃g doivent conjointement résoudre
les conditions du premier ordre:
g
X ¡ ¢
σ̃ ij Zi>PX yj − Zj δ̃j = 0. (18.63)
j=1

. .
La solution est aisée à formuler. Si δ ≡ [δ1 ... · · · ... δg ] et si les matrices entre
crochets désignent les matrices partitionnées caractérisées par l’élément ype
à l’intérieur du crochet, l’estimateur 3SLS δ̃ se met sous la forme compacte
" g #
£ ij > ¤−1 X
δ̃ = σ̃ Zi PXZj σ̃ ij Zi>PX yj . (18.64)
j=1
18.6 Les Triples Moindres Carrés 657

L’écriture de l’estimateur 3SLS dans une notation qui utilise les produits de
Kronecker est plus fréquente; consulter la plupart des ouvrages d’économétrie.
Bien que les produits de Kronecker soient bien souvent très utiles (Magnus et
Neudecker, (1988)), nous préférons la notation compacte de (18.64).
L’estimateur 3SLS est intimement relié à la fois à celui des 2SLS et à
celui des GLS pour les modèles SUR multivariés pour lequel les variables
explicatives sont toutes exogènes ou prédéterminées. Si nous supposons que Σ
est proportionnelle à une matrice identité, les conditions (18.63) se ramènent
à ¡ ¢
σ̃ ii Zi>PX yi − Zi δi = 0,
et ces conditions sont équivalentes aux conditions équation par équation
des 2SLS. Ainsi les 3SLS et les 2SLS seront asymptotiquement (mais pas
numériquement) équivalents lorsque les aléas contemporains de la forme struc-
turelle sont non corrélés. Il est également aisé de voir que l’estimateur SUR
pour les modèles linéaires est juste un cas particulier de l’estimateur 3SLS.
Etant donné que tous les régresseurs peuvent servir en tant qu’instruments
dans le cas SUR, il n’est plus du tout besoin d’employer les 2SLS en première
étape. En correspondance, le fait que chaque matrice de régresseur Zi soit
une sous-matrice de la matrice de tous les régresseurs, X, implique que
PXZi = Zi . Ainsi (18.63) se ramène à
g
X ¡ ¢
σ̃ ij Zi> yj − Zj δj = 0,
j=1

et c’est précisément ce que deviennent les équations définissantes (9.54) dans


le cas linéaire pour l’estimateur des GLS faisables d’un système SUR sans
contrainte d’équations croisées. Nous voyons que la relation entre 3SLS et les
2SLS équation par équation est identique à celle qu’il existe entre l’estimation
SUR par GLS faisables et l’estimation OLS équation par équation.
Sur la base de (18.64), il est naturel de penser que l’estimation de la
matrice de covariance de l’estimateur 3SLS peut être estimée par
[σ̃ ij Zi>PXZj ]−1 . (18.65)
C’est en réalité le cas, comme on peut le montrer assez facilement à l’aide du
résultat général (17.55) pous l’estimation GMM. Nous avons vu que pour Φ̃−1
dans cette expression nous devions employer la matrice dont l’élément type
est σ̃ ij (X>X)−1. Pour D̃, la matrice des dérivées des moments empiriques
par rapport aux paramètres du modèle, nous voyons que la matrice adéquate
doit être bloc diagonale, avec des blocs types définis par −X>Zi . (Nous ne
considérons pas volontairement les facteurs des puissances de n.) Puisque
nous traitons d’un système linéaire, D̃ ne dépend d’aucun paramètre estimé.
Ainsi une estimation appropriée de la matrice de covariance asymptotique est
donnée par l’inverse de la matrice dont le bloc type est
¡ ¢−1
Zi>X σ̃ ij X>X X>Zj = σ̃ ij Zi>PXZj ,
658 Modèles d’Equations Simultanées

ce qui correspond précisément à (18.65).


Puisque le modèle d’équations simultanées (18.01) est équivalent à la
forme réduite contrainte (18.02), on peut raisonnablement se demander pour-
quoi un estimateur tel que celui des 3SLS ne peut pas être obtenu simple-
ment à partir de (18.02), étant donné que sa forme est précisément celle d’un
sustème SUR. La réponse est, bien sûr, que cela est possible. Cependant,
à moins que chaque équation ne soit juste identifiée, les contraintes seront
non linéaires. Cette approche a été essentiellement utilisée par Chamberlain
(1984). L’avantage de l’approche que nous suivons est qu’elle évite les diffi-
cultés associées au traitement des contraintes non linéaires.
Une autre similitude entre les estimations 3SLS et SUR est que les deux
sont numériquement équivalentes à la procédure équation par équation si
chaque équation est juste identifiée. Pour les systèmes SUR, cela signifie
simplement que tous les régresseurs se confondent avec des variables explica-
tives dans chaque équation (sinon, il existerait des contraintes de suridentifi-
cation impliquées par la nécessaire orthogonalité entre les aléas des équations
où certains régresseurs sont absents et les régresseurs absents et inclus dans
l’équation). Nous avons vu dans la Section 9.8, à travers le Théorème de
Kruskal, que les estimations SUR sont numériquement idetniques aux estima-
tions OLS équation par équation dans ce cas. C’est un bon exercice que de
montrer la validité du même résultat dans le contexte 3SLS.
Si nous supposons que les aléas contenus dans la matrice U de (18.01) sont
normalement distribués, les propriétés asymptotiques de toutes les procédures
d’estimation ML garantissent l’efficacité asymptotique de l’estimateur FIML.
Il est par conséquent naturel de se demander si l’estimateur 3SLS partage la
propriété asymptotique d’efficacité avec le FIML, et la réponse est, comme
nous le verrons assez directement, affirmative. Nous pourrions directement
obtenir une démonstration de ce résultat si nous avions une expression de la
matrice de covariance asymptotique de l’estimateur FIML, que nous pour-
rions comparer à (18.65). Toutefois, nous préférions ne pas obtenir une telle
expression dans la Section 18.4, parce qu’un moyen très simple d’obtenir une
estimation de la matrice de covariance FIML consiste à utiliser l’estimation
3SLS (18.65), évaluée avec les estimations FIML. Au lieu de cela, notre
démonstration de l’équivalence asymptotique entre les 3SLS et le FIML se
base sur le fait que l’estimateur FIML peut s’interpréter comme un estima-
teur des variables instrumentales.
Ce résultat, que Hausman (1975) démontra le premier, est d’un intérêt
considérable en lui-même, du fait qu’il fournit des instruments optimaux as-
sociés à l’estimation ML du système (18.01). Comme nous pouvions nous y
attendre, on peut les trouver en considérant les conditions du premier ordre
pour la maximisation de la fonction de log-vraisemblance, que nous envis-
ageons sous la forme (18.28). Si nous notons Γi ou Bi la colonne i de Γ ou
B, respectivement, et notons une fois de plus σ ij l’élément type de Σ −1, alors
18.6 Les Triples Moindres Carrés 659

(18.28) peut s’exprimer comme


ng n
`(B, Γ, Σ) = − −− log(2π) + n log |det Γ | − − log |Σ|
2 2
n X
X g
g X
1 ¡ ¢¡ ¢ (18.66)
−− σ ij Yt Γi − Xt Bi Yt Γj − Xt Bj .
2
t=1 i=1 j=1

La difficulté majeure dans l’explicitation des conditions du premier ordre pour


un maximum de (18.66) est que B et Γ sont contraintes à posséder de nom-
breux éléments nuls de sorte qu’un seul élément de Γ est égal à 1. Par
conséquent, nous ne pourrions annuler les dérivées de (18.66) par rapport à
aux éléments de Γ et B qui sont ainsi contraints. Pour contourner la difficulté,
nous pouvons tout d’abord développer une matrice des dérivées partielles de
`(B, Γ, Σ) par rapport à B qui aura exactement la même forme que la ma-
trice B. Nous signifions que l’élément ij de la matrice des dérivées partielles
sera égal à la dérivée partielle de ` par rapport à l’élément ij de la matrice B.
Nous pouvons exécuter une opération similaire pour Γ et annuler uniquement
les éléments pertinents des deux matrices de dérivées.
La matrice B n’apparı̂t que dans le dernier terme de (18.66), aussi
pouvons-nous nous focaliser uniquement sur ce terme pour l’instant. Il est
commode de calculer la matrice des dérivées partielles élément par élément
et d’ordonner ces dérivées par la suite dans une matrice de dimension k × g.
Puisque chaque facteur dans le dernier terme de (18.66) est un scalaire, chaque
dérivée est aisément calculable. Par rapport à l’élément ij, nous obtenons
g
n X
X ¡ ¢
σ im Xtj Yt Γm − Xt Bm . (18.67)
t=1 m=1

Nous souhaitons trouver une matrice dont l’élément ij est (18.67). Puisque j
est l’indice associé à l’élément Xtj , nous pouvons développer la colonne j de
ladite matrice en ordonnant les éléments Xtj en colonne. Cela donne
g
n X
X ¡ ¢
σ im Xt> Yt Γm − Xt Bm
t=1 m=1
X g
im
¡ ¢
= σ X> YΓm − XBm
m=1
¡ ¢
= X> YΓ − XB (Σ −1 )i , (18.68)

où (Σ −1 )i est la i ième colonne de Σ −1. Observons maintenant que les ex-
pressions successives dans (18.68) sont des vecteurs de dimension k. Pour
conclure cette manipulation, il nous faut concatener ces vecteurs pour former
une matrice de dimension k × g, et il est désormais évident que cette matrice
est X>(YΓ − XB)Σ −1.
660 Modèles d’Equations Simultanées

Il nous faut maintenant calculer les dérivées (18.66) par rapport à la


matrice de dimension g × g Γ. Des opérations identiques à celles menées
pour B montrent que la matrice des dérivées par rapport au dernier terme de
(18.66) est
−Y >(YΓ − XB)Σ −1.
Cette matrice est de dimension g × g, ce qui est cohérent. Mais Γ ap-
paraı̂t également à travers son déterminant dans le second terme de (18.66).
Souvenons-nous (ou bien consultons l’Annexe A) que la dérive du logarithme
du déterminant d’une matrice par rapport à l’élément ij de cette matrice est
l’élément ji de l’inverse de la matrice. Par conséquent, la matrice des dérivées
partielles correspondant à Γ est
¡ ¢
n(Γ −1 )> − Y > YΓ − XB Σ −1. (18.69)

Nous pouvons aboutir à une expression plus pratique que (18.69) en util-
isant les conditions du premier ordre pour les éléments de la matrice de co-
variance Σ. De (18.29), nous voyons que ces conditions donnent

Σ̂ = n−1 (Y Γ̂ − XB̂)>(Y Γ̂ − XB̂), (18.70)

où Σ̂, Γ̂, et B̂ désignent des estimations FIML. Si nous prémultiplions cette
équation par nΣ̂ −1, la postmultiplions par Γ̂ −1, et la transposons, nous ar-
rivons à

n(Γ̂ −1 )> = Y >(Y Γ̂ − XB̂)Σ̂ −1 − (Γ̂ −1 )>B̂>X>(Y Γ̂ − XB̂)Σ̂ −1. (18.71)

Puisque XB̂Γ̂ −1 est la matrice des valeurs ajustées de l’estimation de la forme


réduite contrainte, nous la noterons Ŷ: cela simplifiera la notation et aura le
mérite de clarifier l’analyse ultérieure. Ainsi (18.71) peut s’écrire

n(Γ̂ −1 )> = Y >(Y Γ̂ − XB̂)Σ̂ −1 − Ŷ >(Y Γ̂ − XB̂)Σ̂ −1.

Par suite, la matrice (18.69), évaluée avec les estimations ML, devient

−Ŷ >(Y Γ̂ − XB̂)Σ̂ −1.

Nous pouvons, après tant d’efforts, sélectionner les éléments de deux


matrices de dérivées partielles qui sont véritablement nuls lorsque nous les
évaluons avec les estimations ML. Les paramètres qui apparaissent dans
l’équation i proviennent de la colonne i des matrices Γ et B, et les dérivées
partielles correspondantes proviennent des colonnes i des matrices de dérivées
partielles. En ce qui concerne la matrice B, cette colonne est X>(Y Γ̂ −
XB̂)(Σ̂ −1 )i . Nous souhaitons sélectionner dans cette colonne uniquement
les lignes pour lesquelles l’élément correspondant de Bi est non contraint,
18.6 Les Triples Moindres Carrés 661

c’est-à-dire les éléments correspondant à la matrice de dimension n × ki Xi .


Puisque pour sélectionner les lignes d’un produit matriciel, il nous suffit de
sélectionner les lignes correspondant au facteur le plus à gauche, les éléments
nuls sont ceux du vecteur de dimension ki Xi>(Y Γ̂ − XB̂)(Σ̂ −1 )i .
Par un rasionnement en tous points identique, nous trouvons que, pour
chaque i = 1, . . . , g, le vecteur Ŷi>(Y Γ̂ − XB̂)(Σ̂ −1 )i de dimension gi est nul,
où Ŷi ne contient que les colonnes de Ŷ qui correspondent à la matrice Yi
des variables endogènes incluses en tant que régresseurs dans l’équation i. Si
nous définissons Ẑi ≡ [Xi Ŷi ], alors nous pouvons écrire toutes les conditions
du premier ordre correspondant aux paramètres de la i ième équation sous la
forme ¡ ¢
Ẑi> Y Γ̂ − XB̂ (Σ −1 )i = 0.

Ces conditions peuvent se simplifier grandement. Remarquons que


g
X
−1
¡ ¢
(Y Γ̂ − XB̂)(Σ̂ )i = σ̂ ij Y Γ̂j − XB̂j
j=1
Xg
¡ ¢
= σ̂ ij yj − Zj δ̂j .
j=1

L’ensemble complet des conditions du premier ordre définissant les estimations


FIML peuvent donc s’écrire
g
X ¡ ¢
σ̂ ij Ẑi> yj − Zj δ̂j = 0, pour i = 1, . . . , g. (18.72)
j=1

Les conditions (18.72) apparaissent désormais sous une forme très com-
parables à celle des conditions (18.63) qui définissent l’estimateur 3SLS. En
réalité, si nous notons Ȳi la matrice de dimension n × gi des valeurs ajustées
de la forme réduite libre, de sorte que Ȳi = PX Yi for i = 1, . . . , g, alors
£ ¤ £ ¤
PXZi = PX Xi Yi = Xi Ȳi ≡ Z̄i .

Ainsi la conditions (18.63) qui définit l’estimateur 3SLS peut s’écrire comme
g
X ¡ ¢
σ̃ ij Z̄i> yj − Zj δ̃j = 0. (18.73)
j=1

Les différences existant entre les conditions qui définissent les etsimations
3SLS et celles qui définissent les estimations FIML sont mises en évidence à
partir de (18.73) et (18.72). Elles sont les suivantes:
(i) l’estimation de la matrice de covariance provient des résidus 2SLS équa-
tion par équation en ce qui concerne les 3SLS, et des résidus FIML en ce
qui concerne le FIML;
662 Modèles d’Equations Simultanées

(ii) Les valeurs ajustées de Y employées en tant qu’instruments sont celles


de la forme réduite non contrainte en ce qui concerne les 3SLS et celle du
FIML en ce qui concerne le FIML.
Les deux différences reflètent le fait que, contrairement aux 3SLS, le FIML
est une procédure d’estimation jointe: il faut résoudre simultanément les con-
ditions (18.72) et les conditions (18.70) pour Σ si l’on veut obtenir une quel-
conque estimation ML.
Une autre façon d’établir la différence entre les deux procédures consiste
à dire qu’elles emploient des estimations différentes des mêmes instruments
optimaux. Ces instruments sont quelque peu délicats à écrire. Afin de le faire
sans trop de difficulté, nous pouvons construire un vecteur de dimension ng
constitué de toutes les contributions des moments empiriques. Sous forme
partitionnée, ce vecteur peut s’écrire
£ . . ¤
y1 − Z1 δ1 ... · · · ... yg − Zg δg , (18.74)
et
Pgun élément type est n--vector yi − Zi δi . Au total, il faut identifier p ≡
i=1 (gi + ki ) paramètres, de sorte qu’il faut prémultiplier le vecteur (18.74)
par exactement le nombre de vecteurs lignes, chacun étant de dimesnion ng,
si l’on veut obtenir les équations définissantes pour ces estimations. On peut
voir sans grande difficulté que la matrice de dimension p × ng nécessaire à
l’obtention de (18.72) ou de (18.73) est constituée de blocs de la forme σ ij Wi>,
où Wi indique une matrice de la forme [XΠi Xi ] pour un choix donné des
matrices Πi de dimension n × gi . Ce bloc type est une matrice de dimension
(gi + ki ) × n, ce qui est cohérent.
Les estimateurs 3SLS et FIML diffèrent selon la manière de choisir Σ et
les matrices Πi . Les instruments optimaux réel, mais non observables, sont
donnés en posant Σ égale à la véritable matrice de covariance des erreurs Σ0
et en posant Πi = B0 Γ0−1, à l’aide des véritables matrices de paramètres. A
l’évidence, aussi bien Σ̃ que Σ̂ convergent vers Σ0 . Identiquement, les ma-
trices Π̄ telle que Ȳ = PX Y = X Π̄ obtenue de la forme réduite contrainte
que la matrice B̂Γ̂ −1 obtenue par l’estimation FIML convergent vers B0 Γ0−1.
Les deux procédures emploient par conséquent des estimations convergentes
des véritables instruments optimaux, de sorte que les deux sont asympto-
tiquement équivalentes et asymptotiquement efficaces. Remarquons que cette
conclusion ne s’applique qu’à l’estimation de Γ et B: les procédures ne sont
pas équivalentes en ce qui concerne l’estimation de la matrice de covariance Σ.
On peut obtenir l’équivalence numérique entre le FIML et les 3SLS en
itérant ces derniers. A chaque itération, les résidus de la précédente étape
sont utilisés pour générer les estimations actualisées de Σ, alors que les es-
timations paramétriques de la précédente étape sont utilisées pour générer
les estimations actualisées de Π. Une telle procédure itérative, dont l’intérêt
reste surtout théorique, débute par les 3SLS et converge vers le FIML pour
tous les paramètres, incluant ceux de Σ. Cette opération itérative, et de nom-
breuses autres, sont abordées par Hendry (1976), qui fournit également une
18.6 Les Triples Moindres Carrés 663

bibliographie exhaustive de la plupart des thèmes de la littérature consacrée


aux équations simultanées existant à cette époque.
Comme nous l’avons suggéré lors de la Section 18.4, un moyen pratique
de calculer une estimations de la matrice de covariance de l’estimateur FIML
de Γ et B consiste à employer une expression comparable à (18.65). Si nous
remplaçons l’estimation 3SLS Σ̃ par l’estimation FIML Σ̂, et les matrices
PX Zi des 3SLS par les matrices Ẑi du FIML, le résultat est
£ ij > ¤−1
σ̂ Ẑi Ẑj .

De même que le LIML appliqué à une équation est un cas dégénéré du


FIML appliqué à ladite équation suridentifiée, les 2SLS sont un cas dégénéré
des 3SLS appliqué à une équation suridentifiée unique d’un système global
par ailleurs juste idetnifié. Ce résultat est d’une grande importance pratique,
bien que la démonstration ne soit guère intéressante, et donc éludée. Le
résultat implique que la raison invoquée dans la Section 18.5 qui nous conduit
parfois à préférer le LIML au FIML, à savoir que cela évite d’imposer des
contraintes de suridentification éventuellement inexactes, conduirait chaque
expérimentateur dans un contexte de moindres carrés à ne jamais dépasser
le stade des 2SLS. Compte tenu du fait que le surcroı̂t de calcul pour obenir
les 3SLS par rapport aux 2SLS est considérable si l’on ne s’intéresse qu’à une
seule équation, il est fondamental de réaliser que ce travail supplémentaire ne
procure aucun avantage à moins que certaines équations du système ne soient
suridentifiées.
Etant donné que les 3SLS sont un cas particulier de l’estimation par
GMM, on peut les généraliser pour tenir compte d’une hétéroscédasticité de
forme inconnue des aléas, chose impossible à réaliser avec le FIML. Si nous ne
disposons d’aucune information quant à la forme de l’hétéroscédasticité, alors
nous ne pouvons pas améliorer le choix (18.56) des conditions portant sur
les moments empiriques employée pour l’identification des paramètres. Par
contre nous pouvons remplacer l’estimation (18.58) de leur matrice de covar-
iance basée sur l’hypothèse d’homoscédasticité par une extimation robuste à
l’éhétroscédasticité. Avec des aléas corrélés en série, (18.57) reste une expres-
sion correcte pour la matrice de covariance des moments empiriques. Un bloc
type de cette matrice est
n
X ¡ ¢
E uti utj Xt>Xt .
t=1

Il est clair que, tout comme pour les autres HCCME, il est possible d’estimer
de façon convergente 1/n fois cette matrice par
n
X
1 ¡ ¢

n
E ũti ũtj Xt>Xt ,
t=1
664 Modèles d’Equations Simultanées

que l’on peut écrire plus simplement sous la forme

1 >

n
X Ω̃ij X (18.75)

si l’on pose la définition Ω̃ij = diag(ũti ũtj ), pour i, j = 1, . . . , g. Si nous


employons cette expression pour élaborer une fonction critère basée sur les
conditions portant sur les moments empiriques (18.56), nous aboutissons à un
nouvel estimateur, défini par les équations
g
X ¡ ¢−1 ¡ ¢
Zi>X X>Ω̃ij X X> yj − Zj δj = 0.
j=1

La résolution de ces équations nous conduit à l’estimateur


" g #
£ > ¡ > ¢−1 > ¤−1 X ¡ ¢−1
δ̌ = Zi X X Ω̃ij X X Zj Zi>X X>Ω̃ij X X>yj . (18.76)
j=1

Il n’est pas surprenant de retrouver en (18.76) une structure très ompara-


ble à celle de l’estimateur H2SLS (17.44), aussi l’appellerons-nous estimateur
H3SLS. On peut estimer sa matrice de covariance asymptotique par l’inverse
de la matrice avec le bloc type
¡ ¢−1
Zi>X X>Ω̃ij X X>Zj .

En présence d’hétéroscédasticité de forme inconnue, l’estimateur H3SLS de-


vrait être plus efficace, asymptotiquement que celui des 3SLS ou du FIML.
Malgré tout, ses performances avec des échantillons finis sont pratiquement
inconnus à ce jour.
Il est évident que nous pourrions généraliser l’estimateur H3SLS en-
core davantage à l’aide d’un estimateur HAC de la matrice de covariance
à la place de la HCCME (18.75); consulter, par exemple, Gallant (1987,
Chapitre 6). Cependant, c’est une stratégie adéquate tant que la présence
de corrélation en série reste compatible avec le modèle correctement spécifié
et que la taille d’échantillon est relativement importante. Pour la plupart des
applications sur données chronologiques, le FIML ou les 3SLS restent les esti-
mateurs systémiques préférés, du fait que l’hétéroscédasticité sera largement
absente, alors que la corrélation en série largement répandue si le modèle est
mal spécifié. Quoi qu’il en soit, lorsque la taille de l’échantillon est importante
et que l’hétéroscédasticité se manifeste fortement, comme c’est le cas avec de
nombreuses applications sur données en coupe transversale, il est fort prob-
able que l’estimateur H3SLS soit l’estimateur sysmétique le plus approprié.
18.7 Modèles d’Equations Simultanées Non Linéaires 665

18.7 Modèles d’Equations Simultanées Non Linéaires


A ce stade de l’exposé, nous avons très peu parlé des modèles d’équations
simultanées non linéaires. Un modèle d’équations simultanées peut être non
linéaire de trois manières possibles. Pour la première, Yt peut dépendre
de fonctions non liénaires de quelques variables exogènes ou prédéterminées.
Comme d’habitude, ce type de non linéarité n’engendre pas de problème et
peut être géré de façon simple en redéfinissant Xt . Pour la deuxième, cer-
tains paramètres peuvent agir de manière non linéaire dans le modèle struc-
turel pour Yt , sans doute parce qu’ils sont soumis à des contraintes non
linéaires. C’est le genre de non linéarité que nous avons traité fréquemment
avec l’estimation de modèles de régression non liénaire, et elle ne cause pas
de problème supplémentaire dans le contexte des modèles d’équations simul-
tanées. Enfin, pour la troisième, il peut exister des non linéarités provoquées
par les variables endogènes. Ce type de non linéarité ne pose pas non plus de
problème sérieux supplémentaire.
Le problème avec les modèles qui sont non linéaires du fait des variables
endogènes est que pour de tels modèles il n’existe aucun équivalent à la forme
réduite non contrainte d’un modèle d’équations simultanées linéaire. Il est
habituellement difficile voire impossible d’obtenir les variables endogènes en
fonction de svariables exogènes et des aléas. Même lorsque cela est possible,
Yt dépendra presque toujours de façon non liénaire à la fois des exogènes et
des aléas. Soit, par exemple, le modèle simple à deux équations

y1 = αy2 + X1 β1 + u1
(18.77)
y2 = γ1 y1 + γ2 y12 + X2 β2 + u2 ,

où la notation reste conventionnelle et où l’indice t a été supprimé pour ne


pas surcharger les expressions Si nous subsituons le membre de droite de la
première équation de (18.77) dans la seconde, nous obtenons
¡ ¢ ¡ ¢2
y2 = γ1 αy2 + X1 β1 + u1 + γ2 αy2 + X1 β1 + u1 + X2 β2 + u2 .

Puisque cette équation est une forme quadratique en y2 , elle possèdera


habituellement deux solutions. Selon les valeurs paramétriques et les valeurs
des Xi et des ui , les deux solutions peuvent être réelles ou pas. Même s’il
existe une solution réelle, elle ne sera généralement pas linéaire en les variables
exogènes. Par conséquent, le simple usage des composantes de X1 et de X2
en tant qu’instruments ne sera pas optimal.
Cet exemple illustre la nature des problèmes que l’on peut rencontrer
avec tout modèle d’équations simultanées qui n’est pas linéaire en les variables
endogènes. Nous sommes au moins confrontés à un problème de choix des in-
struments. Une approche, discutée dans la Section 7.6, consiste à employer
des puissances et même des produits croisés des des variables exogènes en
666 Modèles d’Equations Simultanées

tant qu’instruments, en même temps que les variables exogènes elles-mêmes.


Si la taille de l’échantillon est suffisamment importante, cette approche est
judicieuse, mais dans de nombreux cas il sera difficile de déterminer le nom-
bre d’instruments à employer, et même de savoir lesquels employer. L’ajout
d’instruments améliorera généralement l’efficacité asymptotique mais tendra
également à accroı̂tre le biais avec des échantillons finis. Plus sérieusement,
il est fort possible d’estimer un modèle qui ne peut pas être résolu pour des
valeurs tout à fait raisonables des variables exogènes et des aléas. Ainsi il
faudrait probablement éviter d’employer des modèles qui sont non linéaires
en les variables endogènes, si cela est possible.
Il semble que le LIML ne soit pas une procédure viable pour l’estimation
de modèles d’équations simultanées non liénaires. La procédure LIML clas-
sique discutée dans la Section 18.5 est conçue exclusivement pour les modèles
linéaires. On peut imaginer obtenir des estimations LIML d’une équation
structurelle non linéaire en employant un programme pour le FIML non
linéaire appliqué à un système constitué d’une seule équation structurelle et
de g − 1 équations linéaires sous forme réduite. Cela ne serait cohérent que
si les équations sous forme réduite étaient en fait linéaires, ce qui ne sera
presque jamais le cas. Ainsi, pour l’estimation d’équations isolées, les seules
procédures adéquates sont celles basées sur les variables instrumentales.
Nous avons discuté de l’estimation de modèles non linéaires constitués
d’une seule équation par les méthodes IV dans la Section 7.6, et il reste seule-
ment quelques compléments à livrer sur ce sujet. Supposons que l’équation
structurelle qui nous intéresse puisse s’écrire
y = x(δ) + u,
où δ est un vecteur composé de l paramètres, et le vecteur de fonctions non
linéaires x(δ) dépend implicitement d’au moins une variable endogène et d’un
certain nombre de variables exogènes et prédéterminées. Alors si W désigne
une matrice d’instruments de dimension n × m, nous avons vu que les esti-
mations IV peuvent être calculées en minimisant la fonction critère
¡ ¢ ¡ ¢
y − x(δ) >PW y − x(δ) . (18.78)
Les estimations qui en résultent sont souvent nommées moindres carrés non
linéaires en deux étapes ou estimations NL2SLS, si l’on se réfère à la termi-
nologie d’Amemiya (1974), bien que ces estimations ne soient pas obtenues en
deux étapes. Nous avons vu ce détail dans la Section 7.6.
La fonction critère (18.78) peut se dériver comme une procédure GMM
en débutant par les conditions portant sur les moments
³ ¡ ¢´
E W > y − x(δ) = 0

et en supposant que E(uu> ) = σ 2 I. Cette hypothèse peut se révéler parfois


trop contraignante. Si elle était correcte, la minimisation de (18.78) produirait
18.7 Modèles d’Equations Simultanées Non Linéaires 667

des estimations non efficaces et une estimation non convergentes de la matrice


de covariance des paramètres estimés. Une hypothèse plus souple est que
E(uu> ) = ∆, où ∆ est une matrice diagonale dont les élements diagonaux
sont inconnus (mais finis). Nous pouvons obtenir des estimations analogues
aux estimations H2SLS de la Section 17.3 à l’aide d’une procédure en deux
étapes. Dans la première étape, nous minimisons (18.78), de manière à obtenir
des estimations paramétriques convergentes mais non efficaces et des résidus
˜
ũt , et nous utilisons ces derniers pour construire la matrice W >∆W, ˜a
où ∆
2
comme élément type ũt . Dans la seconde étape, nous minimisons la fonction
critère ¡ ¢ ¡ ¢−1 >¡ ¢
y − x(δ) >W W >∆W ˜ W y − x(δ) .
Comme d’habitude, nous pourrions abandonner l’hypothèse de diagonalité de
∆ et employer un estimateur HAC, si cela s’avérait utile (voir les remarques
à la fin de la section précédente).
L’estimation systémique des modèles d’équations simultanées non liné-
aires relève typiquement d’une sorte de procédure IV (ou GMM) ou FIML.
Nous discuterons brièvement de ces deux approches à tour de rôle. Supposons
que la i ième équation du système puisse s’écrire pour toutes les observations
sous la forme
fi (Y, X, θ) = ui , (18.79)
où fi (·) est un vecteur de dimension n de fonctions non linéaires, ui est un
vecteur de dimension n d’aléas, et où θ est un vecteur de dimension p de
paramètres qu’il s’agit d’estimer. En général, toutes les variables endogènes
et exogènes et tous les paramètres peuvent apparaı̂tre dans n’importe quelle
équation, compte tenu des contraintes quelconques que l’on peut vouloir leur
imposer pour identifier le système.
La première étape dans toute procédure IV consiste à choisir les instru-
ments que l’on va utiliser. Si le modèle est non linéaire seulement en les
paramètres, la matrice des instruments optimaux est X. Cependant, comme
nous l’avons vu, il n’existe pas de moyen simple de choisir les instruments pour
les modèles qui sont non linéaires en une ou plusieurs variables endogènes. La
théorie de la Section 17.4 peut s’appliquer, bien entendu, mais le résultat
qu’elle entraı̂ne n’est pas d’un grand intérêt pratique. Il apparaı̂t que sous les
hypothèses habituelles sur les termes d’erreur, à savoir leur homoscédasticité
et leur indépendance en série mais pas entre les équations, la matrice des
instruments W sera optimale si S(W ) correspond à l’union des sous-espaces
engendrés par les colonnes de E(∂fi /∂θ). Ce résultat est du à Amemiya
(1977). Il reste pertinent mais généralement, il n’est pas utile dans la pra-
tique. Pour l’instant, nous supposons simplement qu’une certaine matrice
d’instruments W de dimension n × m est disponible, avec m ≥ p.
Une procédure IV non linéaire pour l’estimation systémique, compara-
ble dans l’esprit à la procédure équation par équation des NL2SLS basée sur
la minimisation de (18.78), fut proposée à l’origine par Jorgenson et Laf-
font (1974) et fut nommée moindres carrés en trois étapes, ou NL3SLS.
668 Modèles d’Equations Simultanées

L’appellation est quelque peu trompeuse, pour une raison identique à celle
qui fait que le nomù “NL2SLS” est également trompeuse. Par analogie avec
(18.60), la fonction critère que nous voudrions réellement minimiser est
g X
X g
σ ij fi>(Y, X, θ)PW fj (Y, X, θ). (18.80)
i=1 j=1

Quoi qu’il en soit, dans la pratique, les éléments σ ij de l’inverse de la matrice


de covariance contemporaine Σ ne seront pas connus et il nous faudra les
estimer. Plusieurs possibilités s’offrent à nous. On peut tout d’abord employer
les NL2SLS pour chaque équation séparément. Cela sera traditionnellement
plus aisé, mais pas toujours possible si certains paramètres ne sont identifiés
que grâce à des contraintes d’équations croisées. Une autre approche qui
fonctionnera dans ce cas consiste à minimiser la fonction critère
g X
X g
fi>(Y, X, θ)PW fj (Y, X, θ), (18.81)
i=1 j=1

pour laquelle la matrice de covariance Σ est remplacée par la matrice identité.


La minimisation de (18.81) conduira à un estimateur qui sera à l’évidence un
estimateur GMM valable, et par conséquent convergent même s’il n’est pas
efficace. Quel que soit l’estimateur non efficace utilisé à l’étape initiale, il pro-
duira g vecteur de résidus úi à partir desquels on peut estimer de façon con-
vergente la matrice Σ, exactement de la même manière que pour les modèles
linéaires; voir (18.62). On obtient alors la fonction critère
g X
X g
σ́ ij fi>(Y, X, θ)PW fj (Y, X, θ), (18.82)
i=1 j=1

en remplaçant les σ ij inconnus dans (18.80) par les éléments σ́ ij de l’inverse de


l’estimation de Σ. Cette fonction critère peut véritablement être minimisée
dans la pratique.
Comme d’habitude, la valeur minimisée de la fonction critère (18.82)
fournit une statistique de test pour les contraintes de suridentification; voir
les Sections 7.8 et 17.6. Si le modèle et les instruments sont correctement
spécifiés, cette statistique de test sera asymptotiquement distribuée suivant
une χ2 (m − p); souvenons-nous que les instruments sont au nombre de m et
que les paramètres libres sont au nombre de p. De plus, si le modèle est estimé
sans contrainte puis sous r contraintes distinctes, la différence entre les deux
valeurs des fonctions critères aura une distributions asymptotique du χ2 (r).
Si cette dernière statistique de test doit être utilisée, il est fondamental que la
même estimation de Σ soit emplyée dans les deux estimations, car autrement
la statistique de test peut même ne pas être positive avec des échantillons
finis.
18.7 Modèles d’Equations Simultanées Non Linéaires 669

Lorsdque la taille de l’échantillon est importante, il est peut être plus


facile d’obtenir des estimations efficaces en une étape plutôt que de minimiser
(18.82). Supposons que l’on note θ́ les estimations efficaces initiales, qui peu-
vent être soit des estimations NL2SLS soit des estimations systémiques basées
sur (18.81). Un développement en série de Taylor de fi (θ) ≡ fi (Y, X, θ) au-
tour de θ́ est
fi (θ́) + Fi (θ́)(θ − θ́),
où Fi est une matrice de dimension n × p des dérivées de fi (θ) par rap-
port aux p éléments de θ. Si quelques paramètres n’apparaissent pas dans
l’équation i, les colonnes correspondantes de Fi seront identiquement nulles.
Les estimations en une étape, qui seront asymptotiquement équvalentes aux
estimations NL3SLS, sont simplement θ̀ = θ́ − t́, où t́ désigne le vecteur des
estimations 3SLS linéaires
" g #
£ ij > ¤−1 X
t́ = σ́ F́i PW F́j σ́ ij F́i>PW f´j . (18.83)
j=1

Cette expression doit être comparée à (18.64).


Il est clair que l’on peut généraliser les NL3SLS pour gérer une hétéroscé-
dasticité de forme inconnue, une corrélation sérielle de forme inconnue, ou les
deux simultanément. Par exemple, afin de tenir compte d’une hétéroscédasti-
cité, nous remplacerions simplement la matrice PW dans (18.82) et (18.83)
par la matrice
¡ ¢−1 >
W W >Ώij W W ,

où, par analmogie avec (18.76), Ώij = diag(úti útj ) pour i, j = 1, . . . , g. Les
estimations initiales θ́ peuvent ne pas tenir compte de l’hétéroscédasticité.
pour une discussion plus détaillée sur cette sorte de procédure, et de NL3SLS
en général, consulter Gallant (1987, Chapitre 6).
L’autre méthode d’estimation systémique qui est largement employée est
celle du FIML non linéaire. Pour l’examiner, il est judicieux d’écrire le système
d’équations à estimer non pas sous la forme (18.79) mais plutôt sous la forme

ht (Yt , Xt , θ) = Ut , Ut ∼ NID(0, Σ), (18.84)

où θ demeure un vecteur de p paramètres, ht un vecteur de dimension 1 × g


de fonctions non linéaires, et Ut un vecteur de dimension 1 × g de termes
d’erreur. Pour admettre que (18.79) et (18.84) sont de formes comparables il
suffit d’imaginer que le i ième élément de ht (·) est identique au t ième élément
de fi (·).
La densité du vecteur Ut est
³ ´
1
(2π)−g/2 |Σ|−1/2 exp − − Ut Σ −1 Ut> .
2
670 Modèles d’Equations Simultanées

Pour se ramener à la densité de Yt , nous devons remplacer Ut par ht (Yt , Xt , θ)


et multiplier par le terme jacobien |det Jt |, où Jt ≡ ∂ht (θ)/∂Yt , c’est-à-dire
la matrice de dimension g × g des dérivées de ht par rapport aux éléments de
Yt . La résultat est
³ ´
1
(2π)−g/2 |det Jt ||Σ|−1/2 exp − − ht (Yt , Xt , θ)Σ −1 ht>(Yt , Xt , θ) .
2

Il s’ensuit immédiatement que la fonction de logvraisemblance est


n
X
ng n
`(θ, Σ) = − −− log(2π) + log |det Jt | − − log |Σ|
2 2
t=1
n
(18.85)
1
X
−− ht (Yt , Xt , θ)Σ −1 ht>(Yt , Xt , θ).
2
t=1

Cette expression peut être maximisée par rapport à Σ et le résultat injecté


pour mener à l fonction de logvraisemblance concentrée
n
X
c ng ¡ ¢
` (θ) = − −− log(2π) + 1 + log |det Jt |
2
t=1
(18.86)
¯ Xn ¯
n ¯1 > ¯
− − log ¯−
n
h t (Y t , Xt , θ)h t (Y t , Xt , θ) ¯.
2
t=1

De toute évidence, il existe une forte ressemblance entre (18.85) et (18.86) et


leurs contreparties (18.28) et (18.30) pour le cas linéaire. La différence ma-
jeure est que le terme jacobien dans (18.85) et (18.86) correspond à la somme
des logarithmes de n déterminants différents. Ainsi à chaque évaluation de ces
fonctions de logvraisemblance, il faut calculer n déterminants différents. Cela
peut s’avérer coûteux lorsque g ou n est important. Bien sûr, le problème
disparaı̂t si le modèle est linéaire n les variables endogènes, puisqu’alors Jt
sera constant.
Une difficulté avec le FIML non linéaire est que l’on ne sait pas trop
bien comment tester les contraintes de suridentification, ni même à quoi elles
peuvent ressembler dans de nombreux cas. Dans le contexte d’un modèle
d’équations simultanées linéaire, toute forme structurelle impose des con-
traintes non linéaires à la forme réduite non contrainte, et un test LR permet
de tester simplement ces contraintes. Cependant, dans le cas d’un modèle
d’équations simultanées non linéaire en les variables endogènes, nous ne pou-
vons en général pas même écrire la FRL, let alone estimate it. On peut
toujours tester n’importe quelle contrainte à l’aide des tests classiques, qu’il
s’agisse de contraintes d’équations croisées ou de contraintes portant sur une
équation isolée. Mais il sera en général impossible de tester toutes les con-
traintes de suridentification en même temps. Il existe un problème connexe
18.8 Conclusion 671

avec l’estimation NL3SLS, bien sûr. Bien que la valeur minimisée de la fonc-
tion critère (18.82) fournisse une statistique de test, elle ne sera valable que
pour les contraintes de suridentification associées à une matrice d’instruments
particulière W, qui peut parfaitement ne pas procurer une approximation sat-
isfaisante à la véritable forme réduite non contrainte, qui est inconnue.
La relation entre le FIML non linéaire et les NL3SLS n’est pas de na-
ture comparable à celle qui existe entre le FIML linéaire et les 3SLS. Les
deux méthodes non linéaires seront asymptotiquement équivalentes lorsque le
modèle est linéaire en les variables endogènes. Toutefois, dans la majorité des
situations, elles ne le seront pas. Dans l’éventualité d’une non équivalence,
le FIML non linéaire sera plus efficace, asymptotiquement, que les NL3SLS.
Mais cette plus grande efficacité se paye. Lorsque le FIML non linéaire et les
NL3SLS ne sont pas équivalents, le premier peut être non convergent si les
aléas sont en réalité distribués autrement que suivant la loi normale multi-
variée. Au contraire, comme nous l’avons vu, l’hypothèse de normalité n’est
pas nécessaire pour assurer la convergence du FIML linéaire. Pour plus de
détails sur ces points, consulter Amemiya (1977) et Phillips (1982). Amemiya
(1985, Chapitre 8) et Gallant (1987, Chapitre 6) donnent des traitements plus
explicites du FIML non linéaire que le notre.
Il existe une littérature véritablement vaste sur le calcul des estuiimations
par le FIML non linéaire. Comme d’habitude, on peut employer de nom-
breux algorithmes différents pour maximiser la fonction de logvraisemblance
et la fonction de logvraisemblance concentrée, dont certains exploitent des car-
actéristiques spéciales des classes particulières de modèles. Le références clas-
siques sont Eisenpress et Greenstadt (1966), Chow (1973), Dagenais (1978),
Belsley (1979, 1980), Fair and Parke (1980), Parke (1982), et Quandt (1983).

18.8 Conclusion
Le fait que nous traitions un thème aussi important que les modèles d’équa-
tions simultanées aussi tard peut heurter certains lecteurs. Nous avons bien
évidemment abordé certains aspects du problème dans le Chapitre 7, en tant
que contribution à notre traitement des variables instrumentales. La raison
de ce retard volontaire est que nous voulions que le lecteur ait acquis une
compréhension claire de l’estimation et des tests de spécification par maximum
de vraisemblance et de la méthode des moments généralisée. Cela nous a alors
permis de développer toutes les méthodes d’estimation et de test discutées
dans ce chapitre en tant qu’applications immédiates du ML et de la GMM.
Si l’on admet cela, il est beaucoup plus facile de comprendre les modèles
d’équations simultanées et les techniques statistiques qui leur sont associées.

Termes et Concepts
672 Modèles d’Equations Simultanées

causalité au sens de Granger maximum de vraisemblance en


condition d’ordre pour l’identification information limitée (LIML)
condition de rang pour l’identification modèles d’équations simultanées
contraintes d’équation croisées modèles d’équations simultanées
contraintes de suridentification linéaire
doubles moindres carrés non linéaires modèles d’équations simultanées non
(NL2SLS) linéaire
estimateur de classe K non causalité au sens de Granger
estimateur du ratio de moindre paramètres de nuisance
variance paramètre d’intérêt
estimateur H3SLS super exogénéité
exogénéité système récursif
exogénéité faible triples moindres carrés (3SLS)
exogénéité stricte triples moindres carrés non linéaires
FIML non linéaire (NL3SLS)
fonction de logvraisemblance partielle variable endogène
forme réduite contrainte (FRC) variable exclue
forme réduite libre (FRL) variable exogène
maximum de vraisemblance en variable incluse
information complète (FIML) variable prédéterminée