Vous êtes sur la page 1sur 63

MASTER ECONOMETRIE ET

STATISTIQUE APPLIQUEE (ESA)


Université d’Orléans

Macro-Econométrie

Méthodes de Moments

Christophe Hurlin

Documents et Supports

Année Universitaire 2006-2007

Master Econométrie et Statistique Appliquée (ESA)


Université d’Orléans
Faculté de Droit, d’Economie et de Gestion
Bureau A 224
Rue de Blois – BP 6739
45067 Orléans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
January 26, 2005

Contents
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Modèle à anticipations rationnelles : Définitions et problème d’es-
timation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Modèle à anticipations rationnelles : Biais des MCO . . . . . . . . 4
2 La Méthode de Moments Généralisés . . . . . . . . . . . . . . . . . . . 7
2.1 Exemple d’estimateurs des moments . . . . . . . . . . . . . . . . 7
2.2 La méthode des Moments Généralisés . . . . . . . . . . . . . . . . 10
2.2.1 Principe général : conditions d’orthogonalité, identification
et estimation . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Cas particulier : Moindre Carré Ordinaires . . . . . . . . . 13
2.2.3 Cas particulier : Variables Instrumentales . . . . . . . . . 14
2.3 Des moments conditionnels aux moments non conditionnels : Mod-
èles Dynamiques sous Anticipations rationnelles . . . . . . . . . . 14
2.3.1 Des moments conditionnels aux moments non conditionnels 15
2.3.2 Cas Particulier : Système d’Equations Simultanées non
Linéaires et Modèle Dynamique sous AR . . . . . . . . . . 15
3 Matrice de poids optimale . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1 Méthode de GMM en deux étapes . . . . . . . . . . . . . . . . . . 20
3.2 Méthode de GMM itératif . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Méthode de continuous-updating GMM . . . . . . . . . . . . . . . 21
3.4 Estimateurs de la matrice de poids en présence de corrélations . . 22
4 Distribution asymptotique des GMM . . . . . . . . . . . . . . . . . . . 25
4.1 Distribution asymptotique des GMM . . . . . . . . . . . . . . . . 25
4.2 Illustrations dans des cas particuliers . . . . . . . . . . . . . . . . 28
4.2.1 Cas particulier : Moindre Carré Ordinaires . . . . . . . . . 28
4.2.2 Cas particulier : Variables Instrumentales . . . . . . . . . 31
5 Résumé des GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Application SAS : procédure MODEL . . . . . . . . . . . . . . . . . . . 33
6.1 Spécification du modèle et des instruments . . . . . . . . . . . . . 34
6.2 La procédure d’estimation . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Estimation du modèle d’Hansen et Singleton (1982) sous SAS . . 39
7 Inférence avec les GMM . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Master ESA. Macro-Econometrie. Cours de C. Hurlin 2

7.1 Test de sur-identification . . . . . . . . . . . . . . . . . . . . . . . 43


7.2 Test de stabilité structurelle . . . . . . . . . . . . . . . . . . . . . 46
8 Maximum de Vraisemblance et GMM . . . . . . . . . . . . . . . . . . . 48
9 Méthodes de Moments Simulés . . . . . . . . . . . . . . . . . . . . . . . 48
9.1 Présentation de la Méthode des Moments Efficients (EMM) . . . . 48
9.2 Application SAS : Modèle de Volatilité Stochastique . . . . . . . . 50
9.2.1 Le contrôle de la matrice de poids . . . . . . . . . . . . . . 54
9.2.2 La procédure EMM sous SAS . . . . . . . . . . . . . . . . 56
10 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Master ESA. Macro-Econometrie. Cours de C. Hurlin 1

1. Introduction
Les anticipations, et plus particulièrement les anticipations rationnelles (AR par
la suite), jouent un rôle essentiel en théorie économique, que ce soit en micro-
économie, macro-économie, finance etc. Au niveau de l’application économétrique
des ces théories, on peut tout d’abord chercher à appliquer la théorie des AR
de Muth qui suppose que l’on spécifie un modèle macro-économique complet
afin de déterminer de façon rationnelle les anticipations. Dans cette optique
figurent les méthodes d’estimation dites à information complète comme
par exemple le maximum de vraisemblance à information complète (FIML pour
Full Information Maximum Likelihood). On doit alors spécifier le ”vrai” modèle
complet de l’économie qui permet aux agents de former leurs anticipations de
façon compatible à ce modèle. Toute l’histoire est alors spécifiée : la relation
entre variables anticipées et variables réalisées, le processus de formation des
anticipations (AR) et le modèle (souvent appelé modèle auxiliaire) qui sert
aux agents pour former leurs anticipations. Mais bien évidemment, ces méthodes
ne peuvent être appliquées que pour des ”petits modèles” comme par exemple les
modèles de courbe de Phillips de type nouveau-keynesien.
Au contraire de ces méthodes, la plupart des travaux appliqués se contentent
d’estimer une équation voir un système de quelques équations faisant intervenir
quelques variables d’anticipations. On ne cherche pas alors à spécifier le modèle
sous jacent qui permet aux agents de formuler leurs anticipations. On parle alors
de méthodes à information limitée, parmi lesquelles figurent notamment les
méthodes de moments et plus spécifiquement les GMM. Par exemple, dans la
théorie des anticipations pures de la structure par terme des taux d’intérêt, le taux
long sur les obligations dépend des anticpations sur les taux d’intérêt de court
terme. Suivant que l’on spécifie ou non un modèle permettant de former les AR
sur les taux courts on parle d’approche à information complète ou à information
limitée.

Dans le cadre de ce cours nous aborderons dans un premier temps les ap-
proches à information limitée et plus spécifiquement les GMM. Mais avant de
présenter ces méthodes, nous commencerons par définir précisèment le concept
d’AR ce qui nous permettra dans un second temps d’évoquer les problèmes spé-
cifiques d’estimation qui se posent dans un modèle où interviennent des variables
anticipées de façon rationnelle.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 2

1.1. Modèle à anticipations rationnelles : Définitions et problème d’es-


timation
Dans les modèles macro-économiques mais plus généralement dans l’ensemble
des modèles d’anticipation, on souhaite estimer les paramètres structurels d’une
équation unique ou d’un ensemble d’équations composé de termes d’anticipations
qui forment un sous ensemble d’un modèle plus général (d’où la distinction
méthodes à information complète et méthode à information limitée).
Un exemple d’équation structurelle à anticipations est :

yt = β xet+j + µt (1.1)

où le terme d’anticipation xet+j est défini par :

xet+j = E [xt+j | Ωt ] j ≥ 0 (1.2)

Ωt désigne l’ensemble complet d’informations pertinentes disponibles à la date t.


Il y a alors deux options :

• Soit l’on dipose de données d’enquêtes sur E [xt+j | Ωt ], et l’on peut estimer
directement le modèle

• Soit l’on ne dipose pas de données sur E [xt+j | Ωt ] et l’on pose des hy-
pothèses auxiliaires sur cet terme d’anticipation. Il n’existe donc pas de
test propre au modèle (1.1) : on testera à la fois le modèle et les hypothèses
auxiliaires sur E [xt+j | Ωt ] (exemlple : théorie de la structure par terme des
taux d’intérêt).

Quel que soit le modèle d’anticipation que lon retient, il existe trois principaux
éléments :

• L’horizon des anticipations

• La date et le contenu de l’ensemble d’information utilisé pour former les


anticipations

• La relation entre l’erreur d’anticipation et l’ensemble d’information

Les anticipations rationnelles (AR) introduites initiallement par Muth


(1961) mais popularisées par Lucas (1972), présentent un certain nombre d’ax-
iomes de base. Le premier axiome est celui de la spécification correcte. Si
les agents forment des AR, ils agissent comme s’ils connaissaient la structure du
modèle complet jusqu’à un ensemble d’erreurs de type bruit blanc près.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 3

Résultat En conséquence de quoi, (i) les anticipations rationnelles ne


sont pas biaisées en moyenne. (ii) Les erreurs de prévisions à
une période successives ont une variance constante et ne sont pas
corrélées entre elles et avec l’ensemble d’information utilisé pour
former les anticipations. Ainsi pour une anticipation à 1 péridode on :

xt+1 = xet+1 + ω t+1 (1.3)

avec
E [ω t+1 | Ωt ] = 0 (1.4)
E ω 2t+1 Ωt = σ 2ω (1.5)
E ω t+1 ω t+1+j Ωt = 0 ∀j (1.6)

L’erreur de prévision des AR pour la période suivante est donc un bruit blanc
ou une innovation conditionnelle à l’ensemble d’information complet Ωt et est
orthogonal à tout sous ensemble Λt ⊂ Ωt

E [ω t+1 | Λt ] = 0 Λt ⊂ Ωt (1.7)

Si l’on considère des AR à k périodes, les erreurs de prévisions sonta lros


autocorrélées et sont représentées par un processus M A (k − 1) . Supposons que
le processus xt soit AR (1) :

xt+1 = φxt + εt+1 (1.8)

où ε est un bruit blanc vérifiant par conséquent E [εt+1 | Ωt ] = 0 et par conséquent


E [εt+j | Ωt ] , j > 0. En itérant vers le passé on a donc :
j−1
xt+j = φh εt+j−h + φj xt
h=0
= φj + εt+j + φεt+j−1 + φ2 εt+j−2 + ... + φj εt+1 (1.9)

Par conséquent on montre que :

xt+1 − E [xt+1 | Ωt ] = εt+1

On retrouve le résultat selon lequel l’erreur de prévision à l’ordre 1 est un bruit


εt+1 = ω t+1 . Dans le cas général :
j−1
xt+j − E [ xt+j | Ωt ] = φh εt+j−h
h=0
= εt+j + φεt+j−1 + φ2 εt+j−2 + ... + φj−1 εt+1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 4

On retrouve ici l’écriture d’un modèle MA(j − 1) pour l’erreur de prévision à


l’ordre j. On vérifie que toutes les erreurs de prévisions multi-périodiques sont
indépendantes (ou orthogonales) à l’ensemble d’information Ωt :

E { xt+j − E [xt+j | Ωt ]| Ωt } = E [xt+j | Ωt ] − E [ xt+j | Ωt ] = 0 (1.10)

Il est une propriété supplémentaire qui est utile pour anlyser les AR qui con-
cerne la révision des anticipations. La révision à une période des anticipa-
tions dépend seulement de l’information qui arrive entre t et t + 1. En
effet :
E [ xt+j | Ωt+1 ] − E [xt+j | Ωt ] = φj−1 εt+1 (1.11)
La révision à deux périodes dépend naturellement de εt+1 et εt+2 et est
M A (1) .
E [xt+j | Ωt+2 ] − E [xt+j | Ωt ] = φj−2 εt+2 + φj−1 εt+1 (1.12)
De façon générale, on a pour j > k :
j−k−1 j−1
E [xt+j | Ωt+k ] − E [xt+j | Ωt ] = φh εt+j−h − φh εt+j−h
h=0 h=0
j−1
= φhεt+j−h
h=j−k−1

1.2. Modèle à anticipations rationnelles : Biais des MCO


Il existe deux principaux problèmes liés à la présence de termes d AR : un prob-
lème d’autocorrélation et une corrléation entre les regréesseurs et le
terme d’erreur (endogeniété). Considérons le modèle :

yt = δ 1 xet+1 + δ 2 xet+2 + µt (1.13)

xt+j = xet+j + εt+j (1.14)


où µt est i.i.d. 0, σ 2µ . La méthode la plus utilisée pour estimer cette
équation est la méthode des erreurs dans les varaiables (EVM) où l’on
remplace la variable anticipée xet+j non observable par la valeur observée
xt+j . On obteint ainsi une équation du type :

yt = δ 1 xt+1 + δ 2 xt+2 + vt (1.15)

vt = µt − δ 1 εt+1 − δ 2 εt+2 (1.16)


Master ESA. Macro-Econometrie. Cours de C. Hurlin 5

Naturellement, on sait que xt+j et εt+j sont corrélés par conséquent :

E (xt+1 vt ) = 0 E (xt+2 vt ) = 0 (1.17)

Les variables explicatives xt+1 et xt+2 ne sont pas indépendante du résidu vt : on


a donc un problème d’endogénéité qui peut être régélé par une méthode de type
variable instrumentale. Mais en outre, il y a une auto-corrélation des résidus vt
liée à la moyenne mobile des erreurs introduite par les erreurs de prévision. Si le
processus xt est un vrai AR(1) de paramètre φ et d’innvoation ξ t
1
εt+2 = xt+2 − E [xt+2 | Ωt ] = φh ξ t+2−h = ξ t+2 + φξ t+1
h=0

0
εt+1 = xt+1 − E [xt+1 | Ωt ] = φhξ t+1−h = ξ t+1
h=0

D’où

vt = µt − δ 1 εt+1 − δ2 εt+2
= µt − δ 1 ξ t+1 − δ 2 ξ t+2 + φξ t+1
= µt − (δ 1 + δ 2 ) ξ t+1 − δ 2 φξ t+2

Par conséquent E (vt vt−1 ) = 0 même si ξ t est i.i.d.

Evaluons à présent le biais des MCO lié au problème d’endogénéité. Consid-


érons un modèle avec une seule anticpation :

yt = βxet+1 + µt (1.18)

où µt est i.i.d. 0, σ 2µ . On suppose que


T
1
plim xt+1 µt =0 (1.19)
T t=1

Si l’on retient l’hypothèse de RE, alors

xt+1 = xet+1 + εt+1 (1.20)

où l’erreur de prévision εt+1 est independante de l’ensemble d’information, E [εt+1 | Ωt ] .


On obtient donc :
yt = βxt+1 + zt
zt = µt − βεt+1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 6

Appliquons les MCO à cette équation :


T −1 T
β−β = x2t+1 xt+1 zt (1.21)
t=1 t=1

Or on sait que :
T T T
1 1 2 1
plim x2t+1 = plim xet+1 + plim ε2t+1
T t=1
T t=1
T t=1

De plus,
T T T
1 1 1
plim xt+1 zt = plim xt+1 µt − βplim xt+1 εt+1
T t=1
T t=1
T t=1
T
1
= −βplim xt+1 εt+1
T t=1
T
1
= −βplim xet+1 + εt+1 εt+1
T t=1
T
1
= −βplim ε2t+1
T t=1

Dès lors, on montre que :


T
plim T1 2
t=1 εt+1
plim β − β = −β T 2 T
(1.22)
plim T1 t=1 xet+1 + plim T1 2
t=1 εt+1
On a donc un biais négatif sur l’estimateur MCO Le biais est d’autant plus petit
que la variance asymptotique des erreurs d’anticipations εt+1 est faible. Les MCO
ne sont donc pas convergents en raison de la corrélation entre la variable xt+1 et
le terme d’erreur zt qui contient l’erreur de prévision des AR. La solution de ce
problème est d’utiliser un estimateur des variables instrumentales. Mais ce type
d’estimateur ne peut être mis en place que sous l’hypothèse que les résidus sont
non auto-corrélés. Or ces derniers peuvent l’être dès lors que l’on fait inetrevenir
des anticipations sur plusieurs périodes ou que les erreurs structurelles µt sont
elles mêmes auto-corrélées. Dans ce cas, il ne rest que deux solutions générales à
ce problème :
• La méthode des GMM d’Hansen (1982) qui permet de corriger la matrice
de variance covariance pour tenir compte des erreurs auto-corrélées

• La méthode des doubles moindres carrés à deux étapes (Cumby et al. 1983).
Dans ce cours, nous présenterons la méthode des moments généralisés ou
GMM.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 7

2. La Méthode de Moments Généralisés


Cette partie reprend intégralement la présentation proposée par Hamilton (1994).
Commençons par considérer un exemple.

2.1. Exemple d’estimateurs des moments


Considérons l’exemple suivant. On considère une variable économique Yt dis-
tribuée selon une distribution de Student à v degrés de liberté, dont la densité
est :
−( v+1
2 )
Γ v+12 yt2
fYt (yt , v) = 1 + (2.1)
(πv)1/2 Γ v2 v
Où Γ (.) désigne la fonction gamma1 . Supposons que l’on dispose d’un échantillon
de T réalisations (y1 , .., yT ) et que l’on désire à partir de cet échantillon estimer
le nombre de degré de liberté v. La première approche que l’on pourrait qualifier
d’approche à information complète consiste en une estimation par maximum de
vraisemblance (MV par la suite). La log-vraisemblance de l’échantillon s’écrit
dans ce cas :
T
L (v) = log fYt (yt , v)
i=1
et l’estimateur v est alors défini par :
v = ArgM ax L (v)
{v∈R+ }

Une méthode alternative consiste au lieu d’exploiter l’information complète


de la fonction de densité fYt (yt , v) , équivalente à la fonction génératrice des mo-
ments, de n’exploiter qu’un nombre restreint de moments. On sait en effet que
la connaissance de la densité fYt (yt , v) est équivalente à la connaissance de la
fonction génératrice de moments g (h) :

g (h) = E Y h = y h fYt (yt , v) dy (2.2)
−∞

On sait en effet qu’il y a une équivalence entre donner la fonction de densité


fYt (yt , v) ou doner la fonction génératrice des moements g (h) telle que :

g (h) = E Y h = yth fYt (yt , v) dyt (2.3)
−∞
1
On rappelle que :

Γ (r) = e−x xr−1 dx r > 0 Γ (α) = (α − 1)! si α ∈ N∗
0
Master ESA. Macro-Econometrie. Cours de C. Hurlin 8

Mais plutôt que d’utiliser l’ensemble des moments g (1) , g (2),.. g (h) pour estimer
v on peut se contenter d’utiliser un sous ensemble de moments. Supposons que
v > 2, alors on sait en particulier que les deux premiers moments (non centrés)
sont tels que :
v
µ1 = E (Yt ) = 0 µ2 = E Yt2 = var (Yt ) = (2.4)
v−2
Dans ce cas précis, si l’on connaît la valeur de E (Yt2 ) on peut end déuire la
valeur de v :
2E (Yt )
v= (2.5)
[E (Yt ) − 1]
Soit µ2,T le moment empirique non centré d’ordre deux :
T
1
µ2,T = yt2
T i=1

On sait que cet estimateur est dans ce cas un estimateur convergent de µ2 .


p
µ2,T −→ µ2 (2.6)
T →∞

On peut en déduire que si T est très grand :


v
µ2,T
v−2
et que par conséquent on peut déuire du seul moment empirique µ2,T un estimateur
convergent de v :
2µ2,T
v= (2.7)
µ2,T − 1
Cet estimateur existe dès lors que µ2,T > 1, c’est à dire dès lors que l’échantillon
présente une volatilité supérieure à celle d’une loi normale N (0, 1) qui corre-
spond à la loi limite de Yt obtenue pour v → ∞. Cet estimateur v est qualifié
d’estimateur de la méthode des moments classique (classical method of
moments).

De façon plus générale, si l’on considère un vecetur de paramètre β ∈ RK


caractérisant la densité fYt (yt , β) d’une variable Yt et si l’on suppose que K
moments distincts dépendent de β :
E Yti = µi (β) i = i1, i2 , .., iK (2.8)

alors l’estimateur β T de la méthode des moments classique (classical method


of moments) est obtenu par la résolution d’un système à K équations et K in-
connues :
µi β T = µi,T (2.9)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 9

où µi,T désigne l’estimateur du moment empirique :


T
1
µi,T = yti i = i1, i2 , .., iK (2.10)
T i=1

Présentons à prsént à partir de cet exemple, la méthode des moments genéral-


isés ou GMM.

Dans l’exemple précédent, on estime un paramètre (v) en utilisant un seul


moment empirique (moment d’ordre deux µ2 ). On aurait pu utliser à la place de
ce moement n’importe quel autre moment de Yt dépendant lui aussi du paramètre
v. Par exemple, dans le cas de la loi de Student dès lors que v > 4, on sait que le
moement centyré d’ordre 4 s’écrit :

3v 2
µ4 (v) = E Yt4 = (2.11)
(v − 2) (v − 4)
T
On aurait pu alors utiliser le moment empirique d’ordre 4, µ4,T = (1/T ) i=1 yt4
et résoudre l’équation :
3v 2
µ4,T =
(v − 2) (v − 4)
afin d’en déduire l’estimateur des moments v.

Une autre possibilité consiste à déterminer un estimateur v qui permettent


d’obtenir des valeurs des moments d’ordre deux et quatre aussi près que possible
des réalisations des moements empiriques µ2,T et µ4,T . Il n’est bien évidemment
pas possible d’égaliser les deux moments de façon conjointe et de trouver une
valeur unique de v permettant de résoudre le système :
v
µ2,T − v−2 =0
3v 2
µ4,T − (v−2)(v−4) = 0

Remarque C’est pourquoi on cherche à déterminer l’estimateur v qui minimise


une fonction critère de la forme :

Q (v, y1 , y2 , .., yT ) = g W g (2.12)


(1,1) (1,2) (2,2) (2,1)

où le vecteur g est défini par :


v
µ2,T − v−2
g= 3v2 (2.13)
µ4,T − (v−2)(v−4)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 10

et où la matrice W est une matrice de poids symétrique et définie posi-


tive qui reflète l’importance attribuée à chacun des deux moements que l’on
désire reproduire (match).
Un estimateur v est alors obtenu par le prgramme :
v = ArgM in Q (v, y1 , y2 , .., yT ) (2.14)
{v∈R+ ,v>4}

Un tel estimateur est appelé estimateur ”minimum chi-square” par Cramer


(1976) ou ”minimum distance estimator” par Malinvaud (1970). Mais c’est sans
conteste Hansen (1982) qui en donné la caractérisation la plus générale notam-
ment dans le cas de processus avec dépendances temporelles. Il l’a appelé estima-
teur des Moments Généralisés ou Generalized Method of Moments (GMM).

2.2. La méthode des Moments Généralisés


Commençons par présenter les principe général des GMM avant d’étuider certains
cas particuliers.

2.2.1. Principe général : conditions d’orthogonalité, identification et


estimation
Soit wt un vecteur (h, 1) de variables économiques observées à la date t et soit θ
un vecteur (a, 1) de paramètres et h (θ, wt ) une fonction à valeur de Ra × Rh dans
Rr . h (θ, wt ) désigne donc un vecteur (r, 1) de variables aléatoires dès lors que wt
est lui même aléatoire. Soit θ0 la vraie valeur du vecteur θ.
Definition 2.1. On appelle conditions d’orthogonalité les r conditions
définies par le système:
E [h (θ0 , wt )] = 0 (2.15)
(r,1) (r,1)

Soit YT = wT , wT −1 , .., w1 un vecteur (T h, 1) contenant toutes les ob-


sersvations des h variables du système et soit g (YT , θ) le vecteur (r, 1)
des moments empiriques correspondants tel que :
T
1
g (YT , θ) = h (θ, wt ) (2.16)
T t=1

L’idée de base des GMM consiste à déterminer une valeur de θ telle que les
r moments empiriques g (YT , θ) soient aussi proches que possible de zéro.
g (YT , θ) 0 pour θ = θT
Ainsi, on peut définir l’estimateur GMM de la façon suivante.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 11

Definition 2.2. L’estimateur GMM θT du vecteur θ minimise une fonc-


tion critère (ou fonction de perte) :

θ T = ArgM in Q (θ, YT ) (2.17)


{θ∈Ra }

telle que :
Q (θ, YT ) = [g (YT , θ)] WT g (YT , θ) (2.18)
(1,r) (r,r) (r,1)

où {WT }∞T =1 désigne une séquence de matrices de poids symétriques


définies positives qui peuvent être fonction de YT .

Dans la plupart des cas, ce programme de minimisation ne peut être mené à


bien que numériquement. L’intuition est très simple. On sait que quelle que soit
la valeur de θ, d’après la loi des grands nombres :
p
g (YT , θ) −→ E [h (θ, wt )]
T →∞

Supposons que E [h (θ, wt )] soit continue en θ et que θ0 soit la seule valeur telle
que E [h (θ0 , wt )] = 0. Dès lors, sous des conditions de stationnarité, de continuité
et des conditions sur les moements, la valeur θT qui rend minimum le critère
Q (θ, YT ) donne un estimateur convergent de θ 0 .

Exemple 1 : La méthode classique des moments de notre exemple précedent


est un cas particulier de cette formule avec r = a = 1.
v
h (v, yt ) = yt2 −
v−2
telle que pour la vraie valeur v0 :
v0
E [h (v0 , yt )] = E yt2 − =0
v0 − 2
L’équivalent empirique de cette condition d’orthogonalité est donnée par :
T
1 v
g (YT , v) = yt2 − (2.19)
T t=1
v−2

En posant, WT = 1, on retrouve le programme de la méthode classique :


T 2
1 v
Q (v, YT ) = yt2 − (2.20)
T t=1
v−2
Master ESA. Macro-Econometrie. Cours de C. Hurlin 12

La plus petite valeur admissible de Q (v, YT ) est 0 obtenue pour :


T
1 v
yt2 =
T t=1
v−2

soit

2µ2,T
v= (2.21)
µ2,T − 1
On retrouve donc l’estimateur de la méthode classique des moments.

De façon générale, on distingue deux cas suivant la valeur de a et r :

Definition 2.3. Lorsque il existe autant de conditions d’orthogonalité


que de paramètres (a = r) on dit que le système est juste identifié
et l’estimateur GMM se ramène au vecteur θT de dimension (r, 1) qui
permet de résoudre le système à r équations :

g YT , θ T =0 (2.22)

Dans ce cas, il s’agit juste de résoudre un système éventuellement non linéaire


à r équations et r inconnues. Le choix de la matrice de poids WT est totalement
neutre, ce qui explique qu’elle ne soit pas spécifiée.

Definition 2.4. Lorsque il existe plus conditions d’orthogonalité que de


paramètres (a > r) on dit que le système est sur-identifié. L’estimateur
GMM dépend alors du choix de la matrice de poids WT.

Dans ce cas se pose le problème crucial du choix de la matrice de poids opti-


male.

Résultat Un des nombreux avantages des GMM est que c’est une
méthode englobante permettant de retouver comme cas partic-
uliers un grand nombre d’estimateurs usuelsparami lesquels
- les Moindres Carrés Ordinaires
- les Variables Instrumentales et Doubles Moindres Carrés
- les Moindres Carrés non Linéaires
- le Maximum de vraisemblance.

Considérons quelques exemples.


Master ESA. Macro-Econometrie. Cours de C. Hurlin 13

2.2.2. Cas particulier : Moindre Carré Ordinaires


Considérons un modèle de régression standard :
yt = xt β 0 + ut (2.23)
où xt est un vecteur de dimension (k, 1) de variables explicatives. On suppose
que la varie valeur du vecteur β est égale à β 0 . L’hypothèse centrale qui justifie
l’emloi des MCO est la propriété d’orthogonalité des résidus théoriques par
rapport aux variables explicatives :
E (xt ut ) = 0 (2.24)
(k,1) (k,1)

Donc pour la vraie valeur β 0 , on a :


E [xt (yt − xt β 0 )] = 0 (2.25)
ce qui représente une système de k conditions d’orthogonalité. Posons dans
nos notations wt = (yt xt ) et θ = β, on a :
h (θ, wt ) = xt (yt − xt β)
E [h (θ0 , wt )] = 0
Dans ce cas le système est dit juste identifié puisque il y a a = k paramètres
à estimer pour r = k conditions d’orthogonalité. Puisque le système est juste
identifié, l’estimateur GMM se ramène à déterminer θT tel que

g YT , θ T =0 (2.26)
où g (YT , θ) désigne le vecteur des moments empiriques correspondant aux k con-
ditions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − xt β)
T t=1
T t=1
On a donc à résoudre le système suivant :
T
1
g YT , θT = xt yt − xt β T =0
T t=1
Ce qui peut se réécrire sous la forme :
T T
xt yt = xt xt βT
t=1 t=1

T −1 T
⇐⇒ β T = xt xt xt yt = β MCO (2.27)
t=1 t=1

On retrouve ainsi l’estimateur MCO β MCO .


Master ESA. Macro-Econometrie. Cours de C. Hurlin 14

2.2.3. Cas particulier : Variables Instrumentales


Considérons à nouveau un modèle de régression standard :
yt = zt β 0 + ut (2.28)
où zt est un vecteur de dimension (k, 1) de variables explicatives. Supposons
qu’un certain nombre de variables explicatives soient endogènes c’est à dire que
E (zt ut ) = 0. Soit xt un vecteur (r, 1) de variables explicatives prédeterminées
corrélées avec les variables zt mais non corrélées avec les résidus ut .
E (xt ut ) = 0 (2.29)
Cette contrainte nous définit r conditions d’orthogonalité :
E [xt (yt − zt β 0 )] = 0 (2.30)
On reconnait donc un cas particlier des GMM avec wt = (yt xt zt ) et θ = β,
a = k.
h (θ, wt ) = xt (yt − zt β) (2.31)
E [h (θ0 , wt )] = E [xt (yt − zt β 0 )] = 0
Soit g (YT , θ) le vecteur des moments empiriques correspondant aux r condi-
tions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − zt β)
T t=1
T t=1

Si l’on suppose que le système est juste identifié (a = r) , alors l’estimateur


GMM est obtenu par la résolution du système :
T
1
g YT , θ T = x t yt − z t β T =0 (2.32)
T t=1

D’où l’on tire finallement que :


T −1 T
βT = xt zt xt yt = β IV (2.33)
t=1 t=1

On retrouve ainsi l’estimateur des variables instrumentales β IV .

2.3. Des moments conditionnels aux moments non conditionnels : Mod-


èles Dynamiques sous Anticipations rationnelles
Jusqu’à présent nous n’avons présenté les GMM qu’en utilisant des moments
conditionnels. Or dans de nombreux modèles théoriques en macroéconomie, in-
terviennent des moments conditionnels.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 15

2.3.1. Des moments conditionnels aux moments non conditionnels


Supposons que l’on dipsoe d’un modèle avec des conditions d’orthogonalité por-
tant sur les moments conditionnels du type :

E [h (θ0 , wt )| zt ] = 0 (2.34)

où zt est un vecteur de variables pré-determinées. On souhaite transformer


ces conditions sur les moments conditionnels en conditions sur les moments con-
ditionnels.

Résultat Soient deux variables aléatoires z et u, alors :

cov (z, u) = cov [z, E (u| z)] (2.35)

La condition E (u| z) = 0 implique alors que cov (u, z) = 0. Sachant


que cov (u, z) = E (zu)−E (z) E (u) et que E (u| z) = 0 implique E (u) =
0 (espérances itérées). On en déduit donc que :
cov (z, u) = 0
E (u| z) = 0 =⇒ =⇒ E (uz) = 0 (2.36)
E (u) = 0

C’est cette propriété qui va nous permettre d’appliquer les GMM à des moe-
ments conditionnels et en particulier aux modèles à AR.

2.3.2. Cas Particulier : Système d’Equations Simultanées non Linéaires


et Modèle Dynamique sous AR
Les GMM constituent avec le FIML sans doute la méthode d’estimation la plus
utilisér pour les systèmes d’équations simultanées non linéaires. Supposons que
l’on cherche à estimer un système de n équations de la forme :

yt = f (θ, zt ) + ut (2.37)
(n,1) (n,1) (n,1)

où zt est un vecteur de dimension (k, 1) de variables explicatives et θ un vecteur


de paramètres de dimension (a, 1) . On pose
     
y1t u1t f1t (θ, zt )
yt =  ..  ut =  ..  f (θ, zt ) =  .. 
(n,1) (n,1)
ynt unt fnt (θ, zt )

Soit xit un vecteur d’instruments non corrélés avec le ième élément uit des
résidus.
E xi,t ui,t =0
(ri ,1)(1,1)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 16

Pour chaque résidu d’équation uit on peut donc avoir plusieurs conditions
d’orthogonalité. Supposons qu’au total on dispose de r = ni=1 ri conditions
d’orthogonalité :  
[y1t − f1 (θ, zt )] x1t
 [y2t − f2 (θ, zt )] x2t 
h (θ, wt ) = 
 ...


[ynt − fn (θ, zt )] xnt
avec wt = (yt xt zt ) . L’estimateur GMM est alors obtenu en minimisant la fonc-
tion critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (2.38)
T t=1
T t=1

où WT est une matrice de poids.

Exemple : le modèle de portefeuille (Hansen et Singleton, 1982).


Une application très célébre de ce principe permet d’estimer des Modèle Dy-
namique sous AR. Considérons un modèle intertemporel de consommation dans
un univerrs stochastique avec un agent représentatif qui maximise à tout date :

max U = β τ Et (ct+τ ) (2.39)
τ =0

où ct désigne la consommation à la date t, 0 < β < 1 un facteur d’escompte psy-


chologique et Et (ct+τ ) l’opérateur espérance conditionnelle à toute l’in-
formation disponible à la date t.

Et (ct+τ ) = E (ct+τ | xt ) (2.40)

où xt est un vecteur de variables observables contenant toute une partie


de l’information disponible pour l’agent à la date t. Supposons que l’agent
puisse épargner et investir dans m titres indicés i = 1, ., m qui pour tout euro
investit à la date t lui rapportent 1 + ri,t+1 à la période suivante. Ce rendement
incertain n’est pas connu à la date t. Sa containte budgéatire est alors de la forme
: m m
ct + pit qit ≤ pit qit−1 + Rt (2.41)
i=1 i=1
où Rt est le revenu du travail à la date t, qit le montant d’actif i détenu par l’agent
à la date t et pit le prix de cet actif à la date t. On note ri,t+1 = pi,t+1 /pt . On sait
que dans ce modèle la condition d’arbitagre inter-temporel de la consommation
devient :
u (ct ) = βEt [(1 + ri,t+1 ) u (ct+1 )] i = 1, 2..., m (2.42)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 17

dès lors que l’agent détient une part non nul dans tous les actifs.

Supposons que la fonction d’utilité de l’agent soit de type CRRA

c1−γ
t si γ > 0 et γ = 1
u (ct ) = 1−γ
log(ct ) si γ = 1

où γ désigne le coefficient d’aversion relative pour le risque. Dès lors la conditions


d’arbitrage inter-temporelle se ramène à :

c−γ
t = βEt (1 + ri,t+1 ) c−γ
t+1

ou encore
−γ
ct+1
1 = βEt (1 + ri,t+1 ) (2.43)
ct
puisque la variable ct est connue à la date t. Cette expression signifie que chaque
variable aléatoire définie par
−γ
ct+1
1 − β (1 + ri,t+1 ) i = 1, ..m
ct

doit être orthogonale à toute variable contenue dans l’ensemble d’in-


formation xt . Soit θ = (β γ) le vecteur de paramètres du modèles. Soit wt =
(r1t+1 r2t+1 ...rmt+1 ct+1 /ct xt ) l’ensemble des variables observées par l’économètre
à la date t. Au total si xt a contient n variables, on obtient pour chaque actif n
conditions d’orthogonalité, soit un total de

r =n×m

conditions d’orthogonalité.
 −γ 
ct+1
1 − β (1 + r1,t+1 ) xt
 ct
(n,1) 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1
xt 
h (θ, wt ) = 

ct
(n,1)

 (2.44)
(nm,1)  ... 
 
 ct+1
−γ 
1 − β (1 + rm,t+1 ) ct
xt
(n,1)

ou de façon équivalent :

h (θ, wt ) = h (θ, wt ) ⊗ xt
(nm,1) (m,1) (n,1)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 18

 
−γ
ct+1
 1 − β (1 + r1,t+1 ) ct 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1 
⇐⇒ h (θ, wt ) = 

ct  ⊗ xt

(nm,1)  ...  (n,1)
 
 ct+1
−γ 
1 − β (1 + rm,t+1 ) ct

où ⊗ désigne le produit de Kronecker. L’équivalent empriique s’écrit alors défini


par :
T
1
g (YT , θ) = h (θ, wt )
T t=1
L’estimateur GMM est alors obtenu en minimisant le critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (2.45)
T t=1
T t=1

3. Matrice de poids optimale


Quelle matrice de poids WT choisir afin d’obtenir un estimateur convergent et
efficace du vecteur θ ? Supposons que la le processus {h (θ0 , wt )}∞ t=1 soit un
processus stationnaire dont la matrice d’auto-variance à un l’ordre v soit défini
par :
Γv = E h (θ0 , wt ) h (θ0 , wt−v )
Soit S la matrice qui correspond à la somme des autocovariances : cette
matrice correspond à la matrice de variance covariance de long terme du
processus {h (θ0 , wt )}∞
t=1 .

Definition 3.1. La matrice de variance covariance de long terme du processus


{h (θ0 , wt )}∞
t=1 est définie par :

∞ ∞
S = Γv = E h (θ 0 , wt ) h (θ 0 , wt−v ) (3.1)
(r,r)
j=−∞ j=−∞

ce qui peut s’écrire sous la plus forme plus générale


T ∞
1
S = lim E h (θ0 , wt ) h (θ0 , wt−v ) (3.2)
(r,r) T →∞ T
t=1 v=−∞

Sous l’hypothès de stationnarité stricte la quantité Γv = E h (θ 0 , wt ) h (θ0 , wt−v )


ne dépend pas de t et la formule (6.1) est valide.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 19

Naturellement si le processus h (θ0 , wt ) est non autocorélé dans le temps, cette


matrice se ramène à la matrice de variance covariance. En effet, si h (θ0 , wt ) et
h (θ0 , ws ) sont indépendants dès lors que s = t, alors S = Γ0 . Cette matrice S
désigne en outre la matrice de variance covariance asymptotique de la moyenne
empirique des h (θ0 , wt ) :

S = lim T E g (YT , θ) g (YT , θ) (3.3)


T →∞

Résultat La valeur optimale de la matrice de poids WT dans la fonction


critère Q (θ, YT ) est donné par l’inverse de la matrice de variance
covariance asymptotique, S −1

WT∗ = S −1 (3.4)

La plus petite variance asymptotique (dans la cas univarié) pour l’estimateur


GMM θT est obtenue lorsque θ T est déini par résolution du programme :

θT = ArgM in [g (YT , θ)] S −1 g (YT , θ) (3.5)


{θ∈Ra } (1,r) (r,r) (r,1)

Comment estimer cette matrice de poids optimale WT∗ ? Lorsque les élé-
ments du vecteur h (θ0 , wt ) sont non corrélés et non autocorrélés, alors S = Γ0 =
E h (θ0 , wt ) h (θ0 , wt ) . Dans ce cas, la matrice S peut être estimée par la quan-
tité ST∗ :
T
1
ST∗ = h (θ0 , wt ) h (θ0 , wt ) (3.6)
T t=1
Mais puisque la calcul de cette quantité requiert la connaissance de θ0 , on
construit l’estimateur ST défini de la façon suivante.

Definition 3.2. En l’absence de dépendances temporelles des vecteurs {h (θ0 , wt )}∞


t=−∞ ,
la matrice de variance covariance asymptotique S peut être estimée par la quantité
ST :
T
1
ST = h θT , wt h θT , wt (3.7)
T t=1

où θT désigne l’estimateur GMM du veceteur θ. On montre que :


p
ST −→ S
T →∞

On aboutiot dès lors à une produre itérative, puisque pour déterminer θT , il


faut connaitre WT = ST−1 et que pour déterminer ST il faut connaître θT . C’est
pourquoi on distingue trois types de méthodes GMM :
Master ESA. Macro-Econometrie. Cours de C. Hurlin 20

1. Méthode de GMM en deux étapes : Hansen (1982)

2. Méthode de GMM itératif : Ferson et Foerster (1994)

3. Méthode de GMM dite ”continuous-updating GMM” développée


par Hansen, Heaton et Yaron (1996) et étudiée dans Stock and Wright
(2000), Newey et Smith (2003) et Ma (2002).

3.1. Méthode de GMM en deux étapes


C’est la méthode proposée initiallement par Hansen (1982). Dans ce cas, on
commence par construire un estimateur convergent mais non efficace du vecteur
de paramètre θ. Différentes options peuvent être choisies ici. La plus simple
consiste à accorder le même poids aux différentes conditions d’orthogonalité, c’est
à dire à considérer une matrice de poids identité, c’est à dire en posant WT = Ir .
On construit alors un premier estimateur convergent non efficace, noté θ1

θ1 = ArgM in [g (YT , θ)] g (YT , θ) (3.8)


{θ∈Ra } (1,r) (r,1)

En suite à partir de cet estimateur de θ, on constuit un estimateur W1 de la


matrice de poids optimale WT∗ = S −1 , avec :
T −1
1
W1 = S1−1 = h θ 1 , wt h θ 1 , wt (3.9)
T t=1

La deuxième étape consiste à utiliser cet estimateur de la matrice de poids


optimale pour dériver un estimateur θ convergent et efficicace des paramètres θ :

θ = ArgMin [g (YT , θ)] S1−1 g (YT , θ) (3.10)


{θ∈Ra } (1,r) (r,1)

θ est alors appelé, estimateur GMM en deux étapes.

3.2. Méthode de GMM itératif


La méthode des GMM itératif repose sur l’algorithme suivant. De la même façon
que précédemment, on constuit dans une première étape un premier estimateur
θ1 à partir d’une valeur d’amorce de la matrice de poids. Par exemple, on peut
partir d’une matrice identité W0 = Ir attribuant ainsi le même poids à toutes les
conditions d’orthogonalité. On construit alors un premier estimateur GMM tel
que :
θ1 = ArgM in [g (YT , θ)] W0 g (YT , θ) (3.11)
{θ∈Ra }
Master ESA. Macro-Econometrie. Cours de C. Hurlin 21

A partir de ce premier estimateur, on déduit une estimation de la matrice de


variance covariance asymptotique :
T −1
1
W1 = h θ1 , wt h θ1 , wt
T t=1

En ré-introduisant cette estimation de la matrice de poids optimale dans la


fonction critère GMM, on construit un nouvel estimateur, noté θ2 tel que :
θ2 = ArgM in [g (YT , θ)] W1 g (YT , θ) (3.12)
{θ∈Ra }

et ainsi de suite. Etant donné que tous les estimateurs θj ont exactement la même
distribution asympotique, ce processus s’arrête dès lors que :
θj θj−1 (3.13)
La valeur θj est alors estimateur GMM itératif. Dans le logiciels usuels cette
procédure suppose de définir un critère de convergence. Par exemple, si l’on
note θj = θ j,1 , .., θj,a un critère du type :
a
max θj,z − θj−1,z <C (3.14)
z=1
Si cette condition est vérifié, l’algorithme s’arrête. Cette condition se double
généralement d’une condition sur le nombre d’itération. Si ce dernier excède une
une certaine valeur, par exemple 100, l’algorithme s’arrête et un message apparaît
signifiian,t que l’algorithme n’a pas convergé.

3.3. Méthode de continuous-updating GMM


Dans cette approche on va chercher de façon à optimiser la fonction critère en
tenant compte de la forme générale qui lie l’estimateur de la matrice de poids
optimale à la valeur des coefficients. C’est la même démarche que dans le cas
itératif : la différence étant que dans le cas précédent on optimiser le critère pour
obtenir θj , puis on constuisez Wj+1 , pour obtenir ensuite θj+1 . Alors que dans le
cas continu, on optimise le critère à chaque étape en tenant compte de la forme
de Wj qui dépend de θj :
T −1
1
θ = ArgM in [g (YT , θ)] h (θ, wt ) h (θ, wt ) g (YT , θ) (3.15)
{θ∈Ra } T t=1

Cette procédure reste itéraive car on doit utiliser un algorithme d’optimisation


numérique qui partant d’une condition initiale θ0 , d’une règle de passage entre
θj et θ j−1 et d’un critère d’arrêt va déterminer une solution numérique à ce
programme.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 22

3.4. Estimateurs de la matrice de poids en présence de corrélations


Commençons par un certain nombre de rappels :

Lorsque les séquences {h (θ0 , wt )}∞


t=1 présentent des autocorrélations, la ma-
trice de variance covariance de long terme n’est plus égale à la matrice de variance
covariance. S’il existe des Γj = 0 pour j = 0, alors
∞ ∞
S = Γv = E h (θ0 , wt ) h (θ0 , wt−v ) = Γ0
(r,r)
v=−∞ v=−∞

Dès lors les formules précedentes permettant d’estimer S ne sont plus valables.
Considérons l’estimateur Γv de la matrice d’autocovariance d’ordre v, Γv :
T
1
Γv = h θ, wt h θ, wt−v (3.16)
T t=v+1

Sachant que
Γ−v = Γv (3.17)
un estimateur de la matrice S pourrait être donné par la quantité
∞ ∞
S= Γv = Γ0 + Γv + Γv (3.18)
v=−∞ v=1

Naturellement, il n’est pas possible de construire un tel estimateur puisqu’il fait


intervenir des matrices Γv à des ordres supèrieurs à ce que l’on peut estimer
à partir d’un échantillon de T observations. De plus rien ne garantit qu’une
matrice construite uniquement à partir d’une somme tronquée soit définie positive
comme doit l’être toute matrice de variance covariance. On a donc recourt à
des méthodes d’estimation non paramétriques de matrice de variance
covariance de long terme.

Le plus connu de ces estimateurs est l’estimateur de Newey-West (1987). Il se


fonde sur une troncature et l’utilisation de poids décroissants pour les différentes
matrices Γv .

Definition 3.3. En présence de dépendances temporelles des vecteurs {h (θ 0 , wt )}∞


t=−∞ ,
un estimateur non paramétrique (Newey et West, 1987) de la matrice de variance
covariance asymptotique S est donné par :
q
v
SN W = Γ0 + 1− Γv + Γv (3.19)
v=1
q+1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 23

où q désigne un paramètre de troncature et où


T
1
Γv = h θ, wt h θ, wt−v (3.20)
T t=v+1

Ainsi si par exemple, on a q = 2 :


2 1
SNW = Γ0 + Γ1 + Γ1 + Γ2 + Γ2
3 3
L’idée dela démonstration peut se comprendre dans le domaine des fréquences.
Dans un cas sacalire, il s’agit d’évaluer la fonction de densité spéctrale au point
0, puisque cela correspond à un scalaire près à la variance de long terme du
processus.

S= Γv = 2π SY (0)
v=−∞
avec ∞
1
SY (ω) = E (Yt Yt−v ) e−iω
2π v=−∞

L’estimateur de Newey West est égal à 2π fois l’estimateur kernel


(avec kernel de type Bartlett) de la fonction de densité spectrale éval-
uée à la fréquence ω = 0. On applique alors les techniques d’estimation non
paramètrique d’une fonction vues dans le cours d’économétrie non paramétrique.

Résultat Newey et West montrent que ST est positive, semi definie


positive par construction et que si q et T tendent vers l’infini
alors que la quantité q/T 1/4 tend vers 0, alors :
p
SNW −→ S
T →∞

Dans les procédures itératives, le choix de θ dans la construction de Γv peut


être mené parmi l’ensemble des estimateurs convergents de θ.

Andrews (1991) propose d’autres estimateurs de la matrice de variance co-


variance de long terme qui peuvent être préférable sous certaines hypothèses. Il
propose notamment d’utiliser un kernel de type quadratic :

Definition 3.4. En présence de dépendances temporelles des vecteurs {h (θ 0 , wt )}∞


t=−∞ ,
l’estimateur non paramétrique d’Andrews (1991) de la matrice de variance covari-
ance asymptotique S est donné par :
T −1
T v
SA = Γ0 + K Γv + Γv (3.21)
T −k v=1
q+1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 24

où q désigne un paramètre de troncature et K (u) désigne une fonction kernel e


type quadratic spectral (QS) telle que

3 sin (6πu/5)
K (u) = 2 − cos (6πu/5) u=0 (3.22)
(6πu/5) 6πu/5

A la différence de Newey et West (1987) et de Gallant (1987), l’estimateur


d’Andrews tient compte non pas de q matrice Γv , mais de T − 1 matrices. Par
exemple, toujours avec l’hypothèse q = 2, on obtient alors :
T −1 q
v
Γ0 + K Γv + Γv = Γ0 + K (v/3) Γv + Γv
v=1
q+1 v=1

= Γ0 + 0.85 Γ1 + Γ1 + 0.5 Γ2 + Γ2 + ..

Andrews recommande en outre de multiplier l’estimateur kernel par un facteur


T / (T − k) lorsqu’il, s’agit d’estimer la variance de long terme des résidus d’un
modèle à k paramètres.

Un estimateur similaire est proposé par Gallant (1987) à partir d’un Kernel
de Parzen.

Definition 3.5. En présence de dépendances temporelles des vecteurs {h (θ 0 , wt )}∞


t=−∞ ,
l’estimateur non paramétrique de Gallant (1987)de la matrice de variance covari-
ance asymptotique S est donné par :
q
v
SG = Γ0 + K Γv + Γv (3.23)
v=1
q+1

où q désigne un paramètre de troncature et K (u) désigne une fonction kernel de


Parzen telle que
 2 3
 1 − 6 |u| + 6 |u| si 0 ≤ |u| ≤ 1/2
3
K (u) = 2 (1 − |u|) si 1/2 ≤ |u| ≤ 1 (3.24)

0 sinon

Ainsi si par exemple, on a q = 2 :


5 2
SG = Γ0 + Γ1 + Γ1 + Γ2 + Γ2
9 27
Enfin, en ce qui concerne les formules de détermination des paramètres de
troncature (ou des paramètres bandwith quivant les cas) q, on peut se réferrer à
Andrews (1991) et à Newey et West (1994). En particulier, dans un cas scalaire
Master ESA. Macro-Econometrie. Cours de C. Hurlin 25

la valeur optimale au sens d’Andrews (1991) du paramètre de troncature q pour


une fonction kernel de Bartlett correspond à l’entier le plus proche de la quantité
: 2
r1 3 1
q = 1. 8171 (T − 2) 3 (3.25)
1 − r12
où r1 désigne l’autocorrélation d’ordre un des résidus.

4. Distribution asymptotique des GMM


Nous ne considérons ici que le cas des estimateurs de type GMM en deux étapes.
Nous commencerons par présenter la distribution asymptotique générale des GMM,
puis nous étudierons quelques illustrations dans des cas particuliers.

4.1. Distribution asymptotique des GMM


Commençons par un certain nombre de rappels.

Rappel 1 Soit y un vecteur (n, 1) fonction d’un vecteur x de dimension (m, 1)


tel que :    
y1 f1 (x)
 ..  = f (x) =  ..  (4.1)
yn fn (x)
alors la matrice ∂y/∂x est une matrice (n, m) telle que
   ∂f1 (x) ∂f1 (x)

∂f1 (x) /∂x ∂x1
.. ∂xm
∂y = 
=  ..  .. .. 
∂x ∂fn (x) ∂fn (x)
∂fn (x) /∂x ∂x1
.. ∂xm

Rappel 2 Soit y = Ax om A est une matrice (n, m) alors :


∂y ∂ (Ax)
= =A (4.2)
∂x ∂x

Rappel 3 Soit y = z x où z et x sont des vecteurs :


∂ (z x)
=z (4.3)
∂x

Rappel 4 Soit x un vecteur (n, 1) , f (x) un vecteur de dimension (m, 1) et A


une matrice symétrique (m, m) , alors :

∂f (x) Af (x) ∂f (x)


=2 A f (x) (4.4)
∂x ∂x
Master ESA. Macro-Econometrie. Cours de C. Hurlin 26

en cas particulier, si f (x) = x alors ∂f (x) /∂x = I, dès lors :


∂x Ax
= 2Ax (4.5)
∂x

Soit θT l’estimateur GMM obtenue en minimisant le critère :

θT = ArgMin [g (YT , θ)] ST−1 g (YT , θ) (4.6)


{θ∈Ra } (1,r) (r,r) (r,1)

où ST est considérée comme fixe par rapport à θ et ST est un estimateur conver-


gent de S.
p
ST −→ S
T →∞

Cette minimisation de crière est obtenue en annulant la dérivée du critère par


rapport au vecteur θ.

Definition 4.1. L’esimateur GMM est donc obtenu par la résolution


du système d’équations non linéaires suivant :

∂g (YT , θ)
× ST−1 × g YT , θ = 0 (4.7)
∂θ θ (r,r) (a,1)
(r,1)
(a,r)

∂g(YT ,θ)
Il faut bien comprendre ici que la matrice ∂θ
désigne une matrice
θ
de dimension (r, a) dans laquelle figurent les dérivées de la fonction vectorielle
g (YT , θ) par rapport aux a éléments du vecteur θ et que ces dérivées sont évaluées
au point θ = θ, estimateur GMM.

On sait que g (YT , θ) désigne la moyenne empirique d’un processus h (θ0 , wt )


dont l’espérance est nulle :
T
1
g (YT , θ) = h (θ, wt ) (4.8)
T t=1

avec E [h (θ 0 , wt )] = 0. Dès lors, on peut appliquer sous certaines conditions


(stationnarité des variables wt , continuité de la fonction h (θ0 , wt ) et restrictions
sur les autres moments) un théorème central limite.

Résultat Sous certaines restrictions (stationnarité des variables wt , con-


tinuité de la fonction h (θ0 , wt ) et restrictions sur les autres mo-
ments), on a:
√ L
T g (YT , θ0 ) −→ N (0, S) (4.9)
T →∞
Master ESA. Macro-Econometrie. Cours de C. Hurlin 27

∞ ∞
où S = v=−∞ Γv = v=−∞ E h (θ0 , wt ) h (θ0 , wt−v ) telle que :

S = lim T E g (YT , θ0 ) g (YT , θ0 ) (4.10)


T →∞

√ L
En effet, on rappelle que d’après l’énoncé du TCL T h−E h −→
T →∞
N 0, V h , avec ici E h = E (h (θ0 , wt )) = 0 et V h = S.

Ces résultats suffisent à montrer que l’estimateur GMM θT est asympto-


tiquement distribué et à calculer sa matrice de variance covariance asymptotique
(Hansen, 1982) :

Theorem 4.2. On suppose que la fonction g (YT , θ) est differentiable en


θ pour tout YT et soit θT l’estimateur GMM statisfaisant le système (4.7)

pour r ≥ a. Soit ST une séquence de matrices définies positives
T =1
p
telles que ST → S, où S est définie positive. Si
p
(i) θT → θ 0
√ L
(ii) T g (YT , θ0 ) → N (0, S)
∞ p
(iii) pour toute séquence θT telle que θT → θ 0 , on ait
T =1

∂g (YT , θ) ∂g (YT , θ)
plim = plim =D (4.11)
∂θ θT ∂θ θ0 (a,r)

où les colonnes de D sont linéairement indépendantes, alors :


√ L
T θT − θ0 −→ N (0, V ) (4.12)
T →∞

avec
−1
V = D S −1 D (4.13)
(a,a) (a,r) (r,r) (r,a)

La démonstration de ce théorème est donnée dans Hamilton (1994). Bien


évidemment la matrice de variance covariance asymptotique V de l’estimateur
GMM ne peut être évaluée directement puisqu’elle dépende de θ0 . Généralement,
on utilise l’approximation suivante.

Résultat Sous les hypothèses du théorème 1, on admet que :


√ L
T θT − θ0 −→ N 0, VT (4.14)
T →∞
Master ESA. Macro-Econometrie. Cours de C. Hurlin 28

ce qui peut encore s’écrire sous la forme :

VT
θT ∼
=N θ0 , (4.15)
T

−1
où l’estimateur VT = DS −1 D de la matrice de variance covariance
asympotique est construit à partir de :

∂g (YT , θ)
D= (4.16)
∂θ θ=θT

avec en l’absence de corrélation des séries h θT , wt

T
1
ST = h θT , wt h θT , wt (4.17)
T t=1

ou en présence de corrélation :
q
v
S = Γ0 + 1− Γv + Γv (4.18)
v=1
q+1

T
1
Γv = h θ, wt h θ, wt−v (4.19)
T t=v+1

4.2. Illustrations dans des cas particuliers


Considérons quelques cas particuliers en commençant .par les MCO.

4.2.1. Cas particulier : Moindre Carré Ordinaires


Reprenons le modèle de régression standard :

yt = xt β 0 + ut (4.20)

où xt est un vecteur de dimension (k, 1) de variables explicatives. On a vu que


la propriété d’orthogonalité des résidus théoriques par rapport aux variables
explicatives E (xt ut ) = 0 se traduit par un système de k conditions d’orthog-
onalité. Posons dans nos notations wt = (yt xt ) et θ = β, on a :

h (θ, wt ) = xt (yt − xt β)

E [h (θ0 , wt )] = 0
Master ESA. Macro-Econometrie. Cours de C. Hurlin 29

Le système étant juste identifié (a = k), l’estimateur GMM se ramène à


déterminer θT tel que
T
1
g YT , θT = xt yt − xt β T =0 (4.21)
T t=1

Ce qui nous amène à retrouver l’estimateur MCO :


T −1 T
β T = β MCO = xt xt xt yt (4.22)
t=1 t=1

Quelle est maitenant l’expression de la matrice de variance covariance de l’es-


timateur β T ? En différentiant h (θ, wt ) , il vient
T
∂g (YT , θ) 1 ∂ t=1 xt (yt − xt β)
D = =
∂θ θ=θT T ∂β
β=β T
T
1
= − xt xt (4.23)
T t=1

car on rappelle que ∂Ax/∂x = A et que donc ∂Ax/∂x = A. Parallèment, la


matrice de variance covariance asymptotique des résidus h (θ, wt ) s’écrit :
∞ T
1
S = lim E h (θ0 , wt ) h (θ 0 , wt−v ) (4.24)
T →∞ T v=−∞ t=1

Ici on a donc :
∞ T
1
S = lim E xt ut (xt−v ut−v )
T →∞ T
v=−∞ t=1
∞ T
1
= lim E ut ut−v xt xt−v (4.25)
T →∞ T v=−∞ t=1

Supposons tout d’abord que les résidus sont non auto-corrélés, alors :

σ 2ε E (xt xt ) pour v = 0
E ut ut−v xt xt−v = (4.26)
0 sinon

Par conséquent un estimateur de S est donné par :


T
1
ST = σ 2ε xt xt (4.27)
T t=1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 30

avec
T
1
σ 2ε = u2t (4.28)
T t=1

où ut = yt − xt β désigne le résidu estimé. On retrouve ainsi la formule de la


proposition dans laquelle on donnait la forme générale de l’estimateur ST en
l’absence de dépendance à savoir :
T
1
ST = h θT , wt h θT , wt
T t=1
T
1
= xt ut (xt ut )
T t=1
T T
1 1
= u2t xt xt
T t=1
T t=1

Déterminons finalement la matrice de variance covariance de l’estimateur


GMM : √ L
T θT − θ0 −→ N 0, VT
T →∞

avec VT = D S −1 D . Dès lors, il vient :


 −1
−1
 1
T
1
T
1
T 
VT = − xt xt σ 2ε xt xt − xt xt
 T t=1 T T 
t=1 t=1

T −1

= T σ 2ε xt xt
t=1

Par conséquent la matrice de variance covariance de l’estimateur GMM s’écrit


sous la forme :
VT
θT ∼= N θ0 , (4.29)
T
T −1
VT
= σ 2ε xt xt (4.30)
T t=1

On retrouve ici la formule de la matrice de variance covariance des MCO (la seule
différence étant la définition de l’estimateur de la variance des résidus).

Dans le cas où les résidus sont auto-corrélés ou conditionnellement hétéroscé-


dastiques,
Master ESA. Macro-Econometrie. Cours de C. Hurlin 31

4.2.2. Cas particulier : Variables Instrumentales


Considérons à nouveau un modèle de régression standard :
yt = zt β 0 + ut (4.31)
où zt est un vecteur de dimension (k, 1) de variables explicatives. Supposons
qu’un certain nombre de variables explicatives soient endogènes c’est à dire que
E (zt ut ) = 0. Soit xt un vecteur (r, 1) de variables explicatives prédeterminées
corrélées avec les variables zt mais non corrélées avec les résidus ut tel que
E (xt ut ) = 0 . Posons wt = (yt xt zt ) et θ = β, a = k, cette contrainte nous
définit r conditions d’orthogonalité :
E [h (θ0 , wt )] = E [xt (yt − zt β 0 )] = 0 (4.32)
avec h (θ, wt ) = xt (yt − zt β) . Soit g (YT , θ) le vecteur des moments empiriques
correspondant aux r conditions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − zt β)
T t=1
T t=1

Soit θT = β T l’estimateur GMM obtenu par la résolution du système :


T T −1 T
1
g YT , θT = xt yt − zt β T = 0 ⇐⇒ β T = xt z t xt yt
T t=1 t=1 t=1
(4.33)
Calculons la matrice de variance civariance asymptotique de β T en utilisant
le résultat général d’Hansen (1982).
VT
θT ∼
=N θ0 , (4.34)
T
−1
où l’estimateur VT = DS −1 D de la matrice de variance covariance asympo-
tique est construit à partir de :
∂g (YT , θ)
D =
∂θ θ=θT
T
1 ∂xt (yt − zt β)
=
T t=1
∂β β=β T
T
1
= − xt zt
T t=1
T
1
= − zt xt
T t=1
Master ESA. Macro-Econometrie. Cours de C. Hurlin 32

Le théorème d’Hansen suppose que la plim de cette matrice possède des


colonne slinéairement indépendantes (condition usuel de convergence de l’esti-
mateur IV). Dès lors la matrice de variance covariance de θT est :
T T −1
VT 1 1 1
= zt xt ST−1 xt z t (4.35)
T T T t=1
T t=1

où ST est un estimateur de
∞ T
1
S = lim E ut ut−v xt xt−v
T →∞ T
v=−∞ t=1

Si les résidus ut sont homoscédastiques et non auto-corrélés alors un estimateur


naturel de S est donné par :
T
1
ST = σ 2T xt xt (4.36)
T t=1

avec
T
1 2
σ 2T = yt − zt β T .
T t=1

En utilisant cette expression de ST , on montre que :


 −1
−1
1 1 
T T T
1 2 1
E βT − β0 βT − β0 zt xt σ xt xt xt zt
T  T t=1 T T t=1 T t=1 
 −1
−1
 1 T T
1
T 
2
σT zt xt xt xt xt zt
 T T 
t=1 t=1 t=1

T −1 T T −1
1 1
σ 2T zt xt xt xt xt zt
T t=1 t=1
T t=1

On retrouve ainsi la matrice de variance covariance de l’estimateur des vari-


ables instrumentales.

5. Résumé des GMM


On dispose d’un modèle théorique implique un ensemble de r conditions d’orthog-
onalité s’écrivant sous la forme :

E [h (θ0 , wt )] = 0 (5.1)
(r,1)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 33

où wt désigne un ensemble de variables stationnaires observées à la date t et où θ0


est la vraie valeur (inconnue) d’un vecetur de paramètres θ0 de dimension (a, 1) .
La fonction h (.) est une fonction de dimension (r, 1) différentiable avec r ≥ a.
L’estimateur GMM θT est obtenu en minimisant la fonction critère (ou fonction
de perte) :
Q (θ, YT ) = [g (YT , θ)] ST−1 g (YT , θ) (5.2)
(1,r) (r,r) (r,1)
avec
T
1
g (YT , θ) = h (θ, wt ) (5.3)
T t=1

et où ST est un estimateur de :
T ∞
1
S = lim E h (θ0 , wt ) h (θ0 , wt−v ) (5.4)
(r,r) T →∞ T
t=1 v=−∞

On peut alors montrer qu’asymptotiquement :

VT
θT ∼ N θ0 , (5.5)
T

avec : −1
VT = DST−1 D (5.6)

∂g (YT , θ)
D = (5.7)
∂θ θ=θT

6. Application SAS : procédure MODEL


Dans le cas de modèles ARCH nous avons déjà étudié la procédure MODEL que
nous ne présenterons que briévement en isnsistant sur les dimensions plus spéci-
fiques aux GMM. Cette procédure permet entre autres d’estimer le modèle par
les MCO et Double MCO, les méthodes SUR et SUR itératif, les Triple Moindres
Carrés, les GMM et le maximum de vraisemblance à information complète ou
FIML. La syntaxe générale est de la forme suivante (entres autres) :
PROC MODEL options;
ENDOGENOUS variable [ initial values ] ... ;
ESTIMATE item [ , item ... ] [ ,/ options ] ;
EXOGENOUS variable [ initial values ] ... ;
OUTVARS variable ... ;
INSTRUMENTS [ instruments ] [_EXOG_ ] [EXCLUDE=(parameters) ]
[/ options ] ;
Master ESA. Macro-Econometrie. Cours de C. Hurlin 34

PARAMETERS variable [ value ] variable [ value ] ... ;


SOLVE variables [SATISFY=(equations) ] [/ options ] ;
TEST [ ”name” ] test1 [, test2 ... ] [,/ options ] ;
VAR variable [ initial values ] ... ;
Nous commenterons successivement deux points de cette procédure :

• la spécification du modèle et des instruments

• le contrôle de la procédure d’estimation

6.1. Spécification du modèle et des instruments


De façon générale, cette procédure permet de d’estimer un modèle non linéaire
de la forme :
εt = q (yt , xt , θ) (6.1)
zt = Z (xt ) (6.2)
où q est un vecteur de g fonctions rélles, yt ∈ Rg , xt ∈ Rl et θ ∈ Rp . g désigne
donc le nombre d’équations, l le nombre de variables exogènes xt , p le nombre de
paramètres. Le vecteur zt ∈ Rk est un vecteur d’instruments et εt est composante
d’erreur inobservable telle que :

E (εt ) = 0 (6.3)

E (εt εt ) = Σ (6.4)
La première étape de la procédure model consiste à spécifier le modèle. Pour
cela, considérons le cas d’une équation. On spécifie une équation sous la forme
d’un résidu. Supposons que l’on veuille spécifier l’équation :

εt = a + b ln (cy + dx) (6.5)

on utilise alors la notation

EQ.[name]=a+b*log(c*y+d*x);

L’utilisation du préfixe EQ. permet de spécifier à SAS que la variable est un


terme d’erreur et qu’il n’existe pas de variable portant ce nom dans le fichier de
données.

Lorsqu’il s’agit de spécifier plusiseurs équations dans un système on peut


utiliser la syntaxe présenté dans l’exemple (6.1). Supposons par exemple que l’on
considère un modèle offre -demande. On considère l’exemple du fichier citimon
Master ESA. Macro-Econometrie. Cours de C. Hurlin 35

de l’aide de SAS dans lequel figurent la consommation d’energie consommée aux


Etats Unis (données mensuelles janvier 1980 - janvier 1992) correspondant à la
variable EEC, le price de détail de l’essence (variable EEGP) et le revenu des
consommateur (variabe CCIUTC). On soushaite estimer le système d’équations
simultannées :
qt = α1 + α2 prixt + α3 revenut + εt (6.6)
qt = β 1 + β 2 prixt + µt (6.7)
Ce système admet deux variables endogènes : la quantité qt et les prix. La
procédure de spécification est alors donnée dans l’exemple (6.1).

Figure 6.1: Procédure MODEL

Dans ce cas, on ne peut pas utiliser les MCO et l’on peut dans ce cas estimer le
système par la méthode des Triples Moindres Carrés Ordinaires (N3SLS). Cette
méthode requiert de spécifier des instruments : dans ce cas on utilise les variables
prédéterminées prixt−1 et prixt−2 , mais aussi les variables exogènes du système :
la variable de revenu et une autre varaible non utilisée dans le système, à savoir la
variable la valeur du dollar qui impacte la demande energétique (variable EXVUS,
WEIGHTED-AVERAGE EXCHANGE VALUE OF U.S.) On a donc au total 4
variables instrumentales : EXVUS, CCITC, lag(EEGP) et lag2(EEGP). Cette
Master ESA. Macro-Econometrie. Cours de C. Hurlin 36

liste d’instrument est spécifiée grâce à l’instruction INSTRUMENTS. Il y a deux


façons de spécifier les instruments :
• INSTRUMENTS variables [ _EXOG_ ] ;

• INSTRUMENTS [instruments] [ _EXOG_ ] [ EXCLUDE=( pa-


rameters ) ] [ / options ] ;
Dans le premier on spécifie une liste globale par défaut d’instrument qui sera
utilisée dans la procédure d’estimation (FIT). On peut déclarer une liste de vari-
able (INSTRUMENTS var1 var2) et/ou utiliser le mot réservé _EXOG_
qui permet de spécifier toutes les variables déclarées comme exogènes avec l’op-
tion EXOGENEOUS. Cette instruction doit être placée avant la commande
FIT. C’est cette syntaxe qui est utilisée dans l’exemple (6.1). La seconde façon
cosnsite à décalrer soit des variables, soit des noms de paramètres ou des mots
réservés comme _EXOG_. Si l’on spécifie un paramètre dans la liste, la dérivée
partielle des éuqtaions par rapport à ce paramètre est utiliséee comme instru-
ment. Par exemple, dans un modèle à deux équations y1 et y2, où x1 est une
variable exogène, le paramètre b1 intervient uniquement dans l’équation de y1,
et b2 et c2 dans l’équationd e y2 si l’on met
INST b1 b2 c2 x1 ;
SAS considère 5 instruments : la constante (par défaut), l’exogène x1, la
dérivée de y1 par rapport à b1 ainsi que les deux dérivées de y2 par rapport à b2
et c2 ce qui est noté sous la forme suivante (figure 6.2) :

Figure 6.2: Procédure MODEL

L’option EXCLUDE= (parameters) spécifie que tous les paramètres sauf ceux
entre paramètres sont considérés dans la liste des instruments. Différentes options
peuvent être utilisées. NOINTERCEPT ou NOINT permet de ne pas mettre
de constante dans la liste des instruments. Par défaut il y a toujours une constante
dans la liste des instruments.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 37

6.2. La procédure d’estimation


L’estimation des paramètres déclarés dans la commande PARAMETERS est
réalisé avec l’instruction FIT (voir document annexe pour les options). SAS
permet d’effectuer soit des GMM en deux étapes (GMM) soit des GMM itératif
(ITGMM) mais ne permet pas d’estimer par des techniques du type continuous
updating GMM.

De façon générale, cette procédure permet de d’estimer un modèle non linéaire


de la forme :
εt = q (yt , xt , θ) (6.8)
zt = Z (xt ) (6.9)
où q est un vecteur de g fonctions rélles, yt ∈ Rg , xt ∈ Rl et θ ∈ Rp . g désigne
donc le nombre d’équations, l le nombre de variables exogènes xt , p le nombre de
paramètres. Le vecteur zt ∈ Rk est un vecteur d’instruments et εt est composante
d’erreur inobservable telle que :

E (εt ) = 0 (6.10)

E (εt εt ) = Σ (6.11)

Résultat Sous SAS, dans le cas des GMM en deux étapes, la matrice de
variance covariance asymptotique est estimée suivant la formule
T −1
τ
S= w D c Γτ Dc (6.12)
τ =−T +1
l (T )

T
Γv = h θ, wt h θ, wt−v
t=v+1
T
= q yt , xt , θ ⊗ zt q yt−v , xt−v , θ ⊗ zt−v (6.13)
t=v+1

où θ désigne un estimateur des Doubles Moindres Carrés (2SLS),


où l (T ) est une fonction sacalaire permettant de calculer le band-
witdh parameter, w (.) est une fonction kernel et D est une matrice
de correction diagonale (-Gallant, 1987).
Master ESA. Macro-Econometrie. Cours de C. Hurlin 38

On retrouve ainsi les même formules que précedemment à quelques différences


près. La première tient à la somme dans l’équation (6.12). En effet, nous avions
écrit dans la section précédente pour l’estimateur de Newey West par exemple
q
v
SNW = Γ0 + w (v, q) Γv + Γv avec w (v, q) = 1 − (6.14)
v=1
q+1

où q désigne un paramètre de troncature. Dans le cas d’une fenêtre de Bartlett


(Newey et West, 1987) les poids au delà de q sont nulles ce qui permet de réecrire
Sachant que Γ−v = Γv

q
S = Γ0 + w (v, q) Γv + Γv
v=1
q
v
= w Γv
v=−q
l (T )
T −1
v
= w Γv
l (T )
v=−(T −1)

car sir v > q alors w(v/q) = 0. La seconde différence réside dans la matrice de
correction Dc utilisée pour la correction de l’estimation de la matrice
de variance covariance dans les petits échantillons (Gallant,1987). La forme
de cette matrice dépend de l’option VARDEF. Cette matrice Dc est une matrice
diagonale dont les élements Di de la diagonale sont définis comme suit :

• Di = 1/ T si VARDEF=N

• Di = 1/ T − dfi si VARDEF=DF, où dfi désigne le nombre de degré de
liberté de l’équation i.

Par défaut SAS utilise la correction VARDEF=N. Ainsi on retrouve le facteur


1/T dans la définition usuelle de l’estimateur Γv .

En ce qui concerne le choix de l’estimateur kernel, SAS offre trois


possibilités grace à l’option KERNEL. Il s’agit des trois kernels présentés
précédemment à savoir :

• Kernel de type Bartlett (Newey et West, 1987) : KERNEL=BART

• Kernel de type Quadratic Spectral (Andrews, 1991) : KERNEL=QS


Master ESA. Macro-Econometrie. Cours de C. Hurlin 39

• Kernel de type Parzen (Gallant, 1987) : KERNEL=PARZEN

La syntaxe de cette option est de la forme :

KERNEL=(PARZEN | QS | BART , c , e)

Par défaut SAS utilise un kernel de type Parzen. Les paramètres c et e servent
à spécifier le paramètre bandwidth selon la formule :

bandwidth parameter = l (T ) = c T e (6.15)

où T désigne le nombre d’observation. Un message d’alarme est donné si ce


paramètre est supérieur à T 1/3 . Dans nos notations précédentes, on a l (T ) = q−1.
Si rien n’est spécifié, alors SAS propose les règles de calculs suivantes en fonction
de T (Andrews, 1991) :
1
l (T ) = T 1/3 Kernel Bartlett (6.16)
2
l (T ) = T 1/5 Kernel Parzen (6.17)
1
l (T ) = T 1/5 Kernel Quadratic Spectral (6.18)
2
Si l’on suppose que les moments h (wt , θ0 ) sont non auto-corrélés, la matrice de
variance covariance de long terme correspond à la matrice de variance covariance
usuelle, et son estimateur est :
T
1
S = Γ0 = q yt , xt , θ ⊗ zt q yt , xt , θ ⊗ zt (6.19)
T t=v+1

Dans ce cas, l’option KERNEL=(kernel,0,) est utilisée.

6.3. Estimation du modèle d’Hansen et Singleton (1982) sous SAS


On considère une application sous SAS d’un modèle de type Hansen- Singleton
(1982). On consdière un agent à durée de vie infinie à anticipations rationnelles
dont la fonction obejcetif est :

max U = β τ Et (ct+τ ) (6.20)
τ =0

où ct désigne la consommation à la date t, 0 < β < 1 un facteur d’escompte psy-


chologique et Et (ct+τ ) l’opérateur espérance conditionnelle à toute l’information
disponible à la date t résumé par un vecteur xt d’instruments. Supposons que
Master ESA. Macro-Econometrie. Cours de C. Hurlin 40

l’agent puisse épargner et investir dans m titres indicés i = 1, ., m qui pour tout
euro investit à la date t lui rapportent 1 + ri,t+1 à la période suivante. Pour une
fonction d’utilité de type CRRA

c1−γ
u (ct ) = t siγ > 0 et γ = 1
1−γ
où γ désigne le coefficient d’aversion relative pour le risque, les conditions d’ar-
bitrage inter-temporelle se ramènent à :
−γ
ct+1
1 − βEt (1 + ri,t+1 ) =0 i = 1, ..m (6.21)
ct

Soit θ = (β γ) le vecteur de paramètres du modèles. Soit wt = (r1t+1 r2t+1 ...rmt+1 ct+1 /ct xt )
l’ensemble des variables observées par l’économètre à la date t. Au total si xt a
contient n variables, on obtient pour chaque actif n conditions d’orthogonalité,
soit un total de r = n × m, conditions d’orthogonalité.
 
−γ
ct+1
 1 − β (1 + r1,t+1 ) ct 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1 
h (θ, wt ) = h (θ, wt ) ⊗ xt =  c t  ⊗ xt

(nm,1) (m,1) (n,1)  ...  (n,1)
 
 −γ 
1 − β (1 + rm,t+1 ) ct+1
ct

où ⊗ désigne le produit de Kronecker. L’équivalent empirique s’écrit alors défini


par :
T
1
g (YT , θ) = h (θ, wt )
T t=1
L’estimateur GMM est alors obtenu en minimisant le critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (6.22)
T t=1
T t=1

On considère dans cette application les données de Ferson et Harvey (1992)


reprises dans l’exemple proposé dans la documentation SAS2 . Les auteurs consid-
èrent des données trimestrielles pour les Etats Unis allant du deuxième trimestre
1947 (codé 1947.6) au quatrième trimestre de 1987 (1987.12). Comme mesure
de la consommation réelle, les auteurs utilisent la consommation de bien non
2
Fichier Macro3_Hansen_Singleton.sas
Master ESA. Macro-Econometrie. Cours de C. Hurlin 41

durables corrigée des variations saisonnières rapportée à un déflateur de la con-


sommation en données CVS. La croissance de la conosmmation représentée par
le ratio (Ct+1 − Ct ) /Ct est désigné par la variable CONRAT. Les auteurs consid-
èrent en outre m = 4 rendements d’actifs exprimés sous la forme de rendements
c’est à dire sous la forme ri,t+1 .

• Rendements réels sur les obligations émises par le gouvernement. Variable


: GB

• Rendements réels sur les obligations émises par les entreprises. Variable :
CB

• Rendements réels sur les actions, 1er décile. Variable : D1

• Rendements réels sur les actions, 10ème décile. Variable : D10

Les rendements réels sont obtenus en dividant les rendements nominaux par
l’indice de prix à la consommation correspondant à l’indice de consommation
utilisé. En ce qui concerne les instruments xt , les auteurs considèrent au total
9 instruments (n = 7). Ils considèrent les rendements réels (variable RINST)
et de la croissance de la consommation réelle (variable CINST) retardées de 1
à 3 périodes. Toutes ces variables sont donc connues de l’agent à la date t. Le
neuvième instrument correspond par défaut à la constante.
Danc ce programme (figure 6.3) on estime le modèle par la méthode des GMM
itérés (ITGMM) en utilisant une fonction kernel de type Parzen. Les conditions
initiales sur β et sur γ sont fixées 0.1. Pour ces quatre équations avec 7 instru-
ments, on dipose de 28 conditions d’orthogonalité pour estimer 2 paramètres.
Le système est donc largement sur-identifié. Les résultats de la procédure sont
reproduits sur les figures (6.4), (6.5) et (6.6).
Sur la figure figures (6.4), on vérifie que le model comporte au total 5 vari-
ables dont une endogène (CONRAT) et quatre exogènes (GB, CB, D1 et D10).
Ce modèle comporte deux paramètres (β et γ) et quatre équations (nommées
h1 , h2 , h3 et h4 ), représentées par le vecteur h (θ, wt ) . Un message prévient que
ces deux paramètres sont présents dans les quatre équations : ce qui implique
notamment que si l’on spécifie par exemple β dans la litse des instruments, les
dérivées des quatre équations par rapport à β seront considérées comme intru-
ments. SAS fournit enfin la liste des 7 variables instruments, la constante etant
nommée 1. Un message prévient que l’algorithme d’optimisation a convergé.
Sur la figure (6.5) les détails de la procédure d’estimation GMM iétartif sont
donnés. On rappelle le nombre de paramètres a estimer, a = 2, le choix du kernel
(Parzen). La valeur du paramètre du bandwitdh parameter est donnée bandwidth
Master ESA. Macro-Econometrie. Cours de C. Hurlin 42

Figure 6.3: Procédure MODEL

parameter = l (T ) = 2.75459. Et SAS spécifie la éthode d’optimisation numérique


retenue, à savoir la méthode de Gauss newton. Parmi les différentes indica-
tions concernant la convergence de l’algorithme apparait la valeur OBJECTIVE
VALUE qui correspond à la valeur optimale du critère Q θ, YT , qui permet
notamment de construire la J statistique du test de sur-identification d’Hansen
(1982). Pour les autres critères de convergence, se reporter à la documentation
SAS de la procédure MODEL.

Enfin sur la figure (6.6), figurent les résultats d’estimation a proprement parlé.
On remarquera qua la valeur estimé de β au point moyen est supérieure à l’unité ce
qui viole la condition de convergence théorique d’un tel modèle. Une contrainte
du type BOUNDS beta<c, où c < 1 permet alors d’éviter ce problème, mais
Master ESA. Macro-Econometrie. Cours de C. Hurlin 43

Figure 6.4: Résultats Procédure MODEL : Partie I

l’estimateur obtenu bute alors sur la contrainte. Figure parmi les résultats la
valeur de la J statistique du test de sur-identification d’Hansen (1982) définie par
Objective*N.

7. Inférence avec les GMM


Lorsque le nombre de conditions d’orthogonalité est supérieur au nombre de
paramètres à estimer (r > a) on dit que le modèle est su-identifié. Dans ce
cas, il y a r − a conditions sur-identifiantes doivent être nulles si le
modèle est bien spécifié. C’est le principe d’un test de sur-idnetification ou
test de la J statistique

7.1. Test de sur-identification


Hansen (1982) a proposé un test permettant de déterminer si l’ensemble des
moments empiriques représentés par g YT , θ T étaient aussi proches de zéro que
Master ESA. Macro-Econometrie. Cours de C. Hurlin 44

Figure 6.5: Résultats de la Procédure MODEL : Partie II

possible dès lors que E [h (θ0 , wt )] = 0. En reprenant le résultat de normalité,


sous H0 , E [h (θ0 , wt )] = 0 on peut montrer que :
√ √ L
T g (YT , θ 0 ) S −1 T g (YT , θ0 ) −→ χ2 (r) (7.1)
T →∞

Dans cette expression les moments empiriques g (YT , θ) sont évalués pour la
vraie valeur des paramètres θ0 . Une première intuition consisterait à se
dire que convergence resterait vraie si l’on remplaçait θ 0 par son esti-
mateur convergent θT . Or ceci n’est pas vrai. En effet, il existe a combi-
naisons linéaires des r éléments g YT , θT qui valent précisèment par définition
de l’estimateur θ T . Ces a combinaison linéaires sont obtenues en prémultipliant
g YT , θT par la matrice :

∂g (YT , θ)
× ST−1 (7.2)
∂θ θ (r,r)
(a,r)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 45

Figure 6.6: Résultats de la Procédure MODEL : Partie III

puisque par définition


∂g (YT , θ)
× ST−1 × g YT , θ = 0 (7.3)
∂θ θ (r,r) (a,1)
(r,1)
(a,r)

Par exemple, si a = r toute combinaison linéaire des g YT , θ est égale à


√ √
0, dès lors la quantité T g YT , θ S −1 T g YT , θ serait égale à 0 quelle
que soit l’échantillon. Dis autrement, on ne dispose que r − a variables aléatoires
linéairement indépendantes et non dégénérée dans le vecteur g YT , θ . Ce sont
ces variables qui doivent être étudiées.

Résultat Un test de l’hypothèse nulle E [h (θ0 , wt )] = 0 (ou test de sur-


idnetification pour le case r>a est donné par la J statistique
√ √ L
J= T g YT , θ T S −1 T g YT , θ T −→ χ2 (r − a) (7.4)
T →∞

Cette statistique correspond au produit de la dimension T par la


valeur de la fontion objectif obtenue pouyr la valeur de l’estima-
teur GMM θT
J = T Q θ T , YT (7.5)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 46

Malheureusement le test de Hansen présente de mauvaise propriété et ne de-


tecte que très dificilement un modèle mal spécifié (Newey, 1985). C’est pourquoi,
on peut utiliser en outre d’autres tests.

Enfin sous SAS, la réalisation de la J statistique associée au test de sur-


identification d’Hansen (1982) est reportée dans le tableau de résultats sous la
syntaxe OBJECTIVE*N, N désignant le nombre d’observations. Admettons
que la réalisation de la J statistique soit égale à 40 pour un nombre de degrés de
liberté (r − a dans nos notations) de 70 par exemple. Un programme permettant
de récupérer la p-value associée à cette statistique est le suivant :

Figure 7.1: Calcul de la Pvalue Associée à la J statistique

7.2. Test de stabilité structurelle


Supposons que l’on veuille tester le fait que le vecetur de paramètres θ qui
cartérise les premières T0 observations de l’échantillon soit différent de la valeur
qui caratérise les T − T0 observations suivantes. La date de rupture T0 est sup-
posé connue. Une approche consiste à estimer θ1,T0 basé uniquement sur les T0
premières observations en minismisant :

Q (θ1 , w1 , ..wT0 ) = [g (YT0 , θ1 )] ST−1


0
g (YT0 , θ 1 ) (7.6)
(1,r) (r,r) (r,1)

avec
T
1
g (YT , θ1 ) = h (θ1 , wt ) (7.7)
T0 t=1
avec si les résidus sont non auto-corrélés :
T0
1
ST−1 = h θ1,T0 , wt h θ1,T0 , wt (7.8)
0
T0 t=1

On sait qu’alors :
L
T0 θ1,T0 − θ1 −→ N (0, V1 ) (7.9)
T →∞
−1
−1
V1,T0 = D1,T0 S1,T0
D1,T0 (7.10)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 47

∂g (YT , θ 1 )
D = (7.11)
∂θ1 θ=θ1,T0

On peut de façon similaire construire un estimateur θ2,T −T0 basé sur les T −T0
dernières observations :
L
T − T0 θ2,T −T0 − θ2 −→ N (0, V2 ) (7.12)
T →∞

On note π = T0 /T la fraction des obseravtions appartenant à la première période.


On a donc finallement :
√ L V1
T θ1,T0 − θ1 −→ N 0, (7.13)
T →∞ π
√ L V2
T θ 2,T −T0 − θ2 −→ N 0, (7.14)
T →∞ 1−π
Andrews et Fair (1988) proposent d’utiliser un test de Wald de l”hypothèse
nulle H0 : θ1 = θ2 en exploitant le fait que l’estimateur θ1,T0 est asymptotique-
ment indépendant de θ2,T −T0 . On peut donc cosntruire une statistique de Wald
asymptotiquement distribuée selon un chi-deux.

Résultat Le test de Wald d’Andrews et Fair (1988) de l’hypothèse


nulle H0 : θ1 = θ2 est défini par la statistique :
L
λt = T θ1,T0 − θ 2,T −T0 W −1 θ1,T0 − θ2,T −T0 −→ χ2 (a) (7.15)
T →∞

avec
1 1
W = V1,T0 + V2,T −T0 (7.16)
π 1−π
On peut aller encore plus loin dans cette optique et tester la
rupture pour un ensemble de dates T0 allant par exeple de 0.15T
à 0.85T et choisir la plus grande valeur pour la statistique λt (test
d’Andrews, 1993)

Un autre test simple consite à assoicer des conditions d’orthogonalité dif-


férentes aux deux sous périodes et utilser la J statistique pour tester la validité
des deux ensembles de conditions. Ainsi, on pose :

1 pour t ≤ T0
d1t = (7.17)
0 pour t > T0
Master ESA. Macro-Econometrie. Cours de C. Hurlin 48

Supposons que E [h (θ0 , wt )] = 0 définissse un vecteur de r conditions d’orthog-


onalité et définissons :
h (θ, wt ) d1t
h∗ (θ, wt , d1t ) =
(2r,1) h (θ, wt ) (1 − d1t )

On estime les a éléments de θ à partir de ces 2r conditions d’orthogonalité


E [h∗ (θ, wt , d1t )] = 0. La J statistique obtenue à partir de ce sytème admet pour
loi asymptotique un chi deux à 2r − a degrés de liberté. Cette J statistique
permet alors de tester l’hypothèse de stabilité structurelle H0 : θ 1 = θ2 .

8. Maximum de Vraisemblance et GMM

9. Méthodes de Moments Simulés


9.1. Présentation de la Méthode des Moments Efficients (EMM)
La méthode des moments simulés a été proposé initiallement par Mac Fadden
(Econometrica, 1989) dans le cas des modèles à réponse discrète. La méthode
des Moments Efficients (Efficient Method of Moment) est une méthode de mo-
ments simulée particulière proposée par Gallant et Tauchen (1996, 2001). L’idée
consiste à atteindre l’efficience de l’estimateur du maxiumum de varisemblance
(MV) tout en maintenant la souplesse de l’estimateur des GMM. On rappelle que
la méthode du MV peut être considérée comme une méthode de moments par-
ticulière dans laquelle les conditions d’orthogonalité sont données par le vecteur
du score, c’est à dire le vecteur des dérivées premières de la log-vraisemblance
par rapport aux paramètres. Un des problèmes essentiels des MV est que cette
fonction de varisemblance peut e^tre diffcile à construire pour des modèles com-
pliqués, et de plus même si l’on connaît sa forme téhorique dans certains cas son
implementation peut être impossible. C’est en particulier le cas lorsque le modèle
dépend d’une endogène non observable retardée : dans ce cas la vraisemblance
dépend d’une intégrale multiple et la dimension de cette intégrale correspond à
la taille de l’échantillon.

Principe Général L’idée des EMM comme de toute méthode de mo-


ments simulés consiste à estimer les paramètres θ ∈ Ra d’un mod-
èle structurel en rapprochant des moments établis d’un modèle
auxiliaire de pseudo paramètres β ∈ Rk , et calculés d’une part sur
données historiques et d’autres sur données simulées à partir du
modèle structurel. On cherche donc la valeur de θ dans le modèle
Master ESA. Macro-Econometrie. Cours de C. Hurlin 49

structurel qui permet de simuler des séries qui en moyenne pos-


sèdent les mêmes moments établis à partir du modèle auxiliaire
que ceux que l’on peut calculés à partir des séries historiques.

Dans le cas précis des EMM, les moments (ou modèle auxiliaire) correspondent
au score de la log-vraisemblance associés aux paramètres β. Naturellement l’iden-
tification des paramètres θ implique en particulier que k ≥ a, on supposera ici
que a = k. Le choix du modèle auxiliaire est laissé libre : il convient de choisir
un model permettant de bien approximer la dynamique du DGP tout
en conservant la faisabilité du maximum de vraisemblance.

On considère un modèle structurel de paramètres θ ∈ Ra inconnus, de vecteur


de variables endogènes Yt de dimension (b, 1) . et d’un ensemble de p chocs
représentés par le vecteur εt , t = 1.., T . Soit ε = (ε1 , .., εT ) (voir synthèse
figure ). On considère un échantillon de T observations {y1 , ..yT } . On consid-
ère un pseudo modèle (ou modèle auxiliaire ou générateur de score)
paramétrisé par les pseudo paramètres β = (β 1 ..β k ) ∈ Rk avec k = a. Soit
f (yt | yt−1 , β) la fonction de transition associée à ce modèle. L’estimateur β du
MV des paramètres β obtenu à partir de l’échantillon historique vérifie :
T
∂L (β) ∂f (yt | yt−1 , β)
= =0 (9.1)
∂β β=β t=1
∂β β=β

Ce qui peut sécrire sous la forme de conditions d’orthogonalité :


T
1
sf Yt , β = 0 (9.2)
T t=1

où la quantité sf Yt , β désigne le score du modèle auxiliaire :

∂f (yt | yt−1 , β)
sf (Yt , β) = (9.3)
∂β
De plus, on peut construire un estimateur de la matrice de variance covariance
asymptotique du score du modèle théorique à partir du pseudo score sf Yt , β i
de la façon suivante (Gaalnt et Long, 1987) :
T
1
VT = sf Yt , β sf Yt , β
T t=1

L’idée des EMM consiste à trouver la valeur des paramètres θ du modèle


structurel tel que pour un tirage des chocs ε, la série simulée de dimension T,
Master ESA. Macro-Econometrie. Cours de C. Hurlin 50

T
notée Yts (θ) , permettent d’annuler le score du pseudo modèle considéré
t=1
pour la valeur estimée (sur données historiques) des paramètres β. On cherche
donc θ tel que :
θ = ArgM in mS θ, β VT−1 mS θ, β (9.4)
{θ∈Ra }

où le moment mS θ, β est défini à partir de S simulations de trajectoires


T
Yts (θ) .
t=1
S
1
mS θ, β = sf Yts (θ) , β
S s=1

Il faut comprendre ici que la moyenne obtenue sur les S simulations permet
de se ”débarasser” du conditionnement par rapport au tirage du choc ε. Le score
T
sf Yts (θ) , β est évaluée pour trajectoire Yts (θ) particulière condition-
t=1
nellement à une certaine valeur de θ et à partir des pseudo paramètres estimés
sur données historiques β (et non sur données simulées).

Sous certaines conditions (Gallant et Tauchen, 1996), on montre que


√ L
T θ − θ0 −→ N 0, Vθ (9.5)
T →∞

Vθ = Dθ VT−1 Dθ (9.6)

∂mS θ, β
Dθ = (9.7)
∂θ
θ=θ

9.2. Application SAS : Modèle de Volatilité Stochastique


On considère un modèle de volatilité stochastique utilisé en finance pour modéliser
les rendements yt d’un actif (Gallant and Tauchen 2001) :

yt = σ t zt (9.8)

log σ 2t = a + b log σ 2t−1 + s ut (9.9)


ut i.i.d. 0, σ 2u (9.10)
zt i.i.d. 0, σ 2z (9.11)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 51

Figure 9.1: Procédure EMM

où les chocs ut et zt sont indépendants et où les paramètres vérifient |b| < 1,


s > 0. Le vecteur des paramètres structurels est donc :

θ = (a b s ) (9.12)

Un exemple de série issue de ce modèle est donnée dans l’exemple de la figure


(9.2) pour des valeurs a = −0.736, b = 0.9 et s = 0.363. Le graphique de la série
que nous conséiderons comme ”historique” d’une dimension T = 1000 est reporté
sur la figure ().
Dans ce cas un modèle auxiliare ”naturel” consiste en l’utilisation d’un modèle
de type ARCH-GARCH. Un cas simple consite à utiliser un modéle de type
GARCH(1,1) :
yt = h t z t (9.13)
2
ht = ω + αyt−1 + γht−1 (9.14)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 52

Figure 9.2: Simulation Modèle à Volatilité Stochastique

où ht = σ 2t désigne la variance conditionnelle. Les pseudo paramètres sont donc :

β = (ω α γ) (9.15)

On cherche donc à estimer ce modèle par la méthode du maximum de vraisem-


blance. En effet, un des avantages du modèle GARCH(1, 1) c’est que la variable
d’intérêt yt est conditionnellement gaussienne dans ce cas, ce qui facilite d’autant
l’écriture de la vraisemblance :
T
log L (β) = log f ( yt | yt−1 , β)
t=1
T T
T 1 1 yt2
= − log (2π) − log (ht ) −
2 2 t=1
2 t=1
ht

avec
1 y2
log f (yt | yt−1 , β) = − log (2π) − log (ht ) − t (9.16)
2 2ht
D’où l’on tire que :

∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht 1 yt2


=− + t2 = −1 + (9.17)
ω 2ht ∂ω 2ht ∂ω 2ht ht
Master ESA. Macro-Econometrie. Cours de C. Hurlin 53

Figure 9.3: Série Historique

∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht y2 yt2


=− + t2 = t−1 −1 + (9.18)
α 2ht ∂α 2ht ∂α 2ht ht
∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht ht−1 yt2
=− + t2 = −1 + (9.19)
γ 2ht ∂γ 2ht ∂γ 2ht ht
Si l’on β = (ω α γ) l’estimateur du MV sur données historiques, on a donc
par définition :
 
T 1 yt2  
t=1 2ht −1 +
T  ht  0
1 1 T 2
yt−1 yt2   
sf Yt , β =  t=1 2ht −1 +  = 0 (9.20)
T t=1 T ht 
2 0
T ht−1
t=1 2h −1 + yht
t t

avec
2
ht = ω + αyt−1 + γht−1 (9.21)
Master ESA. Macro-Econometrie. Cours de C. Hurlin 54

Reste à définir cette matrice VT qui servira de poids dans la procédure GMM.
T
1
VT = sf Yt , β sf Yt , β (9.22)
T t=1

En effet, l’application de la méthode des EMM suppose de contrôler la matrice


de poids sous SAS dans l’estimation GMM. Commençons par présenter l’option
VDATA requise dans cette optique (voir la documentation SAS, Proc MODEL,
rubrique ”Input Data Set”. ).

9.2.1. Le contrôle de la matrice de poids


Il est possible de contrôler la matrice de poids, plus précisèment la matrice de vari-
ance, considérée dans l’estimation GMM en utilisant l’option VDATA=[name].
Lorsque l’on spécifie VDATA=V, cette matrice est utilisé dans la défintion du
critère GMM en deux étapes (GMM) ou comme matrice de poids initiale dans le
cas de GMM itératif (ITGMM). Cette matrice de poids doit être mise en forme
de façon spécifique sous SAS. Ne sont spécifiés que les éléménts de la partie tri-
nagulaire supérieure (matrice symétrique). Par exemple dans le cas où il existe
4 conditions d’orthogonalités (2 équations y1 et y2 , et 2 instruments, x1 et une
constante, par exemple) :
 
V1,1 V1,2 V1,3 V1,4
 − V2,2 V2,3 V2,4 
V =  −
 (9.23)
− V3,3 V3,4 
− − − V4,4

Cette matrice V doit être crée de la façon suivante sous SAS. Chaque ligne et
chaque colonne de cette matrice est associée à une équation et à un instrument.
La position de chaque élément dans la matrice V est donné par le
nom de l’équation et le nom de l’instrument (1 pour la constante)
de la ligne et le nom de l’équation et le nom de l’instrument de la
colonne. Plutôt que de spécifier ligne=1 et colonne=1 pour identifier l’élément
V1,1 , on donne pour identifant de la ligne et de la colonne un nom d’équation et
un nom d’instrument. Ainsi pour V1,1 cela correspond à la variance associée à de
la condition d’orthogonalité de l’équation 1 pour l’intrument x1 si cette variable
apparaît en premier dans la liste des instruments. La colonne de cet élémént est
repérée par le couple (y1 , x1 ) et sa ligne par le même couple (y1 , x1 ). L’élément
V1,1 correspond à la covariance entre les résidus de la condition d’orthogonalité
de l’équation y1 avec l’instrument x1 et la condition d’orthogonalité de l’équation
y1 et l’instrument 1 (pour la constante). La ligne de cet élément est repérée par
Master ESA. Macro-Econometrie. Cours de C. Hurlin 55

le couple (y1 , x1 ) et sa colonne par le couple (y1 , 1) . Ces couples sont stockés dans
des variables :

• EQ_ROW : Nom de l’équation associée à la ligne

• INST_ROW : Nom de l’instrument associée à la ligne

• EQ_COL : Nom de l’équation associée à la colonne

• INST_COL : Nom de l’instrument associée à la colonne

Une variable _TYPE_ doit contenir le terme GMM pour chaque élémént.
Enfin la valeur de Vi,j est indiquée dans la variable VALUE.

Figure 9.4: Matrice de Poids GMM

Afin de mieux comprendre la structure de cette matrice de variance covari-


ance, considérons un exemple (figure 9.4) dans lequel on récupère grâce à l’option
OUTV dans la procédure MODEL la matrice de poids optimale d’une procédure
d’estimation GMM (soit W ∗ = ST−1 dans nos notations). Dans cet exemple, un
modèle à deux équations est simulé puis estimé par GMM. Pour chaque équation
Master ESA. Macro-Econometrie. Cours de C. Hurlin 56

6 instruments sont considérés : la constante (notée 1), la dérivée de l’équation y1


par rapport au paramètre b1 , la dérivée de l’équation y2 par rapport au paramètre
b2 , la dérivée de l’équation y2 par rapport au paramètre c2 et les deux variables
exogènes x1 et x2 . Les dérivées des équations sont nommées @PRED.Y1/@B1,
@PRED.Y2/@B2 et @PRED.Y2/@C2 sous SAS .On a deux équations, ce qui fait
un total de 2 ∗ 6 = 12 conditions d’orthogonalité h (wt , θ0 ) = h (wt , θ 0 ) ⊗ zt . La
matrice de poids optimal a donc une dimension (12, 12) , ce qui implique que seuls
12 ∗ (12 + 1)/2 = 78 éléménts Vi,j doivent être spécifiés. Les 23 premiers éléménts
Vi,j conservé dans la table GMMV sont stockés de la façon suivante (figure 9.5).
On retrouve pour chaque valeur les deux indicatrices de colonne et de ligne.

Figure 9.5: Exemple de Matrice de Poids

9.2.2. La procédure EMM sous SAS


A partir des éléments décrits précédement, le programme qui permet de définir
la matrice V puis de la mettre en forme sous SAS pour l’incorporer dans une
procédure de type GMM s’écrit de la manière suivante (figure 9.6). Dans un
premier temps on construit l’estimateur du MV β = (ω α γ) des paramètres du
Master ESA. Macro-Econometrie. Cours de C. Hurlin 57

modèle aucilmiaire GARCH(1, 1) sur données historiques:


 
T 1 yt2  
t=1 2ht −1 + ht 0
1
T 
1 
T 2
yt−1 yt2   
sf Yt , β =  t=1 2ht −1 + h = 0 (9.24)
T t=1 T t 
T ht−1 y 2 0
t=1 2h −1 + ht
t t

avec
2
ht = ω + αyt−1 + γht−1 (9.25)
Pour cela on utilise la procéudre AUTOREG3 . Reste alors à définir la matrice
de variance covariance asymptotique à partir des scores VT qui servira de poids
dans la procédure GMM.
T
1
VT = sf Yt , β sf Yt , β (9.26)
T t=1

Ceci est fait dans la procédure DATA de la figure (9.6). Cette matrice de
dimension (3, 3) ne nécissite la spécification que 6 élements :
 
V1,1 V1,2 V1,3
V = − V2,2 V2,3  (9.27)
− − V3,3

On récupère ces éléments dans le dernier éléments des variables v (1) à (6) définies
par accumlation partielle des éléments des matrices v t 1 à v t 6. Plus précisè-
ment dans les v t 1 à v t 6 figurent pour chaque date les 6 éléments de la matrice
sf Yt , β sf Yt , β . Reste alors à sommer ces éléments pour les date t = 1 à
T = T. Ce qui est fait en utilisant les sommes partielles définies dans les variables
v (1) à (6). Ainsi sur la figure () sont reportées les valeurs de v (1) à (6) . Seules
celles pour la 1000ème ligne nous servent à constituer la matrice de variance VT .
A partir de ces éléments, il convient de construire une matrice de poids pour
la procédure MODEL comme exposé précédemment. Cette partie est reportée
sur la figure (9.8).
Le résultat de cette mise en forme est de la forme suivante (figure 9.9) :
A partir de ces différents élements, ne reste plus alors qu’à construire l’esti-
mateur EMM en utilisant la commande SOLVE de la procudre MODEL (figure
9.10).
3
Voir poly de cours Econométrie pour la Finance.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 58

Figure 9.6: Matrice de Poids

10. Bibliographie
Bansal, R., Gallant, A.R., Hussey, R., Tauchen, G.E. (1993), ”Computational
Aspects of Nonparametric Simulation Estimation.” In Belsey, D.A. (Ed.), Com-
putational Techniques for Econometrics and Economic Analysis. Boston, MA:
Kluwer Academic Publishers, 3-22.
Bansal, R., Gallant, A.R., Hussey, R., Tauchen, G.E. (1995), ”Nonparametric
Estimation of Structural Models for High-Frequency Currency Market Data,”
Journal of Econometrics, 66, 251-287.
Gallant, A.R. and Tauchen, G.E. (1996), ”Which Moments to Match?” Econo-
metric Theory, 12, 657-681.
Gallant, A.R. and Tauchen, G.E. (2001), ”Efficient Method of Moments,”
Working Paper. [http://www.econ.duke.edu/ get/wpapers/ee.pdf] , accessed 12
September 2001.
Master ESA. Macro-Econometrie. Cours de C. Hurlin 59

Figure 9.7: Résultat de la Procédure DATA

Figure 9.8: Mise en Forme de la Matrice de Poids GMM


Master ESA. Macro-Econometrie. Cours de C. Hurlin 60

Figure 9.9: Matrice de Poids Mise en Forme

Figure 9.10: Estimation GMM

Vous aimerez peut-être aussi