Macro

MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)

Université d’Orléans
Macro-Econométrie
Méthodes de Moments
Christophe Hurlin
Documents et Supports
Année Universitaire 2006-2007
Master Econométrie et Statistique Appliquée (ESA)

Université d’Orléans
Faculté de Droit, d’Economie et de Gestion
Bureau A 224
Rue de Blois – BP 6739
45067 Orléans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
January 26, 2005
Contents
1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Modèle à anticipations rationnelles : Définitions et problème d’es-
timation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Modèle à anticipations rationnelles : Biais des MCO . . . . . . . . 4
2 La Méthode de Moments Généralisés . . . . . . . . . . . . . . . . . . . 7
2.1 Exemple d’estimateurs des moments . . . . . . . . . . . . . . . . 7
2.2 La méthode des Moments Généralisés . . . . . . . . . . . . . . . . 10
2.2.1 Principe général : conditions d’orthogonalité, identification
et estimation . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Cas particulier : Moindre Carré Ordinaires . . . . . . . . . 13
2.2.3 Cas particulier : Variables Instrumentales . . . . . . . . . 14
2.3 Des moments conditionnels aux moments non conditionnels : Mod-
èles Dynamiques sous Anticipations rationnelles . . . . . . . . . . 14
2.3.1 Des moments conditionnels aux moments non conditionnels 15
2.3.2 Cas Particulier : Système d’Equations Simultanées non
Linéaires et Modèle Dynamique sous AR . . . . . . . . . . 15
3 Matrice de poids optimale . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.1 Méthode de GMM en deux étapes . . . . . . . . . . . . . . . . . . 20
3.2 Méthode de GMM itératif . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Méthode de continuous-updating GMM . . . . . . . . . . . . . . . 21
3.4 Estimateurs de la matrice de poids en présence de corrélations . . 22
4 Distribution asymptotique des GMM . . . . . . . . . . . . . . . . . . . 25
4.1 Distribution asymptotique des GMM . . . . . . . . . . . . . . . . 25
4.2 Illustrations dans des cas particuliers . . . . . . . . . . . . . . . . 28
4.2.1 Cas particulier : Moindre Carré Ordinaires . . . . . . . . . 28
4.2.2 Cas particulier : Variables Instrumentales . . . . . . . . . 31
5 Résumé des GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6 Application SAS : procédure MODEL . . . . . . . . . . . . . . . . . . . 33
6.1 Spécification du modèle et des instruments . . . . . . . . . . . . . 34
6.2 La procédure d’estimation . . . . . . . . . . . . . . . . . . . . . . 37
6.3 Estimation du modèle d’Hansen et Singleton (1982) sous SAS . . 39
7 Inférence avec les GMM . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Master ESA. Macro-Econometrie. Cours de C. Hurlin 2
7.1 Test de sur-identification . . . . . . . . . . . . . . . . . . . . . . . 43

7.2 Test de stabilité structurelle . . . . . . . . . . . . . . . . . . . . . 46
8 Maximum de Vraisemblance et GMM . . . . . . . . . . . . . . . . . . . 48
9 Méthodes de Moments Simulés . . . . . . . . . . . . . . . . . . . . . . . 48
9.1 Présentation de la Méthode des Moments Efficients (EMM) . . . . 48
9.2 Application SAS : Modèle de Volatilité Stochastique . . . . . . . . 50
9.2.1 Le contrôle de la matrice de poids . . . . . . . . . . . . . . 54
9.2.2 La procédure EMM sous SAS . . . . . . . . . . . . . . . . 56
10 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
1. Introduction
Les anticipations, et plus particulièrement les anticipations rationnelles (AR par
la suite), jouent un rôle essentiel en théorie économique, que ce soit en micro-
économie, macro-économie, finance etc. Au niveau de l’application économétrique
des ces théories, on peut tout d’abord chercher à appliquer la théorie des AR
de Muth qui suppose que l’on spécifie un modèle macro-économique complet
afin de déterminer de façon rationnelle les anticipations. Dans cette optique
figurent les méthodes d’estimation dites à information complète comme
par exemple le maximum de vraisemblance à information complète (FIML pour
Full Information Maximum Likelihood). On doit alors spécifier le ”vrai” modèle
complet de l’économie qui permet aux agents de former leurs anticipations de
façon compatible à ce modèle. Toute l’histoire est alors spécifiée : la relation
entre variables anticipées et variables réalisées, le processus de formation des
anticipations (AR) et le modèle (souvent appelé modèle auxiliaire) qui sert
aux agents pour former leurs anticipations. Mais bien évidemment, ces méthodes
ne peuvent être appliquées que pour des ”petits modèles” comme par exemple les
modèles de courbe de Phillips de type nouveau-keynesien.
Au contraire de ces méthodes, la plupart des travaux appliqués se contentent
d’estimer une équation voir un système de quelques équations faisant intervenir
quelques variables d’anticipations. On ne cherche pas alors à spécifier le modèle
sous jacent qui permet aux agents de formuler leurs anticipations. On parle alors
de méthodes à information limitée, parmi lesquelles figurent notamment les
méthodes de moments et plus spécifiquement les GMM. Par exemple, dans la
théorie des anticipations pures de la structure par terme des taux d’intérêt, le taux
long sur les obligations dépend des anticpations sur les taux d’intérêt de court
terme. Suivant que l’on spécifie ou non un modèle permettant de former les AR
sur les taux courts on parle d’approche à information complète ou à information
limitée.
Dans le cadre de ce cours nous aborderons dans un premier temps les ap-
proches à information limitée et plus spécifiquement les GMM. Mais avant de
présenter ces méthodes, nous commencerons par définir précisèment le concept
d’AR ce qui nous permettra dans un second temps d’évoquer les problèmes spé-
cifiques d’estimation qui se posent dans un modèle où interviennent des variables
anticipées de façon rationnelle.
1.1. Modèle à anticipations rationnelles : Définitions et problème d’es-

timation
Dans les modèles macro-économiques mais plus généralement dans l’ensemble
des modèles d’anticipation, on souhaite estimer les paramètres structurels d’une
équation unique ou d’un ensemble d’équations composé de termes d’anticipations
qui forment un sous ensemble d’un modèle plus général (d’où la distinction
méthodes à information complète et méthode à information limitée).
Un exemple d’équation structurelle à anticipations est :
yt = β xet+j + µt (1.1)
où le terme d’anticipation xet+j est défini par :
xet+j = E [xt+j | Ωt ] j ≥ 0 (1.2)
Ωt désigne l’ensemble complet d’informations pertinentes disponibles à la date t.

Il y a alors deux options :
• Soit l’on dipose de données d’enquêtes sur E [xt+j | Ωt ], et l’on peut estimer
directement le modèle
• Soit l’on ne dipose pas de données sur E [xt+j | Ωt ] et l’on pose des hy-
pothèses auxiliaires sur cet terme d’anticipation. Il n’existe donc pas de
test propre au modèle (1.1) : on testera à la fois le modèle et les hypothèses
auxiliaires sur E [xt+j | Ωt ] (exemlple : théorie de la structure par terme des
taux d’intérêt).
Quel que soit le modèle d’anticipation que lon retient, il existe trois principaux
éléments :
• L’horizon des anticipations
• La date et le contenu de l’ensemble d’information utilisé pour former les

anticipations
• La relation entre l’erreur d’anticipation et l’ensemble d’information
Les anticipations rationnelles (AR) introduites initiallement par Muth

(1961) mais popularisées par Lucas (1972), présentent un certain nombre d’ax-
iomes de base. Le premier axiome est celui de la spécification correcte. Si
les agents forment des AR, ils agissent comme s’ils connaissaient la structure du
modèle complet jusqu’à un ensemble d’erreurs de type bruit blanc près.
Résultat En conséquence de quoi, (i) les anticipations rationnelles ne

sont pas biaisées en moyenne. (ii) Les erreurs de prévisions à
une période successives ont une variance constante et ne sont pas
corrélées entre elles et avec l’ensemble d’information utilisé pour
former les anticipations. Ainsi pour une anticipation à 1 péridode on :
xt+1 = xet+1 + ω t+1 (1.3)
avec
E [ω t+1 | Ωt ] = 0 (1.4)
E ω 2t+1 Ωt = σ 2ω (1.5)
E ω t+1 ω t+1+j Ωt = 0 ∀j (1.6)
L’erreur de prévision des AR pour la période suivante est donc un bruit blanc
ou une innovation conditionnelle à l’ensemble d’information complet Ωt et est
orthogonal à tout sous ensemble Λt ⊂ Ωt
E [ω t+1 | Λt ] = 0 Λt ⊂ Ωt (1.7)
Si l’on considère des AR à k périodes, les erreurs de prévisions sonta lros

autocorrélées et sont représentées par un processus M A (k − 1) . Supposons que
le processus xt soit AR (1) :
xt+1 = φxt + εt+1 (1.8)
où ε est un bruit blanc vérifiant par conséquent E [εt+1 | Ωt ] = 0 et par conséquent

E [εt+j | Ωt ] , j > 0. En itérant vers le passé on a donc :
j−1
xt+j = φh εt+j−h + φj xt
h=0
= φj + εt+j + φεt+j−1 + φ2 εt+j−2 + ... + φj εt+1 (1.9)
Par conséquent on montre que :
xt+1 − E [xt+1 | Ωt ] = εt+1
On retrouve le résultat selon lequel l’erreur de prévision à l’ordre 1 est un bruit

εt+1 = ω t+1 . Dans le cas général :
j−1
xt+j − E [ xt+j | Ωt ] = φh εt+j−h
h=0
= εt+j + φεt+j−1 + φ2 εt+j−2 + ... + φj−1 εt+1
On retrouve ici l’écriture d’un modèle MA(j − 1) pour l’erreur de prévision à

l’ordre j. On vérifie que toutes les erreurs de prévisions multi-périodiques sont
indépendantes (ou orthogonales) à l’ensemble d’information Ωt :
E { xt+j − E [xt+j | Ωt ]| Ωt } = E [xt+j | Ωt ] − E [ xt+j | Ωt ] = 0 (1.10)
Il est une propriété supplémentaire qui est utile pour anlyser les AR qui con-
cerne la révision des anticipations. La révision à une période des anticipa-
tions dépend seulement de l’information qui arrive entre t et t + 1. En
effet :
E [ xt+j | Ωt+1 ] − E [xt+j | Ωt ] = φj−1 εt+1 (1.11)
La révision à deux périodes dépend naturellement de εt+1 et εt+2 et est
M A (1) .
E [xt+j | Ωt+2 ] − E [xt+j | Ωt ] = φj−2 εt+2 + φj−1 εt+1 (1.12)
De façon générale, on a pour j > k :
j−k−1 j−1
E [xt+j | Ωt+k ] − E [xt+j | Ωt ] = φh εt+j−h − φh εt+j−h
h=0 h=0
j−1
= φhεt+j−h
h=j−k−1
1.2. Modèle à anticipations rationnelles : Biais des MCO

Il existe deux principaux problèmes liés à la présence de termes d AR : un prob-
lème d’autocorrélation et une corrléation entre les regréesseurs et le
terme d’erreur (endogeniété). Considérons le modèle :
yt = δ 1 xet+1 + δ 2 xet+2 + µt (1.13)
xt+j = xet+j + εt+j (1.14)

où µt est i.i.d. 0, σ 2µ . La méthode la plus utilisée pour estimer cette
équation est la méthode des erreurs dans les varaiables (EVM) où l’on
remplace la variable anticipée xet+j non observable par la valeur observée
xt+j . On obteint ainsi une équation du type :
yt = δ 1 xt+1 + δ 2 xt+2 + vt (1.15)
vt = µt − δ 1 εt+1 − δ 2 εt+2 (1.16)

Naturellement, on sait que xt+j et εt+j sont corrélés par conséquent :
E (xt+1 vt ) = 0 E (xt+2 vt ) = 0 (1.17)
Les variables explicatives xt+1 et xt+2 ne sont pas indépendante du résidu vt : on

a donc un problème d’endogénéité qui peut être régélé par une méthode de type
variable instrumentale. Mais en outre, il y a une auto-corrélation des résidus vt
liée à la moyenne mobile des erreurs introduite par les erreurs de prévision. Si le
processus xt est un vrai AR(1) de paramètre φ et d’innvoation ξ t
1
εt+2 = xt+2 − E [xt+2 | Ωt ] = φh ξ t+2−h = ξ t+2 + φξ t+1
h=0
0
εt+1 = xt+1 − E [xt+1 | Ωt ] = φhξ t+1−h = ξ t+1
h=0
D’où
vt = µt − δ 1 εt+1 − δ2 εt+2
= µt − δ 1 ξ t+1 − δ 2 ξ t+2 + φξ t+1
= µt − (δ 1 + δ 2 ) ξ t+1 − δ 2 φξ t+2
Par conséquent E (vt vt−1 ) = 0 même si ξ t est i.i.d.
Evaluons à présent le biais des MCO lié au problème d’endogénéité. Consid-

érons un modèle avec une seule anticpation :
yt = βxet+1 + µt (1.18)
où µt est i.i.d. 0, σ 2µ . On suppose que

T
1
plim xt+1 µt =0 (1.19)
T t=1
Si l’on retient l’hypothèse de RE, alors
xt+1 = xet+1 + εt+1 (1.20)
où l’erreur de prévision εt+1 est independante de l’ensemble d’information, E [εt+1 | Ωt ] .

On obtient donc :
yt = βxt+1 + zt
zt = µt − βεt+1
Appliquons les MCO à cette équation :

T −1 T
β−β = x2t+1 xt+1 zt (1.21)
t=1 t=1
Or on sait que :
T T T
1 1 2 1
plim x2t+1 = plim xet+1 + plim ε2t+1
T t=1
T t=1
T t=1
De plus,
T T T
1 1 1
plim xt+1 zt = plim xt+1 µt − βplim xt+1 εt+1
T t=1
T t=1
T t=1
T
1
= −βplim xt+1 εt+1
T t=1
T
1
= −βplim xet+1 + εt+1 εt+1
T t=1
T
1
= −βplim ε2t+1
T t=1
Dès lors, on montre que :

T
plim T1 2
t=1 εt+1
plim β − β = −β T 2 T
(1.22)
plim T1 t=1 xet+1 + plim T1 2
t=1 εt+1
On a donc un biais négatif sur l’estimateur MCO Le biais est d’autant plus petit
que la variance asymptotique des erreurs d’anticipations εt+1 est faible. Les MCO
ne sont donc pas convergents en raison de la corrélation entre la variable xt+1 et
le terme d’erreur zt qui contient l’erreur de prévision des AR. La solution de ce
problème est d’utiliser un estimateur des variables instrumentales. Mais ce type
d’estimateur ne peut être mis en place que sous l’hypothèse que les résidus sont
non auto-corrélés. Or ces derniers peuvent l’être dès lors que l’on fait inetrevenir
des anticipations sur plusieurs périodes ou que les erreurs structurelles µt sont
elles mêmes auto-corrélées. Dans ce cas, il ne rest que deux solutions générales à
ce problème :
• La méthode des GMM d’Hansen (1982) qui permet de corriger la matrice
de variance covariance pour tenir compte des erreurs auto-corrélées
• La méthode des doubles moindres carrés à deux étapes (Cumby et al. 1983).
Dans ce cours, nous présenterons la méthode des moments généralisés ou
GMM.
2. La Méthode de Moments Généralisés

Cette partie reprend intégralement la présentation proposée par Hamilton (1994).
Commençons par considérer un exemple.
2.1. Exemple d’estimateurs des moments

Considérons l’exemple suivant. On considère une variable économique Yt dis-
tribuée selon une distribution de Student à v degrés de liberté, dont la densité
est :
−( v+1
2 )
Γ v+12 yt2
fYt (yt , v) = 1 + (2.1)
(πv)1/2 Γ v2 v
Où Γ (.) désigne la fonction gamma1 . Supposons que l’on dispose d’un échantillon
de T réalisations (y1 , .., yT ) et que l’on désire à partir de cet échantillon estimer
le nombre de degré de liberté v. La première approche que l’on pourrait qualifier
d’approche à information complète consiste en une estimation par maximum de
vraisemblance (MV par la suite). La log-vraisemblance de l’échantillon s’écrit
dans ce cas :
T
L (v) = log fYt (yt , v)
i=1
et l’estimateur v est alors défini par :
v = ArgM ax L (v)
{v∈R+ }
Une méthode alternative consiste au lieu d’exploiter l’information complète

de la fonction de densité fYt (yt , v) , équivalente à la fonction génératrice des mo-
ments, de n’exploiter qu’un nombre restreint de moments. On sait en effet que
la connaissance de la densité fYt (yt , v) est équivalente à la connaissance de la
fonction génératrice de moments g (h) :
∞
g (h) = E Y h = y h fYt (yt , v) dy (2.2)
−∞
On sait en effet qu’il y a une équivalence entre donner la fonction de densité

fYt (yt , v) ou doner la fonction génératrice des moements g (h) telle que :
∞
g (h) = E Y h = yth fYt (yt , v) dyt (2.3)
−∞
1
On rappelle que :
∞
Γ (r) = e−x xr−1 dx r > 0 Γ (α) = (α − 1)! si α ∈ N∗
0
Mais plutôt que d’utiliser l’ensemble des moments g (1) , g (2),.. g (h) pour estimer
v on peut se contenter d’utiliser un sous ensemble de moments. Supposons que
v > 2, alors on sait en particulier que les deux premiers moments (non centrés)
sont tels que :
v
µ1 = E (Yt ) = 0 µ2 = E Yt2 = var (Yt ) = (2.4)
v−2
Dans ce cas précis, si l’on connaît la valeur de E (Yt2 ) on peut end déuire la
valeur de v :
2E (Yt )
v= (2.5)
[E (Yt ) − 1]
Soit µ2,T le moment empirique non centré d’ordre deux :
T
1
µ2,T = yt2
T i=1
On sait que cet estimateur est dans ce cas un estimateur convergent de µ2 .

p
µ2,T −→ µ2 (2.6)
T →∞
On peut en déduire que si T est très grand :

v
µ2,T
v−2
et que par conséquent on peut déuire du seul moment empirique µ2,T un estimateur
convergent de v :
2µ2,T
v= (2.7)
µ2,T − 1
Cet estimateur existe dès lors que µ2,T > 1, c’est à dire dès lors que l’échantillon
présente une volatilité supérieure à celle d’une loi normale N (0, 1) qui corre-
spond à la loi limite de Yt obtenue pour v → ∞. Cet estimateur v est qualifié
d’estimateur de la méthode des moments classique (classical method of
moments).
De façon plus générale, si l’on considère un vecetur de paramètre β ∈ RK

caractérisant la densité fYt (yt , β) d’une variable Yt et si l’on suppose que K
moments distincts dépendent de β :
E Yti = µi (β) i = i1, i2 , .., iK (2.8)
alors l’estimateur β T de la méthode des moments classique (classical method

of moments) est obtenu par la résolution d’un système à K équations et K in-
connues :
µi β T = µi,T (2.9)
où µi,T désigne l’estimateur du moment empirique :

T
1
µi,T = yti i = i1, i2 , .., iK (2.10)
T i=1
Présentons à prsént à partir de cet exemple, la méthode des moments genéral-

isés ou GMM.
Dans l’exemple précédent, on estime un paramètre (v) en utilisant un seul

moment empirique (moment d’ordre deux µ2 ). On aurait pu utliser à la place de
ce moement n’importe quel autre moment de Yt dépendant lui aussi du paramètre
v. Par exemple, dans le cas de la loi de Student dès lors que v > 4, on sait que le
moement centyré d’ordre 4 s’écrit :
3v 2
µ4 (v) = E Yt4 = (2.11)
(v − 2) (v − 4)
T
On aurait pu alors utiliser le moment empirique d’ordre 4, µ4,T = (1/T ) i=1 yt4
et résoudre l’équation :
3v 2
µ4,T =
(v − 2) (v − 4)
afin d’en déduire l’estimateur des moments v.
Une autre possibilité consiste à déterminer un estimateur v qui permettent

d’obtenir des valeurs des moments d’ordre deux et quatre aussi près que possible
des réalisations des moements empiriques µ2,T et µ4,T . Il n’est bien évidemment
pas possible d’égaliser les deux moments de façon conjointe et de trouver une
valeur unique de v permettant de résoudre le système :
v
µ2,T − v−2 =0
3v 2
µ4,T − (v−2)(v−4) = 0
Remarque C’est pourquoi on cherche à déterminer l’estimateur v qui minimise

une fonction critère de la forme :
Q (v, y1 , y2 , .., yT ) = g W g (2.12)

(1,1) (1,2) (2,2) (2,1)
où le vecteur g est défini par :

v
µ2,T − v−2
g= 3v2 (2.13)
µ4,T − (v−2)(v−4)
et où la matrice W est une matrice de poids symétrique et définie posi-

tive qui reflète l’importance attribuée à chacun des deux moements que l’on
désire reproduire (match).
Un estimateur v est alors obtenu par le prgramme :
v = ArgM in Q (v, y1 , y2 , .., yT ) (2.14)
{v∈R+ ,v>4}
Un tel estimateur est appelé estimateur ”minimum chi-square” par Cramer

(1976) ou ”minimum distance estimator” par Malinvaud (1970). Mais c’est sans
conteste Hansen (1982) qui en donné la caractérisation la plus générale notam-
ment dans le cas de processus avec dépendances temporelles. Il l’a appelé estima-
teur des Moments Généralisés ou Generalized Method of Moments (GMM).
2.2. La méthode des Moments Généralisés

Commençons par présenter les principe général des GMM avant d’étuider certains
cas particuliers.
2.2.1. Principe général : conditions d’orthogonalité, identification et

estimation
Soit wt un vecteur (h, 1) de variables économiques observées à la date t et soit θ
un vecteur (a, 1) de paramètres et h (θ, wt ) une fonction à valeur de Ra × Rh dans
Rr . h (θ, wt ) désigne donc un vecteur (r, 1) de variables aléatoires dès lors que wt
est lui même aléatoire. Soit θ0 la vraie valeur du vecteur θ.
Definition 2.1. On appelle conditions d’orthogonalité les r conditions
définies par le système:
E [h (θ0 , wt )] = 0 (2.15)
(r,1) (r,1)
Soit YT = wT , wT −1 , .., w1 un vecteur (T h, 1) contenant toutes les ob-

sersvations des h variables du système et soit g (YT , θ) le vecteur (r, 1)
des moments empiriques correspondants tel que :
T
1
g (YT , θ) = h (θ, wt ) (2.16)
T t=1
L’idée de base des GMM consiste à déterminer une valeur de θ telle que les
r moments empiriques g (YT , θ) soient aussi proches que possible de zéro.
g (YT , θ) 0 pour θ = θT
Ainsi, on peut définir l’estimateur GMM de la façon suivante.
Definition 2.2. L’estimateur GMM θT du vecteur θ minimise une fonc-

tion critère (ou fonction de perte) :
θ T = ArgM in Q (θ, YT ) (2.17)

{θ∈Ra }
telle que :
Q (θ, YT ) = [g (YT , θ)] WT g (YT , θ) (2.18)
(1,r) (r,r) (r,1)
où {WT }∞T =1 désigne une séquence de matrices de poids symétriques

définies positives qui peuvent être fonction de YT .
Dans la plupart des cas, ce programme de minimisation ne peut être mené à

bien que numériquement. L’intuition est très simple. On sait que quelle que soit
la valeur de θ, d’après la loi des grands nombres :
p
g (YT , θ) −→ E [h (θ, wt )]
T →∞
Supposons que E [h (θ, wt )] soit continue en θ et que θ0 soit la seule valeur telle
que E [h (θ0 , wt )] = 0. Dès lors, sous des conditions de stationnarité, de continuité
et des conditions sur les moements, la valeur θT qui rend minimum le critère
Q (θ, YT ) donne un estimateur convergent de θ 0 .
Exemple 1 : La méthode classique des moments de notre exemple précedent

est un cas particulier de cette formule avec r = a = 1.
v
h (v, yt ) = yt2 −
v−2
telle que pour la vraie valeur v0 :
v0
E [h (v0 , yt )] = E yt2 − =0
v0 − 2
L’équivalent empirique de cette condition d’orthogonalité est donnée par :
T
1 v
g (YT , v) = yt2 − (2.19)
T t=1
v−2
En posant, WT = 1, on retrouve le programme de la méthode classique :

T 2
1 v
Q (v, YT ) = yt2 − (2.20)
T t=1
v−2
La plus petite valeur admissible de Q (v, YT ) est 0 obtenue pour :

T
1 v
yt2 =
T t=1
v−2
soit
2µ2,T
v= (2.21)
µ2,T − 1
On retrouve donc l’estimateur de la méthode classique des moments.
De façon générale, on distingue deux cas suivant la valeur de a et r :
Definition 2.3. Lorsque il existe autant de conditions d’orthogonalité

que de paramètres (a = r) on dit que le système est juste identifié
et l’estimateur GMM se ramène au vecteur θT de dimension (r, 1) qui
permet de résoudre le système à r équations :
g YT , θ T =0 (2.22)
Dans ce cas, il s’agit juste de résoudre un système éventuellement non linéaire

à r équations et r inconnues. Le choix de la matrice de poids WT est totalement
neutre, ce qui explique qu’elle ne soit pas spécifiée.
Definition 2.4. Lorsque il existe plus conditions d’orthogonalité que de

paramètres (a > r) on dit que le système est sur-identifié. L’estimateur
GMM dépend alors du choix de la matrice de poids WT.
Dans ce cas se pose le problème crucial du choix de la matrice de poids opti-

male.
Résultat Un des nombreux avantages des GMM est que c’est une
méthode englobante permettant de retouver comme cas partic-
uliers un grand nombre d’estimateurs usuelsparami lesquels
- les Moindres Carrés Ordinaires
- les Variables Instrumentales et Doubles Moindres Carrés
- les Moindres Carrés non Linéaires
- le Maximum de vraisemblance.
Considérons quelques exemples.

2.2.2. Cas particulier : Moindre Carré Ordinaires

Considérons un modèle de régression standard :
yt = xt β 0 + ut (2.23)
où xt est un vecteur de dimension (k, 1) de variables explicatives. On suppose
que la varie valeur du vecteur β est égale à β 0 . L’hypothèse centrale qui justifie
l’emloi des MCO est la propriété d’orthogonalité des résidus théoriques par
rapport aux variables explicatives :
E (xt ut ) = 0 (2.24)
(k,1) (k,1)
Donc pour la vraie valeur β 0 , on a :

E [xt (yt − xt β 0 )] = 0 (2.25)
ce qui représente une système de k conditions d’orthogonalité. Posons dans
nos notations wt = (yt xt ) et θ = β, on a :
h (θ, wt ) = xt (yt − xt β)
E [h (θ0 , wt )] = 0
Dans ce cas le système est dit juste identifié puisque il y a a = k paramètres
à estimer pour r = k conditions d’orthogonalité. Puisque le système est juste
identifié, l’estimateur GMM se ramène à déterminer θT tel que
g YT , θ T =0 (2.26)
où g (YT , θ) désigne le vecteur des moments empiriques correspondant aux k con-
ditions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − xt β)
T t=1
T t=1
On a donc à résoudre le système suivant :
T
1
g YT , θT = xt yt − xt β T =0
T t=1
Ce qui peut se réécrire sous la forme :
T T
xt yt = xt xt βT
t=1 t=1
T −1 T
⇐⇒ β T = xt xt xt yt = β MCO (2.27)
t=1 t=1
On retrouve ainsi l’estimateur MCO β MCO .

2.2.3. Cas particulier : Variables Instrumentales

Considérons à nouveau un modèle de régression standard :
yt = zt β 0 + ut (2.28)
où zt est un vecteur de dimension (k, 1) de variables explicatives. Supposons
qu’un certain nombre de variables explicatives soient endogènes c’est à dire que
E (zt ut ) = 0. Soit xt un vecteur (r, 1) de variables explicatives prédeterminées
corrélées avec les variables zt mais non corrélées avec les résidus ut .
E (xt ut ) = 0 (2.29)
Cette contrainte nous définit r conditions d’orthogonalité :
E [xt (yt − zt β 0 )] = 0 (2.30)
On reconnait donc un cas particlier des GMM avec wt = (yt xt zt ) et θ = β,
a = k.
h (θ, wt ) = xt (yt − zt β) (2.31)
E [h (θ0 , wt )] = E [xt (yt − zt β 0 )] = 0
Soit g (YT , θ) le vecteur des moments empiriques correspondant aux r condi-
tions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − zt β)
T t=1
T t=1
Si l’on suppose que le système est juste identifié (a = r) , alors l’estimateur

GMM est obtenu par la résolution du système :
T
1
g YT , θ T = x t yt − z t β T =0 (2.32)
T t=1
D’où l’on tire finallement que :

T −1 T
βT = xt zt xt yt = β IV (2.33)
t=1 t=1
On retrouve ainsi l’estimateur des variables instrumentales β IV .
2.3. Des moments conditionnels aux moments non conditionnels : Mod-

èles Dynamiques sous Anticipations rationnelles
Jusqu’à présent nous n’avons présenté les GMM qu’en utilisant des moments
conditionnels. Or dans de nombreux modèles théoriques en macroéconomie, in-
terviennent des moments conditionnels.
2.3.1. Des moments conditionnels aux moments non conditionnels

Supposons que l’on dipsoe d’un modèle avec des conditions d’orthogonalité por-
tant sur les moments conditionnels du type :
E [h (θ0 , wt )| zt ] = 0 (2.34)
où zt est un vecteur de variables pré-determinées. On souhaite transformer

ces conditions sur les moments conditionnels en conditions sur les moments con-
ditionnels.
Résultat Soient deux variables aléatoires z et u, alors :
cov (z, u) = cov [z, E (u| z)] (2.35)
La condition E (u| z) = 0 implique alors que cov (u, z) = 0. Sachant

que cov (u, z) = E (zu)−E (z) E (u) et que E (u| z) = 0 implique E (u) =
0 (espérances itérées). On en déduit donc que :
cov (z, u) = 0
E (u| z) = 0 =⇒ =⇒ E (uz) = 0 (2.36)
E (u) = 0
C’est cette propriété qui va nous permettre d’appliquer les GMM à des moe-
ments conditionnels et en particulier aux modèles à AR.
2.3.2. Cas Particulier : Système d’Equations Simultanées non Linéaires

et Modèle Dynamique sous AR
Les GMM constituent avec le FIML sans doute la méthode d’estimation la plus
utilisér pour les systèmes d’équations simultanées non linéaires. Supposons que
l’on cherche à estimer un système de n équations de la forme :
yt = f (θ, zt ) + ut (2.37)
(n,1) (n,1) (n,1)
où zt est un vecteur de dimension (k, 1) de variables explicatives et θ un vecteur

de paramètres de dimension (a, 1) . On pose
     
y1t u1t f1t (θ, zt )
yt =  ..  ut =  ..  f (θ, zt ) =  .. 
(n,1) (n,1)
ynt unt fnt (θ, zt )
Soit xit un vecteur d’instruments non corrélés avec le ième élément uit des
résidus.
E xi,t ui,t =0
(ri ,1)(1,1)
Pour chaque résidu d’équation uit on peut donc avoir plusieurs conditions
d’orthogonalité. Supposons qu’au total on dispose de r = ni=1 ri conditions
d’orthogonalité :  
[y1t − f1 (θ, zt )] x1t
 [y2t − f2 (θ, zt )] x2t 
h (θ, wt ) = 
 ...


[ynt − fn (θ, zt )] xnt
avec wt = (yt xt zt ) . L’estimateur GMM est alors obtenu en minimisant la fonc-
tion critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (2.38)
T t=1
T t=1
où WT est une matrice de poids.
Exemple : le modèle de portefeuille (Hansen et Singleton, 1982).

Une application très célébre de ce principe permet d’estimer des Modèle Dy-
namique sous AR. Considérons un modèle intertemporel de consommation dans
un univerrs stochastique avec un agent représentatif qui maximise à tout date :
∞
max U = β τ Et (ct+τ ) (2.39)
τ =0
où ct désigne la consommation à la date t, 0 < β < 1 un facteur d’escompte psy-

chologique et Et (ct+τ ) l’opérateur espérance conditionnelle à toute l’in-
formation disponible à la date t.
Et (ct+τ ) = E (ct+τ | xt ) (2.40)
où xt est un vecteur de variables observables contenant toute une partie

de l’information disponible pour l’agent à la date t. Supposons que l’agent
puisse épargner et investir dans m titres indicés i = 1, ., m qui pour tout euro
investit à la date t lui rapportent 1 + ri,t+1 à la période suivante. Ce rendement
incertain n’est pas connu à la date t. Sa containte budgéatire est alors de la forme
: m m
ct + pit qit ≤ pit qit−1 + Rt (2.41)
i=1 i=1
où Rt est le revenu du travail à la date t, qit le montant d’actif i détenu par l’agent
à la date t et pit le prix de cet actif à la date t. On note ri,t+1 = pi,t+1 /pt . On sait
que dans ce modèle la condition d’arbitagre inter-temporel de la consommation
devient :
u (ct ) = βEt [(1 + ri,t+1 ) u (ct+1 )] i = 1, 2..., m (2.42)
dès lors que l’agent détient une part non nul dans tous les actifs.
Supposons que la fonction d’utilité de l’agent soit de type CRRA
c1−γ
t si γ > 0 et γ = 1
u (ct ) = 1−γ
log(ct ) si γ = 1
où γ désigne le coefficient d’aversion relative pour le risque. Dès lors la conditions

d’arbitrage inter-temporelle se ramène à :
c−γ
t = βEt (1 + ri,t+1 ) c−γ
t+1
ou encore
−γ
ct+1
1 = βEt (1 + ri,t+1 ) (2.43)
ct
puisque la variable ct est connue à la date t. Cette expression signifie que chaque
variable aléatoire définie par
−γ
ct+1
1 − β (1 + ri,t+1 ) i = 1, ..m
ct
doit être orthogonale à toute variable contenue dans l’ensemble d’in-

formation xt . Soit θ = (β γ) le vecteur de paramètres du modèles. Soit wt =
(r1t+1 r2t+1 ...rmt+1 ct+1 /ct xt ) l’ensemble des variables observées par l’économètre
à la date t. Au total si xt a contient n variables, on obtient pour chaque actif n
conditions d’orthogonalité, soit un total de
r =n×m
conditions d’orthogonalité.
 −γ 
ct+1
1 − β (1 + r1,t+1 ) xt
 ct
(n,1) 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1
xt 
h (θ, wt ) = 

ct
(n,1)

 (2.44)
(nm,1)  ... 
 
 ct+1
−γ 
1 − β (1 + rm,t+1 ) ct
xt
(n,1)
ou de façon équivalent :
h (θ, wt ) = h (θ, wt ) ⊗ xt
(nm,1) (m,1) (n,1)
 
−γ
ct+1
 1 − β (1 + r1,t+1 ) ct 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1 
⇐⇒ h (θ, wt ) = 

ct  ⊗ xt

(nm,1)  ...  (n,1)
 
 ct+1
−γ 
1 − β (1 + rm,t+1 ) ct
où ⊗ désigne le produit de Kronecker. L’équivalent empriique s’écrit alors défini

par :
T
1
g (YT , θ) = h (θ, wt )
T t=1
L’estimateur GMM est alors obtenu en minimisant le critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (2.45)
T t=1
T t=1
3. Matrice de poids optimale

Quelle matrice de poids WT choisir afin d’obtenir un estimateur convergent et
efficace du vecteur θ ? Supposons que la le processus {h (θ0 , wt )}∞ t=1 soit un
processus stationnaire dont la matrice d’auto-variance à un l’ordre v soit défini
par :
Γv = E h (θ0 , wt ) h (θ0 , wt−v )
Soit S la matrice qui correspond à la somme des autocovariances : cette
matrice correspond à la matrice de variance covariance de long terme du
processus {h (θ0 , wt )}∞
t=1 .
Definition 3.1. La matrice de variance covariance de long terme du processus

{h (θ0 , wt )}∞
t=1 est définie par :
∞ ∞
S = Γv = E h (θ 0 , wt ) h (θ 0 , wt−v ) (3.1)
(r,r)
j=−∞ j=−∞
ce qui peut s’écrire sous la plus forme plus générale

T ∞
1
S = lim E h (θ0 , wt ) h (θ0 , wt−v ) (3.2)
(r,r) T →∞ T
t=1 v=−∞
Sous l’hypothès de stationnarité stricte la quantité Γv = E h (θ 0 , wt ) h (θ0 , wt−v )

ne dépend pas de t et la formule (6.1) est valide.
Naturellement si le processus h (θ0 , wt ) est non autocorélé dans le temps, cette

matrice se ramène à la matrice de variance covariance. En effet, si h (θ0 , wt ) et
h (θ0 , ws ) sont indépendants dès lors que s = t, alors S = Γ0 . Cette matrice S
désigne en outre la matrice de variance covariance asymptotique de la moyenne
empirique des h (θ0 , wt ) :
S = lim T E g (YT , θ) g (YT , θ) (3.3)

T →∞
Résultat La valeur optimale de la matrice de poids WT dans la fonction

critère Q (θ, YT ) est donné par l’inverse de la matrice de variance
covariance asymptotique, S −1
WT∗ = S −1 (3.4)
La plus petite variance asymptotique (dans la cas univarié) pour l’estimateur

GMM θT est obtenue lorsque θ T est déini par résolution du programme :
θT = ArgM in [g (YT , θ)] S −1 g (YT , θ) (3.5)

{θ∈Ra } (1,r) (r,r) (r,1)
Comment estimer cette matrice de poids optimale WT∗ ? Lorsque les élé-
ments du vecteur h (θ0 , wt ) sont non corrélés et non autocorrélés, alors S = Γ0 =
E h (θ0 , wt ) h (θ0 , wt ) . Dans ce cas, la matrice S peut être estimée par la quan-
tité ST∗ :
T
1
ST∗ = h (θ0 , wt ) h (θ0 , wt ) (3.6)
T t=1
Mais puisque la calcul de cette quantité requiert la connaissance de θ0 , on
construit l’estimateur ST défini de la façon suivante.
Definition 3.2. En l’absence de dépendances temporelles des vecteurs {h (θ0 , wt )}∞

t=−∞ ,
la matrice de variance covariance asymptotique S peut être estimée par la quantité
ST :
T
1
ST = h θT , wt h θT , wt (3.7)
T t=1
où θT désigne l’estimateur GMM du veceteur θ. On montre que :

p
ST −→ S
T →∞
On aboutiot dès lors à une produre itérative, puisque pour déterminer θT , il

faut connaitre WT = ST−1 et que pour déterminer ST il faut connaître θT . C’est
pourquoi on distingue trois types de méthodes GMM :
1. Méthode de GMM en deux étapes : Hansen (1982)
2. Méthode de GMM itératif : Ferson et Foerster (1994)
3. Méthode de GMM dite ”continuous-updating GMM” développée

par Hansen, Heaton et Yaron (1996) et étudiée dans Stock and Wright
(2000), Newey et Smith (2003) et Ma (2002).
3.1. Méthode de GMM en deux étapes

C’est la méthode proposée initiallement par Hansen (1982). Dans ce cas, on
commence par construire un estimateur convergent mais non efficace du vecteur
de paramètre θ. Différentes options peuvent être choisies ici. La plus simple
consiste à accorder le même poids aux différentes conditions d’orthogonalité, c’est
à dire à considérer une matrice de poids identité, c’est à dire en posant WT = Ir .
On construit alors un premier estimateur convergent non efficace, noté θ1
θ1 = ArgM in [g (YT , θ)] g (YT , θ) (3.8)

{θ∈Ra } (1,r) (r,1)
En suite à partir de cet estimateur de θ, on constuit un estimateur W1 de la

matrice de poids optimale WT∗ = S −1 , avec :
T −1
1
W1 = S1−1 = h θ 1 , wt h θ 1 , wt (3.9)
T t=1
La deuxième étape consiste à utiliser cet estimateur de la matrice de poids

optimale pour dériver un estimateur θ convergent et efficicace des paramètres θ :
θ = ArgMin [g (YT , θ)] S1−1 g (YT , θ) (3.10)

{θ∈Ra } (1,r) (r,1)
θ est alors appelé, estimateur GMM en deux étapes.
3.2. Méthode de GMM itératif

La méthode des GMM itératif repose sur l’algorithme suivant. De la même façon
que précédemment, on constuit dans une première étape un premier estimateur
θ1 à partir d’une valeur d’amorce de la matrice de poids. Par exemple, on peut
partir d’une matrice identité W0 = Ir attribuant ainsi le même poids à toutes les
conditions d’orthogonalité. On construit alors un premier estimateur GMM tel
que :
θ1 = ArgM in [g (YT , θ)] W0 g (YT , θ) (3.11)
{θ∈Ra }
A partir de ce premier estimateur, on déduit une estimation de la matrice de

variance covariance asymptotique :
T −1
1
W1 = h θ1 , wt h θ1 , wt
T t=1
En ré-introduisant cette estimation de la matrice de poids optimale dans la

fonction critère GMM, on construit un nouvel estimateur, noté θ2 tel que :
θ2 = ArgM in [g (YT , θ)] W1 g (YT , θ) (3.12)
{θ∈Ra }
et ainsi de suite. Etant donné que tous les estimateurs θj ont exactement la même
distribution asympotique, ce processus s’arrête dès lors que :
θj θj−1 (3.13)
La valeur θj est alors estimateur GMM itératif. Dans le logiciels usuels cette
procédure suppose de définir un critère de convergence. Par exemple, si l’on
note θj = θ j,1 , .., θj,a un critère du type :
a
max θj,z − θj−1,z <C (3.14)
z=1
Si cette condition est vérifié, l’algorithme s’arrête. Cette condition se double
généralement d’une condition sur le nombre d’itération. Si ce dernier excède une
une certaine valeur, par exemple 100, l’algorithme s’arrête et un message apparaît
signifiian,t que l’algorithme n’a pas convergé.
3.3. Méthode de continuous-updating GMM

Dans cette approche on va chercher de façon à optimiser la fonction critère en
tenant compte de la forme générale qui lie l’estimateur de la matrice de poids
optimale à la valeur des coefficients. C’est la même démarche que dans le cas
itératif : la différence étant que dans le cas précédent on optimiser le critère pour
obtenir θj , puis on constuisez Wj+1 , pour obtenir ensuite θj+1 . Alors que dans le
cas continu, on optimise le critère à chaque étape en tenant compte de la forme
de Wj qui dépend de θj :
T −1
1
θ = ArgM in [g (YT , θ)] h (θ, wt ) h (θ, wt ) g (YT , θ) (3.15)
{θ∈Ra } T t=1
Cette procédure reste itéraive car on doit utiliser un algorithme d’optimisation

numérique qui partant d’une condition initiale θ0 , d’une règle de passage entre
θj et θ j−1 et d’un critère d’arrêt va déterminer une solution numérique à ce
programme.
3.4. Estimateurs de la matrice de poids en présence de corrélations

Commençons par un certain nombre de rappels :
Lorsque les séquences {h (θ0 , wt )}∞

t=1 présentent des autocorrélations, la ma-
trice de variance covariance de long terme n’est plus égale à la matrice de variance
covariance. S’il existe des Γj = 0 pour j = 0, alors
∞ ∞
S = Γv = E h (θ0 , wt ) h (θ0 , wt−v ) = Γ0
(r,r)
v=−∞ v=−∞
Dès lors les formules précedentes permettant d’estimer S ne sont plus valables.
Considérons l’estimateur Γv de la matrice d’autocovariance d’ordre v, Γv :
T
1
Γv = h θ, wt h θ, wt−v (3.16)
T t=v+1
Sachant que
Γ−v = Γv (3.17)
un estimateur de la matrice S pourrait être donné par la quantité
∞ ∞
S= Γv = Γ0 + Γv + Γv (3.18)
v=−∞ v=1
Naturellement, il n’est pas possible de construire un tel estimateur puisqu’il fait

intervenir des matrices Γv à des ordres supèrieurs à ce que l’on peut estimer
à partir d’un échantillon de T observations. De plus rien ne garantit qu’une
matrice construite uniquement à partir d’une somme tronquée soit définie positive
comme doit l’être toute matrice de variance covariance. On a donc recourt à
des méthodes d’estimation non paramétriques de matrice de variance
covariance de long terme.
Le plus connu de ces estimateurs est l’estimateur de Newey-West (1987). Il se

fonde sur une troncature et l’utilisation de poids décroissants pour les différentes
matrices Γv .
Definition 3.3. En présence de dépendances temporelles des vecteurs {h (θ 0 , wt )}∞

t=−∞ ,
un estimateur non paramétrique (Newey et West, 1987) de la matrice de variance
covariance asymptotique S est donné par :
q
v
SN W = Γ0 + 1− Γv + Γv (3.19)
v=1
q+1
où q désigne un paramètre de troncature et où

T
1
Γv = h θ, wt h θ, wt−v (3.20)
T t=v+1
Ainsi si par exemple, on a q = 2 :

2 1
SNW = Γ0 + Γ1 + Γ1 + Γ2 + Γ2
3 3
L’idée dela démonstration peut se comprendre dans le domaine des fréquences.
Dans un cas sacalire, il s’agit d’évaluer la fonction de densité spéctrale au point
0, puisque cela correspond à un scalaire près à la variance de long terme du
processus.
∞
S= Γv = 2π SY (0)
v=−∞
avec ∞
1
SY (ω) = E (Yt Yt−v ) e−iω
2π v=−∞
L’estimateur de Newey West est égal à 2π fois l’estimateur kernel

(avec kernel de type Bartlett) de la fonction de densité spectrale éval-
uée à la fréquence ω = 0. On applique alors les techniques d’estimation non
paramètrique d’une fonction vues dans le cours d’économétrie non paramétrique.
Résultat Newey et West montrent que ST est positive, semi definie

positive par construction et que si q et T tendent vers l’infini
alors que la quantité q/T 1/4 tend vers 0, alors :
p
SNW −→ S
T →∞
Dans les procédures itératives, le choix de θ dans la construction de Γv peut

être mené parmi l’ensemble des estimateurs convergents de θ.
Andrews (1991) propose d’autres estimateurs de la matrice de variance co-

variance de long terme qui peuvent être préférable sous certaines hypothèses. Il
propose notamment d’utiliser un kernel de type quadratic :

t=−∞ ,
l’estimateur non paramétrique d’Andrews (1991) de la matrice de variance covari-
ance asymptotique S est donné par :
T −1
T v
SA = Γ0 + K Γv + Γv (3.21)
T −k v=1
q+1
où q désigne un paramètre de troncature et K (u) désigne une fonction kernel e

type quadratic spectral (QS) telle que
3 sin (6πu/5)
K (u) = 2 − cos (6πu/5) u=0 (3.22)
(6πu/5) 6πu/5
A la différence de Newey et West (1987) et de Gallant (1987), l’estimateur

d’Andrews tient compte non pas de q matrice Γv , mais de T − 1 matrices. Par
exemple, toujours avec l’hypothèse q = 2, on obtient alors :
T −1 q
v
Γ0 + K Γv + Γv = Γ0 + K (v/3) Γv + Γv
v=1
q+1 v=1
= Γ0 + 0.85 Γ1 + Γ1 + 0.5 Γ2 + Γ2 + ..
Andrews recommande en outre de multiplier l’estimateur kernel par un facteur

T / (T − k) lorsqu’il, s’agit d’estimer la variance de long terme des résidus d’un
modèle à k paramètres.
Un estimateur similaire est proposé par Gallant (1987) à partir d’un Kernel
de Parzen.

t=−∞ ,
l’estimateur non paramétrique de Gallant (1987)de la matrice de variance covari-
ance asymptotique S est donné par :
q
v
SG = Γ0 + K Γv + Γv (3.23)
v=1
q+1
où q désigne un paramètre de troncature et K (u) désigne une fonction kernel de

Parzen telle que
 2 3
 1 − 6 |u| + 6 |u| si 0 ≤ |u| ≤ 1/2
3
K (u) = 2 (1 − |u|) si 1/2 ≤ |u| ≤ 1 (3.24)

0 sinon
Ainsi si par exemple, on a q = 2 :

5 2
SG = Γ0 + Γ1 + Γ1 + Γ2 + Γ2
9 27
Enfin, en ce qui concerne les formules de détermination des paramètres de
troncature (ou des paramètres bandwith quivant les cas) q, on peut se réferrer à
Andrews (1991) et à Newey et West (1994). En particulier, dans un cas scalaire
la valeur optimale au sens d’Andrews (1991) du paramètre de troncature q pour

une fonction kernel de Bartlett correspond à l’entier le plus proche de la quantité
: 2
r1 3 1
q = 1. 8171 (T − 2) 3 (3.25)
1 − r12
où r1 désigne l’autocorrélation d’ordre un des résidus.
4. Distribution asymptotique des GMM

Nous ne considérons ici que le cas des estimateurs de type GMM en deux étapes.
Nous commencerons par présenter la distribution asymptotique générale des GMM,
puis nous étudierons quelques illustrations dans des cas particuliers.
4.1. Distribution asymptotique des GMM

Commençons par un certain nombre de rappels.
Rappel 1 Soit y un vecteur (n, 1) fonction d’un vecteur x de dimension (m, 1)

tel que :    
y1 f1 (x)
 ..  = f (x) =  ..  (4.1)
yn fn (x)
alors la matrice ∂y/∂x est une matrice (n, m) telle que
   ∂f1 (x) ∂f1 (x)

∂f1 (x) /∂x ∂x1
.. ∂xm
∂y = 
=  ..  .. .. 
∂x ∂fn (x) ∂fn (x)
∂fn (x) /∂x ∂x1
.. ∂xm
Rappel 2 Soit y = Ax om A est une matrice (n, m) alors :

∂y ∂ (Ax)
= =A (4.2)
∂x ∂x
Rappel 3 Soit y = z x où z et x sont des vecteurs :

∂ (z x)
=z (4.3)
∂x
Rappel 4 Soit x un vecteur (n, 1) , f (x) un vecteur de dimension (m, 1) et A

une matrice symétrique (m, m) , alors :
∂f (x) Af (x) ∂f (x)

=2 A f (x) (4.4)
∂x ∂x
en cas particulier, si f (x) = x alors ∂f (x) /∂x = I, dès lors :

∂x Ax
= 2Ax (4.5)
∂x
Soit θT l’estimateur GMM obtenue en minimisant le critère :
θT = ArgMin [g (YT , θ)] ST−1 g (YT , θ) (4.6)

{θ∈Ra } (1,r) (r,r) (r,1)
où ST est considérée comme fixe par rapport à θ et ST est un estimateur conver-

gent de S.
p
ST −→ S
T →∞
Cette minimisation de crière est obtenue en annulant la dérivée du critère par

rapport au vecteur θ.
Definition 4.1. L’esimateur GMM est donc obtenu par la résolution

du système d’équations non linéaires suivant :
∂g (YT , θ)
× ST−1 × g YT , θ = 0 (4.7)
∂θ θ (r,r) (a,1)
(r,1)
(a,r)
∂g(YT ,θ)
Il faut bien comprendre ici que la matrice ∂θ
désigne une matrice
θ
de dimension (r, a) dans laquelle figurent les dérivées de la fonction vectorielle
g (YT , θ) par rapport aux a éléments du vecteur θ et que ces dérivées sont évaluées
au point θ = θ, estimateur GMM.
On sait que g (YT , θ) désigne la moyenne empirique d’un processus h (θ0 , wt )

dont l’espérance est nulle :
T
1
g (YT , θ) = h (θ, wt ) (4.8)
T t=1
avec E [h (θ 0 , wt )] = 0. Dès lors, on peut appliquer sous certaines conditions

(stationnarité des variables wt , continuité de la fonction h (θ0 , wt ) et restrictions
sur les autres moments) un théorème central limite.
Résultat Sous certaines restrictions (stationnarité des variables wt , con-

tinuité de la fonction h (θ0 , wt ) et restrictions sur les autres mo-
ments), on a:
√ L
T g (YT , θ0 ) −→ N (0, S) (4.9)
T →∞
∞ ∞
où S = v=−∞ Γv = v=−∞ E h (θ0 , wt ) h (θ0 , wt−v ) telle que :
S = lim T E g (YT , θ0 ) g (YT , θ0 ) (4.10)

T →∞
√ L
En effet, on rappelle que d’après l’énoncé du TCL T h−E h −→
T →∞
N 0, V h , avec ici E h = E (h (θ0 , wt )) = 0 et V h = S.
Ces résultats suffisent à montrer que l’estimateur GMM θT est asympto-

tiquement distribué et à calculer sa matrice de variance covariance asymptotique
(Hansen, 1982) :
Theorem 4.2. On suppose que la fonction g (YT , θ) est differentiable en

θ pour tout YT et soit θT l’estimateur GMM statisfaisant le système (4.7)
∞
pour r ≥ a. Soit ST une séquence de matrices définies positives
T =1
p
telles que ST → S, où S est définie positive. Si
p
(i) θT → θ 0
√ L
(ii) T g (YT , θ0 ) → N (0, S)
∞ p
(iii) pour toute séquence θT telle que θT → θ 0 , on ait
T =1
∂g (YT , θ) ∂g (YT , θ)
plim = plim =D (4.11)
∂θ θT ∂θ θ0 (a,r)
où les colonnes de D sont linéairement indépendantes, alors :

√ L
T θT − θ0 −→ N (0, V ) (4.12)
T →∞
avec
−1
V = D S −1 D (4.13)
(a,a) (a,r) (r,r) (r,a)
La démonstration de ce théorème est donnée dans Hamilton (1994). Bien

évidemment la matrice de variance covariance asymptotique V de l’estimateur
GMM ne peut être évaluée directement puisqu’elle dépende de θ0 . Généralement,
on utilise l’approximation suivante.
Résultat Sous les hypothèses du théorème 1, on admet que :

√ L
T θT − θ0 −→ N 0, VT (4.14)
T →∞
ce qui peut encore s’écrire sous la forme :
VT
θT ∼
=N θ0 , (4.15)
T
−1
où l’estimateur VT = DS −1 D de la matrice de variance covariance
asympotique est construit à partir de :
∂g (YT , θ)
D= (4.16)
∂θ θ=θT
avec en l’absence de corrélation des séries h θT , wt
T
1
ST = h θT , wt h θT , wt (4.17)
T t=1
ou en présence de corrélation :
q
v
S = Γ0 + 1− Γv + Γv (4.18)
v=1
q+1
T
1
Γv = h θ, wt h θ, wt−v (4.19)
T t=v+1
4.2. Illustrations dans des cas particuliers

Considérons quelques cas particuliers en commençant .par les MCO.
4.2.1. Cas particulier : Moindre Carré Ordinaires

Reprenons le modèle de régression standard :
yt = xt β 0 + ut (4.20)
où xt est un vecteur de dimension (k, 1) de variables explicatives. On a vu que

la propriété d’orthogonalité des résidus théoriques par rapport aux variables
explicatives E (xt ut ) = 0 se traduit par un système de k conditions d’orthog-
onalité. Posons dans nos notations wt = (yt xt ) et θ = β, on a :
h (θ, wt ) = xt (yt − xt β)
E [h (θ0 , wt )] = 0
Le système étant juste identifié (a = k), l’estimateur GMM se ramène à

déterminer θT tel que
T
1
g YT , θT = xt yt − xt β T =0 (4.21)
T t=1
Ce qui nous amène à retrouver l’estimateur MCO :

T −1 T
β T = β MCO = xt xt xt yt (4.22)
t=1 t=1
Quelle est maitenant l’expression de la matrice de variance covariance de l’es-

timateur β T ? En différentiant h (θ, wt ) , il vient
T
∂g (YT , θ) 1 ∂ t=1 xt (yt − xt β)
D = =
∂θ θ=θT T ∂β
β=β T
T
1
= − xt xt (4.23)
T t=1
car on rappelle que ∂Ax/∂x = A et que donc ∂Ax/∂x = A. Parallèment, la

matrice de variance covariance asymptotique des résidus h (θ, wt ) s’écrit :
∞ T
1
S = lim E h (θ0 , wt ) h (θ 0 , wt−v ) (4.24)
T →∞ T v=−∞ t=1
Ici on a donc :
∞ T
1
S = lim E xt ut (xt−v ut−v )
T →∞ T
v=−∞ t=1
∞ T
1
= lim E ut ut−v xt xt−v (4.25)
T →∞ T v=−∞ t=1
Supposons tout d’abord que les résidus sont non auto-corrélés, alors :
σ 2ε E (xt xt ) pour v = 0
E ut ut−v xt xt−v = (4.26)
0 sinon
Par conséquent un estimateur de S est donné par :

T
1
ST = σ 2ε xt xt (4.27)
T t=1
avec
T
1
σ 2ε = u2t (4.28)
T t=1
où ut = yt − xt β désigne le résidu estimé. On retrouve ainsi la formule de la

proposition dans laquelle on donnait la forme générale de l’estimateur ST en
l’absence de dépendance à savoir :
T
1
ST = h θT , wt h θT , wt
T t=1
T
1
= xt ut (xt ut )
T t=1
T T
1 1
= u2t xt xt
T t=1
T t=1
Déterminons finalement la matrice de variance covariance de l’estimateur

GMM : √ L
T θT − θ0 −→ N 0, VT
T →∞
avec VT = D S −1 D . Dès lors, il vient :

 −1
−1
 1
T
1
T
1
T 
VT = − xt xt σ 2ε xt xt − xt xt
 T t=1 T T 
t=1 t=1
T −1
= T σ 2ε xt xt
t=1
Par conséquent la matrice de variance covariance de l’estimateur GMM s’écrit

sous la forme :
VT
θT ∼= N θ0 , (4.29)
T
T −1
VT
= σ 2ε xt xt (4.30)
T t=1
On retrouve ici la formule de la matrice de variance covariance des MCO (la seule
différence étant la définition de l’estimateur de la variance des résidus).
Dans le cas où les résidus sont auto-corrélés ou conditionnellement hétéroscé-

dastiques,
4.2.2. Cas particulier : Variables Instrumentales

Considérons à nouveau un modèle de régression standard :
yt = zt β 0 + ut (4.31)
où zt est un vecteur de dimension (k, 1) de variables explicatives. Supposons
qu’un certain nombre de variables explicatives soient endogènes c’est à dire que
E (zt ut ) = 0. Soit xt un vecteur (r, 1) de variables explicatives prédeterminées
corrélées avec les variables zt mais non corrélées avec les résidus ut tel que
E (xt ut ) = 0 . Posons wt = (yt xt zt ) et θ = β, a = k, cette contrainte nous
définit r conditions d’orthogonalité :
E [h (θ0 , wt )] = E [xt (yt − zt β 0 )] = 0 (4.32)
avec h (θ, wt ) = xt (yt − zt β) . Soit g (YT , θ) le vecteur des moments empiriques
correspondant aux r conditions d’orthogonalité.
T T
1 1
g (YT , θ) = h (θ, wt ) = xt (yt − zt β)
T t=1
T t=1
Soit θT = β T l’estimateur GMM obtenu par la résolution du système :

T T −1 T
1
g YT , θT = xt yt − zt β T = 0 ⇐⇒ β T = xt z t xt yt
T t=1 t=1 t=1
(4.33)
Calculons la matrice de variance civariance asymptotique de β T en utilisant
le résultat général d’Hansen (1982).
VT
θT ∼
=N θ0 , (4.34)
T
−1
où l’estimateur VT = DS −1 D de la matrice de variance covariance asympo-
tique est construit à partir de :
∂g (YT , θ)
D =
∂θ θ=θT
T
1 ∂xt (yt − zt β)
=
T t=1
∂β β=β T
T
1
= − xt zt
T t=1
T
1
= − zt xt
T t=1
Le théorème d’Hansen suppose que la plim de cette matrice possède des

colonne slinéairement indépendantes (condition usuel de convergence de l’esti-
mateur IV). Dès lors la matrice de variance covariance de θT est :
T T −1
VT 1 1 1
= zt xt ST−1 xt z t (4.35)
T T T t=1
T t=1
où ST est un estimateur de
∞ T
1
S = lim E ut ut−v xt xt−v
T →∞ T
v=−∞ t=1
Si les résidus ut sont homoscédastiques et non auto-corrélés alors un estimateur

naturel de S est donné par :
T
1
ST = σ 2T xt xt (4.36)
T t=1
avec
T
1 2
σ 2T = yt − zt β T .
T t=1
En utilisant cette expression de ST , on montre que :

 −1
−1
1 1 
T T T
1 2 1
E βT − β0 βT − β0 zt xt σ xt xt xt zt
T  T t=1 T T t=1 T t=1 
 −1
−1
 1 T T
1
T 
2
σT zt xt xt xt xt zt
 T T 
t=1 t=1 t=1
T −1 T T −1
1 1
σ 2T zt xt xt xt xt zt
T t=1 t=1
T t=1
On retrouve ainsi la matrice de variance covariance de l’estimateur des vari-

ables instrumentales.
5. Résumé des GMM

On dispose d’un modèle théorique implique un ensemble de r conditions d’orthog-
onalité s’écrivant sous la forme :
E [h (θ0 , wt )] = 0 (5.1)
(r,1)
où wt désigne un ensemble de variables stationnaires observées à la date t et où θ0

est la vraie valeur (inconnue) d’un vecetur de paramètres θ0 de dimension (a, 1) .
La fonction h (.) est une fonction de dimension (r, 1) différentiable avec r ≥ a.
L’estimateur GMM θT est obtenu en minimisant la fonction critère (ou fonction
de perte) :
Q (θ, YT ) = [g (YT , θ)] ST−1 g (YT , θ) (5.2)
(1,r) (r,r) (r,1)
avec
T
1
g (YT , θ) = h (θ, wt ) (5.3)
T t=1
et où ST est un estimateur de :
T ∞
1
S = lim E h (θ0 , wt ) h (θ0 , wt−v ) (5.4)
(r,r) T →∞ T
t=1 v=−∞
On peut alors montrer qu’asymptotiquement :
VT
θT ∼ N θ0 , (5.5)
T
avec : −1
VT = DST−1 D (5.6)
∂g (YT , θ)
D = (5.7)
∂θ θ=θT
6. Application SAS : procédure MODEL

Dans le cas de modèles ARCH nous avons déjà étudié la procédure MODEL que
nous ne présenterons que briévement en isnsistant sur les dimensions plus spéci-
fiques aux GMM. Cette procédure permet entre autres d’estimer le modèle par
les MCO et Double MCO, les méthodes SUR et SUR itératif, les Triple Moindres
Carrés, les GMM et le maximum de vraisemblance à information complète ou
FIML. La syntaxe générale est de la forme suivante (entres autres) :
PROC MODEL options;
ENDOGENOUS variable [ initial values ] ... ;
ESTIMATE item [ , item ... ] [ ,/ options ] ;
EXOGENOUS variable [ initial values ] ... ;
OUTVARS variable ... ;
INSTRUMENTS [ instruments ] [_EXOG_ ] [EXCLUDE=(parameters) ]
[/ options ] ;
PARAMETERS variable [ value ] variable [ value ] ... ;

SOLVE variables [SATISFY=(equations) ] [/ options ] ;
TEST [ ”name” ] test1 [, test2 ... ] [,/ options ] ;
VAR variable [ initial values ] ... ;
Nous commenterons successivement deux points de cette procédure :
• la spécification du modèle et des instruments
• le contrôle de la procédure d’estimation
6.1. Spécification du modèle et des instruments

De façon générale, cette procédure permet de d’estimer un modèle non linéaire
de la forme :
εt = q (yt , xt , θ) (6.1)
zt = Z (xt ) (6.2)
où q est un vecteur de g fonctions rélles, yt ∈ Rg , xt ∈ Rl et θ ∈ Rp . g désigne
donc le nombre d’équations, l le nombre de variables exogènes xt , p le nombre de
paramètres. Le vecteur zt ∈ Rk est un vecteur d’instruments et εt est composante
d’erreur inobservable telle que :
E (εt ) = 0 (6.3)
E (εt εt ) = Σ (6.4)
La première étape de la procédure model consiste à spécifier le modèle. Pour
cela, considérons le cas d’une équation. On spécifie une équation sous la forme
d’un résidu. Supposons que l’on veuille spécifier l’équation :
εt = a + b ln (cy + dx) (6.5)
on utilise alors la notation
EQ.[name]=a+b*log(c*y+d*x);
L’utilisation du préfixe EQ. permet de spécifier à SAS que la variable est un

terme d’erreur et qu’il n’existe pas de variable portant ce nom dans le fichier de
données.
Lorsqu’il s’agit de spécifier plusiseurs équations dans un système on peut

utiliser la syntaxe présenté dans l’exemple (6.1). Supposons par exemple que l’on
considère un modèle offre -demande. On considère l’exemple du fichier citimon
de l’aide de SAS dans lequel figurent la consommation d’energie consommée aux

Etats Unis (données mensuelles janvier 1980 - janvier 1992) correspondant à la
variable EEC, le price de détail de l’essence (variable EEGP) et le revenu des
consommateur (variabe CCIUTC). On soushaite estimer le système d’équations
simultannées :
qt = α1 + α2 prixt + α3 revenut + εt (6.6)
qt = β 1 + β 2 prixt + µt (6.7)
Ce système admet deux variables endogènes : la quantité qt et les prix. La
procédure de spécification est alors donnée dans l’exemple (6.1).
Figure 6.1: Procédure MODEL
Dans ce cas, on ne peut pas utiliser les MCO et l’on peut dans ce cas estimer le
système par la méthode des Triples Moindres Carrés Ordinaires (N3SLS). Cette
méthode requiert de spécifier des instruments : dans ce cas on utilise les variables
prédéterminées prixt−1 et prixt−2 , mais aussi les variables exogènes du système :
la variable de revenu et une autre varaible non utilisée dans le système, à savoir la
variable la valeur du dollar qui impacte la demande energétique (variable EXVUS,
WEIGHTED-AVERAGE EXCHANGE VALUE OF U.S.) On a donc au total 4
variables instrumentales : EXVUS, CCITC, lag(EEGP) et lag2(EEGP). Cette
liste d’instrument est spécifiée grâce à l’instruction INSTRUMENTS. Il y a deux

façons de spécifier les instruments :
• INSTRUMENTS variables [ _EXOG_ ] ;
• INSTRUMENTS [instruments] [ _EXOG_ ] [ EXCLUDE=( pa-

rameters ) ] [ / options ] ;
Dans le premier on spécifie une liste globale par défaut d’instrument qui sera
utilisée dans la procédure d’estimation (FIT). On peut déclarer une liste de vari-
able (INSTRUMENTS var1 var2) et/ou utiliser le mot réservé _EXOG_
qui permet de spécifier toutes les variables déclarées comme exogènes avec l’op-
tion EXOGENEOUS. Cette instruction doit être placée avant la commande
FIT. C’est cette syntaxe qui est utilisée dans l’exemple (6.1). La seconde façon
cosnsite à décalrer soit des variables, soit des noms de paramètres ou des mots
réservés comme _EXOG_. Si l’on spécifie un paramètre dans la liste, la dérivée
partielle des éuqtaions par rapport à ce paramètre est utiliséee comme instru-
ment. Par exemple, dans un modèle à deux équations y1 et y2, où x1 est une
variable exogène, le paramètre b1 intervient uniquement dans l’équation de y1,
et b2 et c2 dans l’équationd e y2 si l’on met
INST b1 b2 c2 x1 ;
SAS considère 5 instruments : la constante (par défaut), l’exogène x1, la
dérivée de y1 par rapport à b1 ainsi que les deux dérivées de y2 par rapport à b2
et c2 ce qui est noté sous la forme suivante (figure 6.2) :
L’option EXCLUDE= (parameters) spécifie que tous les paramètres sauf ceux
entre paramètres sont considérés dans la liste des instruments. Différentes options
peuvent être utilisées. NOINTERCEPT ou NOINT permet de ne pas mettre
de constante dans la liste des instruments. Par défaut il y a toujours une constante
dans la liste des instruments.
6.2. La procédure d’estimation

L’estimation des paramètres déclarés dans la commande PARAMETERS est
réalisé avec l’instruction FIT (voir document annexe pour les options). SAS
permet d’effectuer soit des GMM en deux étapes (GMM) soit des GMM itératif
(ITGMM) mais ne permet pas d’estimer par des techniques du type continuous
updating GMM.
De façon générale, cette procédure permet de d’estimer un modèle non linéaire

de la forme :
εt = q (yt , xt , θ) (6.8)
zt = Z (xt ) (6.9)
où q est un vecteur de g fonctions rélles, yt ∈ Rg , xt ∈ Rl et θ ∈ Rp . g désigne
donc le nombre d’équations, l le nombre de variables exogènes xt , p le nombre de
paramètres. Le vecteur zt ∈ Rk est un vecteur d’instruments et εt est composante
d’erreur inobservable telle que :
E (εt ) = 0 (6.10)
E (εt εt ) = Σ (6.11)
Résultat Sous SAS, dans le cas des GMM en deux étapes, la matrice de
variance covariance asymptotique est estimée suivant la formule
T −1
τ
S= w D c Γτ Dc (6.12)
τ =−T +1
l (T )
T
Γv = h θ, wt h θ, wt−v
t=v+1
T
= q yt , xt , θ ⊗ zt q yt−v , xt−v , θ ⊗ zt−v (6.13)
t=v+1
où θ désigne un estimateur des Doubles Moindres Carrés (2SLS),

où l (T ) est une fonction sacalaire permettant de calculer le band-
witdh parameter, w (.) est une fonction kernel et D est une matrice
de correction diagonale (-Gallant, 1987).
On retrouve ainsi les même formules que précedemment à quelques différences

près. La première tient à la somme dans l’équation (6.12). En effet, nous avions
écrit dans la section précédente pour l’estimateur de Newey West par exemple
q
v
SNW = Γ0 + w (v, q) Γv + Γv avec w (v, q) = 1 − (6.14)
v=1
q+1
où q désigne un paramètre de troncature. Dans le cas d’une fenêtre de Bartlett

(Newey et West, 1987) les poids au delà de q sont nulles ce qui permet de réecrire
Sachant que Γ−v = Γv
q
S = Γ0 + w (v, q) Γv + Γv
v=1
q
v
= w Γv
v=−q
l (T )
T −1
v
= w Γv
l (T )
v=−(T −1)
car sir v > q alors w(v/q) = 0. La seconde différence réside dans la matrice de
correction Dc utilisée pour la correction de l’estimation de la matrice
de variance covariance dans les petits échantillons (Gallant,1987). La forme
de cette matrice dépend de l’option VARDEF. Cette matrice Dc est une matrice
diagonale dont les élements Di de la diagonale sont définis comme suit :
√
• Di = 1/ T si VARDEF=N
√
• Di = 1/ T − dfi si VARDEF=DF, où dfi désigne le nombre de degré de
liberté de l’équation i.
Par défaut SAS utilise la correction VARDEF=N. Ainsi on retrouve le facteur

1/T dans la définition usuelle de l’estimateur Γv .
En ce qui concerne le choix de l’estimateur kernel, SAS offre trois

possibilités grace à l’option KERNEL. Il s’agit des trois kernels présentés
précédemment à savoir :
• Kernel de type Bartlett (Newey et West, 1987) : KERNEL=BART
• Kernel de type Quadratic Spectral (Andrews, 1991) : KERNEL=QS

• Kernel de type Parzen (Gallant, 1987) : KERNEL=PARZEN
La syntaxe de cette option est de la forme :
KERNEL=(PARZEN | QS | BART , c , e)
Par défaut SAS utilise un kernel de type Parzen. Les paramètres c et e servent
à spécifier le paramètre bandwidth selon la formule :
bandwidth parameter = l (T ) = c T e (6.15)
où T désigne le nombre d’observation. Un message d’alarme est donné si ce

paramètre est supérieur à T 1/3 . Dans nos notations précédentes, on a l (T ) = q−1.
Si rien n’est spécifié, alors SAS propose les règles de calculs suivantes en fonction
de T (Andrews, 1991) :
1
l (T ) = T 1/3 Kernel Bartlett (6.16)
2
l (T ) = T 1/5 Kernel Parzen (6.17)
1
l (T ) = T 1/5 Kernel Quadratic Spectral (6.18)
2
Si l’on suppose que les moments h (wt , θ0 ) sont non auto-corrélés, la matrice de
variance covariance de long terme correspond à la matrice de variance covariance
usuelle, et son estimateur est :
T
1
S = Γ0 = q yt , xt , θ ⊗ zt q yt , xt , θ ⊗ zt (6.19)
T t=v+1
Dans ce cas, l’option KERNEL=(kernel,0,) est utilisée.
6.3. Estimation du modèle d’Hansen et Singleton (1982) sous SAS

On considère une application sous SAS d’un modèle de type Hansen- Singleton
(1982). On consdière un agent à durée de vie infinie à anticipations rationnelles
dont la fonction obejcetif est :
∞
max U = β τ Et (ct+τ ) (6.20)
τ =0
où ct désigne la consommation à la date t, 0 < β < 1 un facteur d’escompte psy-

chologique et Et (ct+τ ) l’opérateur espérance conditionnelle à toute l’information
disponible à la date t résumé par un vecteur xt d’instruments. Supposons que
l’agent puisse épargner et investir dans m titres indicés i = 1, ., m qui pour tout
euro investit à la date t lui rapportent 1 + ri,t+1 à la période suivante. Pour une
fonction d’utilité de type CRRA
c1−γ
u (ct ) = t siγ > 0 et γ = 1
1−γ
où γ désigne le coefficient d’aversion relative pour le risque, les conditions d’ar-
bitrage inter-temporelle se ramènent à :
−γ
ct+1
1 − βEt (1 + ri,t+1 ) =0 i = 1, ..m (6.21)
ct
Soit θ = (β γ) le vecteur de paramètres du modèles. Soit wt = (r1t+1 r2t+1 ...rmt+1 ct+1 /ct xt )
l’ensemble des variables observées par l’économètre à la date t. Au total si xt a
contient n variables, on obtient pour chaque actif n conditions d’orthogonalité,
soit un total de r = n × m, conditions d’orthogonalité.
 
−γ
ct+1
 1 − β (1 + r1,t+1 ) ct 
 
 −γ 
 1 − β (1 + r2,t+1 ) ct+1 
h (θ, wt ) = h (θ, wt ) ⊗ xt =  c t  ⊗ xt

(nm,1) (m,1) (n,1)  ...  (n,1)
 
 −γ 
1 − β (1 + rm,t+1 ) ct+1
ct
où ⊗ désigne le produit de Kronecker. L’équivalent empirique s’écrit alors défini

par :
T
1
g (YT , θ) = h (θ, wt )
T t=1
L’estimateur GMM est alors obtenu en minimisant le critère :
T T
1 1
Q (θ, YT ) = h (θ, wt ) WT h (θ, wt ) (6.22)
T t=1
T t=1
On considère dans cette application les données de Ferson et Harvey (1992)

reprises dans l’exemple proposé dans la documentation SAS2 . Les auteurs consid-
èrent des données trimestrielles pour les Etats Unis allant du deuxième trimestre
1947 (codé 1947.6) au quatrième trimestre de 1987 (1987.12). Comme mesure
de la consommation réelle, les auteurs utilisent la consommation de bien non
2
Fichier Macro3_Hansen_Singleton.sas
durables corrigée des variations saisonnières rapportée à un déflateur de la con-

sommation en données CVS. La croissance de la conosmmation représentée par
le ratio (Ct+1 − Ct ) /Ct est désigné par la variable CONRAT. Les auteurs consid-
èrent en outre m = 4 rendements d’actifs exprimés sous la forme de rendements
c’est à dire sous la forme ri,t+1 .
• Rendements réels sur les obligations émises par le gouvernement. Variable

: GB
• Rendements réels sur les obligations émises par les entreprises. Variable :
CB
• Rendements réels sur les actions, 1er décile. Variable : D1
• Rendements réels sur les actions, 10ème décile. Variable : D10
Les rendements réels sont obtenus en dividant les rendements nominaux par
l’indice de prix à la consommation correspondant à l’indice de consommation
utilisé. En ce qui concerne les instruments xt , les auteurs considèrent au total
9 instruments (n = 7). Ils considèrent les rendements réels (variable RINST)
et de la croissance de la consommation réelle (variable CINST) retardées de 1
à 3 périodes. Toutes ces variables sont donc connues de l’agent à la date t. Le
neuvième instrument correspond par défaut à la constante.
Danc ce programme (figure 6.3) on estime le modèle par la méthode des GMM
itérés (ITGMM) en utilisant une fonction kernel de type Parzen. Les conditions
initiales sur β et sur γ sont fixées 0.1. Pour ces quatre équations avec 7 instru-
ments, on dipose de 28 conditions d’orthogonalité pour estimer 2 paramètres.
Le système est donc largement sur-identifié. Les résultats de la procédure sont
reproduits sur les figures (6.4), (6.5) et (6.6).
Sur la figure figures (6.4), on vérifie que le model comporte au total 5 vari-
ables dont une endogène (CONRAT) et quatre exogènes (GB, CB, D1 et D10).
Ce modèle comporte deux paramètres (β et γ) et quatre équations (nommées
h1 , h2 , h3 et h4 ), représentées par le vecteur h (θ, wt ) . Un message prévient que
ces deux paramètres sont présents dans les quatre équations : ce qui implique
notamment que si l’on spécifie par exemple β dans la litse des instruments, les
dérivées des quatre équations par rapport à β seront considérées comme intru-
ments. SAS fournit enfin la liste des 7 variables instruments, la constante etant
nommée 1. Un message prévient que l’algorithme d’optimisation a convergé.
Sur la figure (6.5) les détails de la procédure d’estimation GMM iétartif sont
donnés. On rappelle le nombre de paramètres a estimer, a = 2, le choix du kernel
(Parzen). La valeur du paramètre du bandwitdh parameter est donnée bandwidth
parameter = l (T ) = 2.75459. Et SAS spécifie la éthode d’optimisation numérique

retenue, à savoir la méthode de Gauss newton. Parmi les différentes indica-
tions concernant la convergence de l’algorithme apparait la valeur OBJECTIVE
VALUE qui correspond à la valeur optimale du critère Q θ, YT , qui permet
notamment de construire la J statistique du test de sur-identification d’Hansen
(1982). Pour les autres critères de convergence, se reporter à la documentation
SAS de la procédure MODEL.
Enfin sur la figure (6.6), figurent les résultats d’estimation a proprement parlé.
On remarquera qua la valeur estimé de β au point moyen est supérieure à l’unité ce
qui viole la condition de convergence théorique d’un tel modèle. Une contrainte
du type BOUNDS beta<c, où c < 1 permet alors d’éviter ce problème, mais
Figure 6.4: Résultats Procédure MODEL : Partie I
l’estimateur obtenu bute alors sur la contrainte. Figure parmi les résultats la
valeur de la J statistique du test de sur-identification d’Hansen (1982) définie par
Objective*N.
7. Inférence avec les GMM

Lorsque le nombre de conditions d’orthogonalité est supérieur au nombre de
paramètres à estimer (r > a) on dit que le modèle est su-identifié. Dans ce
cas, il y a r − a conditions sur-identifiantes doivent être nulles si le
modèle est bien spécifié. C’est le principe d’un test de sur-idnetification ou
test de la J statistique
7.1. Test de sur-identification

Hansen (1982) a proposé un test permettant de déterminer si l’ensemble des
moments empiriques représentés par g YT , θ T étaient aussi proches de zéro que
Figure 6.5: Résultats de la Procédure MODEL : Partie II
possible dès lors que E [h (θ0 , wt )] = 0. En reprenant le résultat de normalité,

sous H0 , E [h (θ0 , wt )] = 0 on peut montrer que :
√ √ L
T g (YT , θ 0 ) S −1 T g (YT , θ0 ) −→ χ2 (r) (7.1)
T →∞
Dans cette expression les moments empiriques g (YT , θ) sont évalués pour la
vraie valeur des paramètres θ0 . Une première intuition consisterait à se
dire que convergence resterait vraie si l’on remplaçait θ 0 par son esti-
mateur convergent θT . Or ceci n’est pas vrai. En effet, il existe a combi-
naisons linéaires des r éléments g YT , θT qui valent précisèment par définition
de l’estimateur θ T . Ces a combinaison linéaires sont obtenues en prémultipliant
g YT , θT par la matrice :
∂g (YT , θ)
× ST−1 (7.2)
∂θ θ (r,r)
(a,r)
Figure 6.6: Résultats de la Procédure MODEL : Partie III
puisque par définition

∂g (YT , θ)
× ST−1 × g YT , θ = 0 (7.3)
∂θ θ (r,r) (a,1)
(r,1)
(a,r)
Par exemple, si a = r toute combinaison linéaire des g YT , θ est égale à

√ √
0, dès lors la quantité T g YT , θ S −1 T g YT , θ serait égale à 0 quelle
que soit l’échantillon. Dis autrement, on ne dispose que r − a variables aléatoires
linéairement indépendantes et non dégénérée dans le vecteur g YT , θ . Ce sont
ces variables qui doivent être étudiées.
Résultat Un test de l’hypothèse nulle E [h (θ0 , wt )] = 0 (ou test de sur-

idnetification pour le case r>a est donné par la J statistique
√ √ L
J= T g YT , θ T S −1 T g YT , θ T −→ χ2 (r − a) (7.4)
T →∞
Cette statistique correspond au produit de la dimension T par la

valeur de la fontion objectif obtenue pouyr la valeur de l’estima-
teur GMM θT
J = T Q θ T , YT (7.5)
Malheureusement le test de Hansen présente de mauvaise propriété et ne de-

tecte que très dificilement un modèle mal spécifié (Newey, 1985). C’est pourquoi,
on peut utiliser en outre d’autres tests.
Enfin sous SAS, la réalisation de la J statistique associée au test de sur-

identification d’Hansen (1982) est reportée dans le tableau de résultats sous la
syntaxe OBJECTIVE*N, N désignant le nombre d’observations. Admettons
que la réalisation de la J statistique soit égale à 40 pour un nombre de degrés de
liberté (r − a dans nos notations) de 70 par exemple. Un programme permettant
de récupérer la p-value associée à cette statistique est le suivant :
Figure 7.1: Calcul de la Pvalue Associée à la J statistique
7.2. Test de stabilité structurelle

Supposons que l’on veuille tester le fait que le vecetur de paramètres θ qui
cartérise les premières T0 observations de l’échantillon soit différent de la valeur
qui caratérise les T − T0 observations suivantes. La date de rupture T0 est sup-
posé connue. Une approche consiste à estimer θ1,T0 basé uniquement sur les T0
premières observations en minismisant :
Q (θ1 , w1 , ..wT0 ) = [g (YT0 , θ1 )] ST−1

0
g (YT0 , θ 1 ) (7.6)
(1,r) (r,r) (r,1)
avec
T
1
g (YT , θ1 ) = h (θ1 , wt ) (7.7)
T0 t=1
avec si les résidus sont non auto-corrélés :
T0
1
ST−1 = h θ1,T0 , wt h θ1,T0 , wt (7.8)
0
T0 t=1
On sait qu’alors :
L
T0 θ1,T0 − θ1 −→ N (0, V1 ) (7.9)
T →∞
−1
−1
V1,T0 = D1,T0 S1,T0
D1,T0 (7.10)
∂g (YT , θ 1 )
D = (7.11)
∂θ1 θ=θ1,T0
On peut de façon similaire construire un estimateur θ2,T −T0 basé sur les T −T0
dernières observations :
L
T − T0 θ2,T −T0 − θ2 −→ N (0, V2 ) (7.12)
T →∞
On note π = T0 /T la fraction des obseravtions appartenant à la première période.

On a donc finallement :
√ L V1
T θ1,T0 − θ1 −→ N 0, (7.13)
T →∞ π
√ L V2
T θ 2,T −T0 − θ2 −→ N 0, (7.14)
T →∞ 1−π
Andrews et Fair (1988) proposent d’utiliser un test de Wald de l”hypothèse
nulle H0 : θ1 = θ2 en exploitant le fait que l’estimateur θ1,T0 est asymptotique-
ment indépendant de θ2,T −T0 . On peut donc cosntruire une statistique de Wald
asymptotiquement distribuée selon un chi-deux.
Résultat Le test de Wald d’Andrews et Fair (1988) de l’hypothèse

nulle H0 : θ1 = θ2 est défini par la statistique :
L
λt = T θ1,T0 − θ 2,T −T0 W −1 θ1,T0 − θ2,T −T0 −→ χ2 (a) (7.15)
T →∞
avec
1 1
W = V1,T0 + V2,T −T0 (7.16)
π 1−π
On peut aller encore plus loin dans cette optique et tester la
rupture pour un ensemble de dates T0 allant par exeple de 0.15T
à 0.85T et choisir la plus grande valeur pour la statistique λt (test
d’Andrews, 1993)
Un autre test simple consite à assoicer des conditions d’orthogonalité dif-

férentes aux deux sous périodes et utilser la J statistique pour tester la validité
des deux ensembles de conditions. Ainsi, on pose :
1 pour t ≤ T0
d1t = (7.17)
0 pour t > T0
Supposons que E [h (θ0 , wt )] = 0 définissse un vecteur de r conditions d’orthog-

onalité et définissons :
h (θ, wt ) d1t
h∗ (θ, wt , d1t ) =
(2r,1) h (θ, wt ) (1 − d1t )
On estime les a éléments de θ à partir de ces 2r conditions d’orthogonalité

E [h∗ (θ, wt , d1t )] = 0. La J statistique obtenue à partir de ce sytème admet pour
loi asymptotique un chi deux à 2r − a degrés de liberté. Cette J statistique
permet alors de tester l’hypothèse de stabilité structurelle H0 : θ 1 = θ2 .
8. Maximum de Vraisemblance et GMM
9. Méthodes de Moments Simulés

9.1. Présentation de la Méthode des Moments Efficients (EMM)
La méthode des moments simulés a été proposé initiallement par Mac Fadden
(Econometrica, 1989) dans le cas des modèles à réponse discrète. La méthode
des Moments Efficients (Efficient Method of Moment) est une méthode de mo-
ments simulée particulière proposée par Gallant et Tauchen (1996, 2001). L’idée
consiste à atteindre l’efficience de l’estimateur du maxiumum de varisemblance
(MV) tout en maintenant la souplesse de l’estimateur des GMM. On rappelle que
la méthode du MV peut être considérée comme une méthode de moments par-
ticulière dans laquelle les conditions d’orthogonalité sont données par le vecteur
du score, c’est à dire le vecteur des dérivées premières de la log-vraisemblance
par rapport aux paramètres. Un des problèmes essentiels des MV est que cette
fonction de varisemblance peut e^tre diffcile à construire pour des modèles com-
pliqués, et de plus même si l’on connaît sa forme téhorique dans certains cas son
implementation peut être impossible. C’est en particulier le cas lorsque le modèle
dépend d’une endogène non observable retardée : dans ce cas la vraisemblance
dépend d’une intégrale multiple et la dimension de cette intégrale correspond à
la taille de l’échantillon.
Principe Général L’idée des EMM comme de toute méthode de mo-

ments simulés consiste à estimer les paramètres θ ∈ Ra d’un mod-
èle structurel en rapprochant des moments établis d’un modèle
auxiliaire de pseudo paramètres β ∈ Rk , et calculés d’une part sur
données historiques et d’autres sur données simulées à partir du
modèle structurel. On cherche donc la valeur de θ dans le modèle
structurel qui permet de simuler des séries qui en moyenne pos-

sèdent les mêmes moments établis à partir du modèle auxiliaire
que ceux que l’on peut calculés à partir des séries historiques.
Dans le cas précis des EMM, les moments (ou modèle auxiliaire) correspondent
au score de la log-vraisemblance associés aux paramètres β. Naturellement l’iden-
tification des paramètres θ implique en particulier que k ≥ a, on supposera ici
que a = k. Le choix du modèle auxiliaire est laissé libre : il convient de choisir
un model permettant de bien approximer la dynamique du DGP tout
en conservant la faisabilité du maximum de vraisemblance.
On considère un modèle structurel de paramètres θ ∈ Ra inconnus, de vecteur

de variables endogènes Yt de dimension (b, 1) . et d’un ensemble de p chocs
représentés par le vecteur εt , t = 1.., T . Soit ε = (ε1 , .., εT ) (voir synthèse
figure ). On considère un échantillon de T observations {y1 , ..yT } . On consid-
ère un pseudo modèle (ou modèle auxiliaire ou générateur de score)
paramétrisé par les pseudo paramètres β = (β 1 ..β k ) ∈ Rk avec k = a. Soit
f (yt | yt−1 , β) la fonction de transition associée à ce modèle. L’estimateur β du
MV des paramètres β obtenu à partir de l’échantillon historique vérifie :
T
∂L (β) ∂f (yt | yt−1 , β)
= =0 (9.1)
∂β β=β t=1
∂β β=β
Ce qui peut sécrire sous la forme de conditions d’orthogonalité :

T
1
sf Yt , β = 0 (9.2)
T t=1
où la quantité sf Yt , β désigne le score du modèle auxiliaire :
∂f (yt | yt−1 , β)
sf (Yt , β) = (9.3)
∂β
De plus, on peut construire un estimateur de la matrice de variance covariance
asymptotique du score du modèle théorique à partir du pseudo score sf Yt , β i
de la façon suivante (Gaalnt et Long, 1987) :
T
1
VT = sf Yt , β sf Yt , β
T t=1
L’idée des EMM consiste à trouver la valeur des paramètres θ du modèle

structurel tel que pour un tirage des chocs ε, la série simulée de dimension T,
T
notée Yts (θ) , permettent d’annuler le score du pseudo modèle considéré
t=1
pour la valeur estimée (sur données historiques) des paramètres β. On cherche
donc θ tel que :
θ = ArgM in mS θ, β VT−1 mS θ, β (9.4)
{θ∈Ra }
où le moment mS θ, β est défini à partir de S simulations de trajectoires

T
Yts (θ) .
t=1
S
1
mS θ, β = sf Yts (θ) , β
S s=1
Il faut comprendre ici que la moyenne obtenue sur les S simulations permet
de se ”débarasser” du conditionnement par rapport au tirage du choc ε. Le score
T
sf Yts (θ) , β est évaluée pour trajectoire Yts (θ) particulière condition-
t=1
nellement à une certaine valeur de θ et à partir des pseudo paramètres estimés
sur données historiques β (et non sur données simulées).
Sous certaines conditions (Gallant et Tauchen, 1996), on montre que

√ L
T θ − θ0 −→ N 0, Vθ (9.5)
T →∞
Vθ = Dθ VT−1 Dθ (9.6)
∂mS θ, β
Dθ = (9.7)
∂θ
θ=θ
9.2. Application SAS : Modèle de Volatilité Stochastique

On considère un modèle de volatilité stochastique utilisé en finance pour modéliser
les rendements yt d’un actif (Gallant and Tauchen 2001) :
yt = σ t zt (9.8)
log σ 2t = a + b log σ 2t−1 + s ut (9.9)

ut i.i.d. 0, σ 2u (9.10)
zt i.i.d. 0, σ 2z (9.11)
Figure 9.1: Procédure EMM
où les chocs ut et zt sont indépendants et où les paramètres vérifient |b| < 1,

s > 0. Le vecteur des paramètres structurels est donc :
θ = (a b s ) (9.12)
Un exemple de série issue de ce modèle est donnée dans l’exemple de la figure

(9.2) pour des valeurs a = −0.736, b = 0.9 et s = 0.363. Le graphique de la série
que nous conséiderons comme ”historique” d’une dimension T = 1000 est reporté
sur la figure ().
Dans ce cas un modèle auxiliare ”naturel” consiste en l’utilisation d’un modèle
de type ARCH-GARCH. Un cas simple consite à utiliser un modéle de type
GARCH(1,1) :
yt = h t z t (9.13)
2
ht = ω + αyt−1 + γht−1 (9.14)
Figure 9.2: Simulation Modèle à Volatilité Stochastique
où ht = σ 2t désigne la variance conditionnelle. Les pseudo paramètres sont donc :
β = (ω α γ) (9.15)
On cherche donc à estimer ce modèle par la méthode du maximum de vraisem-

blance. En effet, un des avantages du modèle GARCH(1, 1) c’est que la variable
d’intérêt yt est conditionnellement gaussienne dans ce cas, ce qui facilite d’autant
l’écriture de la vraisemblance :
T
log L (β) = log f ( yt | yt−1 , β)
t=1
T T
T 1 1 yt2
= − log (2π) − log (ht ) −
2 2 t=1
2 t=1
ht
avec
1 y2
log f (yt | yt−1 , β) = − log (2π) − log (ht ) − t (9.16)
2 2ht
D’où l’on tire que :
∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht 1 yt2

=− + t2 = −1 + (9.17)
ω 2ht ∂ω 2ht ∂ω 2ht ht
Figure 9.3: Série Historique
∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht y2 yt2

=− + t2 = t−1 −1 + (9.18)
α 2ht ∂α 2ht ∂α 2ht ht
∂ log f (yt | yt−1 , β) 1 ∂ht y 2 ∂ht ht−1 yt2
=− + t2 = −1 + (9.19)
γ 2ht ∂γ 2ht ∂γ 2ht ht
Si l’on β = (ω α γ) l’estimateur du MV sur données historiques, on a donc
par définition :
 
T 1 yt2  
t=1 2ht −1 +
T  ht  0
1 1 T 2
yt−1 yt2   
sf Yt , β =  t=1 2ht −1 +  = 0 (9.20)
T t=1 T ht 
2 0
T ht−1
t=1 2h −1 + yht
t t
avec
2
ht = ω + αyt−1 + γht−1 (9.21)
Reste à définir cette matrice VT qui servira de poids dans la procédure GMM.
T
1
VT = sf Yt , β sf Yt , β (9.22)
T t=1
En effet, l’application de la méthode des EMM suppose de contrôler la matrice

de poids sous SAS dans l’estimation GMM. Commençons par présenter l’option
VDATA requise dans cette optique (voir la documentation SAS, Proc MODEL,
rubrique ”Input Data Set”. ).
9.2.1. Le contrôle de la matrice de poids

Il est possible de contrôler la matrice de poids, plus précisèment la matrice de vari-
ance, considérée dans l’estimation GMM en utilisant l’option VDATA=[name].
Lorsque l’on spécifie VDATA=V, cette matrice est utilisé dans la défintion du
critère GMM en deux étapes (GMM) ou comme matrice de poids initiale dans le
cas de GMM itératif (ITGMM). Cette matrice de poids doit être mise en forme
de façon spécifique sous SAS. Ne sont spécifiés que les éléménts de la partie tri-
nagulaire supérieure (matrice symétrique). Par exemple dans le cas où il existe
4 conditions d’orthogonalités (2 équations y1 et y2 , et 2 instruments, x1 et une
constante, par exemple) :
 
V1,1 V1,2 V1,3 V1,4
 − V2,2 V2,3 V2,4 
V =  −
 (9.23)
− V3,3 V3,4 
− − − V4,4
Cette matrice V doit être crée de la façon suivante sous SAS. Chaque ligne et
chaque colonne de cette matrice est associée à une équation et à un instrument.
La position de chaque élément dans la matrice V est donné par le
nom de l’équation et le nom de l’instrument (1 pour la constante)
de la ligne et le nom de l’équation et le nom de l’instrument de la
colonne. Plutôt que de spécifier ligne=1 et colonne=1 pour identifier l’élément
V1,1 , on donne pour identifant de la ligne et de la colonne un nom d’équation et
un nom d’instrument. Ainsi pour V1,1 cela correspond à la variance associée à de
la condition d’orthogonalité de l’équation 1 pour l’intrument x1 si cette variable
apparaît en premier dans la liste des instruments. La colonne de cet élémént est
repérée par le couple (y1 , x1 ) et sa ligne par le même couple (y1 , x1 ). L’élément
V1,1 correspond à la covariance entre les résidus de la condition d’orthogonalité
de l’équation y1 avec l’instrument x1 et la condition d’orthogonalité de l’équation
y1 et l’instrument 1 (pour la constante). La ligne de cet élément est repérée par
le couple (y1 , x1 ) et sa colonne par le couple (y1 , 1) . Ces couples sont stockés dans
des variables :
• EQ_ROW : Nom de l’équation associée à la ligne
• INST_ROW : Nom de l’instrument associée à la ligne
• EQ_COL : Nom de l’équation associée à la colonne
• INST_COL : Nom de l’instrument associée à la colonne
Une variable _TYPE_ doit contenir le terme GMM pour chaque élémént.
Enfin la valeur de Vi,j est indiquée dans la variable VALUE.
Figure 9.4: Matrice de Poids GMM
Afin de mieux comprendre la structure de cette matrice de variance covari-

ance, considérons un exemple (figure 9.4) dans lequel on récupère grâce à l’option
OUTV dans la procédure MODEL la matrice de poids optimale d’une procédure
d’estimation GMM (soit W ∗ = ST−1 dans nos notations). Dans cet exemple, un
modèle à deux équations est simulé puis estimé par GMM. Pour chaque équation
6 instruments sont considérés : la constante (notée 1), la dérivée de l’équation y1

par rapport au paramètre b1 , la dérivée de l’équation y2 par rapport au paramètre
b2 , la dérivée de l’équation y2 par rapport au paramètre c2 et les deux variables
exogènes x1 et x2 . Les dérivées des équations sont nommées @PRED.Y1/@B1,
@PRED.Y2/@B2 et @PRED.Y2/@C2 sous SAS .On a deux équations, ce qui fait
un total de 2 ∗ 6 = 12 conditions d’orthogonalité h (wt , θ0 ) = h (wt , θ 0 ) ⊗ zt . La
matrice de poids optimal a donc une dimension (12, 12) , ce qui implique que seuls
12 ∗ (12 + 1)/2 = 78 éléménts Vi,j doivent être spécifiés. Les 23 premiers éléménts
Vi,j conservé dans la table GMMV sont stockés de la façon suivante (figure 9.5).
On retrouve pour chaque valeur les deux indicatrices de colonne et de ligne.
Figure 9.5: Exemple de Matrice de Poids
9.2.2. La procédure EMM sous SAS

A partir des éléments décrits précédement, le programme qui permet de définir
la matrice V puis de la mettre en forme sous SAS pour l’incorporer dans une
procédure de type GMM s’écrit de la manière suivante (figure 9.6). Dans un
premier temps on construit l’estimateur du MV β = (ω α γ) des paramètres du
modèle aucilmiaire GARCH(1, 1) sur données historiques:

 
T 1 yt2  
t=1 2ht −1 + ht 0
1
T 
1 
T 2
yt−1 yt2   
sf Yt , β =  t=1 2ht −1 + h = 0 (9.24)
T t=1 T t 
T ht−1 y 2 0
t=1 2h −1 + ht
t t
avec
2
ht = ω + αyt−1 + γht−1 (9.25)
Pour cela on utilise la procéudre AUTOREG3 . Reste alors à définir la matrice
de variance covariance asymptotique à partir des scores VT qui servira de poids
dans la procédure GMM.
T
1
VT = sf Yt , β sf Yt , β (9.26)
T t=1
Ceci est fait dans la procédure DATA de la figure (9.6). Cette matrice de
dimension (3, 3) ne nécissite la spécification que 6 élements :
 
V1,1 V1,2 V1,3
V = − V2,2 V2,3  (9.27)
− − V3,3
On récupère ces éléments dans le dernier éléments des variables v (1) à (6) définies
par accumlation partielle des éléments des matrices v t 1 à v t 6. Plus précisè-
ment dans les v t 1 à v t 6 figurent pour chaque date les 6 éléments de la matrice
sf Yt , β sf Yt , β . Reste alors à sommer ces éléments pour les date t = 1 à
T = T. Ce qui est fait en utilisant les sommes partielles définies dans les variables
v (1) à (6). Ainsi sur la figure () sont reportées les valeurs de v (1) à (6) . Seules
celles pour la 1000ème ligne nous servent à constituer la matrice de variance VT .
A partir de ces éléments, il convient de construire une matrice de poids pour
la procédure MODEL comme exposé précédemment. Cette partie est reportée
sur la figure (9.8).
Le résultat de cette mise en forme est de la forme suivante (figure 9.9) :
A partir de ces différents élements, ne reste plus alors qu’à construire l’esti-
mateur EMM en utilisant la commande SOLVE de la procudre MODEL (figure
9.10).
3
Voir poly de cours Econométrie pour la Finance.
Figure 9.6: Matrice de Poids
10. Bibliographie
Bansal, R., Gallant, A.R., Hussey, R., Tauchen, G.E. (1993), ”Computational
Aspects of Nonparametric Simulation Estimation.” In Belsey, D.A. (Ed.), Com-
putational Techniques for Econometrics and Economic Analysis. Boston, MA:
Kluwer Academic Publishers, 3-22.
Bansal, R., Gallant, A.R., Hussey, R., Tauchen, G.E. (1995), ”Nonparametric
Estimation of Structural Models for High-Frequency Currency Market Data,”
Journal of Econometrics, 66, 251-287.
Gallant, A.R. and Tauchen, G.E. (1996), ”Which Moments to Match?” Econo-
metric Theory, 12, 657-681.
Gallant, A.R. and Tauchen, G.E. (2001), ”Efficient Method of Moments,”
Working Paper. [http://www.econ.duke.edu/ get/wpapers/ee.pdf] , accessed 12
September 2001.
Figure 9.7: Résultat de la Procédure DATA
Figure 9.8: Mise en Forme de la Matrice de Poids GMM

Figure 9.9: Matrice de Poids Mise en Forme
Figure 9.10: Estimation GMM

Macro

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Macro

Transféré par

Droits d'auteur :

Formats disponibles

MASTER ECONOMETRIE ET

STATISTIQUE APPLIQUEE (ESA)

Année Universitaire 2006-2007

Master Econométrie et Statistique Appliquée (ESA)

7.1 Test de sur-identification . . . . . . . . . . . . . . . . . . . . . . . 43

1.1. Modèle à anticipations rationnelles : Définitions et problème d’es-

où le terme d’anticipation xet+j est défini par :

xet+j = E [xt+j | Ωt ] j ≥ 0 (1.2)

Ωt désigne l’ensemble complet d’informations pertinentes disponibles à la date t.

• L’horizon des anticipations

• La date et le contenu de l’ensemble d’information utilisé pour former les

• La relation entre l’erreur d’anticipation et l’ensemble d’information

Les anticipations rationnelles (AR) introduites initiallement par Muth

Résultat En conséquence de quoi, (i) les anticipations rationnelles ne

xt+1 = xet+1 + ω t+1 (1.3)

Si l’on considère des AR à k périodes, les erreurs de prévisions sonta lros

xt+1 = φxt + εt+1 (1.8)

où ε est un bruit blanc vérifiant par conséquent E [εt+1 | Ωt ] = 0 et par conséquent

Par conséquent on montre que :

xt+1 − E [xt+1 | Ωt ] = εt+1

On retrouve le résultat selon lequel l’erreur de prévision à l’ordre 1 est un bruit

On retrouve ici l’écriture d’un modèle MA(j − 1) pour l’erreur de prévision à

E { xt+j − E [xt+j | Ωt ]| Ωt } = E [xt+j | Ωt ] − E [ xt+j | Ωt ] = 0 (1.10)

1.2. Modèle à anticipations rationnelles : Biais des MCO

yt = δ 1 xet+1 + δ 2 xet+2 + µt (1.13)

xt+j = xet+j + εt+j (1.14)

yt = δ 1 xt+1 + δ 2 xt+2 + vt (1.15)

vt = µt − δ 1 εt+1 − δ 2 εt+2 (1.16)

Naturellement, on sait que xt+j et εt+j sont corrélés par conséquent :

E (xt+1 vt ) = 0 E (xt+2 vt ) = 0 (1.17)

Les variables explicatives xt+1 et xt+2 ne sont pas indépendante du résidu vt : on

Par conséquent E (vt vt−1 ) = 0 même si ξ t est i.i.d.

Evaluons à présent le biais des MCO lié au problème d’endogénéité. Consid-

où µt est i.i.d. 0, σ 2µ . On suppose que

Si l’on retient l’hypothèse de RE, alors

xt+1 = xet+1 + εt+1 (1.20)

où l’erreur de prévision εt+1 est independante de l’ensemble d’information, E [εt+1 | Ωt ] .

Appliquons les MCO à cette équation :

Dès lors, on montre que :

2. La Méthode de Moments Généralisés

2.1. Exemple d’estimateurs des moments

Une méthode alternative consiste au lieu d’exploiter l’information complète

On sait en eﬀet qu’il y a une équivalence entre donner la fonction de densité

On sait que cet estimateur est dans ce cas un estimateur convergent de µ2 .

On peut en déduire que si T est très grand :

De façon plus générale, si l’on considère un vecetur de paramètre β ∈ RK

alors l’estimateur β T de la méthode des moments classique (classical method

où µi,T désigne l’estimateur du moment empirique :

Présentons à prsént à partir de cet exemple, la méthode des moments genéral-

Dans l’exemple précédent, on estime un paramètre (v) en utilisant un seul

Une autre possibilité consiste à déterminer un estimateur v qui permettent

Remarque C’est pourquoi on cherche à déterminer l’estimateur v qui minimise

Q (v, y1 , y2 , .., yT ) = g W g (2.12)

où le vecteur g est défini par :

et où la matrice W est une matrice de poids symétrique et définie posi-

Un tel estimateur est appelé estimateur ”minimum chi-square” par Cramer

2.2. La méthode des Moments Généralisés

2.2.1. Principe général : conditions d’orthogonalité, identification et

Soit YT = wT , wT −1 , .., w1 un vecteur (T h, 1) contenant toutes les ob-

Definition 2.2. L’estimateur GMM θT du vecteur θ minimise une fonc-

θ T = ArgM in Q (θ, YT ) (2.17)

où {WT }∞T =1 désigne une séquence de matrices de poids symétriques

Dans la plupart des cas, ce programme de minimisation ne peut être mené à

Exemple 1 : La méthode classique des moments de notre exemple précedent