Académique Documents
Professionnel Documents
Culture Documents
Christophe Hurlin
Abstract
Cette note propose une brève présentation des modèles à retards distribués en général
et des modèles de type Autoregressive Distributed-lagged model (ou ARDL) en particulier.
L’objectif est de comprendre la spéci…cité et les avantages des modèles ARDL en les remet-
tant en perspective par rapport aux modèles dynamiques à retards distribués. Dans une
première section, nous présentons les modèles à retards distribués non contraints. La sec-
onde section est consacrée aux modèles restreints (linéaire, géométrique, etc.) et notamment
aux modèles polynomiaux d’Almon. La troisième section présente les modèles avec variable
dépendante retardée : modèles de Koyck, AR-X, et ARDL. La dernière section décrit les
procédures d’estimation de ces di¤érents modèles sous les logiciels R et SAS.
Université d’Orléans (LEO, FRE CNRS 2014). Cette note a été rédigée dans le cadre de la préparation des
étudiants du master ESA de l’Université d’Orléans au challenge DRIM game (Deloitte - RCI Bank) 2018.
1
1 Introduction
Les modèles à retards distribués (ou à retards échelonnés) sont des modèles dynamiques de
séries temporelles. Ils ont pour particularité que la dynamique de la variable dépendante y soit
expliquée par des valeurs contemporaines et retardées d’une ou plusieurs variables explicatives
x. Le principal avantage de ces modèles est qu’ils autorisent une dynamique plus riche (com-
parativement à un modèle linéaire simple sans retard sur les variables explicatives) des e¤ets
marginaux des variables x sur la variable dépendante. On peut ainsi distinguer la notion d’e¤ets
marginaux dynamiques de court terme, qui représentent l’impact instantané de la variable con-
temporaine xt (ou retardée xt s ) sur yt , de l’e¤et cumulatif de long terme de x sur la variable
dépendante y.
De façon générale on oppose les modèles à retards distribués …nis et in…nis, suivant que
l’on considère un nombre …ni ou in…ni de valeurs retardées pour la variable explicative. Bien
évidemment, seuls les modèles à retards …nis (…nite distributed lag models) peuvent être estimés
en pratique. Toutefois, même lorsque l’on considère un nombre …ni et relativement peu impor-
tant de retards, l’estimation de ce type de modèle par MCO ou MCG peut poser problème.
En e¤et, il est fréquent que les valeurs retardées xt ; xt 1 ; : : : ; xt q soient fortement corrélées,
induisant un problème de multi-colinéarité dans le modèle de régression. Les estimations des
coe¢ cients par MCO sont alors peu …ables et peuvent notamment prendre des valeurs aber-
rantes. De plus, l’estimation de ces modèles requiert des échantillons de taille importante étant
donné le potentiellement grand nombre de paramètres à estimer suivant le nombre de retards q
considérés pour la variable exogène.
A…n de palier à ces problèmes, deux types de solutions ont été considérés dans la littérature.
La première solution a consisté à imposer des restrictions sur les coe¢ cients associées aux
valeurs retardées xt ; xt 1 ; : : : ; xt q de la variable explicative (Almon, 1965; Smith and Giles,
1976; Madinier et Mouillart, 1983). On obtient alors des modèles à retards distribués contraints
(restricted distributed lag models). Ces restrictions peuvent être de formes très di¤érentes, mais
elles ont toutes pour objectif (i) de limiter le nombre de paramètres à estimer, (ii) de limiter
les potentiels problèmes de quasi-colinéarité, et (iii) de conduire à des pro…ls temporels d’e¤ets
marginaux pouvant être justi…és sur le économique. Concernant ce dernier point, le principal a
priori que l’on peut avoir vis-à-vis des e¤ets marginaux est que l’e¤et instantané de la variable
xt s sur le niveau de yt diminue avec le temps, mais pas nécessairement de façon uniforme.
Plusieurs modèles restreints ont été proposés a…n de satisfaire ces trois objectifs. On peut
citer le modèle avec décroissance linéaire des paramètres retard et le modèle avec distribution
géométrique des retards (geometric distributed lag model ). Mais le modèle le plus utilisé est
sans aucun doute le modèle à retards polynomiaux (polynomial distributed lag model ) ou modèle
d’Almon (1965). L’idée consiste à postuler que le paramètre associé à la variable retardée xt s
est une fonction (inconnue) du décalage s, et que cette fonction peut être approximée par un
polynôme d’ordre p; avec généralement p << q. Il su¢ t alors d’estimer les paramètres de ce
polynôme pour retrouver les coe¢ cients associés aux variables retardées xt s . On peut ainsi
réduire la dimension du problème et limiter les risques de quasi-colinéarité.
La seconde solution consiste à introduire des valeurs retardées de la variable dépendante. On
aboutit ainsi à une représentation de type AR(p) sur yt , augmentée des valeurs contemporaines
et passées d’une variable exogènes xt . L’exemple le plus simple est le modèle de Koyck (1954).
Ce modèle linéaire très simple explique le niveau de yt par une constante, la valeur retardée
yt 1 et le niveau contemporain d’une variable explicative xt . Notons que dans le modèle de
2
Koyck, aucun retard n’est introduit sur la variable explicative xt , ce qui exclut tout problème
de colinéarité. Quel est l’avantage de ce modèle ? En inversant le polynôme autorégressif associé
à yt 1 , on peut montrer que cette représentation est équivalente à un modèle à retards distribués
de dimension in…nie, avec une décroissance géométrique des poids. Ainsi, le modèle de Koyck
est équivalent à une représentation dans laquelle la variable yt est expliquée par les variables
xt ; xt 1 ; xt 2 ; xt 3 ; : : : ; x 1 , et pour autant l’estimation de ce modèle (qui suppose simplement
de régresser yt sur yt 1 et xt ) ne pose pas de problème lié à la corrélation entre les valeurs
retardées.
Dans la terminologie de Box et Jenkins (1976), le modèle de Koyck s’apparente à un modèle
de type AR(1)-X, où la lettre X indique la présence de la variable exogène xt dans l’équation
d’espérance conditionnelle de yt . Bien évidemment, ce modèle peut être étendu à une représen-
tation de type AR(p)-X, incluant non plus une seule valeur retardée yt 1 , mais p valeurs yt 1 ;
yt 2 ; : : : ; yt p . Toutefois, le modèle de Koyck et son extension présentent un important défaut
lorsque l’on considère plus d’une variable exogène. Dans ce cas, la décroissance des coe¢ cients
retards (e¤ets marginaux de court terme) avec le décalage temporel est identique pour toutes
les variables explicatives. Par exemple, les impacts dynamiques sur yt de deux variables ex-
plicatives x1;t s et x2;t s sont supposés évoluer de la même façon avec le décalage s. Une telle
hypothèse est problématique car elle ne correspond généralement à aucune théorie, ni à au-
cune observation empirique. Le modèle ARDL (autoregressive distributed lag model ) permet de
répondre à cette critique. Formellement, ce modèle permet d’introduire à la fois des retards sur
la variable dépendante et sur la variable exogène. Ce faisant l’e¤et marginal de la variable xt
sur yt est déterminé par le ratio de deux polynômes retard (d’où l’appellation alternative de
rational lag model ), le premier étant spéci…que à la variable xt ; le second à celui de la variable
dépendante. Dès lors, deux variables exogènes, associées à deux polynômes retards, n’ont pas
nécessairement le même impact dynamique sur la variable endogène.
Tous ces modèles peuvent être estimés assez facilement grâce à di¤érentes procédures, que ce
soit sous les logiciels SAS, Eviews, Matlab, et R. Dans cette note nous donnerons les principales
fonctions pour SAS et R.
Le plan de cette note est structuré de la façon suivante. Dans une première section, nous
présenterons les modèles à retards distribués non contraints. Dans une seconde section, nous
présenterons les modèles restreints (linéaire, géométrique, etc.) et notamment les modèles poly-
nomiaux d’Almon. La troisième section sera consacrée aux modèles avec variable dépendante
retardée : modèles de Koyck, AR-X, et ARDL. La dernière section présentera les procédures
d’estimation de ces di¤érents modèles sous R et SAS.
3
De…nition 1 Un modèle à retards échelonnés linéaire s’écrit sous la forme
q
X
yt = + (L) xt + "t = + s xt s + "t (1)
s=0
où f"t ; t 2 Zg est un bruit blanc faible, L désigne l’opérateur retard, (L) un polynôme retard
P
d’ordre q avec (L) = qs=0 s Ls et q 6= 0.
Notons que cette valeur est …nie à la condition que les paramètres s véri…ent
1
X
j sj <1 (4)
s=0
Supposons à présent que la valeur de la variable x change à la période t. On peut alors distinguer
son e¤et immédiat sur yt (multiplicateur d’impact ou multiplicateur de court-terme) de son e¤et
cumulé sur la valeur d’équilibre de y. Le multiplicateur d’impact mesure l’e¤et immédiat d’une
variation marginale de xt sur yt . Formellement, ce multiplicateur est dé…ni par :
@yt @yt+s
Multiplicateur dynamique de court terme = = = s (5)
@xt s @xt
2
Pour une discussion détaillée des modèles à retard échelonnés, de leur spéci…cation et de leur estimation, voir
l’ouvrage de synthèse Dhrymes (1971).
4
Le multiplicateur de long-terme est quant à lui dé…ni par
X 1
@y
Multiplicateur de long-terme = = s (6)
@x
s=0
Par exemple, considérons un modèle à retards échelonnés et …nis d’ordre 2 tel que
Supposons que la variable x augmente de façon transitoire d’une unité à la date t, puis revient
à son niveau initial à la date t + 1. Dans ce cas, yt augmente à la date t de 6 unités, puisque les
valeurs xt 1 , xt 2 et "t sont inchangées et que @yt =@xt = 6. A la date t + 1, la valeur de yt+1
diminuera de 2 unités puisque @yt =@xt 1 = 2. Ainsi la quantité @yt =@xt s mesure l’impact
dynamique d’un changement marginal de xt sur les valeurs successives de yt ; yt+1 ; yt+2 , etc.
Supposons à présent que la variable xt augmente de façon permanente d’une unité à partir
de la date t.
0 si s < t
xs = (8)
1 si s t
A la date t, yt augmente de 6 unités tout comme dans le cas précédent. Mais à la date t + 1,
yt+1 augmente de @yt =@xt + @yt =@xt 1 = 6 2 = 4 unités. La limite de cet e¤et cumulatif est
déterminée par la somme des coe¢ cients retards, c’est à dire
@yt @yt @yt
+ + =6 2+3=7 (9)
@xt @xt 1 @xt 2
L’e¤et marginal de long terme de la variable x sur la valeur d’équilibre de y est donc égal à 7
unités.
Comme dans le cas d’un modèle linéaire simple, les paramètres s peuvent être estimés par la
méthode des moindres carrés ordinaires (MCO) ou la méthode des moindres carrés généralisés
(MCG), en supposant que la variable x est strictement exogène. L’interprétation des coe¢ -
cients s renvoie à l’analyse des e¤ets marginaux présentés précédemment. L’avantage de cette
spéci…cation réside dans le fait qu’aucune restriction n’est imposée a priori sur les paramètres
s , et donc sur les e¤ets dynamiques de x sur y.
Toutefois, l’estimation des paramètres d’un modèle à retards distribués pose deux principaux
problèmes. Le premier problème est celui de la multicolinéarité. Même dans le cas d’une variable
explicative x stationnaire, il est fréquent d’observer de fortes autocorrélations entre les valeurs
xt et xt s ; notamment aux premiers ordres. Or de fortes corrélations entre les variables xt , xt 1 ,
xt 2 ,: : : ; xt q se traduit dans le modèle de régression de l’équation (10) par un problème de
quasi-multicolinéarité3 . Le niveau élevé de corrélation entre les régresseurs peut conduire à des
3
La multi-colinéarité au sens strict impliquant que la matrice des régresseurs X = (xt : xt 1 : : : : : xt q ) n’est
pas de plein rang q + 1; i.e. que certaines colonnes peuvent s’écrire comme une combinaison linéaire exacte des
autres colonnes de la matrice. Par conséquent, la matrice X 0 X n’est pas inversible. Dans le cas d’une quasi
multi-colinéarité, la matrice X 0 X est inversible mais son déterminant est très proche de 0.
5
estimations des coe¢ cients peu …ables4 avec des variances et des écart types très importants.
L’estimation du modèle à retards échelonnés pose un second problème lorsque l’ordre des
retards q est relativement grand comparé à la taille d’échantillon disponible pour estimer les
paramètres du modèle. En e¤et, si la taille d’échantillon est égale à T , compte tenu des retards
on ne dispose au …nal que de T q observations pour estimer les q + 2 paramètres du modèle
(y compris la constante), soit T 2q 2 degrés de liberté. Chaque fois que l’on augmente
le retard q d’une unité, on perd ainsi deux degrés de liberté : un parce qu’il faut estimer un
paramètre de plus et un autre parce que la taille d’échantillon e¤ectivement disponible se réduit
d’une observation. L’estimation peut donc s’avérer peu précise si la taille T est relativement
faible comparée au nombre maximum de retard q. Il n’y pas de règle absolue concernant le
nombre de degrés de liberté requis pour garantir à la fois la convergence des estimateurs et la
pertinence du résultat théorique de normalité asymptotique utilisé pour l’inférence. Toutefois,
on peut convenir qu’en dessous de 50 degrés de liberté, il convient d’être prudent quant à
l”interprétation des résultats d’estimation. Bien évidemment, ce problème n’est pas spéci…que
au modèle à retards échelonnés et concerne l’ensemble des modèles dynamiques (AR, MA,
ARIMA, etc.).
En résumé, le modèle à retards distribués à ordre …ni (…nite distributed lag model ) est
approprié pour estimer les relations dynamiques entre x et y lorsque (i) les paramètres s
diminuent assez rapidement avec l’ordre s jusqu’à zéro, (ii) la variable explicative xt est peu
auto-corrélée, et (iii) la taille de l’échantillon T est su¢ samment importante par rapport à
l’ordre des retards q.
3. Le modèle avec décalage polynomial distribué (polynomial distributed lag model ), connu
aussi sous le nom de modèle d’Almon (Almon distributed lag model ).
4
Une des manifestations possibles de ce problème de quasi-multicolinéarité est que l’on peut parfois obtenir
des coe¢ cients estimés b s qui prennent alternativement des valeurs positives et négatives très élevées en valeur
absolue, sans aucune explication économique valable. Ce type de comportement peut traduire la présence d’un
problème de quasi-multicolinéarité, mais ce n’est pas une règle absolue. Cela peut simplement traduire le fait
que les racines du polynôme retard B (L) sont des racines complexes.
6
3.1 Modèle avec décroissance linéaire des paramètres.
L’idée est que les paramètres 1 ; 2 ; 3 ; : : : ; s sont des fractions linéairement décroissantes du
multiplicateur de court terme 0 . Dans ce cas, on pose
q+1 s
s = 0 s = 1; : : : ; q (11)
q+1
Par exemple, si l’on pose q = 4 les paramètres s sont respectivement dé…nis par 1 = 4 0 =5;
2 = 3 0 =5; 3 = 2 0 =5; et 4 = 0 =5. Le modèle à retards échelonnés d’ordre …ni q s’écrit
alors sous la forme
Xq
q+1 s
yt = + 0 xt s + "t (12)
q+1
s=0
Dans cette spéci…cation, seuls les paramètres et 0 doivent être estimés. La procédure
d’estimation est alors extrêmement simple. Pour un ordre q donné, on construit la variable
explicative transformée zt dé…nie par
q
X q+1 s q q 1 1
zt = xt s = xt + xt 1 + xt 2 + ::: + xt q (13)
q+1 q+1 q+1 q+1
s=0
Puis, on régresse yt sur une constante et la variable zt par la méthode des MCO ou des MCG.
yt = + 0 zt + "t (14)
Dans ce modèle, l’e¤et cumulatif de long terme est alors égal à
q
X q+1 s q
0 = 0 1+ (15)
q+1 2
s=0
Par exemple, pour q = 4 on obtient un e¤et cumulatif de long terme égal à 0 + 1 + 2 + 3 + 4 =
3 0 . Notons que le modèle à décroissance linéaire peut être conçu comme un cas particulier
du modèle à distribution polynomiale de retards ou modèle d’Almon (1965) obtenu pour le cas
particulier s = 0 (cf. infra)
En…n, il est possible de considérer di¤érentes variantes de ce modèle. On peut par exemple
supposer que les poids s augmentent linéairement jusqu’à un pic à l’ordre m, puis décroissent
linéairement jusqu’à 0. Pour cela, il su¢ t de poser
jm sj
s = 0 1 s = 1; : : : ; 2m (16)
m+1
Par exemple pour m = 3, on obtient 0 = 3 =4, 1 = 2 3 =4; 2 = 3 3 =4; 3; 4 = 3 3 =4,
5 = 2 3 =4 et 6 = 3 =4.
7
De…nition 2 Le modèle à retards échelonnés d’ordre …ni q, avec distribution géométrique des
retards (geometric lag model), s’écrit sous la forme
q
X
s
yt = + 0 (1 ) xt s + "t (19)
s=0
Cette représentation peut être justi…ée comme une forme réduite d’un modèle d’anticipation
dans lequel la valeur de yt dépend de l’anticipation de la valeur future xt+1 obtenue avec
l’information disponible à la date t. Sous l’hypothèse d’anticipation adaptative, la forme réduite
de ce modèle correspond à l’équation (19). Voir Greene (2007) pour plus de détails.
s = g (s) s = 1; : : : ; q (20)
Dès lors, il est toujours possible d’approximer cette fonction par un pôlynome d’ordre p
2 p
s = g (s) ' 0 + 1s + 2s + ::: + ps (21)
De…nition 3 La modèle polynomial d’Almon postule une restriction sur les paramètres retard
s de la forme
Xq
yt = + s xt s + "t (22)
s=0
2 p
s = 0 + 1s + 2s + ::: + ps s = 0; 1; : : : ; q (23)
où les paramètres j ; j = 0; : : : ; p sont des constantes réelles véri…ant p 6= 0. Le modèle à
décalage retard polynomial distribué devient alors
q
X q
X q
X
yt = + 0 xt s + 1 sxt s + + p sp xt s + "t (24)
s=0 s=0 s=0
8
Une spéci…cation usuelle des lags d’Almon est la fonction quadratique, obtenue pour p = 2
et s = 0 + 1 s + 2 s2 . Comme le montre la …gure ci-dessous, la fonction quadratique permet
d’obtenir des pro…ls de coe¢ cients retards s su¢ samment variés pour capter un grand nombre
de con…gurations sur les e¤ets marginaux.
20
coefficient
15
10
5
0
0 1 2 3 4 5
s
=0.2 =1,2 =-0,2
0 1 2
3
s
2
coefficient
0
0 1 2 3 4 5
s
Estimation. La méthode d’estimation d’un modèle d’Almon est très simple. Pour un ordre
de retard q et un degré s du polynôme d’Almon donnés, on construit les variables explicatives
transformées suivantes :
q
X q
X q
X q
X
z0;t = xt s z1;t = sxt s z2;t = s2 xt s ::: zp;t = sp xt s (25)
s=0 s=0 s=0 s=0
Les paramètres ; 0 ; 1 ; : : : ; p peuvent alors être estimés par MCO ou MCG. A partir des
paramètres estimés b0 ; b1 ; : : : ; bp on peut alors reconstruire les estimateurs b 0 ; b 1 ; : : : ; b q des
coe¢ cients retard en utilisant la fonction polynomiale
b = b0 + b1 s + b2 s2 + : : : + bp sp s = 0; 1; : : : ; q (27)
s
9
On construit les 3 variables z0;t ; z1;t et z2;t telles que
z0;t = xt + xt 1 + xt 2 + xt 3 + xt 4 (30)
La valeur ajustée de yt peut alors s’écrire soit en fonction des variables transformées zs;t , soit
en fonction des variables explicatives retardées xt s de la façon suivante
La distribution des paramètres retards estimés peut parfois sembler contre-intuitive. On peut
par exemple obtenir des coe¢ cients retard qui s’écartent de zéro à l’extrémité ou qui prennent
des valeurs négatives au milieu. Une distribution de retards estimée non plausible peut être
la preuve d’une mauvaise spéci…cation du modèle et ne doit pas être ignorée. Si l’on souhaite
toutefois conserver la spéci…cation du modèle, il est possible de contraindre les coe¢ cients
s à avoir certaines propriétés en posant des contraintes sur les paramètres de la fonction
polynomiale. Par exemple, considérons le cas d’une fonction quadratique (p = 2) et supposons
que l’on souhaite que les poids s convergent régulièrement vers zéro et qu’ils s’annulent pour
un décalage q + 1, comme c’était le cas pour les décalages linéaires précédemment mentionnés.
On souhaite donc imposer la contrainte
Imposer cette contrainte sur les paramètres de la fonction polynomiale lors de l’estimation
permet ainsi d’obtenir des coe¢ cients retards estimés b s qui décroissent progressivement vers
0 lorsque les retards s approchent l’ordre maximum q. Pour une discussion plus approfondie
sur le choix de l’ordre du polynôme s, ses implications sur les pro…ls des coe¢ cients retard s ,
et sur les di¤érentes restrictions que l’on peut imposer sur ces paramètres, voir Smith et Giles
(1976).5
La méthode polynomiale d’Almon est donc très simple d’utilisation. Toutefois, elle présente
un inconvénient puisqu’elle nécessite non seulement la spéci…cation a priori du nombre de retards
q, mais aussi la spéci…cation du degré p du polynôme. Le choix de ce dernier paramètre est
particulièrement délicat et une mauvaise spéci…cation peut introduire un biais important lors
de l’estimation de certains coe¢ cients.
5
Pour une application des lags d’Almon dans un autre contexte que celui des modèles à retards échelonnés,
voir par exemple Banulescu, Candelon, Hurlin et Laurent (2016).
10
4 Modèles avec variable dépendante retardée
L’idée des modèles avec variable dépendante retardée est similaire à celle des modèles AR et
ARIMA : il s’agit d’utiliser une ou plusieurs valeurs retardées de y comme déterminant de la
valeur actuelle de yt . Le modèle le plus simple est le modèle de Koyck qui est fondé uniquement
sur la valeur retardée yt 1 et la valeur courante de l’explicative xt . Par inversion du polynôme
autorégressif, il est alors possible de montrer que ce modèle admet une représentation équivalente
sous forme de modèle à retards échelonnés in…nis à décroissance géométrique.
y t = + yt 1 + 0 xt + vt (36)
(1 L) yt = + 0 xt + vt (37)
0 1
yt = + xt + vt (38)
1 (1 L) (1 L)
1 2 3 P1 s
On rappelle que si j j < 1, on a (1 L) =1+ + + + ::: = s=0 . Dès lors, cette
équation peut se réécrire sous la forme
1
X 1
X
s s
yt = + 0 xt s + vt s (39)
1
s=0 s=0
Proposition 1 Le modèle de Koyck peut se réécrire sous la forme d’un modèle à retards in…nis
contraints, à décroissance géométrique, sous la forme
1
X
s
yt = + B (L) xt + "t = + 0 xt s + "t (40)
s=0
P1 s 1 P1 s
avec = = (1 ), "t = s=0 vt s, B (L) = 0 (1 L) = s=0 s, et s = 0 .
6
Le X mis à la …n de l’acronyme AR, MA, ARMA ou ARIMA signi…e que l’on ajoute à l’équation du modèle
une ou plusieurs variables explicatives supposées exogènes. Dans un modèle ARIMA-X il n’y a pas d’équation
auxiliaire pour décrire la dynamique de ces variables X exogènes, contrairement aux modèles VAR qui postulent
une dynamique jointe (endogène).
11
Un modèle de Koyck correspond donc à un modèle à retards in…nis, avec une distribution
géométrique des retards qui est dé…nie implicitement par inversion du polynôme retard autoré-
gressif 1 L. Pour rappel, un modèle avec distribution (in…nie) géométrique des retards s’écrit
sous la forme
1
X
yt = + e (1 0) s
xt s + "t (41)
s=0
Une des principales limites de la spéci…cation du modèle de Koyck réside dans son manque
de souplesse et de ‡exibilité lorsque l’on considère plus d’une variable explicative. Considérons
un modèle de Koyck avec deux variables explicatives x1t et x2t tel que
Les e¤ets marginaux dynamiques des variables x1t et x2t sur yt sont alors égaux à
@yt s @yt s
= 0 = 0 (45)
@x1t @x2t
On observe immédiatement que le modèle de Koyck impose que la vitesse de décroissance (avec
les décalages temporels) des e¤ets marginaux des variables x1t et x2t soit exactement identique.
Une telle hypothèse de symétrie du pro…l temporel des réponses dynamiques de la variable y
aux di¤érentes variables explicatives peut être problématique. C’est la principale justi…cation
aux modèles ARDL (cf. infra) : le fait d’introduire un polynôme retard spéci…que à chaque
variable explicative permet de di¤érencier la dynamique temporelles des e¤ets marginaux des
variables x1t et x2t .
12
remet en cause l’exogénéité faible du régresseur yt 1 . Mais on se heurte ici à un problème
de circularité : a…n de tester l’absence d’autocorrélation dans le terme d’erreur vt (et donc
l’exogénéité faible de yt 1 et, in …ne, la convergence de l’estimateur des MCO), on a besoin
des résidus vbt qui ont été construits à partir des estimateurs des MCO, potentiellement non
convergents.
Pour cette raison, l’estimation du modèle de Koyck et de ses extensions (ARDL, AR-X) se
fait parfois par la méthode des variables instrumentales pour tenir compte de l’endogénéité de
la variable yt 1 . C’est typiquement le cas sous R, avec la fonction koyckDlm du package dLagM
(Demirhan, 2018).
Extension du modèle de Koyck. Une extension naturelle du modèle de Koyck est le modèle
AR(p)-X qui les valeurs retardées de la variable dépendante pour des retards allant de 1 à p.
Ce modèle s’écrit simplement comme suit
yt = + 1 yt 1 + ::: + p yt p + 0 xt + vt (46)
Pour p = 1,on retrouve bien évidemment le modèle de Koyck. Ce modèle AR(p)-X peut s’écrire
de façon plus concise en utilisant un polynôme retard.
(L) yt = + 0 xt + vt (47)
Pp s
où vt est un bruit blanc faible et où le polynôme (L) véri…e (L) = 1 s=1 s L , avec
p 2 R . On suppose que les racines du polynôme (L) sont toutes situées en dehors du cercle
unité.
La condition sur les racines du polynôme (L) est une généralisation de la condition j j < 1
du modèle de Koyck. Par exemple, considérons un modèle AR(2)-X tel que :
5 1
y t = yt 1 yt 2 + xt + vt (48)
8 16
Le polynôme autorégressif (L) s’écrit (L) = 1 5=8 L + 1=16 L2 . Les racines de ce
polynôme, telles que ( 1 ) = ( 2 ) = 0; sont égales à 1 = 2 et 2 = 8. Leur module (leur
valeur absolue pour des valeurs réelles) est supérieur à l’unité. Les deux racines sont donc à
l’extérieur du cercle unité, ce qui garantit la stabilité du modèle.
Lorsque cette condition de stabilité n’est pas satisfaite, une variation marginale de x peut
conduire à une variation explosive de y. Dit autrement, la réponse dynamique de y à un choc
x est explosive. Une solution consiste alors à di¤érencier la variable y et à postuler un nouveau
modèle AR(p 1)-X sur la variation y = (1 L) y et non plus sur le niveau de y.
13
Spéci…cation et estimation des modèles ARDL. Un modèle ARDL(p; q) s’écrit sous la
forme
Xp q
X
yt = + s yt s + s xt s + vt (49)
s=1 s=0
yt = + 1 yt 1 + 2 yt 2 + 0 xt + 1 xt 1 + vt (50)
Le modèle ARDL(p; q) peut s’écrire de façon plus concise en utilisant deux polynômes retard
: un pour les retards sur la variable dépendante y (polynôme autorégressif) et l’autre pour les
retards sur la variable explicative x.
Tout comme nous l’avions fait pour le modèle de Koyck, nous pouvons réécrire ce modèle
sous la forme d’un modèle à retards échelonnés contraint par inversion du polynôme (L).
(L)
yt = + xt + vt = + B (L) xt + vt (52)
(1) (L)
Cette formulation explique pourquoi le modèle ARDL est parfois appelé modèle à retard ra-
tionnel7 ou rational lag model ( Jorgenson, 1966). La détermination des termes du polynôme
B (L) suppose d’inverser le polynôme (L). Il existe pour cela di¤érentes méthodes (cf. annexe
A).
Dans ce modèle, l’e¤et cumulatif de long terme de x sur y est égal à
1
X (1)
B (1) = s = (53)
(1)
s=1
Tout comme pour le modèles de Koyck et AR-X, la condition selon laquelle les racines du
polynôme (L) sont toutes situées en dehors du cercle unité garantit que l’e¤et dynamique
(e¤et cumulé de long terme) de x sur y est non explosif8 . Il convient de bien véri…er cette
condition sur les modèles estimés sous peine d’obtenir des e¤ets dynamiques non conformes à la
réalité économique. Dans le cas, où cette condition n’est pas véri…ée, il convient de di¤érencier
la variable yt et d’appliquer un nouveau modèle ARDL sur yt = (1 L) yt .
Tout comme pour les modèles ARMA, il existe plusieurs façons (non exclusives) de déter-
miner les retards maximum p et q des modèles ARDL :
7
Pour rappel, un nombre rationnel est un nombre qui peut s’exprimer comme le quotient de deux entiers
relatifs. Par analogie ici le polynôme retard B (L) s’écrit comme le ratio de deux polynômes
(L)
B (L) =
(L)
8
Pour plus de détails, voir Greene (2007), chapitre 19, section 19.4.3, consacrée à l’étude de la stabilité d’une
équation dynamique.
14
En testant la signi…cativité des paramètres p et q . Si l’hypothèse nulle de nullité de p
(respectivement q ) n’est pas rejetée, il convient de réduire l’ordre p (respectivement q).
En utilisant des critères d’information de type AIC et BIC. La meilleure spéci…cation des
retards maximum (p; q) est celle qui permet de minimiser les critères d’information, i.e.
de minimiser la MSE du modèles pour un nombre de paramètre à estimer le plus faible
possible.
yt = t + 1 yt 1 + ::: + p yt p + vt (56)
b T +1jT = + b T +1jT
0x + 1 xT + ::: + q xT q+1 (58)
| {z }
Prev
1. Les paramètres ; i ; j ne sont pas connus et doivent être estimées, ce qui engendre une
erreur d’estimation.
2. La valeur future de la variable explicative xT +1 n’est pas connue. Elle doit être prévue, ce
qui induit une erreur de prévision xT +1 x b T +1jT qui se répercute sur l’erreur de prévision
sur yT +1 .
3. Par dé…nition, la composante d’erreur de type bruit blanc vT +1 , ne peut pas être prévue
puisque E ( vT +1 j T ) = 0.
En général, la seconde source d’incertitude est négligée car on ne connait pas la forme ou les
propriétés de l’erreur de prévision sur xT +1 . La variance asymptotique de la prévision ybT +1jT ,
et donc de l’erreur de prévision sur yT +1 , dépend de façon classique de la matrice de variance
15
covariance des paramètres estimés et de la variance du terme d’erreur vt . Pour plus de détails,
voir Greene (2007).
Le même raisonnement peut être mené pour n’importe quel horizon h 1. Par exemple,
pour un horizon h = 2, la prévision dynamique de yT +2 conditionnelle à l’information T
disponible à la date T devient
b T +2jT = + b T +2jT
0x + b T +1jT
1x + 2 xT + ::: + q xT q+2 (60)
| {z } | {z }
Prev Prev
Dans ce cas, la prévision ybT +2jT nécessite de connaitre les prévisions de la variable x aux
b T +1jT et x
horizons h = 1 et h = 2, notées x b T +2jT . Les procédures de prévisions de R ou de SAS
pour les modèles ARDL nécessitent donc de donner les prévisions x b T +1jT ; x
b T +2jT ; : : : x
b T +hjT
pour toutes les variables explicatives (exogènes) du modèle. L’utilisateur doit donc construire
des modèles auxiliaires pour mener à bien ces prévisions ou faire des scenarios sur ces valeurs
futures.
5 Applications
Nous allons discuter ici brièvement les possibilités d’application de ces modèles sous le logiciel
R et sous le logiciel SAS.
Modèles à retard distribués d’ordre …ni (…nite distributed lag models) : fonction dlm
Modèles avec décalage polynomial distribués (polynomial (Almon) distributed lag models)
: fonction polyDlm
Modèles avec distribution géométrique des retards (geometric distributed lag models) avec
ou sans transformation de Koyck : fonction koyckDlm. Rappelons qu’un modèle avec
transformation de Koyck est équivalent à un modèle à retards distribués d’ordre in…ni
(in…nite distributed lag models).
16
5.2 Mise en oeuvre sous le logiciel SAS
Sous SAS, les modèles à retards échelonnés et leurs extensions peuvent être estimés à partir
de la procédure PROC PDLREG. Pour plus de détails, voir SAS (2014). Cette procédure est
essentiellement consacrée à l’estimation de modèles à retards polynomiaux d’Almon. Elle peut
être étendue pour introduire la variable dépendante retardée yt 1 grâce à l’instruction LAGDEP.
Attention dans ce cas, on obtient un modèle de Koyck avec un schéma de contraintes sur le
polynôme retard (L) déterminé par les polynômes d’Almon. C’est donc une procédure qui est
beaucoup plus spécialisée que le package dLagM de R. Mais elle permet facilement par exemple
de poser des restrictions lors de l’estimation des paramètres du polynôme d’Almon.
De façon automatique, les coe¢ cients estimés bi et b s sont a¢ chés comme le montre les
…gures ci-dessous9 . Dans cet exemple, la variable dépendante m est régressée sur 3 variables
explicatives (y; r et p) et une valeur retardée mt 1 . Pour la variable yt on considère q = 3 lags,
c’est-à-dire que l’on va introduire les régresseurs yt ; yt 1 ; yt 2 et yt 3 . Les 4 paramètres associés
0 ; 1 ; 2 ; 3 sont déterminés par un polynôme de degré 3, du type
2 3
s = 0 + 1s + 2s + 3s s = 0; : : : ; 3
Les paramètres estimés b0 ; b1 ; b2 et b3 sont reportés sur la …gure 2. Les paramètres estimés
b ; b ; b ; b sont reportés sur la …gure 3.
0 1 2 3
9
Les instructions de ce modèle sont les suivantes :
proc pdlreg data=a;
model m = lagm y(5,3) r(2, , ,…rst) p(3,2) / lagdep=lagm;
run;
17
Figure 3: Paramètres b s estimés
References
[1] Almon, S. (1965). The Distributed Lag Between Capital Appropriations and Expenditures.
Econometrica, 33 (1), pp. 178-196.
[2] Banulescu D.,Candelon B., Hurlin C. et Laurent S. (2016), Do We Need Ultra-High Fre-
quency Data to Forecast Variances?, Annales d’Economie et Statistiques, 123-124, pp.
135-174.
[3] Box, G.E et G.M. Jenkins (1976). Time Series Analysis, Forecasting and Control, Wiley.
[5] Dhrymes, P. J., (1971). Distributed Lags: Problems of Estimation and Formulation. Holden-
Day, San Francisco.
[6] Greene W. (2007), Econometric Analysis, sixth edition, Pearson - Prentice Hill.
[7] Koyck, L. M. (1954). Distributed Lags and Investment Analysis. Amsterdam: North-
Holland.
[8] Madinier H. et M. Mouillart (1983), Les méthodes d’estimation des modèles à retards
échelonnés en économie, Revue de statistique appliquée, 31 (4), pp. 53-73.
[10] Smith, R.G. et D.E.A. Giles (1976). The Almon estimator: Methodology and users’guide.
Discussion Paper E76/3, Reserve Bank of New Zealand.
18
A Annexe : Inversion d’un polynôme d’ordre p
En analyse des séries temporelles, il est souvent utile d’inverser des processus. Par exemple,
partant d’un processus AR stationnaire, on peut par inversion du polynôme autorégressif, déter-
miner la forme M A (1) associée à la décomposition de Wold. On obtient ainsi des représen-
tation équivalentes d’un même processus. Pour cela, il est nécessaire d’inverser des polynômes
dé…nis en l’opérateur retard. Nous avons déjà vu comment réaliser cette opération pour des
polynômes de degré un. Nous allons à présent généraliser cette méthode au cas de polynôme
de degré supérieur ou égal à un.
Le problème est donc le suivant. Soit (z) un polynôme inversible d’ordre p à coe¢ cients
réels avec 0 = 1. Il s’agit de déterminer e (z) ; le polynôme inverse de (z) . Par dé…nition,
8z 2 C
Xp 1
X
e
(z) (z) = (z) (z) = 1 j e zj = 1
jz j
j=0 j=0
Plusieurs solutions existent pour déterminer e (z) : Parmi celles-ci, nous n’en retiendrions
que deux.
P
i
e
i k k = 0 8i 2 [1; p]
k=0 (61)
Pp
e
i k k = 0 8i > p
k=0
avec 1 = 0:6 et 2 = 0:3: Le polynôme est inversible puisque les racines sont de module
strictement supérieur à 1 : 1 = 1:23 et 2 = 3:23: Soit e (z) le polynôme inverse de (z) ;
que l’on suppose de degré in…ni. On part de la relation d’identi…cation :
(z) e (z) = 1
En développant on obtient :
1+ 2 e + e z + e z 2 + e z 3 + ::: + e z p + ::: = 1
1z + 2z 0 1 2 3 p
() e + e z + e z 2 + e z 3 + ::: + e z p + :::
0 1 2 3 p
e e z + e2 z 2 + e e z 3 + e e z 4 + ::: + e e z p+1 + :::
0 1 1 2 1 3 1 p 1
e e z 2 + e e z 3 + e2 z 4 + e e z 5 + ::: + e e z p+2 + ::: = 1
0 2 1 2 2 3 2 p 2
Par identi…cation des termes de même degré à droite et à gauche du signe égal, on obtient
alors le système suivant :
19
8
> e =1
>
> 0
>
> e +
>
> 1 1 =0
< e e
2+ 1 1+ 2 =0
> e e e
>
> 3+ 2 1+ 1 2 =0
>
> :::
>
>
: e e e
n + n 1 1 + n 2 2 = 0 8n > 2
La résolution de ce système fournit alors une suite de récurrence qui dé…nit les coe¢ cients
de la représentation M A (1) du processus xt :
1
X
xt = e (z) "t = e "t j (62)
j
j=0
e =1 (63)
0
e = 0:6 (64)
1
e = 0:6en + 0:3en 8n 2 (65)
n 1 2
ep 1
j
aj = 8j p (67)
Q
p
ej ek
k=1
k6=j
Or on montre que :
! 0 1
p
X p
X 1
X 1
X Xp
aj ek z k = k
= aj j
@ aj ej A z k (68)
j=1 1 ej z j=1 k=0 k=0 j=1
20
Considèrons à nouveau l’exemple du polynôme AR (2) dé…ni par (z) = 1 + 1 z + 2 z 2 ;
avec 1 = 0:6 et 2 = 0:3: Les deux racines réelles sont 1 = 1:23 et 2 = 3:23: On cherche
tout d’abord à déterminer les paramètres ai tels que 8z 2 C
1 a1 a2
= +
1 e1 z 1 e2 z 1 e1 z 1 e2 z
avec
e1 = 1 1
=
1 1:23
e2 = 1 1
=
2 3:23
En développant, on obtient l’égalité suivante, 8z 6= i; i = 1; 2 :
a1 1 e2 z + a2 1 e1 z = 1
() (a1 + a2 ) a1 e2 + a2 e1 z = 1
Par identi…cation des termes de même degré, on obtient le système :
a1 + a2 = 1
a1 e2 + a2 e1 = 0
e1 e2
a1 = a2 =
e1 e2 e2 e1
On peut démontrer que les paramètres ej ainsi dé…nis satisfont l’équation de récurrence
dé…nie en (65).
21