Vous êtes sur la page 1sur 35

Chapitre 19

Modèles de Régressions
pour Données Chronologiques

19.1 Introduction
Un nombre conséquent d’études économétriques appliquées utilisent des don-
nées chronologiques, et nombreux sont les problèmes économétriques qui sont
liés au seul usage de ce genre de données. L’un d’entre eux est la corrélation
en série, dont nous avons largement parlé au cours du Chapitre 10. Dans
ce chapitre et celui qui suit, nous discuterons d’autres problèmes que l’on
rencontre fréquemment lorsque l’on utilise les données chronologiques ou des
méthodes susceptibles de les traiter. Dans la Section 19.2, nous aborderons le
problème des régressions “erronées” entre des séries économiques temporelles.
Cette section introduit quelques concepts importants qui feront l’objet du
Chapitre 20, lorsque nous parlerons des racines unitaires et de la cointégration.
La Section 19.3 traite l’estimation des retards échelonnés. La Section 19.4
concerne les modèles de régression dynamique, dans lesquels un ou plusieurs
retards de la variables dépendante apparaissent dans les régresseurs. Nous
discuterons de l’estimation des modèles à vecteur autorégressif pour des séries
chronologiques multivariées dans la Section 19.5. Les deux sections finales
traitent de la saisonnalité. La Section 19.6 fournit une introduction aux
procédures d’ajustement saisonnier, et la Section 19.7 discute des moyens
variés de modéliser les variations saisonnières dans les modèles de régression.

19.2 Régressions Erronées


De nombreuses séries temporelles économiques ont une tandance croissante
dans le temps. Cette observation est sans doute vraie pour la plupart des
séries qui mesurent, ou qui sont mesurées avec les prix nominaux, du moins
pour notre siècle. Elle est également vraie pour des données chronologiques qui
mesurent les niveaux des variables économiques réelles, telles que la consom-
mation, la production, l’investissement, les importations et les exportations.
De nombreuses séries tendancielles peuvent être généralement caractérisées

669
670 Modèles de Régressions pour Données Chronologiques

par l’un des deux modèles suivants:

yt = γ1 + γ2 t + ut et (19.01)
yt = δ1 + yt−1 + ut , (19.02)

où les aléas ut ne seront, en général, ni indépendants ni identiquemt dis-


tribués. Ils seront cependant stationnaires si le modèle est bien adapté à la
série temporelle concernée. Le premier modèle, (19.10), indique que yt est
stationnaire en tendance, c’est-à-dire qu’il est stationnaire autour d’une ten-
dance. Par contraste, le second modèle, (19.02), indique paramètre de dérive
δ1 dans (19.02) joue un rôle comparable au paramètre de tendance γ2 dans
(19.01), puisque les deux donnent une orientation croissante à yt à travers
le temps. Mais le comportement de yt est très différent dans les deux cas,
parce qu’enlever la tendance de yt dans le premier cas en fait une variable
stationnaire, alors que dans le second cas, ce n’est pas exact.
Il existe une littérature importante consécrée à la détermination du
modèle qui caractérise le mieux la plupart des séries temporelles, détermina-
tion qui arbitre entre le modèle stationnaire en tandance (19.01) et le modèle à
marche aléatoire avec dérive (19.02). L’article de Nelson et Plosser (1982) est
une référence classique, celui de Campbell et Mankiw (1987) est plus récent, et
celui de Stock et Watson (1988a) offre une discussion excellente de nombreuses
résultat de nombreux résultats. Dans le prochain chapitre nous discuterons
des méthodes que l’on peut employer pour savoir par lequel de ces modèles
une série temporelle donnée est le mieux caractérisée. Pour l’instant, ce qui
nous préoccupe est ce qui survient si l’on utilise des séries chronologiques,
qui sont décrites par l’un ou l’autre de ces modèles, en tant que variables
dépendantes ou indépendantes dans un modèle de régression.
Si unePsérie chronologiqe dont l’élément type est xt est toujours croissante,
n
alors n−1 t=1 x2t divergera vers +∞. Ainsi, si l’on utilise une telle série en
tant que régresseur dans un modèle de régression linéaire, la matrice n−1X>X
ne peut pas tendre vers une matrice finie, défine positive. Toute la théorie
asymptotiques que nous avons utilisée dans cet ouvrage est donc inadaptée
aux modèles pour lesquels n’importe quel régresseur est caractérisé par (19.01)
ou par (19.02).1 Cela ne signifie pas qu’il ne faut jamais poser une variables

1
Le fait que la théorie asymptotique standard soit inadaptée à de tels modèles
ne signifie pas qu’aucune théorie ne leur soit pas applicable. Par exemple, nous
avons étudié un modèle simple de régression sur une tendance linéaire dans la
Section 4.4 et nous avons conclu que l’estimateur des moindres carrés du coef-
ficient du terme de tendance était convergent, mais avec une variance O(n−3 )
au lieu d’être O(n−1 ). De plus, puisqu’il existe des TLC qui s’appliquent à
de tels modèles, les procédures habituelles pour l’inférence sontP
asymptotique-
n
ment valables. Par exemple, si ut ∼ IID(0, σ 2 ) et Sn ≡ n−3/2 t=1 tut , alors
Sn a une distribution qui tend vers N (0, σ 2 /3). Remarquons que le facteur de
normalisation ici est n−3/2 plutôt que n−1/2.
19.2 Régressions Erronées 671

de tendance dans le membre de droite d’une régression linéaire ou non linéaire.


Puisque les échantillons observés sont finis, et parfois assez restreints, nous ne
pouvons jamais assuser que la tendance est toujours croissante. De plus, les
propriétés agréables, avec des échantillons finis, de la régression par moindres
carrés sont maintenues que des régresserus aient une tendance croissante ou
pas. Mais si l’on veut s’appuyer sur la théorie asymptotique conventionnelle,
il semblerait que la spécification de nos modèles sans variable à tendance
affirmé dans le membre de droite soit une attitude prudente. Cela implique
en retour que la variable dépendante ne peut pas avoir de tendance affirmée.
L’approche la plus commune consiste à prendre les différences de toutes les
varibles avant de spécifier le modèle.
Une raison irrésistible qui motive la considération des différences pre-
mières est le phénomène de régression erronée. Il devrait être clair que si deux
variables, disons yt et xt , toutes deux à tendance croissante, une régression
de de yt sur xt a de fortes chances de trouver une relation “significative” en-
tre elles, même si la seule chose qu’elle ont en commun est cette tendance
croissante. En réalité, le R2 pour une régression de yt sur xt et une con-
stante tendra vers 1 alors que n → ∞ lorsque les deux séries peuvent être
caractérisées par (19.01), même s’il n’y a pas de corrélation en série entre les
deux parties aléatoires de yt et de xt . Les lecteurs trouveraient sans doute
révélatrice la démonstration de ce résultat, et nous leur conseillons de consuler
la Section 4.4 pour quelques résultats utiles.
Il est intuitivement très plausible que nous devrions observer des relations
en apparence significatives, mais en réalité fausses, entre des variables sans
lien mais à tendance croissante dans le temps. Granger et Newbold (1974)
ont découvert ce qui semble être au premier abord une forme encore plus
surprenante de régression erronée. Ils considérèrent des séries temporelles
générées par une marche aléatoire sans dérive, c’est-à-dire des séries générées
par un processus comme yt = yt−1 + ut . Leur résultat, obtenu par des
expériences Monte Carlo, est que si xt and yt sont des variables aléatoires
indépendantes, le t de Student de β = 0 dans la régression

yt = α + βxt + ut (19.03)

rejette l’hypothèse nulle beaucoup plus souvent qu’il ne le devrait et tend à


la rejeter d’autant plus souvent que la taille de l’échantillon, n, augmente.
Ultérieurement, Phillips (1986) démontrera que ce t de Student rejettera con-
stamment l’hypothèse nulle, asymptotiquement.
Quelques résultats Monte Carlo sur les régressions erronées figurent dans
le Tableau 19.1. Chaque colonne décrit la proportion des fois, dans plus de
10,000 exécutions, où le t de Student de β = 0 rejettera l’hypothèse nulle au
niveau 5% dans une régression quelconque. Pour la colonne 1, la régression
est (19.03) et à la fois xt et yt sont générées par des marches aléatoires
ibndépendantes à aléas n.i.d. Pour la colonne 2, xt et yt sont identiques à
celles de la première colonne, mais une variable dépendante retardée a été
672 Modèles de Régressions pour Données Chronologiques

Tableau 19.1 Rejets Erronés et Taille d’Echantillon

n Marche Aléatoire Retard Ajouté Dérive Tendance

25 0.530 0.146 0.645 0.066


50 0.662 0.154 0.825 0.431
75 0.723 0.162 0.905 0.987
100 0.760 0.162 0.945 1.000
250 0.847 0.169 0.997 1.000
500 0.890 0.167 1.000 1.000
750 0.916 0.170 1.000 1.000
1000 0.928 0.169 1.000 1.000
2000 0.947 0.168 1.000 1.000

ajoutée à la régression. Pour les colonnes 3 et 4, la régression est simple-


ment (19.03) à nouveau. Pour la troisième colonne, xt et yt sont toutes deux
générées par des marches aléatoires avec dérive, le paramètre de dérive δ1
étant égal à un cinquième de la valeur de l’écart type σ (ce rapport est le seul
paramètre qui affecte la distribution du t de Student). Pour la colonne 4, xt
et yt sont stationnaires en tendance, avec un coefficient de tendance γ2 égal à
1/25 de la taille de σ.
Les résultats dans les colonnes 3 et 4 de tableau ne sont guère surprenants,
puisque xt et yt sont croissants. Le seul élément intéressant concernant ces
résultats est la rapidité d’accroissement du nombre de rejets en fonction de la
taille de l’échantillon. C’est une conséquence du fait que, dans ces deux cas,
la masse d’information contenue dans l’échantillon augmente à un taux plus
fort que n. Elle augmente bien sûr encore plus vite dans le cas d’une tendance
que dans le cas d’un e marche aléatoire avec dérive.
Par contre, les résultats des colonnes 1 et 2 du tableau peuvent surpren-
dre. Après tout, xt et yt sont des éries totalement indépendantes, et aucune
ne contient de tendance. Alors pour quelle raison découvrons-nous souvent
— très souvent en fait pour des tailles d’échantillon importantes — l’évidence
d’une relation lorsque nous régressons yt sur xt ? Une réponse devrait être
évidente après la lecture du Chapitre 12. Les t de Student significatifs ne
nous indiquent pas que β 6= 0 dans (19.03), puisque c’est en réalité un modèle
incorrect. Ils nous indiquent simplement que l’hypothèse nulle, qui est (19.03)
avec β = 0, est fausse. Elle est fausse parce que si yt est généréte par une
marché aléatoire, alors yt n’est pas égal à une constante plus un terme aléatoire
stationnaire. Ainsi, lorsque nous testons l’hypothèse nulle, même contre une
hypothèse alternative qui est également fausse, nous la rejetons souvent.
Cette justification intuitive n’est pas entièrement satisfaisante, quoi qu’il
en soit. L’analyse asymptotique standard Pne s’applique pas ici, car si yt
n
est générée par une marche aléatoire n−1 t=1 yt2 diverge. Par conséquent,
l’analyse du Chapitre 12 n’est pas approrpiée. De plus, l’explication intuitive
19.2 Régressions Erronées 673

n’indique pas pourquoi, pour des tailles d’échantillon suffisamment impor-


tantes, une relation entre yt et xt apparaı̂t toujours. On peut imaginer que
puisque les processus qui génèrent xt et yt sont indépendants, toute corrélation
entre les deux doit disparaı̂tre asymptotiquement, mais ce n’est pas le cas ici.
L’explication de ces résultats nécessite une analyse asymptotique non stan-
dard d’un genre que nous verrons dans le prochain chapitre. Une référence
classique est Phillips (1986) et l’article de Durlauf et Phillips (1988) offre des
résultats plus approfondis.
Le fait que (19.03) soit un modèle mal spécifié n’est pas la seule clé du
problème, ainsi que le montre la colonne 2. Ces résultats sont relatifs au
modèle
yt = δ1 + βxt + δ2 yt−1 + ut ,

qui comprend le DGP en tant que cas particulier lorsque δ2 = 1 et que les
deux autres paramètres sont nuls. Malgré tout, l’hypothèse nulle β = 0 est
rejetée environ tois fois plus souvent qu’elle ne devrait l’être, et il n’y a rien
que montre que cette tendance au rejet quasi systématique décline lorsque la
taille d’échantillon n s’accroı̂t. Le t de Student provoque un rejet excessif dans
ce cas parce qu’il n’est pas asymptotiquement comme une N (0, 1). Puisque
les deux régresseurs sont ici générés par des marches aléatoires, la matrice
n−1X>X n’est pas finie définie positive, et la théorie asymptotiques standard
ne s’applique plus. Comme nous allons le voir dans le prochain chapitre, il
existe de nombreux cas comparables, pour lesquels les t de Student suivent des
distributions non standard asymptotiquement. Ces distributions sont pour
l’instant calculées généralement au moyen d’expériences Monte Carlo.
Une série qui suit une marché aléatoire, avec ou sans dérive, est souvent
qualifiée d’intégrée à l’ordre un, ou I(1) pour aller vite. L’idée sur laquelle
repose cette terminologie est qu’une série doit être différenciée une fois pour
être stationnaire. Ainsi une série stationnaire est dite I(0). En principe,
une série pourrait être intégrée à d’autres ordres. Il est possible de rencontrer
occasionnellement une série I(2), et si l’on différencie malencontreusement une
série I(0), le résultat est une série I(−1). Néanmoins, la grande majorité des
travaux économétriques appliqués traite des séries temporelles qui sont soit
I(0) ou I(1). Si une série est à l’origine I(1), il est possible de lé différencier
une fois pour la rendre I(0). Savoir quand il est nécessaire de différencier une
série sera l’onjet du prochain chapitre.
Dans le reste de ce chapitre, nous ferons l’hypothèse que toutes les séries
sont I(0) et ne contiennent aucun tendance non stochastique. Ces h2 garan-
tissent que ni une régression erronée ni des résultats asymptotiques non stan-
dards ne poseront problème. Ces h2 peuvent paraı̂tre malgré tout un voeu
pieux. Par chance, les techniques dont nous discuterons dans le prochain
chapitre rendent possible la garantie que ces h2 ne sont pas trop remises en
cause dans la pratique.
674 Modèles de Régressions pour Données Chronologiques

19.3 Retards Échelonnés


On pense souvent qu’une variable dépendante yt doit dépendre de nom-
breuses valeurs actuelle et retardées d’une variable indépendantes xt . Une
modélisation de ce genre consiste à utiliser un modèle à retards échelonnés
tel que
Xq
yt = α + βj xt−j + ut , ut ∼ IID(0, σ 2 ), (19.04)
j=0

où il s’agit d’estimer la constante α et les coefficients βj . Le nombre entier q est


ici la longueur du dernier retard; dans certains cas, imaginer que q est infini
peut avoir du sens, mais nous supposerons pour l’ibnstant qu’il prend une
valeur finie. La fonction de régression pourrait tout à fait dépendre d’autre
variables explicatives, mais nous ignorons cette possibilité ppur conserver une
notation simple.
Le problème évident avec un modèle tel que (19.04) est que, parce que xt
sera souvent fortement corrélé à xt−1 , xt−2 , et ainsi de suite, les estimations
par moindres carré des coefficients βj tendront à être assez imprécises. De
nombreux moyens pour manipuler ce problème furent proposés et nous en
parlerons brièvement. La première chose à reconnaı̂tre est, malgré tout, que
cela pourrait ne pas être un problème. Souvent, ce ne sont pas les coefficients
individuels qui nous intéressent mais leur somme, disons γ, qui mesure l’effet
de long terme sur yt d’une variation donnée de xt . Même lorsque les βj
individuels sont estimés de façon imprécise, leur somme peut être estimée
avec suffisamment de précision.
Posons V (β̂) la matrice de covarinace du vecteur β̂ des estimations par
moindres carrés dont l’élément type est β̂j . Alors, si γ̂ désigne la somme des
β̂j , la variance de γ̂ est
q
X q X
X j−1
>
V (γ̂) = ι V (β̂)ι = V (β̂j ) + 2 Cov(β̂j , β̂k ). (19.05)
j=0 j=0 k=0

Si xt−j est corrélé positivement à xt−k pour tout j 6= k, les termes de covar-
iance dans (19.05) seront généralement négatifs. Lorsqu’ils sont importants et
négatifs, comme c’est souvent le cas, V (γ̂) peut être plus petite que la somme
des V (β̂j ) ou même que chaque V (β̂j ).
Si c’est le paramètre γ qui nous intéresse plutôt que les βj individuels,
l’approche la plus simple consiste à estimer une version reparamétrisée de
(19.04) par moindres carrés. La version reparamétrisée est
q
X
yt = α + γxt + βj (xt−j − xt ) + ut . (19.06)
j=1

Il est aisé de vérifier que le coefficient γ associé à xt dans (19.06) est en fait
égal à la somme des βj dans (19.04). L’avantage de cette reparamétrisétion
19.3 Retards Échelonnés 675

est que l’écart type de γ̂ est immédiatement disponible dans les résultats de
la régression.
Si notre intérêt se focalise sur les βj , la colinéarité peut être un problème
urgent. De nombreux moyens d’aborder ce problème furent proposés. Cer-
tains impliquent l’imposition de contraintes sur les paramètres de (19.04),
alors que d’autres impliquent l’estimation de modèles pour lesquels une ou
plusieurs retards de la variables dépendantes apparaissent dans l’ensemble
des régresseurs. Cette dernière approche est fondamentalement différente de
la première, et sera traitée dans la section qui suit. L’exemple le plus connu
de la première approche consiste à employer ce que l’on nomme les retards
échelonnés polynomiaux, ou PDL. Ces derniers sont quelquefois appelés re-
tards d’Almon à la suite de l’article d’Almon (1965) à l’occasion duquel ils
furent proposés pour la première fois.
Dans un polynôme de retards échelonnés, les coefficients βj de (19.04)
doivent se situer dans un polynôme de degré d donné. Ce polynôme peut
éventuellement être soumis à des contraintes ultérieures, telles que les con-
traintes des portant sur les points terminaux. A titre d’exemple simple, si le
polynôme était du second degré, sans contrainte ultérieure, nous aurions

βj = η0 + η1 j + η2 j 2 pour j = 0, . . . , q. (19.07)

A condition que q > 2, il y aura moins de paramètres ηi que βj . Nous voyons


par conséquent que (19.07) impose q − 2 contraintes sur les βj ’s.
L’estimation d’un modèle soumis à des contraintes imposées par un PDL
est conceptuellement assez immédiate. Par exemple, pour estimer (19.04)
soumis à (19.07), nous remplacerions simplement les βj par η0 + η1 j + η2 j 2 .
Cela entraı̂nerait
q
X q
X q
X
yt = α + η0 xt−j + η1 jxt−j + η2 j 2 xt−j + ut
j=0 j=0 j=0 (19.08)
= α + η0 zt0 + η1 zt1 + η2 zt2 + ut .

C’est simplement un modèle de régression linéaire avec trois nouveaux régres-


seurs zti qui sont des transformations des q + 1 régresseurs d’origine, en plus
de la constante. Ceci est un exemple de modèle PDL(q, 2). Pour un modèle
PDL(q, d), qui doit toujours être tel que d < q, il y aurait d + 1 régresseurs.
Les contraintes imposées aux βj sont simplement des contraintes linéares.
La résolution de (19.07) nous montre que

−β3 + 3β2 − 3β1 + β0 = 0,


−β4 + 3β3 − 3β2 + β1 = 0,
−β5 + 3β4 − 3β3 + β2 = 0, et ainsi de suite.
676 Modèles de Régressions pour Données Chronologiques

On peut écrire ces contraintes sous la forme Rβ = 0, où la matrice R serait


dans ce cas
 
1 −3 3 −1 0 ··· 0 0 0 0
0 1 −3 3 −1 · · · 0 0 0 0
R= .
 .. . . . . . . . .. .
.. .. .. .. .. .. .. .
0 0 0 0 0 · · · 1 −3 3 −1

Puisque les contraintes sont linéaires, on peut les tester facilement. On peut
utiliser soit un test en F habituel, soit sa version robuste à l’hétéroscédasticité
(voir Section 11.6). Le modèle contraint est (19.08), le modèle non contraint
est (19.04), et le nombre de contraintes dans ce cas est q − 2. De façon plus
générale, pour un modèle PDL(q, d), il y aura q − d contraintes.
Il faudrait toujours tester les contraintes imposées par n’importe quel
type de PDL avant d’accepter, même à titre provisoire, un modèle qui incor-
pore ces contraintes. Ces contraintes sont de deux natures. Il y a la contrainte
de la longueur du dernier retard qui ne doit pas être supérieure à q. Puis il y
a les contraintes futures qui sont imosées par le PDL, quelles qu’elles soient.
Pour une valeur de q donnée, la réduction du degré du polynôme de d à
d − 1 aboutit à un modèle plus restrictif. Cependant, pour un degré donné
du polynôme, la reduction de q produit simplement un modèle différent, non
emboı̂té, qui peut s’ajuster mieux ou plus mal aux données. Ainsi, on peut
tester un modèle PDL(q, d) contre un modèle PDL(q, d + 1) en utilisant un
test en F ordinaire, mais on ne peut pas tester un modèle PDL(q, d) contre un
modèle PDL(q + 1, d) avec le même instrument. La meilleure approche con-
siste sans doute à se poser en premier le problème de la longueur du retard, en
débutant par une valeur importante de q et en examinant la détérioration de la
qualité de l’ajustement du modèle en diminuant sa valeur, sans imposer aucun
contrainte sur la forme des retards échelonnés. Une fois que q est déterminé,
on peut ensuite tenter de déterminer d, une fois encore en débutant avec une
valeur importante et en la réduisant au fur et à mesure. Un excellent exemple
empirique est donné par Sargan (1980c). La spécification d’un modèle final
dans cette optique est un exemple de prétest dont nous avons discuté dans la
Section 3.7; consulter Trivedi (1978).
La plupart des progiciels d’économétrie permettent aux utilisateurs de
spécifier des modèles qui incluent des PDL et d’estimer de tels modèles avec
des OLS, des IV, et quelquefois d’autres formes d’estimations. Ces mises en
oeuvre sont de façon typique beaucoup plus sophistiquées que notre discus-
sion n’a pu le suggérer jusqu’ici. Par exemple, elles permettent souvent à
l’utilisateur de spécifier des contraintes additionnelles sur la forme des retards
telles que les contraintes βq = 0. Plus important encore, les bons progiciels
utilisent des familles de polynômes plus sophistiquées que celles que nous avons
décrites. Le problème avec ces dernières est que les variables zti tendent à être
fortement corrélées entre elles. Cela peut provoquer une singularité numérique
de la matrice X>X. Avec l’aide d’autres types de polynômes, tels que les
19.3 Retards Échelonnés 677

polynômes orthogonaux, on peut réduire en grande partie cette corrélation,


et, par conséquent, éliminer ce genre de problème numérique. Les réfréences
à consulter sont Cooper (1972b), Trivedi et Pagan (1979), Sargan (1980c), et
Pagano et Hartley (1981).
Shiller (1973) proposa une variante intéressante de l’approche PDL.
Comme nous l’avons vu, les contraintes imposées par un PDL peuvent tou-
jours s’écrire comme Rβ = 0 pour une matrice R de dimension r × k con-
venablement définie. Ici r = q − d et k est le nombre d’éléments de β, et
il sera généralement supérieur à q + 1 s’il y a des régresseurs en plus de la
constante et des retards de xt . Shiller suggéra que, au lieu de demander
une vérification exacte de ces contraintes, nous requérions seulement qu’elles
soient approximatives. Ainsi, au lieu de stipuler que chaque ligne de Rβ soit
nulle, il proposa qu’elle soit égale à une variables aléatoire d’espérance nulle
et de variance définie. L’un des avantages de cette approche est que d peut
être très faible sans pour cela imposer des contraintes excessivement fortes
sur les données. Puisque les estimations n’ont pas besoin de se conformer
excatement à la forme du polynôme, d = 2 est dans la plupart des cas une
situation adéquate.
Ce genre de contrainte est appelé contrainte stochastique, parce qu’elle
n’est pas sensées être vérifiée exactement. Les contraintes stochastiques sont
très différentes de n’importe quel autre type de contraintes dont nous avosn
discuté. Dans de nombreuses situations, elles paraissent assez plausibles, à
l’inverse des contraintes exactes, qui semblent être souvent excessivement
fortes. Dans le cas du PDL, par exemple, il est sûrement peu probable que
les βj se situent réellement dans un polynôme de degré quelconque, mais
il est assez probable de croire qu’ils se situent relativement près d’un tel
polynôme. Il est aisé conceptuellement, mais plus difficile lors des phases de
calcul, de traiter des contraintes stochastiques, ou n’importe quelle autre sorte
d’information stochastique a priori, si l’on adopte un point de vue bayésien;
voir Zellner (1971) et Drèze et Richard (1983). A l’inverse, il est facile de faire
des calculs avec de telles contraintes, mais leur manipulation est conceptuelle-
ment plus délicate lorsuqe l’on reste dans une structure classique. C’est dans
cette dernière que nous nous situerons, pour traiter les calculs, en évitant
toute discussion relative aux difficultés conceptuelles.
La technique d’estimation suggérée par Shiller emploie un cas partic-
ulier de ce que Theil et Goldberger (1961) et Theil (1963) appellent une
estimation mixte. L’estimation mixte est un moyen très simple de com-
biner des informations d’échantillon avec des informations stochastiques a
priori. On peut imaginer que c’est une approximation d’une procédure qui a
toutes les caractéristiques d’une estimation bayésienne. Le cas le plus sim-
ple pour lequel on justifie une estimation mixte est le cas dans lequel, avant
d’entreprendre l’estimation d’un quelconque modèle, on aurait obtenu des es-
timations préalables d’un ou de plusieurs paramètres du modèle, par l’usage
d’un ensemble d’informations totalement indépendantes. Pour faire simple,
678 Modèles de Régressions pour Données Chronologiques

supposons que le modèle qu’il s’agit d’estimer est le modèle de régression


linéaire
y = Xβ + u, u ∼ IID(0, σu2 I), (19.09)

où β est un vecteur à k composantes. Supposons ensuite qu’un vecteur


d’estimations a priori β̌ soit disponible, avec sa véritable matrice de covar-
iance V (β̌). On peut exprimer la relation entre ces estimations et le vecteur
paramétrique inconnu β comme

β̌ = β + v, E(vv> ) = V (β̌) ≡ η −1 (η> )−1. (19.10)

Le membre de droite de l’expression pour la matrice de covariance fait us-


age d’un résultat standard sur les matrices définies positives, que nous avons
vu dans le Chapitre 9. En prémultipliant chaque membre de (19.10) par la
matrice η de dimension k × k , le résultat est

η β̌ = ηβ + e, E(ee> ) = I. (19.11)

Cela ressemble à une régression linéiare avec k observations et k variables


indépendantes. La régressande est η β̌, et la matrice de covariance des aléas
est I.
Il devrait être aisé de voir comment on peut utiliser l’information con-
tenue dans β̌ pour améliorer nos estimations de β. Il suffit d’estimer une
unique régression GLS à n + k observations, où n d’entre elles correspondent
aux observations de notre échantillon et où k d’entre elles correspondent à
(19.11). On peut écrire cette régression comme
· ¸ · ¸ · ¸
y X u
= β+ . (19.12)
σu η β̌ σu η σu e

Les aléas de cette régression sont i.i.d. et ont une variance égale à σu2 . La
régression (19.12) suppose que nous connaissons σu , puisqu’il faut multipier
les k dernières observations par cette quantité de façon à garantir qu’elles ont
le même poids relativement aux n premières observations. Asymptotiquement
bien sûr, nous aurons le smêmes résultats si nous employons n’importe quelles
estimation convergente de σu .
Dans cet exemple, l’estimation mixte ne prête pas trop à contreverse.
C’est simplement un moyen pratique de prendre en compte les estimations
préalables lorsque l’on utilise un nouvel ensemble de données. Dans le cas des
retards échelonnés, par contre, l’information a priori sur β ne provient pas
d’une estimation préalable. Au lieu de cela, c’est un ensemble de contraintes
stochastiques, que Shiller appela une information a priori de régularité parce
qu’il reflète la croyance qui veut que les coefficients βj d’un retard échelonné
devraient varier sans à-coups en fonction de j. Ces contraintes peuvent
19.3 Retards Échelonnés 679

paraı̂tre raisonnables au chercheur, mais elles ne se basent pas sur les données.
Dans le cas général, on peut écrire les contraintes stochastiques comme

Rβ = v, v ∼ N (0, σv2 I). (19.13)

Cette formulation autorise un éventail très large de contraintes linéaires sur


β comprend, en tant que cas particulier, l’imposition d’informaions a priori
de régularité sur les coefficients d’un retard échelonné. La matrice R est de
dimension r × k et, dans le cas d’informations a priori de régularité, elle aura
r = q − d lignes.
Pour pouvoir estimer (19.09) en imposant les contraintes stochastiques
(19.13), nous réécrivons simplement ces dernières comme 0 = Rβ + v, comme
nous l’avons fait dans (19.12). Les restrictions ressemblent alors aux observa-
tions d’une régression. Puis, nous empilons les véritables observations sur les
observations artificielles. Cela donne
· ¸ · ¸ · ¸
y X u
= β+ . (19.14)
0 R v

En fait, nous avons ajouté r observations supplémentaires à l’ensemble


des données d’origine. La variance des “aléas” associés à ces observations
supplémentaires est σv2 , alors que celle des aléas naturels est σu2 .
Posons maintenant λ ≡ σu /σv . Si λ était connu, l’estimarion par GLS de
(19.14) serait équivalente à l’estimation par OLS du modèle
· ¸ · ¸ · ¸
y X u
= β+ . (19.15)
0 λR λv

L’estimation OLS de β à partir de (19.15) est


¡ ¢−1
β̃ = X>X + λ2 R>R X>y.

Il est facile de calculer cette expression, et il est aisé de la comprendre. Comme


σv → ∞, λ → 0 et β̃ → β̂. Ainsi, au fur et à mesure que la masse d’information
contenue dans les restristions stochastiques tend vers zéro, l’estimation mixte
β̃ tend vers l’estimation OLS β̂. Dans le cas extrême opposé, λ → ∞ et β̃
converge vers un ensemble d’estimations qui satisfait les contraintes Rβ =
0 au fur et à mesure que σv → 0. Ce dernier résultat se comprend assez
vite. Puisque r < k, il est toujours possible d’ajuster les r dernière lignes
de (19.15) à la perfection en choisissant β̃ pour satisfaire les contraintes avec
exactitude. Comme λ → ∞, la SSR pour (19.15) s’accroı̂tra infiniment si les
r dernières lignes ne s’ajustent pas parfaitement. Ainsi, comme on peut le
voir à l’aide de l’algèbre matriciel fastidieuse, la limite de β̃ lorsque λ → ∞
est précisément l’estimateur des moindres carrés qui provient de l’imposition
exacte des contraintes.
680 Modèles de Régressions pour Données Chronologiques

Le problème majeur de cette procédure est que λ ne sera jamais connu.


Même si l’on désire spécifier σv a priori, ce qui peut ne pas être simple à faire,
σu devra tout de même être estimée Il existe des moyens variés de traiter ce
problème — voir Shiller (1973) et Taylor (1974) — mais aucun d’entre eux
n’est entièrement satisfaisant. Pour l’essentiel, il s’agit d’estimer σu à partir
de l’estimation non contrainte de (19.09), soit en prenant une valeur pour
σv soit en estimant σv à partir des estimations non contraintes de β, et de
construire une estimation de λ. Cela transforme la procédure d’estimaion
mixte en une forme d’estimation par GLS faisables. Asymptotiquement, cela
produira les mêmes estimations que si λ était connu, mais ses performances
avec des échantillons finis peuvent ne pas être aussi bonnes.
Il faudrait toujours tester des contraintes stochastiques avant d’accepter
des estimations basées sur ces contraintes. Puisque l’imposition de telles re-
strictions est équivalente à l’addition d’observation factices, le moyen évident
de les tester est d’utiliser un test standard pour l’égalité de deux ensembles
de paramètres de régression (Section 11.2). On peut voir (19.15) comme
un modèle pour l’échantillon entier (augmenté), où β est contraint à être
identique piour les n premières observations et les r observations restantes.
L’estimation de (19.15) produit la somme des résidus au carré contrainte
RSSR nécessaire à la construction d’un test en F . Puisque r < k, toute tenta-
tive d’estimation des paramètres utilisant le second sous-échantillon unique-
ment entaı̂nera des estimations qui s’ajustent parfaitement. Ainsi la somme
des rédisus au carré non contrainte USSR nécessaire à la construction d’un F
de Fisher est simplement la somme des résidus au carré de l’estimation par
OLS de (19.09). Le nombre de degrés d eliberté pourt le test est r, et par
conséquent le F de Fisher est simplement

(RSSR − USSR)/r
.
USSR/(n − k)

Bien évidemment, on pourait utiliser une quelconque autre forme de statis-


tique de test, telle que celle basée sur la HRGNR (11.66), au lieu du F de
Fischer. Si le test rejette l’hypothèse nulle de constance de β sur l’échantillon
des observations et sur les observations factices, il faudrait soit accroı̂tre la
valeur de σv soit changer la forme de la matrice R, probablement en augmen-
tant d.
Bien que les retards échelonnés polynomiaux, qu’ils soient imposés en
tant que contraintes exactes ou en tant que contraintes stochastiques, puis-
sent être utiles lorsqu’un modèle tel que (19.04) est inadapté, ce ne sont
pas des modélisations toujours bien appropriées. le problèle est que (19.04)
n’est pas un modèle dynamique. Bien que yt dépende de vaeurs retardées
de xt , elle ne dépend pas de ses propres valeurs retardées. Par conséquent,
seule la valeur courante de ut affecte yt . Mais si l’on pense que l’aléa doit
représenter l’influence combinée de nombreuses variables dont on ne peut
empêcher l’omission de la régression, cela devrait paraı̂tre étrange. Après
19.4 Modèles de Régression Dynamiques 681

tout, si xt affecte yt au travers d’un retard échelonné, comment justifier que


les variables reléguées dans l’aléa n’en fassent pas de même? Cet argument
suggère que les aléas dans un modèle comparable à (19.04) peuvent être très
souvent corrélés en série. Bien sûr, on peut modéliser les ut pour les faire
obéir à un quelconque processus ARMA. Mais la meilleure approche consis-
tera souvent à reformuler le modèle originel. Nous allons voir comment dans
la prochaine section.

19.4 Modèles de Régression Dynamiques


Tout modèle de régression dans lequel la fonction de régression dépend des
valeurs retardées d’une ou de plusieurs varaibles dépendantes est appelé
modèle dynamic. Les seuls modèles dynamiques dont nous ayons discuté
jusqu’à présent sont les modèles à erreurs corrélées en série (Chapitre 10);
après transformation, les modèles à erreurs AR ou MA impliquent des retards
de la variable dépendante. Ces modèles peuvent paraı̂tre artificiels, mais les
modèles dynamiques peuvent survenir pour de nombreuses autres raisons.
Un modèle dynamique simple et très fréquent est le modèle d’ajustement
partiel, dont l’hitoire en économie remonte assez loin puisqu’il date de Nerlove
(1958). Supposons que le niveau désiré d’une variable économique yt quel-
conque soit yt∗ , qui est supposé être relié à un vecteur de variables explicatives
exogènes Xt comme suit:
yt∗ = Xt β ∗ + et . (19.16)
A cause de certains coûts d’ajustement, les agents ne peuvent pas atteindre yt∗
à chaque période. Au lieu de cela, yt s’ajuste, par hypothèse, vers yt∗ suivant
l’équation
yt − yt−1 = (1 − δ)(yt∗ − yt−1 ) + vt . (19.17)
La résolution de (19.16) et de (19.17) pour yt nous permet d’obtenir

yt = yt−1 − (1 − δ)yt−1 + (1 − δ)Xt β ∗ + (1 − δ)et + vt


(19.18)
= Xt β + δyt−1 + ut ,

où β ≡ (1 − δ)β ∗ et ut ≡ (1 − δ)et + vt . Si l’on désire estimer β ∗, on peut


aisément le fair à partir des estimations OLS de β et δ.
L’ajustement partiel n’est pertinent que si 0 < δ < 1 et si, de plus, δ n’est
pas trop proche de 1, puisque dans le cas contraire la vitesse d’ajustement
que la valeur du paramètre implique devient trop faible. On peut résoudre
l’équation (19.18) pour yt comme une fonction des valeurs courantes et passées
de Xt et ut . Le résultat est

X
yt = δ j (Xt−j β + ut−j ). (19.19)
j=0
682 Modèles de Régressions pour Données Chronologiques

Ainsi ce modèle corrige une défaillance majeure que nous avions déjà re-
marquée dans les modèles à retards échelonnés: yt dépend maintenant au-
tant des valeurs retardées de l’aléa ut que des valeurs retardées des variables
exogènes Xt . Notons que la solution de (19.19) repose sur l’hypothèse que
|δ| < 1, qui est une condition de stationnarité pur ce modèle.
Le modèle d’ajustement partiel n’est qu’un des nombreux modèles éco-
nomiques que l’on peut utiliser pour justifier la prise en compte d’un ou de
plusieurs retards des variables dépendantes dans la fonction de régression.
Dhrymes (1971) et Hendry, Pagan, et Sargan (1984) discutent de nombreux
autres modèles. Nous n’essaierons pas de discuter de ces derniers. Par contre,
nous nous concentrerons sur quelques résultats d’ordre général qui peuvent
survenir lorsque l’on tente de spécifier et d’estimer des modèles de régression
dynamiques.
Un problème qui se manifeste chaque fois que la matrice X contient
des variables dépendantes retardées est que les OLS ne produisent pas des
estimations sans biais. Ce problème survient parce que X est une matrice
stochastique, dont certains éléments sont corrélés à quelques éléments de u.
Ainsi ¡ ¢ ¡ ¢−1
E (X>X)−1X>u 6= X>X X>E(u).
Le meilleur moyen d’apercevoir ce problème est de considérer un exemple très
simple. Supposons que
yt = βyt−1 + ut , |β| < 1, ut ∼ IID(0, σ 2 ). (19.20)
L’estimation OLS de β est
Pn
t=2 yt yt−1
β̂ = P n 2
. (19.21)
t=2 yt−1
Si l’on substitue (19.20) au numérateur de (19.21), on obtient
Pn 2
Pn Pn
β t=2 yt−1 + t=2 ut yt−1 t=2 ut yt−1
β̂ = Pn 2
=β+ P n 2
. (19.22)
t=2 yt−1 t=2 yt−1

Le second terme dans l’expression la plus à droite de (19.22) n’est pas


d’espérance nulle, parce que le numérateur et le dénominateur ne sont pas
indépendants. Son espérance est assez difficile à déterminer. Nous concluons
que dans ce modèle, et dans tous les modèles pour lesquels il y a des variables
dépendantes retardées, l’estimateur OLS est biaisé.
Evidemment, l’estimateur OLS β̂ est convergent comme des résultats
établis antérieurement l’ont montré (Section 5.3). Si l’on divise à la fois le
numérateur et le dénominateur du terme aléatoire du membre le plus à droite
de (19.22) par n et si l’on prend le slimites en probabilité, on obtient
¡ Pn ¢
plimn→∞ n−1 t=2 ut yt−1
plim β̂ = β + ¡ Pn 2
¢ = β.
n→∞ plimn→∞ n−1 t=2 yt−1
19.4 Modèles de Régression Dynamiques 683

La limite en probabilité du numérateur estPzéro. Cela provient du fait


n
que E(ut yt−1 ) = 0, ce qui implique que n−1 t=2 ut yt−1 est simplement la
moyenne de n quantités qui sont toutes d’espérance nulle, et que ces quantités
sont de variance finie, ce qui est le cas puisque le fait que |β| < 1 implique
que le processus générateur des yt est stationnaire. La limite en probabilité
du numérateur est finie, ce qui nécessite à nouveau la stationnarité, et par
conséquent le rapport des deux limites en probabilité est nul.
Même pour un modèle aussi simple que (19.20), les propriétés avec des
échantillons finis de l’estimateur OLS β̂ sont assez difficiles à établir de façon
analytique et elles dépendent de la valeur (inconnue) de β; nous présenterons
quelques résultats Monte Carlo dans le Chapitre 21. dans des modèles plus
compliqués, les chercheurs disposent de choix restreints et sont contraints de
se rapporter à la théorie asymptotique. Cela n’est pas un mal en général, bien
qu’il y ait un risque évident que des inférences non correctes soient produites,
en particulier lorsque la taille de l’échantillon est faible ou que le modèle est
presque non stationnaire.
Nous considérons maintenant une classe très étendue de modèles de
régression linéaire dynamiques qui peuvent être très utiles dans la pratique.
Ces modèles ne posèdent qu’une seule variables dépendante yt et, pour simpli-
fier la notation, une seule variable indépendante xt . Un modèle autorégressive
à retards échelonnés, ou modèle ADL, peut s’écrire comme
p
X q
X
yt = α + βi yt−i + γj xt−j + ut , ut ∼ IID(0, σ 2 ) (19.23)
i=1 j=0

ou, en utilisant les opérateurs retard

A(L, β)yt = α + B(L, γ)xt + ut , ut ∼ IID(0, σ 2 ).

Ici A(L, β) et B(L, γ) désignent les polynômes des opérateurs retards avec
les coefficients respctifs β et γ. Parce qu’il y a p retards sur yt et q retards
sur xt , on appelle quelquefois ces modèles les modèles ADL(p, q). S’il y a
des variables dépendantes additionnelles, ce qui sera en réalité le cas le plus
fréquent, elles apparaı̂tront en tant que régresseurs additionnels dans (19.23).
Un cas particulièrement simple de (19.23), mais largement répandu, est
le modèle ADL(1, 1)

yt = α + β1 yt−1 + γ0 xt + γ1 xt−1 + ut . (19.24)

Parce que la plupart des résultats qui sont vrais pour le modèle ADL(1,1)
sont également vrais, compte tenu de certaines modifications évidentes, pour
le modèle plus général ADL(p, q), nous bornerons notre discussion au cas
particulier la plupart du temps.
de nombreux modèles pour séries temporelles que l’on rencontre couram-
ment sont des cas spéciaux du modèle ADL(1, 1). Un modèle de régression
684 Modèles de Régressions pour Données Chronologiques

statique est un cas particulier avec β1 = γ1 = 0, un modèle AR(1) univarié est


un cas particulier avec γ0 = γ1 = 0, un modèle d’ajustement partiel est un cas
particulier avec γ1 = 0, un modèle statique à aléas AR(1) est un cas particulier
avec γ1 = −β1 γ0 , un modèle en différences premières est un cas particulier
avec β1 = 1 et γ1 = −γ0 , et ainsi de suite. Le modèle ADL(1, 1) fournit une
alternative naturelle contre laquelle on peut tester n’importe lequel de ces cas
particuliers. Un test des contraintes du facteur commun découlant des aléas
obéissant à un processus AR(1) en est un exemple; voir la Section 10.9.
Examinons à présent comment xt affecte yt en longue période dans un
modèle ADL(1, 1). Sans aléas, xt et yt convergeraient vers des valeurs de long
terme stable x∗ et y ∗ données par

y ∗ = α + β1 y ∗ + γ0 x∗ + γ1 x∗.

En résolvant cette équation pour y ∗ en fonction de x∗ on obtient


α γ0 + γ1 ∗ α
y∗ = + x = + λx∗.
1 − β1 1 − β1 1 − β1

Nous voyons donc que la dérivée de y ∗ par rapport à x∗ en longueur période


(cette valeur correspondra à une élasticité si les deux séries sont exprimées en
logarithmes) est
γ0 + γ1
λ≡ . (19.25)
1 − β1
A l’évidence, ce résultat est pertinent uniquement si |β1 | < 1, ce qui, comme
on pourrait s’y attendre, est une conditon de statibilité pour ce modèle.
L’une de scaractéristiques intéressante et importante des modèles ADL
est que l’on peut les écrire de différentes façons sans amoindrir leur faculté
d’explication des données ou modifier les estimations par moindres carrés des
coefficients auxquels on porte un intérêt. Par exemple, (19.24) peut être écrit
selon toutes les formes qui suivent:

∆yt = α + (β1 − 1)yt−1 + γ0 xt + γ1 xt−1 + ut ; (19.26)


∆yt = α + (β1 − 1)yt−1 + γ0 ∆xt + (γ0 + γ1 )xt−1 + ut ; (19.27)
∆yt = α + (β1 − 1)yt−1 − γ1 ∆xt + (γ0 + γ1 )xt + ut ; (19.28)
∆yt = α + (β1 − 1)(yt−1 − xt−1 ) + γ0 ∆xt
+ (γ0 + γ1 + β1 − 1)xt−1 + ut ; (19.29)
∆yt = α + (β1 − 1)(yt−1 − λxt−1 ) + γ0 ∆xt + ut . (19.30)

Ici ∆ est l’opérateur des différences premières: ∆yt ≡ yt −yt−1 . Dans (19.30),
λ est la paramètre défini dans (19.25). Le fait que (19.24) puisse être écrit
sous différentes formes sans changer les estimations par moindres carrés est
souvent très partique. Par exemple, si l’on s’intéresse à la somme des γi , les
19.4 Modèles de Régression Dynamiques 685

estimations et les écarts types s’obtiennent directement à partir de l’estimation


par OLS de (19.27) ou (19.28), et si l’on porte un intérêt à λ, elles peuvent
être obtenues par une estimation NLS de (19.30).
La plus intéressante des spécifications équivalentes (19.24) et (19.26)–
(19.30) est sans doute (19.30), dans laquelle le modèle est écrit sous la forme
que l’on appelle forme à correction d’erreur. Le paramètre λ apparaı̂t directe-
ment dans cette forme du modèle. Bien que la forme à correction d’erreur
soit non linéaire, l’estimation est malgré tout aisée parce que le modèle est
simplement un modèle linéaire soumis à une contrainte non linéaire. La
différence entre yt−1 et λxt−1 mesure l’importance de la défaillance de la
relation d’équilibre de long terme entre xt et yt . A ce titre, β1 − 1 est pour
l’essentiel la même chose que le paramètre δ − 1 dans le modèle d’ajustement
partiel. On appelle souvent le terme (β1 − 1)(yt−1 − λxt−1 ) qui apparaı̂t dans
(19.30) terme de correction d’erreur, et un modèle tel que (19.30) est parfois
appelé modèle à correction d’erreur, ou ECM. Ces modèles furent utilisés
pour la première fois par Hendry et Anderson (1977) et Davidson, Hendry,
Srba, et Yeo (1978). Nous en discuterons en détail dans le prochain chapitre.
Remarquons que le terme d’erreur est implicitement présent dans les autres
versions de (19.24), pusique son coefficient associé peut être retrouvé à partir
de celles-ci. Certains auteurs imposent la contrainte λ = 1, qui peut s’avérer
raisonnable si xt et yt sont d’amplitudes comparables. Cela est équivalent à
la contrainte β1 + γ0 + γ1 = 1 et peut donc être testé de façon assez simple
par l’utilisation des t de Student ordinaires pour xt−1 dans (19.29).
Le point clef à retenir lorsque l’on tente de spécifier des modèles de
régression dynamiques est qu’il existe en général un grand nombre de manières
a priori plausibles de le faire. C’est une erreur grave que de limiter ses efforts
sur un type particulier de modèles, tel que les modèles à retards échelonnés ou
les modèles d’ajustement partiel. Parce qu’elle comporte tellement d’autres
cas particuliers, la famille des modèles ADL(p, q) fournira souvent une bonne
base de départ. Dans de nombreux cas, la spécification p = q = 1 sera
généralement suffisante , mais avec des données trimestrielles il serait sage
de débuter avec p = q = 4. Dans le but d’obtenir un modèle raisonnable-
ment économe et directement interprétable, il sera généralement nécessaire
d’imposer une certain nombre de contraintes sur la spécification ADL(p, q)
d’origine. Parce que les modèles ADL peuvent s’écrire de plusieurs manières
différntes — souvenons-nous des modèles (19.24) et (19.26) à (19.30) — il y a
également de nombreuses contraintes différentes que l’on pourrait imposer.
Notre discussion sur les modèles de régression dynamiques dut assez
rapide. Pour des traitements plus pointus, consulter Hendry, Pagan, et Sargan
(1984) ou Banerjee, Dolado, Galbraith, et Hendry (1993).
686 Modèles de Régressions pour Données Chronologiques

19.5 Autorégressions Vectorielles


Dans le Chapitre 10, nous avons introduit les modèles AR, MA et ARMA
pour des séries temporelles univariées. Comme on pourrait s’y attendre, il
existe des versions multivariées de tous ces modèles. Nous ne tenterons pas
de discuter des modèles à moyenne mobile vectoriels ou des modèles ARMA
vectoriels, parce que ceux-ci peuvent être relativement compliqués à traiter;
consulter Fuller (1976) ou Harvey (1981, 1989). Toutefois, dans cette sec-
tion, nous verrons brièvement les modèles autorégressifs vectoriels, que l’on
connaı̂t également sous le nom d’autorégressions vectorielles ou VAR. Ceux-
ci représentent le genre le plus simple de modèle de séries temporelles multi-
variées à estimer, et ils ont été largement employés en économie ces dernières
années.
Supposons que le vecteur ligne Yt de dimension 1×m désigne la t ième ob-
servation d’un ensemble de variables. Alors un modèle autorégressif vectoriel
d’ordre p, ou VAR(p) pour faire court, peut s’écrire comme

Yt = α + Yt−1 Φ1 + · · · + Yt−p Φp + Ut , Ut ∼ IID(0, Ω), (19.31)

où α est un vecteur ligne à m composantes, et Φ1 , Φ2 jusqu’à Φp sont des


matrices de dimension m × m des coefficients qu’il faut estimer. Si yti désigne
le i ième élément de Yt et si φj,ki désigne le kiième élément de Φj , la colonne i
de (19.31) peut s’écrire comme
p X
X m
yti = αi + yt−j,k φj,ki + uti . (19.32)
j=1 k=1

C’est simplement une régression linéaire, dans laquelle yti dépend d’une con-
stante et des retards 1 à p des m variables du système. Ainsi (19.31) prend
la forme d’un système SUR (Section 9.8).
Parce qu’exactement les mêmes variables apparaissent dans le membre
de droite de (19.32) quel que soit i, les estimations OLS pour chaque équation
sont identiques aux estimations GLS pour (19.31) prises ensembles. Cela est
une consdéquence du Théorème de Kruskal, ainsi que nous l’avons démontré à
la Section 9.8. Ainsi il est très aisé d’estimer une VAR: on applique simplement
les OLS à chaque équation de façon isolée. l’estimation est très rapide siu
le logiciel utilise le fait que chaque équation implique exactement le même
ensemble de régresseurs.
L’usage des modèles VAR fut préconisé, notemment par Sims (1980),
comme un moyen d’estimer des relations dynamiques entre des variables en-
dogènes jointes sans avoir à imposer de fortes contraintes préalables. Des
articles empiriques fondés sur cette approche furent écrits par Litterman et
Weiss (1985) et Reagan et Sheehan (1985). L’avantage principal de cette ap-
proche est que le chercheur n’a pas besoin de décider quelles sont les variables
19.5 Autorégressions Vectorielles 687

endogènes. De plus, tous les problèmes associés aux modèles d’équations si-
multanées sont contournés parce que les VAR ne contiennent aucune variable
courante parmi les régresseurs. D’un autre côté, les VAR tendent à nécessiter
l’estimation d’un grand nombre de paramètres, m + pm2 pour être précis, et,
par conséquent, chaque paramètre individuel a tendance à être souvent estimé
de façon assez imprécise. Nous reviendrons sur ce point plus tard.
Bien que le modèle VAR ne contienne pas de variables courante parmi
les régresseurs, les corrélations contemporaines sont prises en compte de façon
implicite par la matrice Ω. Cette matrice est intéressante à plusieurs titres,
et pas des moindres parce que, si les aléas sont supposés être normalement
distribués, la fonction de log-vraisemblance pour le modèle VAR(p) (19.31),
concentrée par rapport à Ω, est simplement
n ¯ ¯
`(Y, α, Φ1 · · · Φp ) = C − − log ¯Ω(α, Φ1 · · · Φp )¯.
2

Ici Ω(α, Φ1 · · · Φp ) signifie que l’on prend la valeur de Ω qui maximise la log-
vraisemblance conditionnellement à α et aux Φi , et Y représente la matrice
dont la ligne type est Yt . Ce résultat est une application des résultats relatifs
aux fonctions de log-vraisemblance concentrées pour les modèles multivariés
que nous avons dérivés à la Section 9.9;
Il est aisé de voir que Ω(α, Φ1 · · · Φp ) est égale à
n
X
1 ¡ ¢¡ ¢

n
Yt − α − Yt−1 Φ1 · · · − Yt−p Φp > Yt − α − Yt−1 Φ1 · · · − Yt−p Φp ,
t=1

où nous avons supposé implicitement que les p observations antérieures à celles
de l’échantillon sont disponibles, ce qui implique que les n observations soient
employées pour l’estimation. Si Ût désigne le vecteur ligne à m éléments des
résidus OLS pour l’observation t, alors
n
X
1
Ω(α̂, Φ̂1 · · · Φ̂p ) ≡ Ω̂ = −
n
Ût>Ût .
t=1

Par conséquent la valeur maximisée de la fonction de log-vraisemblance est


n
`(Y, α̂, Φ̂1 · · · Φ̂p ) = C − − log |Ω̂|.
2

Lorsque nous spécifions une modélisation VAR, il est important de


déterminer la longueur des retards qu’il est nécessaire d’inclure. Si l’on désire
tester l’hypothèse nulle que le retard le plus long dans le système est p contre
l’hypothèse alternative que c’est p + 1, le moyen le plus facile de procéder est
probablement de calculer la statistique LR
¡ ¢
n log |Ω̂(p)| − log |Ω̂(p + 1)| ,
688 Modèles de Régressions pour Données Chronologiques

avec une notation qui est très explicite. La distribution asymptotique de


cette statistique de test sera le χ2 (m2 ). Cependant, à moins que la taille n de
l’échantillon ne soit très grande par rapport au nombre des paramètres dans
le système (m + pm2 sous l’hypothèse nulle, m + (p + 1)m2 sous l’hypothèse
alternative) la distribution avec des échantillons finis de cette statistique de
test peut différer substantiellement de sa distribution asymptotique.
L’un des usages des modèles VAR est le test de l’hypothèse nulle qu’une
quelconque variable ne possède pas de causalité au sens de Granger sur une
autre varaible. Nous avons discuté du concept de causalité au sens de Granger
dans la Section 18. Dans le contexte d’une VAR, on dit qu’il y a causalité au
sens de Granger entre yt1 et yt2 si les valeurs retardées de yt1 sont significatives
dans l’équation de yt2 . D’un autre côté, l’hypothèse nulle que yt1 ne cause pas
yt2 au sens de Granger ne peut pas être rejetée si toutes les valeurs retardées
de yt1 sont conjointement sans pertinence dans l’équation de yt2 . Ainsi on
peut facilement tester l’hypothèse nulle que n’importe quelle variables dans
une VAR(p) n’a pas de causalité au sens de Granger sur n’importe quelle
autre variable en exécutant un tets en F asymptotique avec p et n − (1 + pm)
degrés de liberté. 2 A l’évidence, tous les résultats dépendent de l’hypothèse
maintenue que toutes les variables pertinentes ont été incluses dans la VAR.
Si une variable yt3 était omise de la VAR, nous concluerions à tort que yt1
cause yt2 au sens de Granger, alors qu’en réalité yt1 n’explique pas du tout yt2
indépendemment de son effet à travers la variable omise.
Comme nous le remarquions déjà, un problème pratique particulièrement
délicat avec les VAR est qu’elles réclament généralement l’estimation d’un
nombre de paramètre qui est important relativement à la taille de l’échantillon.
Litterman (1979, 1986) suggéra que si l’objectif est l’utilisation d’une VAR
pour la prévision, on peut résoudre ce problème en imposant des contraintes
aléatoires, très similaires à celles que nous avons vues dans la Section 19.2 et
dant le but était d’imposer des informations a priori de régularité sur les re-
tards échelonnés. Par exemple, on pourrait imposer l’information a priori que
tous les coefficients sont d’espérance nulle et de variance assez forte, excepté
pour le coefficient associé à yt−1,i dans l’équation pour yti . Litterman proposa
une procédure d’estimation mixte similaire à celle dont nous avons discuté lors
de la Section 19.2, et rapporta que ces VAR “bayésiennes” produisaient de
meilleures prévisions que les VAR non contraintes conventionnelles.

19.6 L’Ajustement Saisonnier


De nombreuses séries temporelles économiques tendent à suivre un modèle
régulier à travers le déroulement de chaque année. On appelle ce genre de
comportement une variation saisonnière ou saisonnalité. Il peut provenir de

2
Les propriétés des différents tests de causalité, incluant celui-ci, furent étudiées
par Geweke, Meese, et Dent (1983).
19.6 L’Ajustement Saisonnier 689

Log des Constructions


11.50

.... ...
11.25 . .. ....
. .... ... ..... .
......
... . . .
.... ....... ... .... ... .... ...... ... .... ... .... .......... ... ....
. . . . . . . . .
.. ...... .. .... .. .... .. ... .. ... .. ... .. ... .. .... .. . .. ...
11.00 .... ....... ....... ... .... ... .... ... .... ... .... ... .... ... .... ... .... ....... ... .... ...... ... ....
. . . . . .
........... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. .... .........
. . . . ... .... . .. . .
... .. .... ... .... ... .... ... .... ... .... ... ....... .... ... ....... .... ... ....... .... ... .... ......
. ......
. .. ..... ...
.
. .... .
. .. . ... . ... . ... . ... . .... ... . .... ... . .... .. . ... .. .... .. .... .. .. ..
... ....... .... ... .... ... ....... ....... ...... .... ... ...... ....... . .... ... .... ...... ... .... . .......... .. ......
.
10.75 . .... ... . ... . .... ... .. ... .. . ..... .. . .. . .. . .. . .. . .. . ...
... ...... .... ... .... ... ...... ...... .. . .
. .
.. . .. . .. . ..
. . . . . . . .. ....
. .. .... ... ....
.
.. . ... .. . .. . .. . .. . .
. .. ... .. ..... .. . .. .
.. . ...
..
... .. . .. . ..
... .. . .. . .. .. .... ....... ... .... ...
... ... . ... .
.. . . .. . . . . .
... ... . ... . ... .. . .... . ... . ......
. . .
. . . .
10.50 .. .. ..... .. . ... .. . ... .. ... . .. . .. . ...
... ... . ... .
.. . . .. .. .. .... .. .... .. .. .. .. .. ....
.. ... .. .... . . .. ... ... .. . . ... .. . .. . ...
.
.... ... . . .
. . ... ... ...... . .... .. . ... . ...
... ... .. .. .. .... .. . .. .. ..
... .... . .
... . .... .. .... .. .... .. .
10.25 .. .... ... .. ... .. .... .....
.... . .
... . . .... ...
... .
.. .. ...
. ...
..
10.00
1969:1 1972:1 1975:1 1978:1 1981:1 1984:1 1987:1

Figure 19.1 Constructions de bâtiments au Canada, 1968–1987

conditions climatiques saisonnières régulières ou d’habitudes sociales telles


que les jours fériés légaux, les vacances en été et d’autres. La présence de
saisonnalité a des implications importantes dans les travaux économétriques
appliqués qui utilisent des données chrnologiques. Au mieux, lorsque nous
parvenons à modéliser la saisonnalité de manière explicite, cela complique le
travail dans une large mesure. Au pire, l’utilisation de données corrigées des
variations saisonnières de façon mécanique peut réduire drastiquement notre
capacité à pratiquer des inférences corrcetes sur des relations économiques.
Pour clarifier les idées, considérons la Figure 19.1, qui présente le loga-
rithme des constructions de bâtiments au Canada, en données trimestrielles,
pour la période 1968:1 à 1987:4. 3 Il est clair que la variation saisonnière
dans cette série est très prononcée. Les constructions de bâtiments tendent
à être plus faibles lors du premier trimestre que lors des autres, sans doute
parce que les conditions climatiques ne hiver rendent les travaux difficiles
en cette période de l’année. Malgré cela, le modèle de saisonnière paraı̂t
varier considérablement d’une année à l’autre, d’une manière que ne semble
pas indépendante du niveau général des constructions d’immeubles. Dans
l’année de récession de 1982, par exemple, il y a beaucoup moins de varia-
tions saisonnières que d’habitude, et le niveau le plus faible des constructions
est enregistré pour le troisième trimestre au lieu du premier.

3
Ces données sont issues de la base de données CANSIM des Statistiques Cana-
diennes. Elles correspondent aux logarithmes de la série numéro D2717.
690 Modèles de Régressions pour Données Chronologiques

Il existe deux visions assez divergentes sur la nature de la saisonnalité


dans les données économiques. la première est que la variation saisonnière
est une partie fondamentale de nombreuses séries économiques et, lorsqu’elle
se manifeste, il faudrait essayer de l’expliquer. Ainsi, dans un monde idéal,
un modèle économétrique pour une variable dépendante yt devrait expliquer
n’importe quelle variation saisonnière des variables indépendantes, sans doute
en incluant des variables saisonnières muettes parmi elles. Hélas, comme nous
allons le voir dans la section qui suit, cela rend la spécification et l’estimaiton
économétrique des modèles pour séries mensuelles ou trimestrielles relative-
ment compliquées.
La seconde interprétation, associée à Sims (1974), est que la saison-
nalité est simplement un type de perturbation qui contamine les données
économiques. La théorie économique n’est pas supposée expliquer ce bruit,
qui, dans le cas de variables indépendantes, équivaut à un problème d’erreur
dans les variables. On devrait par conséquent utiliser ce que l’on appelle
les données ajustées par saison, c’est-à-dire des données qui ont été condi-
tonnées d’une certaine façon de sorte qu’elle représentent ce que nous sup-
posons que la série serait en l’absence de saisonnalité. En réalité, de nombreux
bureaux d’études, en particulier aux Etats Unis, produisent uniquement des
chiffres ajustée par saison pour de nombreuses séries. Dans cette section,
nous allons discuter de la nature des procédures d’ajustement saisonnier et
des conséquences de l’utilisation des données ajustées par saison.
L’idée d’ajuster par saison une série temporelle afin d’éliminer les ef-
fets de la saisonnalité est intuitivement attrayante mais assez difficile à ren-
dre rigoureuse sans avoir à s’appuyer sur des h2 beaucoup trop irréalistes.
L’ajustement saisonnier d’une série yt est pertinent pour tout t on peut écrire
yt = yt∗ + yts , où yt∗ est une série temporelle qui ne contient aucune variation
saisonnière, et yts est une série temporelle qui ne contient que des composantes
saisonnières. Mais cela est une hypothèse extrême. Même si elle est vérifiée,
il n’est pas nécessairement aisé de séparer yt en yt∗ et yts , ce qui est ce que les
procédures d’ajustement saisonnier tentent d’accomplir.
Une approche de l’ajustement saisonnier, qui est très populaire parmi les
économètres mais qui n’est presque jamais utilisée par les bureaux d’études
statistiques, consiste à utiliser une régression par moindres carrés. Supposons
pour être concret, que les données sont trimestrielles, et considérons les vari-
ables saisonnières muettes
     
1 0 0
 0  1  0
     
D1 =  
0
 D 2 =  0
  D 3 =  1 ,
 
 −1   −1   −1 
.. .. ..
. . .
que nous avons rencontrées pour la première fois dans la Section 1.4. Ces
varaibles muettes ont été définies de telle sorte que leur somme est nulle
19.6 L’Ajustement Saisonnier 691

pour une année. Supposons maintenant que l’on régresse un vecteur à n


composantes y sur une constante et sur D ≡ [D1 D2 D3 ]:

y = β + Dγ + u. (19.33)

Alors une série y ∗ “ajustée par saison” peut être élaborée comme suit: as

y ∗ ≡ β̂ + û, (19.34)

où β̂ est l’estimation de β, et û est le vecteur de résidus provenant de


l’estimation par OLS de (19.33). Ainsi toutes les variations de y qui peuvent
avoir comme explication des variables saisonnières muettes ont été éliminées
pour construire y ∗.
Cette approche fut préconisée par Lovell (1963). Il montra, par une
application du Théorème FWL, que les estimations OLS obtenues à partir
des deux régressions suivantes étaient identiques:

y ∗ = X∗β + u et (19.35)
y = Xβ + Dγ + u. (19.36)

Ici la première régression utilise des données “ajustées par saison” par la
procédure utilisée en (19.33) et (19.34). La seconde se contente de régresser
les données brutes y sur des données brute X, où X doit contenir une con-
stante ou un regrésseur équivalent, et sur les variables saisonnières muettes D.
Ce résultat semble suggérer qu’il est peu important d’utiliser soit des données
ajustées par saison soit des données brutes et des varaibles saisonnières
muettes correspodant aux saisons. Une telle conclusion est exacte unique-
ment si les données ont été ajustées par saison à l’aide d’une régression.
Il existe de nombreux problèmes concernant l’ajustement saisonnier par
régression. Premièrement, il est clair à partir des résultats standards sur
les résidus des moindres carrés qu’avec des échantillons finis une régression
comme (19.33) réduira la variation dans une trop grande mesure, en at-
tribuant, à tort, la variation des variables saisonnières muettes (Thomas et
Wallis, 1971). En second lieu, s’il existe une tendance croissante dans la série
ajustée, une régression comme (19.33) attribuera à tort une partie de cette
tendance aux variables saisonnières muettes. Par conséquent, l’estimation de
l’effet du premier trimestre sera trop faible, et celle de l’effet du quatrième
trimestre sera trop forte. Une solution évidente consiste à ajouter une ten-
dance à la régression et à la traiter de la même manière qu’une constante.
(Jorgenson, 1964). Cela implique, malgré tout, que X doit inclure une ten-
dance et une constante qsi l’on veut que (19.35) et (19.36) produisent en effet
les mêmes estimations.
Le plus sérieux problème concernant l’approche de la régression et qu’elle
ne permet pas de changement dans l’allure de la saisonnalité à travers le temps.
692 Modèles de Régressions pour Données Chronologiques

Comme la Figure 19.1 l’illustre, les llures saisonnières paraissent vraiment


changer dans le temps. Une façon de modéliser ce phénomène consiste à
ajouter des variables saisonnières muettes additionnelles qui ont été combinées
à des puissances d’une tendance chronologiques annuelle linéaire croissante
telle que
T ≡ [1 1 1 1 2 2 2 2 · · · ].

La raison qui veut que la tendance doive prendre cette forme relativement
curieuse est que cela garantit toujours la nullité de la somme des variables de
tendance muettes sur la totalité de chaque année, lorsque cette tendance est
multipliée par les variables saisonnières muettes. Si l’on multipliait simple-
ment les variables saisonnières muettes par une tendance ordinaire, cela ne
serait plus le cas.
Le Théorème FWL s’applique aux régressions (19.35) et (19.36) quelle
que soit la manière dont les variables muettes aient été définies. Ainsi on
peut avoir

D ≡ [D1 D2 D3 D1∗T D2∗T D3∗T D1∗T ∗T D2∗T ∗T D3∗T ∗T ].

Il y a trois ensembles de variables saisonnières muettes: celles qui sont les


plus classiques et constantes dans le temps, celles qui sont combinées à une
tendance linéaire et celles qui sont combinées à une tendance quadratique.
Le fait de donner une tendance à des variables saisonnières muettes paraı̂t
quelquefois bien fonctionner avec des échantillon finis, dans le sens où elles
semblent fournir une bonne approximation à un quelconque schéma courant
de changement de saisonnalité. Mais cela n’a pas de sens asymptotiquement,
parce que les variables saisonnières doivent en fin de compte devenir infinies si
les coefficients associé aux variables de tendance muettes sont non nuls dans
la régression.
En ce qui concerne les constructions de bâtiments sur la Figure 19.1, il
est intéressant de voir que les variables de tendance muettes ne sont d’aucun
usage. La régression de ces données sur une constante et trois variables
saisonnières muettes produit quatre coefficients significatifs et un R2 d’environ
0.48. L’ajout de trois variables de tendance linéaire et trois variables de ten-
dance quadratiques muettes à la régression n’améliore pas les valeurs ajustées
de manière significative. Ainsi il apparaı̂t, soit que la variation saisonnière de
cette série n’a pas été modifiée dans le temps, malgré l’impression visuelles
qu’elle donne, soit que cette modification s’est déroulée d’une manière telle
qu’elle ne peut pas être approximée de façon satisfaisante par une régression
sur des variables de tendance saisonnières muettes.
Un autre moyen de traiter les schéma saisonniers qui varient dans le temps
consiste à utiliser les méthodes du domaine de fréquence; voir Engle (1974),
Sims (1974), et Hylleberg (1977, 1986). La prmeière étape consiste à trans-
former les données yt du domaine chronologique au domaine des fréquences,
19.6 L’Ajustement Saisonnier 693

habituellement à l’aide d’une transformation de Fourier. 4 Après transfor-


mation, chaque observation correspond à une certaine fréquence plutôt qu’à
une certaine période de temps. Certaines observations sont effacées, en ban-
des autour des fréquences saisonnières et de leur harmonique. Le nombre
d’observations effacées (c’est-à-dire les fréquences) est d’autant plus élevé que
les bandes sont larges, et cela augment la probabilité que toute variation
saisonnière ait été éliminée des données. Enfin, les données sont transformées
à nouveau pour aboutir dans le domaine chronologique, donnant une série
ajustée par saison.
Sims (1974) montra que cette technique est équivalente à une forme
d’ajustement saisonnier à l’aide d’une régression. Considérons la régression
(19.33) et la série ajustée par saison définie par (19.34). Cette dernière serait
équivalente à une série ajustée dans le domaine des fréquences que nous venons
de décrire si la matrice D était rédéfinie de manièreà être égale à un cer-
tain ensemble de variables qui sont des fonctions trigonométriques du temps.
Les trois premières ou les onze premières de ces variables (dans le cas de
données trimestrielles ou mensuelles respectivement) engendrent exactement
le même sous-espace que trois ou onze variables saisonnières muettes. Ainsi si
le schéma saisonnier était constant dans le temps, il serait nécessaire d’exclure
seulement autant de fréquences spécifiques qu’il y a de périodes chronologiques
dans l’année. L’exclusion de fréquences supplémentaires en bandes autour des
fréquences saisonnières et et de leur harmonique permet au schéma saison-
nier de changer au cours du temps. Cela équivaut à inclure des fonctions
trigonométriques du temps supplémentaires dans la régression. Le nombre de
variables trigonométriques à inclure, qui est identique au nombre de fréquences
exclues dans l’approche par le domaine des fréquences, augmentera de façon
linéaire avec la taille de l’échantillon si la largeur des bandes demeure in-
changée.
Le bureaux de statistiques officiels n’emploient presque jamais aucune
sorte de procédure d’ajustement saisonnier basée sur la régression. Au delà
des problèmes liés à de telles procédures et auxquels nous avons fait référence,
elles souffrent d’une difficulté pratique importante. Au fur et à mesure que le
temps passe et que la taille de l’échantillon s’accroı̂t, l’estimation du vecteur γ
dans (19.33) se modifie, et par conséquent chaque élément de y ∗ sera modifié
chaque fois qu’une nouvelle observation sera disponible. Cette caractéristique
est à l’évidence la moins souhaotable pour les utilisateurs des statistiques
officielles.
Les procédures d’ajustement saisonnier qui sont en réalité employées par
les agences statistiques sont en général très compliquées. Elles tentent de
traiter une multitude de problèmes pratiques, et parmi eux les tendances, les

4
Pour une introduction aux méthodes du domaine de fréquence, consulter Har-
vey (1981). Pour une description de la transformation de Fourier, voir Press,
Flannery, Teukolsky, et Vetterling (1986, Chapitre 12).
694 Modèles de Régressions pour Données Chronologiques

variations chronologiques des saisons, les variations du nombre de jours de


commerce et les dates des vacances, le fait qu’une information plus pauvre
caractérise le début de l’échantillon (parce que les observations qui précèdent
l’échantillon sont inconnues), et les identités qui peuvent lier certaines séries
entre elles. Ces procédures sont à l’origine conçues pour produire des données
qui sont facilement lisibles par les économistes qui tentent de déterminer les
performances de l’économie, plutôt que des données qui seront nécessairement
plus utiles à des économètres. La plus connue de ces procédures officielles est
la méthodes du X-11 inventée par le Bureau de Recensement des Etats Unis
(Shisken, Young, et Musgrave, 1967). Pour une discussion sur ce sujet et sur
les procédures qui s’en inspirent, consulter Hylleberg (1986); la Figure 5.1
de cet ouvrage illustre le diagramme des opérations successives, qui révèle la
complexité extrême de la procédure X-11.
Malgré la complexité de la procédure X-11 et de ses variantes, on peut
souvent les approximer avec satisfaction par des procédures beaucoup plus
simples basées sur ce que l’on appelle les filtres linéaires. Posons y un
vecteur à n composantes des observations (souvent en logarithmes plutôt qu’en
niveaux) d’une série qui n’a pas été ajustée par saison. Un filtre linéaire est
une matrice Φ de dimension n × n dont la somme des éléments d’une même
ligne égale 1, qui prémultiplie y pour produire une série ajustée par saison y ∗.
Chaque ligne du filtre est un vecteur de poids filtrants. Ainsi chaque élément
de yt∗ de la série ajustée par saison est égal à une somme pondérée des valeurs
passées, actuelle, et futures de yt .
Considérons l’exemple simple de données trimestrielles. Supposons que
l’on crée tout d’abord des moyennes mobiles à trois et onze termes
−5
1¡ ¢ 1 X
zt ≡ − y + yt + yt+4 et wt ≡ yt−j .
3 t−4 11 j=5

La différence entre zt et wt est une estimation mobile de la quantité par


laquelle la valeur de yt du trimestre en cours tend à différer de sa valeur
moyenne sur l’année. Ainsi une manière de définir une série ajustée par saison
serait d’écrire
yt∗ ≡ yt − zt + wt
= .0909yt−5 − .2424yt−4 + .0909yt−3 + .0909yt−2
(19.37)
+ .0909yt−1 + .7576yt + .0909yt+1 + .0909yt+2
+ .0909yt+3 − .2424yt+4 + .0909yt+5 .
Cet exemple correspond à un filtre linéaire dans lequel la ligne p de Φ (pour
5 < p < n − 5) serait composée de p − 6 zéros, suivis par onze coefficients qui
apparaissent dans (19.37), eux-mêmes suivis par n − p − 5 zéros.
Cet exemple tel qu’il fut construit fut délibérément trop simple, mais
l’approche de base qu’il illustre se retrouve, sous des formes modifiées variées,
19.6 L’Ajustement Saisonnier 695

dans la plupart des procédures d’ajustement saisonnier officielles. Ces der-


nières n’emploient généralement pas des filtres linéaires, mais plutôt des
moyennes mobiles sous une forme comparable à cet exemple. Ces moyenes
mobiles tendent à être plus longues que celles utilisée dans l’exemple; zt est
généralement composée d’au moins 5 termes et wt d’au moins 25 termes dans
le cas de données trimestrielles. Elles tendent également à donner progres-
sivement moins de poids aux observations éloignées de t. Le poids donné à yt
par ces procédures est généralement compris entre 0.75 et 0.9, mais il est tou-
jours inférieur à 1. Pour plus de détails sur les relations entre les procédures
officielles et celles basées sur les filtres linéaires, voir Wallis (1974), Burridge
et Wallis (1984), et Ghysels et Perron (1993).
Nous avons affirmé que les procédures d’ajustement saisonnier officielles
ont les mêmes propriétés la plupart du temps que les filtres linéaires appliqués
soit aux niveaux soit aux logarithmes des données brutes. Cette assertion
peut être vérifiée empiriquement. Si elle est exacte, la régression d’une série
ajustée par saison yt∗ sur suffisamment de retards et d’avances de la série brute
correspondante yt devrait fournir des valeurs ajustées d’une qualité extrême.
Le coefficient de yt devrait être élevé et positif, mais inférieur à 1, et les
coefficients des yt+j devraient être négatifs lorsque j est un entier multiple de
4 ou de 12, pour des données trimestrielles et mensuelles respectivement.
Pour illustrer ces propos, nous avons régressé les logarithmes de la série
des constructions de bâtiments pour le Canada ajustée par saison qui corre-
spond à la série brute de la Figure 19.1 sur une constante et sur la valeur
courante et 12 retards et avances de la série brute, pour la période allant de
1957:1 à 1986:4. Le R2 est de .992 et le coefficient de la valeur courante est
de 0.80. Nous avons également régressé les logarithmes des dépenses de con-
sommations réelles des particuliers, ajustées par saison, sur une constante, la
valeur courante et 13 retards et avances de la série brute correspondant, pour
la période allant de 1953:1 à 1984:1. 5 Cette fois-ci, le R2 atteint la valeur
extraordinaire de .999996, et le coefficient associé à la valeur courante est 0.82.
Dans les deux cas, tous les coefficients associés à yt+j pour j un multiple de
4 étaient négatifs, comme prévu. Il apparaı̂t donc qu’un filtre linéaire fournit
une approximation de grand qualité de la procédure d’ajustement saisonnier
employée en réalité dans le cas de données de dépenses et une approximation
satisfaisante dans la cas des données de construction de bâtiments.
Si l’on réalise un ajustement saisonnier à l’aide d’un filtre linéaire, il n’est
pas difficile d’analyser les effets de l’utilisation de données ajustées par saison.
Supposons que le même filtre soit appliqué à toutes les séries dans la régression

5
Toutes les données furent collectées à partir de la banque de données CANSIM
des Statistiques Canadiennes. Les séries de construction de bâtiments ajustées
et brutes portent les numéro D2717 et D4945. Les séries des dépenses ajustées
et brutes portent les numéros D20131 et D10131.
696 Modèles de Régressions pour Données Chronologiques

de y ∗ sur X∗. Alors les estimations par moindres carrés seront données par
¡ ¢−1
β̃ = X∗>X∗ X∗>y ∗
¡ ¢−1
= X>Φ>ΦX X>Φ>Φy.

Nous voyons que β̃ est simplement un vecteur d’estimations GLS, où la ma-
trice de dimension n × n Φ>Φ joue le rôle de l’inverse de la matrice de
covariance des aléas. Nous concluons donc que la régression OLS suivant
l’ajustement saisonnier pratiqué à l’aide d’un filtre linéaire est équivalent à
une régression GLS, à condition que le même filtre linéaire soit employé pour
toutes les séries. Malheureusement, les procédures d’ajustement saisonnier
ne pratiquent pas ainsi pour toutes les séries (ni quelquefois pour une même
série en différents points du temps). Par conséquent, ce résultat est rarement
applicable. (Wallis, 1974).
Quoi qu’il en soit, il y a un intérêt à discuter des propriétés de β̃. Celles-
ci dépendront à l’évidence de la manière dont on a généré yt . L’une des
possibilités est que

y = Xβ0 + u, u ∼ IID(0, σ 2 I), (19.38)

qui implique que n’importe quelle forme de saisonnalité dans y soit rendue
dans sa totalité par la saisonnalité dans les variables indépendantes. Alors
³ ´−1 ³ ´
1 > > 1 > >
plim β̃ = β0 + plim −X Φ ΦX plim − X Φ Φu = β0 . (19.39)
n→∞ n→∞ n n→∞ n

Ainsi, bien qu’il n’y ait aucune raison d’utiliser des données ajustées par saison
dans ce cas, leur présence conserve quand même la convergence des estimations
par moindres carrés. Cependant, le Théorème de Gauss-Markov implique que
ces estimations seront moins efficaces que les estimations OLS qui utilisent
les données brutes. C’est le cas, puisque la procédure d’ajustement saisonnier
réduit la variation des variables indépendantes et elle réduit également la
précision de l’estimation de β. Ce plus, la seconde égalité de (19.39) réclame
que tous les éléments de X soient indépendants de tous les éléments de u,
et elle élimine implicitement la possibilité d’inclure des variables dépendantes
retardées dans la matrice X.
Une seconde possibilité, qui rend l’utilisation de données ajustées par
saison plus attaryante est que le DGP soit

y − y s = (X − Xs )β0 + u, u ∼ IID(0, σ 2 I). (19.40)

Ici y s et Xs désignent les parties de y et X attribuées aux saisons. Suppopons


que les poids filtrants aient été choisis de telle manière que toute saisonnalité
19.6 L’Ajustement Saisonnier 697

soit éliminée. Cela implique que Φy s = 0 et ΦXs = 0, ce qui implique en


retour que ¡ ¢
Φy = Φ (X − Xs )β0 + y s + u
= Φ(Xβ0 + u).
Si l’on substitue Φ(Xβ0 + u) à Φy dans la première ligne de (19.39), sans
changer la suite de (19.39), on conclue que β̃ est convergent vers β0 .
Dans cette seconde situation, l’alternative consistant simplement à régres-
ser les données brutes y sur X n’est pas du tout attrayante. L’estimation OLS
de β est
¡ ¢−1
β̂ = X>X X>y
¡ ¢−1 ¡ ¢
= β0 + X>X X> −Xs β0 + y s + u ,
et elle ne sera bien évidemment pas convergente vers β0 à moins que X
ne soit asymptotiquement orthogonale à la fois à Xs et y s. Mais une telle
condition ne peut être valide que si aucune variable de X ne manifeste une
quelconque variation saisonnière. Par conséquent, si l’on désire utiliser des
données ajustées par saison, il faut incorporer une saisonnalité de façon ex-
plicite dans le modèle. Nous traiterons ce thème dans la section qui suit.
Souvenons-nous que ces résultats ne sont valides que si le même filtre
linéaire est utilisé pour l’ajustement saisonnier de toutes les séries. Si l’on
multiplie les filtres pour les différentes séries, ce qui sera presque toujours le
cas avec des données ajustées par les procédures officielles, on ne peut plus
affirmer que les régressions qui emploient des données ajustées par saison
produiront des estimations convergentes, que les données aient été générées
par un modèle comme (19.38) ou par un modèle comme (19.40). On peut
juste espérer qu’une telle défaillance dans la convergence soit faible. Consulter
Wallis (1974).
Une limitation beaucoup plus sérieuse concernant la convergence dans
les résultats précédents est qu’il supposent l’absence totale de variable dépen-
dante retardée parmi les régresseurs. Lorsqu’il existe de telles variables, et
cela sera le cas pour tout modèle dynamique et pour tout modèle transformé
de façon à permettre la corrélation en série des aléas, il n’y a aucune raison
de croire que la régression par moindres carrés utilisant des données ajustée
avec un filtre linéiare produira des estimations convergentes. En réalité, des
travaux récents ont montré que, dans les modèles comportant un seul retard
de la variable dépendante, l’estimation du coefficient de la variable retardée
tend généralement à être sévèement biaisé lorsque l’on utilise des données
ajustées par saison. Consulter Jaeger et Kunst (1990), Ghysels (1990), et
Ghysels et Perron (1993).
Afin d’illustrer ce résultat important, nous avons généré des données ar-
tificielles à partir d’un cas particulier du modèle

yt = α + βyt−1 + Dt γ + ut , ut ∼ N (0, σ 2 ), (19.41)


698 Modèles de Régressions pour Données Chronologiques

0.30

........
............
........ ............
. ..
0.20 ... ............
.. .... .....
.... .....
..... .....
...... ...... ... n = 400
..... ...... .....
...... ....... .....
........ ........ ........
......................... .....
.
........................ ............... ... ................. ...... . .
..
.
.............................................................................................................. .........
........
.................... ......................... .......
0.10 ........... ......
......... ......
....... ......
n = 50 .
....
....
.....
.....
.
. ..
....
....
....
. .......
......
.....
......
...... ......
..... .....
..... .....
...... .....
..... .....
..... .....
..... .....
0.00 ..... .....
....
....
....
.... ..
......
.

−0.10
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00

Figure 19.2 Biais dû à l’ajustement saisonnier

où Dt est la t ième ligne d’une matrice de dimension n × 3 de variables


saisonnières muettes. La série yt a ensuite été soumise à un filtre linéaire
que l’on pourrait utiliser pour l’ajustelment saisonnier, 6 et la série “ajustée”
a ensuite été régressée sur une constante et sur sa propre valeur rétardée
pour fournir une estimation β̃. Nous avons exécuté cette procédure pour 199
valeurs de β allant de −0.99 à 0.99, pour des tailles d’échantillons diverses, et
les expériences furent répétées un grand nombre de fois afin de réduire l’erreur
axpérimentale (voir le Chapitre 21).
La Figure 19.2 illustre le biais estimé de β̃ en fonction de β. Seuls les
résultats pour n = 50 (basé sur 4000 exécutions) et pour n = 400 (basés
sur 2000 exécutions) sont reportés. Remarquons que n est le nombre des
observations pour les séries ajustées par saison, qui est inférieur de 54 au
nombre des observations initiales. On voit clairement à partir de la figure
que, pour la plupart des valeurs de β, β̃ est sévèrement biaisé vers le haut.
Ce biais ne se dissipe pas lorsque la taille de l’échantillon s’accroı̂t; en réalité,
pour de nombreuses valeurs de β, il est plus fort avec n = 400 qu’avec n = 50.
La conclusion semble inéluctable que β̃ est un estimateur non convergent et
que l’amplitude de cette non convergence est en général assez forte.
Un autre résultat intéressant est ressorti de cette batterie d’expériences.
L’estimation de σ qui utilise les données ajustées par saison est biaisée vers

6
La valeur courante de la série brute est associé au poins 0.84. Les 12 valeurs de
retard et d’avance sont associées aux poids 0.08, 0.07, 0.06, −0.16, 0.05, 0.05,
0.04, −0.12, 0.03, 0.03, 0.02, et −0.08. Les valeurs particulières de cas poids
n’ont pas affecté les résultats qualitatifs.
19.7 Modéliser la Saisonnalité 699

le bas dans une large mesure, avoisinant en moyenne entre 87% et 92% de
sa véritable valeur. Par contre, lorsque le modèle exact (19.41) est estimé
à l’aide des données brutes, l’estiamtion de σ est pratiquement sans biais,
comme prévu. Ces résultats convergent vers les résultats obtenus par Plosser
(1979a), qui trouva que les modèles estimés avec des données ajustées par
saison possèdent toujours des variances de résidus plus faibles que celes cor-
respondant aux modèles estimés avec les données brutes. Quoi qu’il en soit,
Plosser trouva que les prévisions fondées sur ces derniers seront plus fines
que celles fondées sur les premiers. Ces conclusions suggèrent que l’on ne de-
vrait jamais choisir un modèle basé sur les données ajustées par saison plutôt
qu’un modèle basé sur les données brutes simplement parce que les premiers
semblent s’ajuster un peu mieux.
L’usage des données ajustées par saison dans les travaux économétriques
appliqués est très répandu, et il est en vérité quelquefois difficile de l’éviter.
Cependant les résultats exposés dans cette section suggèrent que cette attitude
peut souvent être imprudente. Même pour des modèles statiques, il est prob-
able que des problèmes surgissent si les procédures officielles d’ajustement
saisonnier utilisent en réalité des filtres différents. Pour les modèles dy-
namiques la non convergence potentielle provenant de l’utilisation de données
ajustées par saison paraı̂t très marquée. Dans la prochaine section, nous
discuterons par conséquent des approches variées de la spécification et de
l’estimation des modèles qui emploient des données qui ne sont pas ajustées
par saison.

19.7 Modéliser la Saisonnalité


Les résultats de la section qui précède suggèrent que, lorsque l’on dispose des
données brutes, il est probablement plus judicieux de les utiliser plutôt que
de s’appuyer sur des données officielles ajustées par saison. Malgré tout, cela
réclame une bonne quantité de travail supplémentaire. L’estimation simple
d’un modèle qui n’est pas conçu pour des données saisonnières est rarement
appropriée. Une telle approche a toutes les chances de produire des estima-
tions des paramètres sévèrement biaisées si la variation saisonnière d’une ou
de plusieurs variables indépendantes s’avère être corrélée (même si elle ne la
provoque pas) avec la variation saisonnière de la variable dépendante. Il ex-
iste de nombreux moyens de gérer la variation saisonnière dans les modèles de
régression. C’est dans cette section que nous discutons de certaines d’entre
elles.
La stratégie la plus simple pour la spécification de modèles qui utilisent
des données brutes consiste à inclure des varaibles saisonnières muettes dans le
modèle de régression linéaire, comme dans (19.36). Si la structure saisonnière
a été constante au ccours du temps, de sorte que les trois varaibles saisonnières
muettes (dans le cas de données trimestrielles) ou les onze variables saisonnière
700 Modèles de Régressions pour Données Chronologiques

muettes (dans le cas de données mensuelles) rendent compte de façon satis-


faisante des effets de a saisonnalité, cette approche semble être adéquate.
Cependant, elle ne sera pas appropriée lorsque la structure de la saison-
nalité des variables dépendantes ou indépendantes est changeante au cours
de la période d’échantillonnage. Une possibilité dans ce cas consiste à in-
clure un ou plusieurs ensembles de variables saisonnières muettes combinées
à des tendances annuelles croissantes, en même temps que des variables
saisonnières muettes ordinaires. La pertinence des ensembles additionnels
de variables muettes peut facilement être testée aux moyens des tests en
F à la manière habituelle. Une critique à cette approche, ainsi que nous
l’avons noté précédemment, est qu’elle n’a pas de sens asymptotiquement. De
plus, un modèle qui possède des variables saisonnières à tendance à toutes
les chances d’être inadapté à la prévision, puisque même si les variables
saisonnières muettes rendent compte de façon satisfaisante des changements
de la structure de la saisonnalité dans l’échantillon, il n’y a aps de raison de
croire qu’elles le feront en dehors de l’échantillon. Davidson et MacKinnon
(1983c) offrent un exemple quelque peu extrême de cette approche. Dans cet
article, pas moins de 15 variables saisonnières muettes, avec des tendances
allant jusqu’au quatrième ordre, furent incluses dans des modèles utilisant
des données trimestrielles, parce que cela semblait être nécessaire pour rendre
compte de toute la saisonnalité dans les données.
Une seconde stratégie consiste à modélisr les aléas d’un modèle de
régression pour qu’ils obéissent à une espèce quelconque de processus ARMA
saisonnier, c’est-à-dire un processus ARMA avec des coefficients non nuls
uniquement sur les retards des saisons. Un tel processus, qui peut être adéquat
pour les données trimestrielles, est le processus Ar(1) simple que nous avons
rencontré pour la première fois dans la Section 10.5:

ut = ρ4 ut−4 + εt , εt ∼ IID(0, ω 2 ), (19.42)

où ρ4 est le paramètre à estimer, et ω 2 est la variance de εt . Un autre processus


Ar purement saisonnier consacré aux données trimestrielles est

ut = ρ4 ut−4 + ρ8 ut−8 + εt , εt ∼ IID(0, ω 2 ), (19.43)

qui est l’analogue d’un processus AR(2) consacré à des données non saison-
nières.
Dans de nombreux cas, les aléas peuvent manifester à la fois de la
corrélation saisonnière et de la corrélation non saisonnière. Cela suggère que
l’on peut combiner un processus saisonnier avec un processus qui ne l’est pas.
Supposons, par exemple, que l’on veuille combiner un processu AR(1) avec
un processus AR(4) simple. Une approche ferait combiner ces deux processus
de façon additive, produisant

ut = ρ1 ut−1 + ρ4 ut−4 + εt , εt ∼ IID(0, ω 2 ). (19.44)


19.7 Modéliser la Saisonnalité 701

Une seconde approche ferait combiner ces deux processus de façon multiplica-
tive, comme dans

(1 − ρ1 L)(1 − ρ4 L4 )ut = εt , εt ∼ IID(0, ω 2 ),

que l’on pourrait écrire différemment, en oubliant la notation avec l’opérateur


retard, comme dans

ut = ρ1 ut−1 + ρ4 ut−4 − ρ1 ρ4 ut−5 + εt , εt ∼ IID(0, ω 2 ). (19.45)

Aussi bien (19.44) que (19.45) paraissent probables, et il n’existe aucune raison
majeure a priori de préférer l’un à l’autre.
A l’évidence, un grand nombre de processus AR et ARMA différentes
pourraient être employés pour modéliser la variaiton saisonnière de l’aléa
dans un modèle de régression. Il existe une littérature très développée sur
les processus ARMA saisonniers; consulter, parmi d’autre auteurs, Box et
Jenkins (1976), Harvey (1981), et Ghysels (1991). Cependant, l’intérêt que
représentent de tels processus pour modéliser la saisonnalité n’est pas de tout
immédiat. D’un côté, ils offrent généralement une façon assez économe de
le faire; par exemple (19.42) n’emploie qu’un seul paramètre additionnel, et
(19.13) n’en a que deux. De plus, il est certainement exact que si un modèle
de régression ne rend pas compte de façon adéquate de la saisonnalité, la
corrélation sérielle d’ordre quatre se manifestera nécesairement. Alors le test
de cette corrélation fournit souvent un test diagnostique utile. Mais, de même
que la corrélation en série à l’ordre un ne signifie pas que les aléas obéissent en
vérité à un processus AR(1), la corrélation en série à l’ordre quatre ne signifie
pas non plus qu’ils obéissent à un processus AR(4).
L’énorme difficulté relative aux processus ARMA saisonniers est qu’ils
ne peuvent pas saisir l’un des caractéristiques importantes de la saisonnalité,
en l’occurrence le fait que des saisons différentes de l’année possèdent des
particularités différentes: l’été n’est pas simplement l’hiver avec un nouveau
nom. Mais en ce qui concerne un processus ARMA, l’été est juste l’hiver
avec un nom différent. Si les aléas obéissent à un schéma saisonnier partic-
ulier au début de l’échantillon, alors il est assez probable qu’ils obéissent au
même schéma l’année suivante. Mais pour un processus ARMA stationnaire,
l’influence des conditions initiales tend vers zéro lorsque le temps passe. Ainsi
il n’y a aucune raison de croire que le schéma saisonnier 10 ou 20 ans après le
début de l’échantillon possèdera une quelconque ressemblance avec le schéam
d’origine. En fait, pour T suffisamment élevé, les espérances de uT , uT +1 ,
uT +2 , et uT +3 conditionellement à u1 , u2 , u3 et u4 sont toutes (presque) nulles.
Alors l’utilisation d’un processus ARMA pour modéliser la saisonnalité im-
plique l’hypothèse que tout schéma de saisonnalité particulier est transitoire;
dans le long terme, tout schéma est envisageable. Cela nous entraı̂ne à croire
que l’on utilisera sûrement pas le schéma saisonnier ARMA pour modéliser
le schéma saisonnier d’un objet tel que le prix des framboises, puisque le
702 Modèles de Régressions pour Données Chronologiques

modèle serait incapable d’expliquer que le prix a toutes les chances d’être
inhabituellement élevé au milieu de l’hiver ou lors de la récolte. Un moyen
évident de contourner ce problème serait d’inclure des variables saisonnières
muettes dans le modèle. Les variables saisonnières muettes permettraient
aux différentes saisons d’être naturellement différentes, alors que le processus
ARMA saisonnier permettrait au schéma saisonnier d’évoluer dans le temps.

Une troisième stratégie consiste à permettre à certains coefficients de


la fonction de régression de varier dans chaque saison. Ainsi, si le modèle
originel possède k coefficients, on estimerait un modèle avec 4k ou 12k co-
efficients. Cela serait pertinent si les variations du schéma de saisonnalité
dans le temps étaient associées à des modifications des valeurs de certaines
variables indépendantes dans le temps. Une objection immédiate à cette ap-
proche est que le nombre de coefficients serait souvent très élevé compara-
tivement à la taille de l’échantillon, et ils tendront tous à être estimés avec
trop peu de précision. Gersovitz et MacKinnon (1978) ont à cette occasion
suggéré l’utilisation des informations a priori de régularité, comparables à
celles dont nous avons discuté lors de la Section 19.3 pour l’estimation des re-
tards échelonnés, afin d’éviter des variations trop fortes des coefficients d’une
saison à l’autre. Cela paraı̂t être une contrainte raisonnable à imposer dans
le cas de données mensuelles, mais cela paraı̂trait difficile à justifier dans le
cas de données trimestrielles;
Une quatrième stratégie consiste à incorporer des dynamiques saison-
nières directement dans la spécification de la fonction de régression, à l’aide
d’une forme quelconque de modèle ADL saisonnier. Un modèle partic-
ulièrement simple de ce genre est
(1 − L4 )yt = β0 + β1 (1 − L4 )xt + β2 (yt−4 − λxt−4 ) + ut .
Cela ressemble à un modèle ADL(1, 1) écrit sous sa forme à correction
d’erreur — à comparer à (19.30) — mais avec des retards à la quatrième
période au lieu des retards à une période. Il est presque certainement trop
simple, bien sûr, et l’addition de variables saisonnières muettes ou de retards
de yt et xt . Un article très connu qui estime les modèles ALD saisonniers fur
écrit par Davidson, Hendry, Srba, et Yeo (1978).
A l’exception discutable des modèles ADL saisonniers, les stratégies
aperçues jusqu’à présent sont essentiellement mécaniques. On commence avec
un modèle non saisonnier et on le transforme afin de lui faire manipuler la
saisonnalité. Ce n’est sûrement pas le meilleur moyen de procéder. Dans
un monde idéal, on aimerait incorporer la saisonnalité dès le départ dans le
modèle. Cela a pourtant toutes les chances de rendre l’élaboration du modèle
beaucoup plus difficilie, et cela explique sans doute pourquoi peu d’auteurs
s’y sont attaqués, à l’exception de Plosser (1979b), Miron (1986), et Osborn
(1988, 1991). A moins que la théorie économique ne prenne explicitement en
compte la saisonnalité, il sera très difficile aux économètres d’intégrer cette
saisonnalité dans les modèles qu’ils estiment.
Termes et Concepts 703

19.8 Conclusion
Dans ce chapitre, nous avons vu un certain nombre de problèmes qui appa-
raissent fréquemment lorsque l’on tente d’estimer des modèles de régression
à l’aide de données temporelles. Dans la majeure partie du chapitre, nous
avons supposé que toutes les séries sont stationnaires, ou I(0), de sorte que l’on
peut employer des méthodes d’estimation classiques et la théorie asymptotique
standard. Pour de nombreuses séries cependant, cette hypothèse peut être en-
freinte à moins de prendre les différences premières avant l’estimation. Mais
comment sait-on qu’une opération des différences premières est nécessaire?
Dans le chapitre qui suit, nous discutons de la manière de répondre à cette
question, et il nous permet d’aborder des thèmes importants qui lui sont rat-
tachés.

Termes et Concepts
retards d’Almon modèle d’ajustement partiel
modèles ADL(p, q) et modèles modèle PDL(q, d)
ADL(1, 1) retard échelonné polynomial (PDL)
modèle autorégressif à retard marche aléatoire, avec ou sans dérive
échelonné (ADL) procédure d’ajustement saisonnier
modèle dynamique basée sur la régression
forme à correction d’erreur (d’un saisonnalité
modèle ADL) données ajustées par saison
terme de correction d’erreur modèle ADL saisonnier
poids filtrant processus AR saisonnier
opérateur de la différence première variation saisonnière
causalité au sens de Granger dans les informations a priori de régularité
VAR régression erronée
variables intégrées contraintes stochastiques
variables I(0) et I(1) variable à tendance stationnaire
filtre linéaire modèle à vecteur autorégressif
estimation mixte processus VAR(p)

Vous aimerez peut-être aussi