Ch19 Modèles de Régression Pour Données Chronologiques

Chapitre 19
Modèles de Régressions
pour Données Chronologiques
19.1 Introduction
Un nombre conséquent d’études économétriques appliquées utilisent des don-
nées chronologiques, et nombreux sont les problèmes économétriques qui sont
liés au seul usage de ce genre de données. L’un d’entre eux est la corrélation
en série, dont nous avons largement parlé au cours du Chapitre 10. Dans
ce chapitre et celui qui suit, nous discuterons d’autres problèmes que l’on
rencontre fréquemment lorsque l’on utilise les données chronologiques ou des
méthodes susceptibles de les traiter. Dans la Section 19.2, nous aborderons le
problème des régressions “erronées” entre des séries économiques temporelles.
Cette section introduit quelques concepts importants qui feront l’objet du
Chapitre 20, lorsque nous parlerons des racines unitaires et de la cointégration.
La Section 19.3 traite l’estimation des retards échelonnés. La Section 19.4
concerne les modèles de régression dynamique, dans lesquels un ou plusieurs
retards de la variables dépendante apparaissent dans les régresseurs. Nous
discuterons de l’estimation des modèles à vecteur autorégressif pour des séries
chronologiques multivariées dans la Section 19.5. Les deux sections finales
traitent de la saisonnalité. La Section 19.6 fournit une introduction aux
procédures d’ajustement saisonnier, et la Section 19.7 discute des moyens
variés de modéliser les variations saisonnières dans les modèles de régression.
19.2 Régressions Erronées

De nombreuses séries temporelles économiques ont une tandance croissante
dans le temps. Cette observation est sans doute vraie pour la plupart des
séries qui mesurent, ou qui sont mesurées avec les prix nominaux, du moins
pour notre siècle. Elle est également vraie pour des données chronologiques qui
mesurent les niveaux des variables économiques réelles, telles que la consom-
mation, la production, l’investissement, les importations et les exportations.
De nombreuses séries tendancielles peuvent être généralement caractérisées
669
670 Modèles de Régressions pour Données Chronologiques
par l’un des deux modèles suivants:
yt = γ1 + γ2 t + ut et (19.01)
yt = δ1 + yt−1 + ut , (19.02)
où les aléas ut ne seront, en général, ni indépendants ni identiquemt dis-

tribués. Ils seront cependant stationnaires si le modèle est bien adapté à la
série temporelle concernée. Le premier modèle, (19.10), indique que yt est
stationnaire en tendance, c’est-à-dire qu’il est stationnaire autour d’une ten-
dance. Par contraste, le second modèle, (19.02), indique paramètre de dérive
δ1 dans (19.02) joue un rôle comparable au paramètre de tendance γ2 dans
(19.01), puisque les deux donnent une orientation croissante à yt à travers
le temps. Mais le comportement de yt est très différent dans les deux cas,
parce qu’enlever la tendance de yt dans le premier cas en fait une variable
stationnaire, alors que dans le second cas, ce n’est pas exact.
Il existe une littérature importante consécrée à la détermination du
modèle qui caractérise le mieux la plupart des séries temporelles, détermina-
tion qui arbitre entre le modèle stationnaire en tandance (19.01) et le modèle à
marche aléatoire avec dérive (19.02). L’article de Nelson et Plosser (1982) est
une référence classique, celui de Campbell et Mankiw (1987) est plus récent, et
celui de Stock et Watson (1988a) offre une discussion excellente de nombreuses
résultat de nombreux résultats. Dans le prochain chapitre nous discuterons
des méthodes que l’on peut employer pour savoir par lequel de ces modèles
une série temporelle donnée est le mieux caractérisée. Pour l’instant, ce qui
nous préoccupe est ce qui survient si l’on utilise des séries chronologiques,
qui sont décrites par l’un ou l’autre de ces modèles, en tant que variables
dépendantes ou indépendantes dans un modèle de régression.
Si unePsérie chronologiqe dont l’élément type est xt est toujours croissante,
n
alors n−1 t=1 x2t divergera vers +∞. Ainsi, si l’on utilise une telle série en
tant que régresseur dans un modèle de régression linéaire, la matrice n−1X>X
ne peut pas tendre vers une matrice finie, défine positive. Toute la théorie
asymptotiques que nous avons utilisée dans cet ouvrage est donc inadaptée
aux modèles pour lesquels n’importe quel régresseur est caractérisé par (19.01)
ou par (19.02).1 Cela ne signifie pas qu’il ne faut jamais poser une variables
1
Le fait que la théorie asymptotique standard soit inadaptée à de tels modèles
ne signifie pas qu’aucune théorie ne leur soit pas applicable. Par exemple, nous
avons étudié un modèle simple de régression sur une tendance linéaire dans la
Section 4.4 et nous avons conclu que l’estimateur des moindres carrés du coef-
ficient du terme de tendance était convergent, mais avec une variance O(n−3 )
au lieu d’être O(n−1 ). De plus, puisqu’il existe des TLC qui s’appliquent à
de tels modèles, les procédures habituelles pour l’inférence sontP
asymptotique-
n
ment valables. Par exemple, si ut ∼ IID(0, σ 2 ) et Sn ≡ n−3/2 t=1 tut , alors
Sn a une distribution qui tend vers N (0, σ 2 /3). Remarquons que le facteur de
normalisation ici est n−3/2 plutôt que n−1/2.
19.2 Régressions Erronées 671
de tendance dans le membre de droite d’une régression linéaire ou non linéaire.

Puisque les échantillons observés sont finis, et parfois assez restreints, nous ne
pouvons jamais assuser que la tendance est toujours croissante. De plus, les
propriétés agréables, avec des échantillons finis, de la régression par moindres
carrés sont maintenues que des régresserus aient une tendance croissante ou
pas. Mais si l’on veut s’appuyer sur la théorie asymptotique conventionnelle,
il semblerait que la spécification de nos modèles sans variable à tendance
affirmé dans le membre de droite soit une attitude prudente. Cela implique
en retour que la variable dépendante ne peut pas avoir de tendance affirmée.
L’approche la plus commune consiste à prendre les différences de toutes les
varibles avant de spécifier le modèle.
Une raison irrésistible qui motive la considération des différences pre-
mières est le phénomène de régression erronée. Il devrait être clair que si deux
variables, disons yt et xt , toutes deux à tendance croissante, une régression
de de yt sur xt a de fortes chances de trouver une relation “significative” en-
tre elles, même si la seule chose qu’elle ont en commun est cette tendance
croissante. En réalité, le R2 pour une régression de yt sur xt et une con-
stante tendra vers 1 alors que n → ∞ lorsque les deux séries peuvent être
caractérisées par (19.01), même s’il n’y a pas de corrélation en série entre les
deux parties aléatoires de yt et de xt . Les lecteurs trouveraient sans doute
révélatrice la démonstration de ce résultat, et nous leur conseillons de consuler
la Section 4.4 pour quelques résultats utiles.
Il est intuitivement très plausible que nous devrions observer des relations
en apparence significatives, mais en réalité fausses, entre des variables sans
lien mais à tendance croissante dans le temps. Granger et Newbold (1974)
ont découvert ce qui semble être au premier abord une forme encore plus
surprenante de régression erronée. Ils considérèrent des séries temporelles
générées par une marche aléatoire sans dérive, c’est-à-dire des séries générées
par un processus comme yt = yt−1 + ut . Leur résultat, obtenu par des
expériences Monte Carlo, est que si xt and yt sont des variables aléatoires
indépendantes, le t de Student de β = 0 dans la régression
yt = α + βxt + ut (19.03)
rejette l’hypothèse nulle beaucoup plus souvent qu’il ne le devrait et tend à

la rejeter d’autant plus souvent que la taille de l’échantillon, n, augmente.
Ultérieurement, Phillips (1986) démontrera que ce t de Student rejettera con-
stamment l’hypothèse nulle, asymptotiquement.
Quelques résultats Monte Carlo sur les régressions erronées figurent dans
le Tableau 19.1. Chaque colonne décrit la proportion des fois, dans plus de
10,000 exécutions, où le t de Student de β = 0 rejettera l’hypothèse nulle au
niveau 5% dans une régression quelconque. Pour la colonne 1, la régression
est (19.03) et à la fois xt et yt sont générées par des marches aléatoires
ibndépendantes à aléas n.i.d. Pour la colonne 2, xt et yt sont identiques à
celles de la première colonne, mais une variable dépendante retardée a été
Tableau 19.1 Rejets Erronés et Taille d’Echantillon
n Marche Aléatoire Retard Ajouté Dérive Tendance
25 0.530 0.146 0.645 0.066

50 0.662 0.154 0.825 0.431
75 0.723 0.162 0.905 0.987
100 0.760 0.162 0.945 1.000
250 0.847 0.169 0.997 1.000
500 0.890 0.167 1.000 1.000
750 0.916 0.170 1.000 1.000
1000 0.928 0.169 1.000 1.000
2000 0.947 0.168 1.000 1.000
ajoutée à la régression. Pour les colonnes 3 et 4, la régression est simple-

ment (19.03) à nouveau. Pour la troisième colonne, xt et yt sont toutes deux
générées par des marches aléatoires avec dérive, le paramètre de dérive δ1
étant égal à un cinquième de la valeur de l’écart type σ (ce rapport est le seul
paramètre qui affecte la distribution du t de Student). Pour la colonne 4, xt
et yt sont stationnaires en tendance, avec un coefficient de tendance γ2 égal à
1/25 de la taille de σ.
Les résultats dans les colonnes 3 et 4 de tableau ne sont guère surprenants,
puisque xt et yt sont croissants. Le seul élément intéressant concernant ces
résultats est la rapidité d’accroissement du nombre de rejets en fonction de la
taille de l’échantillon. C’est une conséquence du fait que, dans ces deux cas,
la masse d’information contenue dans l’échantillon augmente à un taux plus
fort que n. Elle augmente bien sûr encore plus vite dans le cas d’une tendance
que dans le cas d’un e marche aléatoire avec dérive.
Par contre, les résultats des colonnes 1 et 2 du tableau peuvent surpren-
dre. Après tout, xt et yt sont des éries totalement indépendantes, et aucune
ne contient de tendance. Alors pour quelle raison découvrons-nous souvent
— très souvent en fait pour des tailles d’échantillon importantes — l’évidence
d’une relation lorsque nous régressons yt sur xt ? Une réponse devrait être
évidente après la lecture du Chapitre 12. Les t de Student significatifs ne
nous indiquent pas que β 6= 0 dans (19.03), puisque c’est en réalité un modèle
incorrect. Ils nous indiquent simplement que l’hypothèse nulle, qui est (19.03)
avec β = 0, est fausse. Elle est fausse parce que si yt est généréte par une
marché aléatoire, alors yt n’est pas égal à une constante plus un terme aléatoire
stationnaire. Ainsi, lorsque nous testons l’hypothèse nulle, même contre une
hypothèse alternative qui est également fausse, nous la rejetons souvent.
Cette justification intuitive n’est pas entièrement satisfaisante, quoi qu’il
en soit. L’analyse asymptotique standard Pne s’applique pas ici, car si yt
n
est générée par une marche aléatoire n−1 t=1 yt2 diverge. Par conséquent,
l’analyse du Chapitre 12 n’est pas approrpiée. De plus, l’explication intuitive
19.2 Régressions Erronées 673
n’indique pas pourquoi, pour des tailles d’échantillon suffisamment impor-

tantes, une relation entre yt et xt apparaı̂t toujours. On peut imaginer que
puisque les processus qui génèrent xt et yt sont indépendants, toute corrélation
entre les deux doit disparaı̂tre asymptotiquement, mais ce n’est pas le cas ici.
L’explication de ces résultats nécessite une analyse asymptotique non stan-
dard d’un genre que nous verrons dans le prochain chapitre. Une référence
classique est Phillips (1986) et l’article de Durlauf et Phillips (1988) offre des
résultats plus approfondis.
Le fait que (19.03) soit un modèle mal spécifié n’est pas la seule clé du
problème, ainsi que le montre la colonne 2. Ces résultats sont relatifs au
modèle
yt = δ1 + βxt + δ2 yt−1 + ut ,
qui comprend le DGP en tant que cas particulier lorsque δ2 = 1 et que les
deux autres paramètres sont nuls. Malgré tout, l’hypothèse nulle β = 0 est
rejetée environ tois fois plus souvent qu’elle ne devrait l’être, et il n’y a rien
que montre que cette tendance au rejet quasi systématique décline lorsque la
taille d’échantillon n s’accroı̂t. Le t de Student provoque un rejet excessif dans
ce cas parce qu’il n’est pas asymptotiquement comme une N (0, 1). Puisque
les deux régresseurs sont ici générés par des marches aléatoires, la matrice
n−1X>X n’est pas finie définie positive, et la théorie asymptotiques standard
ne s’applique plus. Comme nous allons le voir dans le prochain chapitre, il
existe de nombreux cas comparables, pour lesquels les t de Student suivent des
distributions non standard asymptotiquement. Ces distributions sont pour
l’instant calculées généralement au moyen d’expériences Monte Carlo.
Une série qui suit une marché aléatoire, avec ou sans dérive, est souvent
qualifiée d’intégrée à l’ordre un, ou I(1) pour aller vite. L’idée sur laquelle
repose cette terminologie est qu’une série doit être différenciée une fois pour
être stationnaire. Ainsi une série stationnaire est dite I(0). En principe,
une série pourrait être intégrée à d’autres ordres. Il est possible de rencontrer
occasionnellement une série I(2), et si l’on différencie malencontreusement une
série I(0), le résultat est une série I(−1). Néanmoins, la grande majorité des
travaux économétriques appliqués traite des séries temporelles qui sont soit
I(0) ou I(1). Si une série est à l’origine I(1), il est possible de lé différencier
une fois pour la rendre I(0). Savoir quand il est nécessaire de différencier une
série sera l’onjet du prochain chapitre.
Dans le reste de ce chapitre, nous ferons l’hypothèse que toutes les séries
sont I(0) et ne contiennent aucun tendance non stochastique. Ces h2 garan-
tissent que ni une régression erronée ni des résultats asymptotiques non stan-
dards ne poseront problème. Ces h2 peuvent paraı̂tre malgré tout un voeu
pieux. Par chance, les techniques dont nous discuterons dans le prochain
chapitre rendent possible la garantie que ces h2 ne sont pas trop remises en
cause dans la pratique.
19.3 Retards Échelonnés

On pense souvent qu’une variable dépendante yt doit dépendre de nom-
breuses valeurs actuelle et retardées d’une variable indépendantes xt . Une
modélisation de ce genre consiste à utiliser un modèle à retards échelonnés
tel que
Xq
yt = α + βj xt−j + ut , ut ∼ IID(0, σ 2 ), (19.04)
j=0
où il s’agit d’estimer la constante α et les coefficients βj . Le nombre entier q est

ici la longueur du dernier retard; dans certains cas, imaginer que q est infini
peut avoir du sens, mais nous supposerons pour l’ibnstant qu’il prend une
valeur finie. La fonction de régression pourrait tout à fait dépendre d’autre
variables explicatives, mais nous ignorons cette possibilité ppur conserver une
notation simple.
Le problème évident avec un modèle tel que (19.04) est que, parce que xt
sera souvent fortement corrélé à xt−1 , xt−2 , et ainsi de suite, les estimations
par moindres carré des coefficients βj tendront à être assez imprécises. De
nombreux moyens pour manipuler ce problème furent proposés et nous en
parlerons brièvement. La première chose à reconnaı̂tre est, malgré tout, que
cela pourrait ne pas être un problème. Souvent, ce ne sont pas les coefficients
individuels qui nous intéressent mais leur somme, disons γ, qui mesure l’effet
de long terme sur yt d’une variation donnée de xt . Même lorsque les βj
individuels sont estimés de façon imprécise, leur somme peut être estimée
avec suffisamment de précision.
Posons V (β̂) la matrice de covarinace du vecteur β̂ des estimations par
moindres carrés dont l’élément type est β̂j . Alors, si γ̂ désigne la somme des
β̂j , la variance de γ̂ est
q
X q X
X j−1
>
V (γ̂) = ι V (β̂)ι = V (β̂j ) + 2 Cov(β̂j , β̂k ). (19.05)
j=0 j=0 k=0
Si xt−j est corrélé positivement à xt−k pour tout j 6= k, les termes de covar-
iance dans (19.05) seront généralement négatifs. Lorsqu’ils sont importants et
négatifs, comme c’est souvent le cas, V (γ̂) peut être plus petite que la somme
des V (β̂j ) ou même que chaque V (β̂j ).
Si c’est le paramètre γ qui nous intéresse plutôt que les βj individuels,
l’approche la plus simple consiste à estimer une version reparamétrisée de
(19.04) par moindres carrés. La version reparamétrisée est
q
X
yt = α + γxt + βj (xt−j − xt ) + ut . (19.06)
j=1
Il est aisé de vérifier que le coefficient γ associé à xt dans (19.06) est en fait
égal à la somme des βj dans (19.04). L’avantage de cette reparamétrisétion
19.3 Retards Échelonnés 675
est que l’écart type de γ̂ est immédiatement disponible dans les résultats de
la régression.
Si notre intérêt se focalise sur les βj , la colinéarité peut être un problème
urgent. De nombreux moyens d’aborder ce problème furent proposés. Cer-
tains impliquent l’imposition de contraintes sur les paramètres de (19.04),
alors que d’autres impliquent l’estimation de modèles pour lesquels une ou
plusieurs retards de la variables dépendantes apparaissent dans l’ensemble
des régresseurs. Cette dernière approche est fondamentalement différente de
la première, et sera traitée dans la section qui suit. L’exemple le plus connu
de la première approche consiste à employer ce que l’on nomme les retards
échelonnés polynomiaux, ou PDL. Ces derniers sont quelquefois appelés re-
tards d’Almon à la suite de l’article d’Almon (1965) à l’occasion duquel ils
furent proposés pour la première fois.
Dans un polynôme de retards échelonnés, les coefficients βj de (19.04)
doivent se situer dans un polynôme de degré d donné. Ce polynôme peut
éventuellement être soumis à des contraintes ultérieures, telles que les con-
traintes des portant sur les points terminaux. A titre d’exemple simple, si le
polynôme était du second degré, sans contrainte ultérieure, nous aurions
βj = η0 + η1 j + η2 j 2 pour j = 0, . . . , q. (19.07)
A condition que q > 2, il y aura moins de paramètres ηi que βj . Nous voyons

par conséquent que (19.07) impose q − 2 contraintes sur les βj ’s.
L’estimation d’un modèle soumis à des contraintes imposées par un PDL
est conceptuellement assez immédiate. Par exemple, pour estimer (19.04)
soumis à (19.07), nous remplacerions simplement les βj par η0 + η1 j + η2 j 2 .
Cela entraı̂nerait
q
X q
X q
X
yt = α + η0 xt−j + η1 jxt−j + η2 j 2 xt−j + ut
j=0 j=0 j=0 (19.08)
= α + η0 zt0 + η1 zt1 + η2 zt2 + ut .
C’est simplement un modèle de régression linéaire avec trois nouveaux régres-

seurs zti qui sont des transformations des q + 1 régresseurs d’origine, en plus
de la constante. Ceci est un exemple de modèle PDL(q, 2). Pour un modèle
PDL(q, d), qui doit toujours être tel que d < q, il y aurait d + 1 régresseurs.
Les contraintes imposées aux βj sont simplement des contraintes linéares.
La résolution de (19.07) nous montre que
−β3 + 3β2 − 3β1 + β0 = 0,

−β4 + 3β3 − 3β2 + β1 = 0,
−β5 + 3β4 − 3β3 + β2 = 0, et ainsi de suite.
On peut écrire ces contraintes sous la forme Rβ = 0, où la matrice R serait

dans ce cas
 
1 −3 3 −1 0 ··· 0 0 0 0
0 1 −3 3 −1 · · · 0 0 0 0
R= .
 .. . . . . . . . .. .
.. .. .. .. .. .. .. .
0 0 0 0 0 · · · 1 −3 3 −1
Puisque les contraintes sont linéaires, on peut les tester facilement. On peut
utiliser soit un test en F habituel, soit sa version robuste à l’hétéroscédasticité
(voir Section 11.6). Le modèle contraint est (19.08), le modèle non contraint
est (19.04), et le nombre de contraintes dans ce cas est q − 2. De façon plus
générale, pour un modèle PDL(q, d), il y aura q − d contraintes.
Il faudrait toujours tester les contraintes imposées par n’importe quel
type de PDL avant d’accepter, même à titre provisoire, un modèle qui incor-
pore ces contraintes. Ces contraintes sont de deux natures. Il y a la contrainte
de la longueur du dernier retard qui ne doit pas être supérieure à q. Puis il y
a les contraintes futures qui sont imosées par le PDL, quelles qu’elles soient.
Pour une valeur de q donnée, la réduction du degré du polynôme de d à
d − 1 aboutit à un modèle plus restrictif. Cependant, pour un degré donné
du polynôme, la reduction de q produit simplement un modèle différent, non
emboı̂té, qui peut s’ajuster mieux ou plus mal aux données. Ainsi, on peut
tester un modèle PDL(q, d) contre un modèle PDL(q, d + 1) en utilisant un
test en F ordinaire, mais on ne peut pas tester un modèle PDL(q, d) contre un
modèle PDL(q + 1, d) avec le même instrument. La meilleure approche con-
siste sans doute à se poser en premier le problème de la longueur du retard, en
débutant par une valeur importante de q et en examinant la détérioration de la
qualité de l’ajustement du modèle en diminuant sa valeur, sans imposer aucun
contrainte sur la forme des retards échelonnés. Une fois que q est déterminé,
on peut ensuite tenter de déterminer d, une fois encore en débutant avec une
valeur importante et en la réduisant au fur et à mesure. Un excellent exemple
empirique est donné par Sargan (1980c). La spécification d’un modèle final
dans cette optique est un exemple de prétest dont nous avons discuté dans la
Section 3.7; consulter Trivedi (1978).
La plupart des progiciels d’économétrie permettent aux utilisateurs de
spécifier des modèles qui incluent des PDL et d’estimer de tels modèles avec
des OLS, des IV, et quelquefois d’autres formes d’estimations. Ces mises en
oeuvre sont de façon typique beaucoup plus sophistiquées que notre discus-
sion n’a pu le suggérer jusqu’ici. Par exemple, elles permettent souvent à
l’utilisateur de spécifier des contraintes additionnelles sur la forme des retards
telles que les contraintes βq = 0. Plus important encore, les bons progiciels
utilisent des familles de polynômes plus sophistiquées que celles que nous avons
décrites. Le problème avec ces dernières est que les variables zti tendent à être
fortement corrélées entre elles. Cela peut provoquer une singularité numérique
de la matrice X>X. Avec l’aide d’autres types de polynômes, tels que les
polynômes orthogonaux, on peut réduire en grande partie cette corrélation,

et, par conséquent, éliminer ce genre de problème numérique. Les réfréences
à consulter sont Cooper (1972b), Trivedi et Pagan (1979), Sargan (1980c), et
Pagano et Hartley (1981).
Shiller (1973) proposa une variante intéressante de l’approche PDL.
Comme nous l’avons vu, les contraintes imposées par un PDL peuvent tou-
jours s’écrire comme Rβ = 0 pour une matrice R de dimension r × k con-
venablement définie. Ici r = q − d et k est le nombre d’éléments de β, et
il sera généralement supérieur à q + 1 s’il y a des régresseurs en plus de la
constante et des retards de xt . Shiller suggéra que, au lieu de demander
une vérification exacte de ces contraintes, nous requérions seulement qu’elles
soient approximatives. Ainsi, au lieu de stipuler que chaque ligne de Rβ soit
nulle, il proposa qu’elle soit égale à une variables aléatoire d’espérance nulle
et de variance définie. L’un des avantages de cette approche est que d peut
être très faible sans pour cela imposer des contraintes excessivement fortes
sur les données. Puisque les estimations n’ont pas besoin de se conformer
excatement à la forme du polynôme, d = 2 est dans la plupart des cas une
situation adéquate.
Ce genre de contrainte est appelé contrainte stochastique, parce qu’elle
n’est pas sensées être vérifiée exactement. Les contraintes stochastiques sont
très différentes de n’importe quel autre type de contraintes dont nous avosn
discuté. Dans de nombreuses situations, elles paraissent assez plausibles, à
l’inverse des contraintes exactes, qui semblent être souvent excessivement
fortes. Dans le cas du PDL, par exemple, il est sûrement peu probable que
les βj se situent réellement dans un polynôme de degré quelconque, mais
il est assez probable de croire qu’ils se situent relativement près d’un tel
polynôme. Il est aisé conceptuellement, mais plus difficile lors des phases de
calcul, de traiter des contraintes stochastiques, ou n’importe quelle autre sorte
d’information stochastique a priori, si l’on adopte un point de vue bayésien;
voir Zellner (1971) et Drèze et Richard (1983). A l’inverse, il est facile de faire
des calculs avec de telles contraintes, mais leur manipulation est conceptuelle-
ment plus délicate lorsuqe l’on reste dans une structure classique. C’est dans
cette dernière que nous nous situerons, pour traiter les calculs, en évitant
toute discussion relative aux difficultés conceptuelles.
La technique d’estimation suggérée par Shiller emploie un cas partic-
ulier de ce que Theil et Goldberger (1961) et Theil (1963) appellent une
estimation mixte. L’estimation mixte est un moyen très simple de com-
biner des informations d’échantillon avec des informations stochastiques a
priori. On peut imaginer que c’est une approximation d’une procédure qui a
toutes les caractéristiques d’une estimation bayésienne. Le cas le plus sim-
ple pour lequel on justifie une estimation mixte est le cas dans lequel, avant
d’entreprendre l’estimation d’un quelconque modèle, on aurait obtenu des es-
timations préalables d’un ou de plusieurs paramètres du modèle, par l’usage
d’un ensemble d’informations totalement indépendantes. Pour faire simple,
supposons que le modèle qu’il s’agit d’estimer est le modèle de régression

linéaire
y = Xβ + u, u ∼ IID(0, σu2 I), (19.09)
où β est un vecteur à k composantes. Supposons ensuite qu’un vecteur

d’estimations a priori β̌ soit disponible, avec sa véritable matrice de covar-
iance V (β̌). On peut exprimer la relation entre ces estimations et le vecteur
paramétrique inconnu β comme
β̌ = β + v, E(vv> ) = V (β̌) ≡ η −1 (η> )−1. (19.10)
Le membre de droite de l’expression pour la matrice de covariance fait us-

age d’un résultat standard sur les matrices définies positives, que nous avons
vu dans le Chapitre 9. En prémultipliant chaque membre de (19.10) par la
matrice η de dimension k × k , le résultat est
η β̌ = ηβ + e, E(ee> ) = I. (19.11)
Cela ressemble à une régression linéiare avec k observations et k variables

indépendantes. La régressande est η β̌, et la matrice de covariance des aléas
est I.
Il devrait être aisé de voir comment on peut utiliser l’information con-
tenue dans β̌ pour améliorer nos estimations de β. Il suffit d’estimer une
unique régression GLS à n + k observations, où n d’entre elles correspondent
aux observations de notre échantillon et où k d’entre elles correspondent à
(19.11). On peut écrire cette régression comme
· ¸ · ¸ · ¸
y X u
= β+ . (19.12)
σu η β̌ σu η σu e
Les aléas de cette régression sont i.i.d. et ont une variance égale à σu2 . La
régression (19.12) suppose que nous connaissons σu , puisqu’il faut multipier
les k dernières observations par cette quantité de façon à garantir qu’elles ont
le même poids relativement aux n premières observations. Asymptotiquement
bien sûr, nous aurons le smêmes résultats si nous employons n’importe quelles
estimation convergente de σu .
Dans cet exemple, l’estimation mixte ne prête pas trop à contreverse.
C’est simplement un moyen pratique de prendre en compte les estimations
préalables lorsque l’on utilise un nouvel ensemble de données. Dans le cas des
retards échelonnés, par contre, l’information a priori sur β ne provient pas
d’une estimation préalable. Au lieu de cela, c’est un ensemble de contraintes
stochastiques, que Shiller appela une information a priori de régularité parce
qu’il reflète la croyance qui veut que les coefficients βj d’un retard échelonné
devraient varier sans à-coups en fonction de j. Ces contraintes peuvent
paraı̂tre raisonnables au chercheur, mais elles ne se basent pas sur les données.
Dans le cas général, on peut écrire les contraintes stochastiques comme
Rβ = v, v ∼ N (0, σv2 I). (19.13)
Cette formulation autorise un éventail très large de contraintes linéaires sur

β comprend, en tant que cas particulier, l’imposition d’informaions a priori
de régularité sur les coefficients d’un retard échelonné. La matrice R est de
dimension r × k et, dans le cas d’informations a priori de régularité, elle aura
r = q − d lignes.
Pour pouvoir estimer (19.09) en imposant les contraintes stochastiques
(19.13), nous réécrivons simplement ces dernières comme 0 = Rβ + v, comme
nous l’avons fait dans (19.12). Les restrictions ressemblent alors aux observa-
tions d’une régression. Puis, nous empilons les véritables observations sur les
observations artificielles. Cela donne
· ¸ · ¸ · ¸
y X u
= β+ . (19.14)
0 R v
En fait, nous avons ajouté r observations supplémentaires à l’ensemble

des données d’origine. La variance des “aléas” associés à ces observations
supplémentaires est σv2 , alors que celle des aléas naturels est σu2 .
Posons maintenant λ ≡ σu /σv . Si λ était connu, l’estimarion par GLS de
(19.14) serait équivalente à l’estimation par OLS du modèle
· ¸ · ¸ · ¸
y X u
= β+ . (19.15)
0 λR λv
L’estimation OLS de β à partir de (19.15) est

¡ ¢−1
β̃ = X>X + λ2 R>R X>y.
Il est facile de calculer cette expression, et il est aisé de la comprendre. Comme

σv → ∞, λ → 0 et β̃ → β̂. Ainsi, au fur et à mesure que la masse d’information
contenue dans les restristions stochastiques tend vers zéro, l’estimation mixte
β̃ tend vers l’estimation OLS β̂. Dans le cas extrême opposé, λ → ∞ et β̃
converge vers un ensemble d’estimations qui satisfait les contraintes Rβ =
0 au fur et à mesure que σv → 0. Ce dernier résultat se comprend assez
vite. Puisque r < k, il est toujours possible d’ajuster les r dernière lignes
de (19.15) à la perfection en choisissant β̃ pour satisfaire les contraintes avec
exactitude. Comme λ → ∞, la SSR pour (19.15) s’accroı̂tra infiniment si les
r dernières lignes ne s’ajustent pas parfaitement. Ainsi, comme on peut le
voir à l’aide de l’algèbre matriciel fastidieuse, la limite de β̃ lorsque λ → ∞
est précisément l’estimateur des moindres carrés qui provient de l’imposition
exacte des contraintes.
Le problème majeur de cette procédure est que λ ne sera jamais connu.

Même si l’on désire spécifier σv a priori, ce qui peut ne pas être simple à faire,
σu devra tout de même être estimée Il existe des moyens variés de traiter ce
problème — voir Shiller (1973) et Taylor (1974) — mais aucun d’entre eux
n’est entièrement satisfaisant. Pour l’essentiel, il s’agit d’estimer σu à partir
de l’estimation non contrainte de (19.09), soit en prenant une valeur pour
σv soit en estimant σv à partir des estimations non contraintes de β, et de
construire une estimation de λ. Cela transforme la procédure d’estimaion
mixte en une forme d’estimation par GLS faisables. Asymptotiquement, cela
produira les mêmes estimations que si λ était connu, mais ses performances
avec des échantillons finis peuvent ne pas être aussi bonnes.
Il faudrait toujours tester des contraintes stochastiques avant d’accepter
des estimations basées sur ces contraintes. Puisque l’imposition de telles re-
strictions est équivalente à l’addition d’observation factices, le moyen évident
de les tester est d’utiliser un test standard pour l’égalité de deux ensembles
de paramètres de régression (Section 11.2). On peut voir (19.15) comme
un modèle pour l’échantillon entier (augmenté), où β est contraint à être
identique piour les n premières observations et les r observations restantes.
L’estimation de (19.15) produit la somme des résidus au carré contrainte
RSSR nécessaire à la construction d’un test en F . Puisque r < k, toute tenta-
tive d’estimation des paramètres utilisant le second sous-échantillon unique-
ment entaı̂nera des estimations qui s’ajustent parfaitement. Ainsi la somme
des rédisus au carré non contrainte USSR nécessaire à la construction d’un F
de Fisher est simplement la somme des résidus au carré de l’estimation par
OLS de (19.09). Le nombre de degrés d eliberté pourt le test est r, et par
conséquent le F de Fisher est simplement
(RSSR − USSR)/r
.
USSR/(n − k)
Bien évidemment, on pourait utiliser une quelconque autre forme de statis-

tique de test, telle que celle basée sur la HRGNR (11.66), au lieu du F de
Fischer. Si le test rejette l’hypothèse nulle de constance de β sur l’échantillon
des observations et sur les observations factices, il faudrait soit accroı̂tre la
valeur de σv soit changer la forme de la matrice R, probablement en augmen-
tant d.
Bien que les retards échelonnés polynomiaux, qu’ils soient imposés en
tant que contraintes exactes ou en tant que contraintes stochastiques, puis-
sent être utiles lorsqu’un modèle tel que (19.04) est inadapté, ce ne sont
pas des modélisations toujours bien appropriées. le problèle est que (19.04)
n’est pas un modèle dynamique. Bien que yt dépende de vaeurs retardées
de xt , elle ne dépend pas de ses propres valeurs retardées. Par conséquent,
seule la valeur courante de ut affecte yt . Mais si l’on pense que l’aléa doit
représenter l’influence combinée de nombreuses variables dont on ne peut
empêcher l’omission de la régression, cela devrait paraı̂tre étrange. Après
19.4 Modèles de Régression Dynamiques 681
tout, si xt affecte yt au travers d’un retard échelonné, comment justifier que

les variables reléguées dans l’aléa n’en fassent pas de même? Cet argument
suggère que les aléas dans un modèle comparable à (19.04) peuvent être très
souvent corrélés en série. Bien sûr, on peut modéliser les ut pour les faire
obéir à un quelconque processus ARMA. Mais la meilleure approche consis-
tera souvent à reformuler le modèle originel. Nous allons voir comment dans
la prochaine section.
19.4 Modèles de Régression Dynamiques

Tout modèle de régression dans lequel la fonction de régression dépend des
valeurs retardées d’une ou de plusieurs varaibles dépendantes est appelé
modèle dynamic. Les seuls modèles dynamiques dont nous ayons discuté
jusqu’à présent sont les modèles à erreurs corrélées en série (Chapitre 10);
après transformation, les modèles à erreurs AR ou MA impliquent des retards
de la variable dépendante. Ces modèles peuvent paraı̂tre artificiels, mais les
modèles dynamiques peuvent survenir pour de nombreuses autres raisons.
Un modèle dynamique simple et très fréquent est le modèle d’ajustement
partiel, dont l’hitoire en économie remonte assez loin puisqu’il date de Nerlove
(1958). Supposons que le niveau désiré d’une variable économique yt quel-
conque soit yt∗ , qui est supposé être relié à un vecteur de variables explicatives
exogènes Xt comme suit:
yt∗ = Xt β ∗ + et . (19.16)
A cause de certains coûts d’ajustement, les agents ne peuvent pas atteindre yt∗
à chaque période. Au lieu de cela, yt s’ajuste, par hypothèse, vers yt∗ suivant
l’équation
yt − yt−1 = (1 − δ)(yt∗ − yt−1 ) + vt . (19.17)
La résolution de (19.16) et de (19.17) pour yt nous permet d’obtenir
yt = yt−1 − (1 − δ)yt−1 + (1 − δ)Xt β ∗ + (1 − δ)et + vt

(19.18)
= Xt β + δyt−1 + ut ,
où β ≡ (1 − δ)β ∗ et ut ≡ (1 − δ)et + vt . Si l’on désire estimer β ∗, on peut

aisément le fair à partir des estimations OLS de β et δ.
L’ajustement partiel n’est pertinent que si 0 < δ < 1 et si, de plus, δ n’est
pas trop proche de 1, puisque dans le cas contraire la vitesse d’ajustement
que la valeur du paramètre implique devient trop faible. On peut résoudre
l’équation (19.18) pour yt comme une fonction des valeurs courantes et passées
de Xt et ut . Le résultat est
∞
X
yt = δ j (Xt−j β + ut−j ). (19.19)
j=0
Ainsi ce modèle corrige une défaillance majeure que nous avions déjà re-
marquée dans les modèles à retards échelonnés: yt dépend maintenant au-
tant des valeurs retardées de l’aléa ut que des valeurs retardées des variables
exogènes Xt . Notons que la solution de (19.19) repose sur l’hypothèse que
|δ| < 1, qui est une condition de stationnarité pur ce modèle.
Le modèle d’ajustement partiel n’est qu’un des nombreux modèles éco-
nomiques que l’on peut utiliser pour justifier la prise en compte d’un ou de
plusieurs retards des variables dépendantes dans la fonction de régression.
Dhrymes (1971) et Hendry, Pagan, et Sargan (1984) discutent de nombreux
autres modèles. Nous n’essaierons pas de discuter de ces derniers. Par contre,
nous nous concentrerons sur quelques résultats d’ordre général qui peuvent
survenir lorsque l’on tente de spécifier et d’estimer des modèles de régression
dynamiques.
Un problème qui se manifeste chaque fois que la matrice X contient
des variables dépendantes retardées est que les OLS ne produisent pas des
estimations sans biais. Ce problème survient parce que X est une matrice
stochastique, dont certains éléments sont corrélés à quelques éléments de u.
Ainsi ¡ ¢ ¡ ¢−1
E (X>X)−1X>u 6= X>X X>E(u).
Le meilleur moyen d’apercevoir ce problème est de considérer un exemple très
simple. Supposons que
yt = βyt−1 + ut , |β| < 1, ut ∼ IID(0, σ 2 ). (19.20)
L’estimation OLS de β est
Pn
t=2 yt yt−1
β̂ = P n 2
. (19.21)
t=2 yt−1
Si l’on substitue (19.20) au numérateur de (19.21), on obtient
Pn 2
Pn Pn
β t=2 yt−1 + t=2 ut yt−1 t=2 ut yt−1
β̂ = Pn 2
=β+ P n 2
. (19.22)
t=2 yt−1 t=2 yt−1
Le second terme dans l’expression la plus à droite de (19.22) n’est pas

d’espérance nulle, parce que le numérateur et le dénominateur ne sont pas
indépendants. Son espérance est assez difficile à déterminer. Nous concluons
que dans ce modèle, et dans tous les modèles pour lesquels il y a des variables
dépendantes retardées, l’estimateur OLS est biaisé.
Evidemment, l’estimateur OLS β̂ est convergent comme des résultats
établis antérieurement l’ont montré (Section 5.3). Si l’on divise à la fois le
numérateur et le dénominateur du terme aléatoire du membre le plus à droite
de (19.22) par n et si l’on prend le slimites en probabilité, on obtient
¡ Pn ¢
plimn→∞ n−1 t=2 ut yt−1
plim β̂ = β + ¡ Pn 2
¢ = β.
n→∞ plimn→∞ n−1 t=2 yt−1
La limite en probabilité du numérateur estPzéro. Cela provient du fait

n
que E(ut yt−1 ) = 0, ce qui implique que n−1 t=2 ut yt−1 est simplement la
moyenne de n quantités qui sont toutes d’espérance nulle, et que ces quantités
sont de variance finie, ce qui est le cas puisque le fait que |β| < 1 implique
que le processus générateur des yt est stationnaire. La limite en probabilité
du numérateur est finie, ce qui nécessite à nouveau la stationnarité, et par
conséquent le rapport des deux limites en probabilité est nul.
Même pour un modèle aussi simple que (19.20), les propriétés avec des
échantillons finis de l’estimateur OLS β̂ sont assez difficiles à établir de façon
analytique et elles dépendent de la valeur (inconnue) de β; nous présenterons
quelques résultats Monte Carlo dans le Chapitre 21. dans des modèles plus
compliqués, les chercheurs disposent de choix restreints et sont contraints de
se rapporter à la théorie asymptotique. Cela n’est pas un mal en général, bien
qu’il y ait un risque évident que des inférences non correctes soient produites,
en particulier lorsque la taille de l’échantillon est faible ou que le modèle est
presque non stationnaire.
Nous considérons maintenant une classe très étendue de modèles de
régression linéaire dynamiques qui peuvent être très utiles dans la pratique.
Ces modèles ne posèdent qu’une seule variables dépendante yt et, pour simpli-
fier la notation, une seule variable indépendante xt . Un modèle autorégressive
à retards échelonnés, ou modèle ADL, peut s’écrire comme
p
X q
X
yt = α + βi yt−i + γj xt−j + ut , ut ∼ IID(0, σ 2 ) (19.23)
i=1 j=0
ou, en utilisant les opérateurs retard
A(L, β)yt = α + B(L, γ)xt + ut , ut ∼ IID(0, σ 2 ).
Ici A(L, β) et B(L, γ) désignent les polynômes des opérateurs retards avec
les coefficients respctifs β et γ. Parce qu’il y a p retards sur yt et q retards
sur xt , on appelle quelquefois ces modèles les modèles ADL(p, q). S’il y a
des variables dépendantes additionnelles, ce qui sera en réalité le cas le plus
fréquent, elles apparaı̂tront en tant que régresseurs additionnels dans (19.23).
Un cas particulièrement simple de (19.23), mais largement répandu, est
le modèle ADL(1, 1)
yt = α + β1 yt−1 + γ0 xt + γ1 xt−1 + ut . (19.24)
Parce que la plupart des résultats qui sont vrais pour le modèle ADL(1,1)
sont également vrais, compte tenu de certaines modifications évidentes, pour
le modèle plus général ADL(p, q), nous bornerons notre discussion au cas
particulier la plupart du temps.
de nombreux modèles pour séries temporelles que l’on rencontre couram-
ment sont des cas spéciaux du modèle ADL(1, 1). Un modèle de régression
statique est un cas particulier avec β1 = γ1 = 0, un modèle AR(1) univarié est

un cas particulier avec γ0 = γ1 = 0, un modèle d’ajustement partiel est un cas
particulier avec γ1 = 0, un modèle statique à aléas AR(1) est un cas particulier
avec γ1 = −β1 γ0 , un modèle en différences premières est un cas particulier
avec β1 = 1 et γ1 = −γ0 , et ainsi de suite. Le modèle ADL(1, 1) fournit une
alternative naturelle contre laquelle on peut tester n’importe lequel de ces cas
particuliers. Un test des contraintes du facteur commun découlant des aléas
obéissant à un processus AR(1) en est un exemple; voir la Section 10.9.
Examinons à présent comment xt affecte yt en longue période dans un
modèle ADL(1, 1). Sans aléas, xt et yt convergeraient vers des valeurs de long
terme stable x∗ et y ∗ données par
y ∗ = α + β1 y ∗ + γ0 x∗ + γ1 x∗.
En résolvant cette équation pour y ∗ en fonction de x∗ on obtient

α γ0 + γ1 ∗ α
y∗ = + x = + λx∗.
1 − β1 1 − β1 1 − β1
Nous voyons donc que la dérivée de y ∗ par rapport à x∗ en longueur période

(cette valeur correspondra à une élasticité si les deux séries sont exprimées en
logarithmes) est
γ0 + γ1
λ≡ . (19.25)
1 − β1
A l’évidence, ce résultat est pertinent uniquement si |β1 | < 1, ce qui, comme
on pourrait s’y attendre, est une conditon de statibilité pour ce modèle.
L’une de scaractéristiques intéressante et importante des modèles ADL
est que l’on peut les écrire de différentes façons sans amoindrir leur faculté
d’explication des données ou modifier les estimations par moindres carrés des
coefficients auxquels on porte un intérêt. Par exemple, (19.24) peut être écrit
selon toutes les formes qui suivent:
∆yt = α + (β1 − 1)yt−1 + γ0 xt + γ1 xt−1 + ut ; (19.26)

∆yt = α + (β1 − 1)yt−1 + γ0 ∆xt + (γ0 + γ1 )xt−1 + ut ; (19.27)
∆yt = α + (β1 − 1)yt−1 − γ1 ∆xt + (γ0 + γ1 )xt + ut ; (19.28)
∆yt = α + (β1 − 1)(yt−1 − xt−1 ) + γ0 ∆xt
+ (γ0 + γ1 + β1 − 1)xt−1 + ut ; (19.29)
∆yt = α + (β1 − 1)(yt−1 − λxt−1 ) + γ0 ∆xt + ut . (19.30)
Ici ∆ est l’opérateur des différences premières: ∆yt ≡ yt −yt−1 . Dans (19.30),
λ est la paramètre défini dans (19.25). Le fait que (19.24) puisse être écrit
sous différentes formes sans changer les estimations par moindres carrés est
souvent très partique. Par exemple, si l’on s’intéresse à la somme des γi , les
estimations et les écarts types s’obtiennent directement à partir de l’estimation

par OLS de (19.27) ou (19.28), et si l’on porte un intérêt à λ, elles peuvent
être obtenues par une estimation NLS de (19.30).
La plus intéressante des spécifications équivalentes (19.24) et (19.26)–
(19.30) est sans doute (19.30), dans laquelle le modèle est écrit sous la forme
que l’on appelle forme à correction d’erreur. Le paramètre λ apparaı̂t directe-
ment dans cette forme du modèle. Bien que la forme à correction d’erreur
soit non linéaire, l’estimation est malgré tout aisée parce que le modèle est
simplement un modèle linéaire soumis à une contrainte non linéaire. La
différence entre yt−1 et λxt−1 mesure l’importance de la défaillance de la
relation d’équilibre de long terme entre xt et yt . A ce titre, β1 − 1 est pour
l’essentiel la même chose que le paramètre δ − 1 dans le modèle d’ajustement
partiel. On appelle souvent le terme (β1 − 1)(yt−1 − λxt−1 ) qui apparaı̂t dans
(19.30) terme de correction d’erreur, et un modèle tel que (19.30) est parfois
appelé modèle à correction d’erreur, ou ECM. Ces modèles furent utilisés
pour la première fois par Hendry et Anderson (1977) et Davidson, Hendry,
Srba, et Yeo (1978). Nous en discuterons en détail dans le prochain chapitre.
Remarquons que le terme d’erreur est implicitement présent dans les autres
versions de (19.24), pusique son coefficient associé peut être retrouvé à partir
de celles-ci. Certains auteurs imposent la contrainte λ = 1, qui peut s’avérer
raisonnable si xt et yt sont d’amplitudes comparables. Cela est équivalent à
la contrainte β1 + γ0 + γ1 = 1 et peut donc être testé de façon assez simple
par l’utilisation des t de Student ordinaires pour xt−1 dans (19.29).
Le point clef à retenir lorsque l’on tente de spécifier des modèles de
régression dynamiques est qu’il existe en général un grand nombre de manières
a priori plausibles de le faire. C’est une erreur grave que de limiter ses efforts
sur un type particulier de modèles, tel que les modèles à retards échelonnés ou
les modèles d’ajustement partiel. Parce qu’elle comporte tellement d’autres
cas particuliers, la famille des modèles ADL(p, q) fournira souvent une bonne
base de départ. Dans de nombreux cas, la spécification p = q = 1 sera
généralement suffisante , mais avec des données trimestrielles il serait sage
de débuter avec p = q = 4. Dans le but d’obtenir un modèle raisonnable-
ment économe et directement interprétable, il sera généralement nécessaire
d’imposer une certain nombre de contraintes sur la spécification ADL(p, q)
d’origine. Parce que les modèles ADL peuvent s’écrire de plusieurs manières
différntes — souvenons-nous des modèles (19.24) et (19.26) à (19.30) — il y a
également de nombreuses contraintes différentes que l’on pourrait imposer.
Notre discussion sur les modèles de régression dynamiques dut assez
rapide. Pour des traitements plus pointus, consulter Hendry, Pagan, et Sargan
(1984) ou Banerjee, Dolado, Galbraith, et Hendry (1993).
19.5 Autorégressions Vectorielles

Dans le Chapitre 10, nous avons introduit les modèles AR, MA et ARMA
pour des séries temporelles univariées. Comme on pourrait s’y attendre, il
existe des versions multivariées de tous ces modèles. Nous ne tenterons pas
de discuter des modèles à moyenne mobile vectoriels ou des modèles ARMA
vectoriels, parce que ceux-ci peuvent être relativement compliqués à traiter;
consulter Fuller (1976) ou Harvey (1981, 1989). Toutefois, dans cette sec-
tion, nous verrons brièvement les modèles autorégressifs vectoriels, que l’on
connaı̂t également sous le nom d’autorégressions vectorielles ou VAR. Ceux-
ci représentent le genre le plus simple de modèle de séries temporelles multi-
variées à estimer, et ils ont été largement employés en économie ces dernières
années.
Supposons que le vecteur ligne Yt de dimension 1×m désigne la t ième ob-
servation d’un ensemble de variables. Alors un modèle autorégressif vectoriel
d’ordre p, ou VAR(p) pour faire court, peut s’écrire comme
Yt = α + Yt−1 Φ1 + · · · + Yt−p Φp + Ut , Ut ∼ IID(0, Ω), (19.31)
où α est un vecteur ligne à m composantes, et Φ1 , Φ2 jusqu’à Φp sont des

matrices de dimension m × m des coefficients qu’il faut estimer. Si yti désigne
le i ième élément de Yt et si φj,ki désigne le kiième élément de Φj , la colonne i
de (19.31) peut s’écrire comme
p X
X m
yti = αi + yt−j,k φj,ki + uti . (19.32)
j=1 k=1
C’est simplement une régression linéaire, dans laquelle yti dépend d’une con-
stante et des retards 1 à p des m variables du système. Ainsi (19.31) prend
la forme d’un système SUR (Section 9.8).
Parce qu’exactement les mêmes variables apparaissent dans le membre
de droite de (19.32) quel que soit i, les estimations OLS pour chaque équation
sont identiques aux estimations GLS pour (19.31) prises ensembles. Cela est
une consdéquence du Théorème de Kruskal, ainsi que nous l’avons démontré à
la Section 9.8. Ainsi il est très aisé d’estimer une VAR: on applique simplement
les OLS à chaque équation de façon isolée. l’estimation est très rapide siu
le logiciel utilise le fait que chaque équation implique exactement le même
ensemble de régresseurs.
L’usage des modèles VAR fut préconisé, notemment par Sims (1980),
comme un moyen d’estimer des relations dynamiques entre des variables en-
dogènes jointes sans avoir à imposer de fortes contraintes préalables. Des
articles empiriques fondés sur cette approche furent écrits par Litterman et
Weiss (1985) et Reagan et Sheehan (1985). L’avantage principal de cette ap-
proche est que le chercheur n’a pas besoin de décider quelles sont les variables
19.5 Autorégressions Vectorielles 687
endogènes. De plus, tous les problèmes associés aux modèles d’équations si-
multanées sont contournés parce que les VAR ne contiennent aucune variable
courante parmi les régresseurs. D’un autre côté, les VAR tendent à nécessiter
l’estimation d’un grand nombre de paramètres, m + pm2 pour être précis, et,
par conséquent, chaque paramètre individuel a tendance à être souvent estimé
de façon assez imprécise. Nous reviendrons sur ce point plus tard.
Bien que le modèle VAR ne contienne pas de variables courante parmi
les régresseurs, les corrélations contemporaines sont prises en compte de façon
implicite par la matrice Ω. Cette matrice est intéressante à plusieurs titres,
et pas des moindres parce que, si les aléas sont supposés être normalement
distribués, la fonction de log-vraisemblance pour le modèle VAR(p) (19.31),
concentrée par rapport à Ω, est simplement
n ¯ ¯
`(Y, α, Φ1 · · · Φp ) = C − − log ¯Ω(α, Φ1 · · · Φp )¯.
2
Ici Ω(α, Φ1 · · · Φp ) signifie que l’on prend la valeur de Ω qui maximise la log-
vraisemblance conditionnellement à α et aux Φi , et Y représente la matrice
dont la ligne type est Yt . Ce résultat est une application des résultats relatifs
aux fonctions de log-vraisemblance concentrées pour les modèles multivariés
que nous avons dérivés à la Section 9.9;
Il est aisé de voir que Ω(α, Φ1 · · · Φp ) est égale à
n
X
1 ¡ ¢¡ ¢
−
n
Yt − α − Yt−1 Φ1 · · · − Yt−p Φp > Yt − α − Yt−1 Φ1 · · · − Yt−p Φp ,
t=1
où nous avons supposé implicitement que les p observations antérieures à celles
de l’échantillon sont disponibles, ce qui implique que les n observations soient
employées pour l’estimation. Si Ût désigne le vecteur ligne à m éléments des
résidus OLS pour l’observation t, alors
n
X
1
Ω(α̂, Φ̂1 · · · Φ̂p ) ≡ Ω̂ = −
n
Ût>Ût .
t=1
Par conséquent la valeur maximisée de la fonction de log-vraisemblance est

n
`(Y, α̂, Φ̂1 · · · Φ̂p ) = C − − log |Ω̂|.
2
Lorsque nous spécifions une modélisation VAR, il est important de

déterminer la longueur des retards qu’il est nécessaire d’inclure. Si l’on désire
tester l’hypothèse nulle que le retard le plus long dans le système est p contre
l’hypothèse alternative que c’est p + 1, le moyen le plus facile de procéder est
probablement de calculer la statistique LR
¡ ¢
n log |Ω̂(p)| − log |Ω̂(p + 1)| ,
avec une notation qui est très explicite. La distribution asymptotique de

cette statistique de test sera le χ2 (m2 ). Cependant, à moins que la taille n de
l’échantillon ne soit très grande par rapport au nombre des paramètres dans
le système (m + pm2 sous l’hypothèse nulle, m + (p + 1)m2 sous l’hypothèse
alternative) la distribution avec des échantillons finis de cette statistique de
test peut différer substantiellement de sa distribution asymptotique.
L’un des usages des modèles VAR est le test de l’hypothèse nulle qu’une
quelconque variable ne possède pas de causalité au sens de Granger sur une
autre varaible. Nous avons discuté du concept de causalité au sens de Granger
dans la Section 18. Dans le contexte d’une VAR, on dit qu’il y a causalité au
sens de Granger entre yt1 et yt2 si les valeurs retardées de yt1 sont significatives
dans l’équation de yt2 . D’un autre côté, l’hypothèse nulle que yt1 ne cause pas
yt2 au sens de Granger ne peut pas être rejetée si toutes les valeurs retardées
de yt1 sont conjointement sans pertinence dans l’équation de yt2 . Ainsi on
peut facilement tester l’hypothèse nulle que n’importe quelle variables dans
une VAR(p) n’a pas de causalité au sens de Granger sur n’importe quelle
autre variable en exécutant un tets en F asymptotique avec p et n − (1 + pm)
degrés de liberté. 2 A l’évidence, tous les résultats dépendent de l’hypothèse
maintenue que toutes les variables pertinentes ont été incluses dans la VAR.
Si une variable yt3 était omise de la VAR, nous concluerions à tort que yt1
cause yt2 au sens de Granger, alors qu’en réalité yt1 n’explique pas du tout yt2
indépendemment de son effet à travers la variable omise.
Comme nous le remarquions déjà, un problème pratique particulièrement
délicat avec les VAR est qu’elles réclament généralement l’estimation d’un
nombre de paramètre qui est important relativement à la taille de l’échantillon.
Litterman (1979, 1986) suggéra que si l’objectif est l’utilisation d’une VAR
pour la prévision, on peut résoudre ce problème en imposant des contraintes
aléatoires, très similaires à celles que nous avons vues dans la Section 19.2 et
dant le but était d’imposer des informations a priori de régularité sur les re-
tards échelonnés. Par exemple, on pourrait imposer l’information a priori que
tous les coefficients sont d’espérance nulle et de variance assez forte, excepté
pour le coefficient associé à yt−1,i dans l’équation pour yti . Litterman proposa
une procédure d’estimation mixte similaire à celle dont nous avons discuté lors
de la Section 19.2, et rapporta que ces VAR “bayésiennes” produisaient de
meilleures prévisions que les VAR non contraintes conventionnelles.
19.6 L’Ajustement Saisonnier

De nombreuses séries temporelles économiques tendent à suivre un modèle
régulier à travers le déroulement de chaque année. On appelle ce genre de
comportement une variation saisonnière ou saisonnalité. Il peut provenir de
2
Les propriétés des différents tests de causalité, incluant celui-ci, furent étudiées
par Geweke, Meese, et Dent (1983).
19.6 L’Ajustement Saisonnier 689
Log des Constructions

11.50
.... ...
11.25 . .. ....
. .... ... ..... .
......
... . . .
.... ....... ... .... ... .... ...... ... .... ... .... .......... ... ....
. . . . . . . . .
.. ...... .. .... .. .... .. ... .. ... .. ... .. ... .. .... .. . .. ...
11.00 .... ....... ....... ... .... ... .... ... .... ... .... ... .... ... .... ... .... ....... ... .... ...... ... ....
. . . . . .
........... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. ... .. .... .........
. . . . ... .... . .. . .
... .. .... ... .... ... .... ... .... ... .... ... ....... .... ... ....... .... ... ....... .... ... .... ......
. ......
. .. ..... ...
.
. .... .
. .. . ... . ... . ... . ... . .... ... . .... ... . .... .. . ... .. .... .. .... .. .. ..
... ....... .... ... .... ... ....... ....... ...... .... ... ...... ....... . .... ... .... ...... ... .... . .......... .. ......
.
10.75 . .... ... . ... . .... ... .. ... .. . ..... .. . .. . .. . .. . .. . .. . ...
... ...... .... ... .... ... ...... ...... .. . .
. .
.. . .. . .. . ..
. . . . . . . .. ....
. .. .... ... ....
.
.. . ... .. . .. . .. . .. . .
. .. ... .. ..... .. . .. .
.. . ...
..
... .. . .. . ..
... .. . .. . .. .. .... ....... ... .... ...
... ... . ... .
.. . . .. . . . . .
... ... . ... . ... .. . .... . ... . ......
. . .
. . . .
10.50 .. .. ..... .. . ... .. . ... .. ... . .. . .. . ...
... ... . ... .
.. . . .. .. .. .... .. .... .. .. .. .. .. ....
.. ... .. .... . . .. ... ... .. . . ... .. . .. . ...
.
.... ... . . .
. . ... ... ...... . .... .. . ... . ...
... ... .. .. .. .... .. . .. .. ..
... .... . .
... . .... .. .... .. .... .. .
10.25 .. .... ... .. ... .. .... .....
.... . .
... . . .... ...
... .
.. .. ...
. ...
..
10.00
1969:1 1972:1 1975:1 1978:1 1981:1 1984:1 1987:1
Figure 19.1 Constructions de bâtiments au Canada, 1968–1987
conditions climatiques saisonnières régulières ou d’habitudes sociales telles

que les jours fériés légaux, les vacances en été et d’autres. La présence de
saisonnalité a des implications importantes dans les travaux économétriques
appliqués qui utilisent des données chrnologiques. Au mieux, lorsque nous
parvenons à modéliser la saisonnalité de manière explicite, cela complique le
travail dans une large mesure. Au pire, l’utilisation de données corrigées des
variations saisonnières de façon mécanique peut réduire drastiquement notre
capacité à pratiquer des inférences corrcetes sur des relations économiques.
Pour clarifier les idées, considérons la Figure 19.1, qui présente le loga-
rithme des constructions de bâtiments au Canada, en données trimestrielles,
pour la période 1968:1 à 1987:4. 3 Il est clair que la variation saisonnière
dans cette série est très prononcée. Les constructions de bâtiments tendent
à être plus faibles lors du premier trimestre que lors des autres, sans doute
parce que les conditions climatiques ne hiver rendent les travaux difficiles
en cette période de l’année. Malgré cela, le modèle de saisonnière paraı̂t
varier considérablement d’une année à l’autre, d’une manière que ne semble
pas indépendante du niveau général des constructions d’immeubles. Dans
l’année de récession de 1982, par exemple, il y a beaucoup moins de varia-
tions saisonnières que d’habitude, et le niveau le plus faible des constructions
est enregistré pour le troisième trimestre au lieu du premier.
3
Ces données sont issues de la base de données CANSIM des Statistiques Cana-
diennes. Elles correspondent aux logarithmes de la série numéro D2717.
Il existe deux visions assez divergentes sur la nature de la saisonnalité

dans les données économiques. la première est que la variation saisonnière
est une partie fondamentale de nombreuses séries économiques et, lorsqu’elle
se manifeste, il faudrait essayer de l’expliquer. Ainsi, dans un monde idéal,
un modèle économétrique pour une variable dépendante yt devrait expliquer
n’importe quelle variation saisonnière des variables indépendantes, sans doute
en incluant des variables saisonnières muettes parmi elles. Hélas, comme nous
allons le voir dans la section qui suit, cela rend la spécification et l’estimaiton
économétrique des modèles pour séries mensuelles ou trimestrielles relative-
ment compliquées.
La seconde interprétation, associée à Sims (1974), est que la saison-
nalité est simplement un type de perturbation qui contamine les données
économiques. La théorie économique n’est pas supposée expliquer ce bruit,
qui, dans le cas de variables indépendantes, équivaut à un problème d’erreur
dans les variables. On devrait par conséquent utiliser ce que l’on appelle
les données ajustées par saison, c’est-à-dire des données qui ont été condi-
tonnées d’une certaine façon de sorte qu’elle représentent ce que nous sup-
posons que la série serait en l’absence de saisonnalité. En réalité, de nombreux
bureaux d’études, en particulier aux Etats Unis, produisent uniquement des
chiffres ajustée par saison pour de nombreuses séries. Dans cette section,
nous allons discuter de la nature des procédures d’ajustement saisonnier et
des conséquences de l’utilisation des données ajustées par saison.
L’idée d’ajuster par saison une série temporelle afin d’éliminer les ef-
fets de la saisonnalité est intuitivement attrayante mais assez difficile à ren-
dre rigoureuse sans avoir à s’appuyer sur des h2 beaucoup trop irréalistes.
L’ajustement saisonnier d’une série yt est pertinent pour tout t on peut écrire
yt = yt∗ + yts , où yt∗ est une série temporelle qui ne contient aucune variation
saisonnière, et yts est une série temporelle qui ne contient que des composantes
saisonnières. Mais cela est une hypothèse extrême. Même si elle est vérifiée,
il n’est pas nécessairement aisé de séparer yt en yt∗ et yts , ce qui est ce que les
procédures d’ajustement saisonnier tentent d’accomplir.
Une approche de l’ajustement saisonnier, qui est très populaire parmi les
économètres mais qui n’est presque jamais utilisée par les bureaux d’études
statistiques, consiste à utiliser une régression par moindres carrés. Supposons
pour être concret, que les données sont trimestrielles, et considérons les vari-
ables saisonnières muettes
     
1 0 0
 0  1  0
     
D1 =  
0
 D 2 =  0
  D 3 =  1 ,
 
 −1   −1   −1 
.. .. ..
. . .
que nous avons rencontrées pour la première fois dans la Section 1.4. Ces
varaibles muettes ont été définies de telle sorte que leur somme est nulle
pour une année. Supposons maintenant que l’on régresse un vecteur à n

composantes y sur une constante et sur D ≡ [D1 D2 D3 ]:
y = β + Dγ + u. (19.33)
Alors une série y ∗ “ajustée par saison” peut être élaborée comme suit: as
y ∗ ≡ β̂ + û, (19.34)
où β̂ est l’estimation de β, et û est le vecteur de résidus provenant de

l’estimation par OLS de (19.33). Ainsi toutes les variations de y qui peuvent
avoir comme explication des variables saisonnières muettes ont été éliminées
pour construire y ∗.
Cette approche fut préconisée par Lovell (1963). Il montra, par une
application du Théorème FWL, que les estimations OLS obtenues à partir
des deux régressions suivantes étaient identiques:
y ∗ = X∗β + u et (19.35)
y = Xβ + Dγ + u. (19.36)
Ici la première régression utilise des données “ajustées par saison” par la
procédure utilisée en (19.33) et (19.34). La seconde se contente de régresser
les données brutes y sur des données brute X, où X doit contenir une con-
stante ou un regrésseur équivalent, et sur les variables saisonnières muettes D.
Ce résultat semble suggérer qu’il est peu important d’utiliser soit des données
ajustées par saison soit des données brutes et des varaibles saisonnières
muettes correspodant aux saisons. Une telle conclusion est exacte unique-
ment si les données ont été ajustées par saison à l’aide d’une régression.
Il existe de nombreux problèmes concernant l’ajustement saisonnier par
régression. Premièrement, il est clair à partir des résultats standards sur
les résidus des moindres carrés qu’avec des échantillons finis une régression
comme (19.33) réduira la variation dans une trop grande mesure, en at-
tribuant, à tort, la variation des variables saisonnières muettes (Thomas et
Wallis, 1971). En second lieu, s’il existe une tendance croissante dans la série
ajustée, une régression comme (19.33) attribuera à tort une partie de cette
tendance aux variables saisonnières muettes. Par conséquent, l’estimation de
l’effet du premier trimestre sera trop faible, et celle de l’effet du quatrième
trimestre sera trop forte. Une solution évidente consiste à ajouter une ten-
dance à la régression et à la traiter de la même manière qu’une constante.
(Jorgenson, 1964). Cela implique, malgré tout, que X doit inclure une ten-
dance et une constante qsi l’on veut que (19.35) et (19.36) produisent en effet
les mêmes estimations.
Le plus sérieux problème concernant l’approche de la régression et qu’elle
ne permet pas de changement dans l’allure de la saisonnalité à travers le temps.
Comme la Figure 19.1 l’illustre, les llures saisonnières paraissent vraiment

changer dans le temps. Une façon de modéliser ce phénomène consiste à
ajouter des variables saisonnières muettes additionnelles qui ont été combinées
à des puissances d’une tendance chronologiques annuelle linéaire croissante
telle que
T ≡ [1 1 1 1 2 2 2 2 · · · ].
La raison qui veut que la tendance doive prendre cette forme relativement
curieuse est que cela garantit toujours la nullité de la somme des variables de
tendance muettes sur la totalité de chaque année, lorsque cette tendance est
multipliée par les variables saisonnières muettes. Si l’on multipliait simple-
ment les variables saisonnières muettes par une tendance ordinaire, cela ne
serait plus le cas.
Le Théorème FWL s’applique aux régressions (19.35) et (19.36) quelle
que soit la manière dont les variables muettes aient été définies. Ainsi on
peut avoir
D ≡ [D1 D2 D3 D1∗T D2∗T D3∗T D1∗T ∗T D2∗T ∗T D3∗T ∗T ].
Il y a trois ensembles de variables saisonnières muettes: celles qui sont les

plus classiques et constantes dans le temps, celles qui sont combinées à une
tendance linéaire et celles qui sont combinées à une tendance quadratique.
Le fait de donner une tendance à des variables saisonnières muettes paraı̂t
quelquefois bien fonctionner avec des échantillon finis, dans le sens où elles
semblent fournir une bonne approximation à un quelconque schéma courant
de changement de saisonnalité. Mais cela n’a pas de sens asymptotiquement,
parce que les variables saisonnières doivent en fin de compte devenir infinies si
les coefficients associé aux variables de tendance muettes sont non nuls dans
la régression.
En ce qui concerne les constructions de bâtiments sur la Figure 19.1, il
est intéressant de voir que les variables de tendance muettes ne sont d’aucun
usage. La régression de ces données sur une constante et trois variables
saisonnières muettes produit quatre coefficients significatifs et un R2 d’environ
0.48. L’ajout de trois variables de tendance linéaire et trois variables de ten-
dance quadratiques muettes à la régression n’améliore pas les valeurs ajustées
de manière significative. Ainsi il apparaı̂t, soit que la variation saisonnière de
cette série n’a pas été modifiée dans le temps, malgré l’impression visuelles
qu’elle donne, soit que cette modification s’est déroulée d’une manière telle
qu’elle ne peut pas être approximée de façon satisfaisante par une régression
sur des variables de tendance saisonnières muettes.
Un autre moyen de traiter les schéma saisonniers qui varient dans le temps
consiste à utiliser les méthodes du domaine de fréquence; voir Engle (1974),
Sims (1974), et Hylleberg (1977, 1986). La prmeière étape consiste à trans-
former les données yt du domaine chronologique au domaine des fréquences,
habituellement à l’aide d’une transformation de Fourier. 4 Après transfor-

mation, chaque observation correspond à une certaine fréquence plutôt qu’à
une certaine période de temps. Certaines observations sont effacées, en ban-
des autour des fréquences saisonnières et de leur harmonique. Le nombre
d’observations effacées (c’est-à-dire les fréquences) est d’autant plus élevé que
les bandes sont larges, et cela augment la probabilité que toute variation
saisonnière ait été éliminée des données. Enfin, les données sont transformées
à nouveau pour aboutir dans le domaine chronologique, donnant une série
ajustée par saison.
Sims (1974) montra que cette technique est équivalente à une forme
d’ajustement saisonnier à l’aide d’une régression. Considérons la régression
(19.33) et la série ajustée par saison définie par (19.34). Cette dernière serait
équivalente à une série ajustée dans le domaine des fréquences que nous venons
de décrire si la matrice D était rédéfinie de manièreà être égale à un cer-
tain ensemble de variables qui sont des fonctions trigonométriques du temps.
Les trois premières ou les onze premières de ces variables (dans le cas de
données trimestrielles ou mensuelles respectivement) engendrent exactement
le même sous-espace que trois ou onze variables saisonnières muettes. Ainsi si
le schéma saisonnier était constant dans le temps, il serait nécessaire d’exclure
seulement autant de fréquences spécifiques qu’il y a de périodes chronologiques
dans l’année. L’exclusion de fréquences supplémentaires en bandes autour des
fréquences saisonnières et et de leur harmonique permet au schéma saison-
nier de changer au cours du temps. Cela équivaut à inclure des fonctions
trigonométriques du temps supplémentaires dans la régression. Le nombre de
variables trigonométriques à inclure, qui est identique au nombre de fréquences
exclues dans l’approche par le domaine des fréquences, augmentera de façon
linéaire avec la taille de l’échantillon si la largeur des bandes demeure in-
changée.
Le bureaux de statistiques officiels n’emploient presque jamais aucune
sorte de procédure d’ajustement saisonnier basée sur la régression. Au delà
des problèmes liés à de telles procédures et auxquels nous avons fait référence,
elles souffrent d’une difficulté pratique importante. Au fur et à mesure que le
temps passe et que la taille de l’échantillon s’accroı̂t, l’estimation du vecteur γ
dans (19.33) se modifie, et par conséquent chaque élément de y ∗ sera modifié
chaque fois qu’une nouvelle observation sera disponible. Cette caractéristique
est à l’évidence la moins souhaotable pour les utilisateurs des statistiques
officielles.
Les procédures d’ajustement saisonnier qui sont en réalité employées par
les agences statistiques sont en général très compliquées. Elles tentent de
traiter une multitude de problèmes pratiques, et parmi eux les tendances, les
4
Pour une introduction aux méthodes du domaine de fréquence, consulter Har-
vey (1981). Pour une description de la transformation de Fourier, voir Press,
Flannery, Teukolsky, et Vetterling (1986, Chapitre 12).
variations chronologiques des saisons, les variations du nombre de jours de

commerce et les dates des vacances, le fait qu’une information plus pauvre
caractérise le début de l’échantillon (parce que les observations qui précèdent
l’échantillon sont inconnues), et les identités qui peuvent lier certaines séries
entre elles. Ces procédures sont à l’origine conçues pour produire des données
qui sont facilement lisibles par les économistes qui tentent de déterminer les
performances de l’économie, plutôt que des données qui seront nécessairement
plus utiles à des économètres. La plus connue de ces procédures officielles est
la méthodes du X-11 inventée par le Bureau de Recensement des Etats Unis
(Shisken, Young, et Musgrave, 1967). Pour une discussion sur ce sujet et sur
les procédures qui s’en inspirent, consulter Hylleberg (1986); la Figure 5.1
de cet ouvrage illustre le diagramme des opérations successives, qui révèle la
complexité extrême de la procédure X-11.
Malgré la complexité de la procédure X-11 et de ses variantes, on peut
souvent les approximer avec satisfaction par des procédures beaucoup plus
simples basées sur ce que l’on appelle les filtres linéaires. Posons y un
vecteur à n composantes des observations (souvent en logarithmes plutôt qu’en
niveaux) d’une série qui n’a pas été ajustée par saison. Un filtre linéaire est
une matrice Φ de dimension n × n dont la somme des éléments d’une même
ligne égale 1, qui prémultiplie y pour produire une série ajustée par saison y ∗.
Chaque ligne du filtre est un vecteur de poids filtrants. Ainsi chaque élément
de yt∗ de la série ajustée par saison est égal à une somme pondérée des valeurs
passées, actuelle, et futures de yt .
Considérons l’exemple simple de données trimestrielles. Supposons que
l’on crée tout d’abord des moyennes mobiles à trois et onze termes
−5
1¡ ¢ 1 X
zt ≡ − y + yt + yt+4 et wt ≡ yt−j .
3 t−4 11 j=5
La différence entre zt et wt est une estimation mobile de la quantité par

laquelle la valeur de yt du trimestre en cours tend à différer de sa valeur
moyenne sur l’année. Ainsi une manière de définir une série ajustée par saison
serait d’écrire
yt∗ ≡ yt − zt + wt
= .0909yt−5 − .2424yt−4 + .0909yt−3 + .0909yt−2
(19.37)
+ .0909yt−1 + .7576yt + .0909yt+1 + .0909yt+2
+ .0909yt+3 − .2424yt+4 + .0909yt+5 .
Cet exemple correspond à un filtre linéaire dans lequel la ligne p de Φ (pour
5 < p < n − 5) serait composée de p − 6 zéros, suivis par onze coefficients qui
apparaissent dans (19.37), eux-mêmes suivis par n − p − 5 zéros.
Cet exemple tel qu’il fut construit fut délibérément trop simple, mais
l’approche de base qu’il illustre se retrouve, sous des formes modifiées variées,
dans la plupart des procédures d’ajustement saisonnier officielles. Ces der-

nières n’emploient généralement pas des filtres linéaires, mais plutôt des
moyennes mobiles sous une forme comparable à cet exemple. Ces moyenes
mobiles tendent à être plus longues que celles utilisée dans l’exemple; zt est
généralement composée d’au moins 5 termes et wt d’au moins 25 termes dans
le cas de données trimestrielles. Elles tendent également à donner progres-
sivement moins de poids aux observations éloignées de t. Le poids donné à yt
par ces procédures est généralement compris entre 0.75 et 0.9, mais il est tou-
jours inférieur à 1. Pour plus de détails sur les relations entre les procédures
officielles et celles basées sur les filtres linéaires, voir Wallis (1974), Burridge
et Wallis (1984), et Ghysels et Perron (1993).
Nous avons affirmé que les procédures d’ajustement saisonnier officielles
ont les mêmes propriétés la plupart du temps que les filtres linéaires appliqués
soit aux niveaux soit aux logarithmes des données brutes. Cette assertion
peut être vérifiée empiriquement. Si elle est exacte, la régression d’une série
ajustée par saison yt∗ sur suffisamment de retards et d’avances de la série brute
correspondante yt devrait fournir des valeurs ajustées d’une qualité extrême.
Le coefficient de yt devrait être élevé et positif, mais inférieur à 1, et les
coefficients des yt+j devraient être négatifs lorsque j est un entier multiple de
4 ou de 12, pour des données trimestrielles et mensuelles respectivement.
Pour illustrer ces propos, nous avons régressé les logarithmes de la série
des constructions de bâtiments pour le Canada ajustée par saison qui corre-
spond à la série brute de la Figure 19.1 sur une constante et sur la valeur
courante et 12 retards et avances de la série brute, pour la période allant de
1957:1 à 1986:4. Le R2 est de .992 et le coefficient de la valeur courante est
de 0.80. Nous avons également régressé les logarithmes des dépenses de con-
sommations réelles des particuliers, ajustées par saison, sur une constante, la
valeur courante et 13 retards et avances de la série brute correspondant, pour
la période allant de 1953:1 à 1984:1. 5 Cette fois-ci, le R2 atteint la valeur
extraordinaire de .999996, et le coefficient associé à la valeur courante est 0.82.
Dans les deux cas, tous les coefficients associés à yt+j pour j un multiple de
4 étaient négatifs, comme prévu. Il apparaı̂t donc qu’un filtre linéaire fournit
une approximation de grand qualité de la procédure d’ajustement saisonnier
employée en réalité dans le cas de données de dépenses et une approximation
satisfaisante dans la cas des données de construction de bâtiments.
Si l’on réalise un ajustement saisonnier à l’aide d’un filtre linéaire, il n’est
pas difficile d’analyser les effets de l’utilisation de données ajustées par saison.
Supposons que le même filtre soit appliqué à toutes les séries dans la régression
5
Toutes les données furent collectées à partir de la banque de données CANSIM
des Statistiques Canadiennes. Les séries de construction de bâtiments ajustées
et brutes portent les numéro D2717 et D4945. Les séries des dépenses ajustées
et brutes portent les numéros D20131 et D10131.
de y ∗ sur X∗. Alors les estimations par moindres carrés seront données par
¡ ¢−1
β̃ = X∗>X∗ X∗>y ∗
¡ ¢−1
= X>Φ>ΦX X>Φ>Φy.
Nous voyons que β̃ est simplement un vecteur d’estimations GLS, où la ma-
trice de dimension n × n Φ>Φ joue le rôle de l’inverse de la matrice de
covariance des aléas. Nous concluons donc que la régression OLS suivant
l’ajustement saisonnier pratiqué à l’aide d’un filtre linéaire est équivalent à
une régression GLS, à condition que le même filtre linéaire soit employé pour
toutes les séries. Malheureusement, les procédures d’ajustement saisonnier
ne pratiquent pas ainsi pour toutes les séries (ni quelquefois pour une même
série en différents points du temps). Par conséquent, ce résultat est rarement
applicable. (Wallis, 1974).
Quoi qu’il en soit, il y a un intérêt à discuter des propriétés de β̃. Celles-
ci dépendront à l’évidence de la manière dont on a généré yt . L’une des
possibilités est que
y = Xβ0 + u, u ∼ IID(0, σ 2 I), (19.38)
qui implique que n’importe quelle forme de saisonnalité dans y soit rendue
dans sa totalité par la saisonnalité dans les variables indépendantes. Alors
³ ´−1 ³ ´
1 > > 1 > >
plim β̃ = β0 + plim −X Φ ΦX plim − X Φ Φu = β0 . (19.39)
n→∞ n→∞ n n→∞ n
Ainsi, bien qu’il n’y ait aucune raison d’utiliser des données ajustées par saison
dans ce cas, leur présence conserve quand même la convergence des estimations
par moindres carrés. Cependant, le Théorème de Gauss-Markov implique que
ces estimations seront moins efficaces que les estimations OLS qui utilisent
les données brutes. C’est le cas, puisque la procédure d’ajustement saisonnier
réduit la variation des variables indépendantes et elle réduit également la
précision de l’estimation de β. Ce plus, la seconde égalité de (19.39) réclame
que tous les éléments de X soient indépendants de tous les éléments de u,
et elle élimine implicitement la possibilité d’inclure des variables dépendantes
retardées dans la matrice X.
Une seconde possibilité, qui rend l’utilisation de données ajustées par
saison plus attaryante est que le DGP soit
y − y s = (X − Xs )β0 + u, u ∼ IID(0, σ 2 I). (19.40)
Ici y s et Xs désignent les parties de y et X attribuées aux saisons. Suppopons

que les poids filtrants aient été choisis de telle manière que toute saisonnalité
soit éliminée. Cela implique que Φy s = 0 et ΦXs = 0, ce qui implique en

retour que ¡ ¢
Φy = Φ (X − Xs )β0 + y s + u
= Φ(Xβ0 + u).
Si l’on substitue Φ(Xβ0 + u) à Φy dans la première ligne de (19.39), sans
changer la suite de (19.39), on conclue que β̃ est convergent vers β0 .
Dans cette seconde situation, l’alternative consistant simplement à régres-
ser les données brutes y sur X n’est pas du tout attrayante. L’estimation OLS
de β est
¡ ¢−1
β̂ = X>X X>y
¡ ¢−1 ¡ ¢
= β0 + X>X X> −Xs β0 + y s + u ,
et elle ne sera bien évidemment pas convergente vers β0 à moins que X
ne soit asymptotiquement orthogonale à la fois à Xs et y s. Mais une telle
condition ne peut être valide que si aucune variable de X ne manifeste une
quelconque variation saisonnière. Par conséquent, si l’on désire utiliser des
données ajustées par saison, il faut incorporer une saisonnalité de façon ex-
plicite dans le modèle. Nous traiterons ce thème dans la section qui suit.
Souvenons-nous que ces résultats ne sont valides que si le même filtre
linéaire est utilisé pour l’ajustement saisonnier de toutes les séries. Si l’on
multiplie les filtres pour les différentes séries, ce qui sera presque toujours le
cas avec des données ajustées par les procédures officielles, on ne peut plus
affirmer que les régressions qui emploient des données ajustées par saison
produiront des estimations convergentes, que les données aient été générées
par un modèle comme (19.38) ou par un modèle comme (19.40). On peut
juste espérer qu’une telle défaillance dans la convergence soit faible. Consulter
Wallis (1974).
Une limitation beaucoup plus sérieuse concernant la convergence dans
les résultats précédents est qu’il supposent l’absence totale de variable dépen-
dante retardée parmi les régresseurs. Lorsqu’il existe de telles variables, et
cela sera le cas pour tout modèle dynamique et pour tout modèle transformé
de façon à permettre la corrélation en série des aléas, il n’y a aucune raison
de croire que la régression par moindres carrés utilisant des données ajustée
avec un filtre linéiare produira des estimations convergentes. En réalité, des
travaux récents ont montré que, dans les modèles comportant un seul retard
de la variable dépendante, l’estimation du coefficient de la variable retardée
tend généralement à être sévèement biaisé lorsque l’on utilise des données
ajustées par saison. Consulter Jaeger et Kunst (1990), Ghysels (1990), et
Ghysels et Perron (1993).
Afin d’illustrer ce résultat important, nous avons généré des données ar-
tificielles à partir d’un cas particulier du modèle
yt = α + βyt−1 + Dt γ + ut , ut ∼ N (0, σ 2 ), (19.41)

0.30
........
............
........ ............
. ..
0.20 ... ............
.. .... .....
.... .....
..... .....
...... ...... ... n = 400
..... ...... .....
...... ....... .....
........ ........ ........
......................... .....
.
........................ ............... ... ................. ...... . .
..
.
.............................................................................................................. .........
........
.................... ......................... .......
0.10 ........... ......
......... ......
....... ......
n = 50 .
....
....
.....
.....
.
. ..
....
....
....
. .......
......
.....
......
...... ......
..... .....
..... .....
...... .....
..... .....
..... .....
..... .....
0.00 ..... .....
....
....
....
.... ..
......
.
−0.10
−1.00 −0.75 −0.50 −0.25 0.00 0.25 0.50 0.75 1.00
Figure 19.2 Biais dû à l’ajustement saisonnier
où Dt est la t ième ligne d’une matrice de dimension n × 3 de variables

saisonnières muettes. La série yt a ensuite été soumise à un filtre linéaire
que l’on pourrait utiliser pour l’ajustelment saisonnier, 6 et la série “ajustée”
a ensuite été régressée sur une constante et sur sa propre valeur rétardée
pour fournir une estimation β̃. Nous avons exécuté cette procédure pour 199
valeurs de β allant de −0.99 à 0.99, pour des tailles d’échantillons diverses, et
les expériences furent répétées un grand nombre de fois afin de réduire l’erreur
axpérimentale (voir le Chapitre 21).
La Figure 19.2 illustre le biais estimé de β̃ en fonction de β. Seuls les
résultats pour n = 50 (basé sur 4000 exécutions) et pour n = 400 (basés
sur 2000 exécutions) sont reportés. Remarquons que n est le nombre des
observations pour les séries ajustées par saison, qui est inférieur de 54 au
nombre des observations initiales. On voit clairement à partir de la figure
que, pour la plupart des valeurs de β, β̃ est sévèrement biaisé vers le haut.
Ce biais ne se dissipe pas lorsque la taille de l’échantillon s’accroı̂t; en réalité,
pour de nombreuses valeurs de β, il est plus fort avec n = 400 qu’avec n = 50.
La conclusion semble inéluctable que β̃ est un estimateur non convergent et
que l’amplitude de cette non convergence est en général assez forte.
Un autre résultat intéressant est ressorti de cette batterie d’expériences.
L’estimation de σ qui utilise les données ajustées par saison est biaisée vers
6
La valeur courante de la série brute est associé au poins 0.84. Les 12 valeurs de
retard et d’avance sont associées aux poids 0.08, 0.07, 0.06, −0.16, 0.05, 0.05,
0.04, −0.12, 0.03, 0.03, 0.02, et −0.08. Les valeurs particulières de cas poids
n’ont pas affecté les résultats qualitatifs.
19.7 Modéliser la Saisonnalité 699
le bas dans une large mesure, avoisinant en moyenne entre 87% et 92% de
sa véritable valeur. Par contre, lorsque le modèle exact (19.41) est estimé
à l’aide des données brutes, l’estiamtion de σ est pratiquement sans biais,
comme prévu. Ces résultats convergent vers les résultats obtenus par Plosser
(1979a), qui trouva que les modèles estimés avec des données ajustées par
saison possèdent toujours des variances de résidus plus faibles que celes cor-
respondant aux modèles estimés avec les données brutes. Quoi qu’il en soit,
Plosser trouva que les prévisions fondées sur ces derniers seront plus fines
que celles fondées sur les premiers. Ces conclusions suggèrent que l’on ne de-
vrait jamais choisir un modèle basé sur les données ajustées par saison plutôt
qu’un modèle basé sur les données brutes simplement parce que les premiers
semblent s’ajuster un peu mieux.
L’usage des données ajustées par saison dans les travaux économétriques
appliqués est très répandu, et il est en vérité quelquefois difficile de l’éviter.
Cependant les résultats exposés dans cette section suggèrent que cette attitude
peut souvent être imprudente. Même pour des modèles statiques, il est prob-
able que des problèmes surgissent si les procédures officielles d’ajustement
saisonnier utilisent en réalité des filtres différents. Pour les modèles dy-
namiques la non convergence potentielle provenant de l’utilisation de données
ajustées par saison paraı̂t très marquée. Dans la prochaine section, nous
discuterons par conséquent des approches variées de la spécification et de
l’estimation des modèles qui emploient des données qui ne sont pas ajustées
par saison.
19.7 Modéliser la Saisonnalité

Les résultats de la section qui précède suggèrent que, lorsque l’on dispose des
données brutes, il est probablement plus judicieux de les utiliser plutôt que
de s’appuyer sur des données officielles ajustées par saison. Malgré tout, cela
réclame une bonne quantité de travail supplémentaire. L’estimation simple
d’un modèle qui n’est pas conçu pour des données saisonnières est rarement
appropriée. Une telle approche a toutes les chances de produire des estima-
tions des paramètres sévèrement biaisées si la variation saisonnière d’une ou
de plusieurs variables indépendantes s’avère être corrélée (même si elle ne la
provoque pas) avec la variation saisonnière de la variable dépendante. Il ex-
iste de nombreux moyens de gérer la variation saisonnière dans les modèles de
régression. C’est dans cette section que nous discutons de certaines d’entre
elles.
La stratégie la plus simple pour la spécification de modèles qui utilisent
des données brutes consiste à inclure des varaibles saisonnières muettes dans le
modèle de régression linéaire, comme dans (19.36). Si la structure saisonnière
a été constante au ccours du temps, de sorte que les trois varaibles saisonnières
muettes (dans le cas de données trimestrielles) ou les onze variables saisonnière
muettes (dans le cas de données mensuelles) rendent compte de façon satis-

faisante des effets de a saisonnalité, cette approche semble être adéquate.
Cependant, elle ne sera pas appropriée lorsque la structure de la saison-
nalité des variables dépendantes ou indépendantes est changeante au cours
de la période d’échantillonnage. Une possibilité dans ce cas consiste à in-
clure un ou plusieurs ensembles de variables saisonnières muettes combinées
à des tendances annuelles croissantes, en même temps que des variables
saisonnières muettes ordinaires. La pertinence des ensembles additionnels
de variables muettes peut facilement être testée aux moyens des tests en
F à la manière habituelle. Une critique à cette approche, ainsi que nous
l’avons noté précédemment, est qu’elle n’a pas de sens asymptotiquement. De
plus, un modèle qui possède des variables saisonnières à tendance à toutes
les chances d’être inadapté à la prévision, puisque même si les variables
saisonnières muettes rendent compte de façon satisfaisante des changements
de la structure de la saisonnalité dans l’échantillon, il n’y a aps de raison de
croire qu’elles le feront en dehors de l’échantillon. Davidson et MacKinnon
(1983c) offrent un exemple quelque peu extrême de cette approche. Dans cet
article, pas moins de 15 variables saisonnières muettes, avec des tendances
allant jusqu’au quatrième ordre, furent incluses dans des modèles utilisant
des données trimestrielles, parce que cela semblait être nécessaire pour rendre
compte de toute la saisonnalité dans les données.
Une seconde stratégie consiste à modélisr les aléas d’un modèle de
régression pour qu’ils obéissent à une espèce quelconque de processus ARMA
saisonnier, c’est-à-dire un processus ARMA avec des coefficients non nuls
uniquement sur les retards des saisons. Un tel processus, qui peut être adéquat
pour les données trimestrielles, est le processus Ar(1) simple que nous avons
rencontré pour la première fois dans la Section 10.5:
ut = ρ4 ut−4 + εt , εt ∼ IID(0, ω 2 ), (19.42)
où ρ4 est le paramètre à estimer, et ω 2 est la variance de εt . Un autre processus

Ar purement saisonnier consacré aux données trimestrielles est
ut = ρ4 ut−4 + ρ8 ut−8 + εt , εt ∼ IID(0, ω 2 ), (19.43)
qui est l’analogue d’un processus AR(2) consacré à des données non saison-
nières.
Dans de nombreux cas, les aléas peuvent manifester à la fois de la
corrélation saisonnière et de la corrélation non saisonnière. Cela suggère que
l’on peut combiner un processus saisonnier avec un processus qui ne l’est pas.
Supposons, par exemple, que l’on veuille combiner un processu AR(1) avec
un processus AR(4) simple. Une approche ferait combiner ces deux processus
de façon additive, produisant
ut = ρ1 ut−1 + ρ4 ut−4 + εt , εt ∼ IID(0, ω 2 ). (19.44)

19.7 Modéliser la Saisonnalité 701
Une seconde approche ferait combiner ces deux processus de façon multiplica-
tive, comme dans
(1 − ρ1 L)(1 − ρ4 L4 )ut = εt , εt ∼ IID(0, ω 2 ),
que l’on pourrait écrire différemment, en oubliant la notation avec l’opérateur

retard, comme dans
ut = ρ1 ut−1 + ρ4 ut−4 − ρ1 ρ4 ut−5 + εt , εt ∼ IID(0, ω 2 ). (19.45)
Aussi bien (19.44) que (19.45) paraissent probables, et il n’existe aucune raison
majeure a priori de préférer l’un à l’autre.
A l’évidence, un grand nombre de processus AR et ARMA différentes
pourraient être employés pour modéliser la variaiton saisonnière de l’aléa
dans un modèle de régression. Il existe une littérature très développée sur
les processus ARMA saisonniers; consulter, parmi d’autre auteurs, Box et
Jenkins (1976), Harvey (1981), et Ghysels (1991). Cependant, l’intérêt que
représentent de tels processus pour modéliser la saisonnalité n’est pas de tout
immédiat. D’un côté, ils offrent généralement une façon assez économe de
le faire; par exemple (19.42) n’emploie qu’un seul paramètre additionnel, et
(19.13) n’en a que deux. De plus, il est certainement exact que si un modèle
de régression ne rend pas compte de façon adéquate de la saisonnalité, la
corrélation sérielle d’ordre quatre se manifestera nécesairement. Alors le test
de cette corrélation fournit souvent un test diagnostique utile. Mais, de même
que la corrélation en série à l’ordre un ne signifie pas que les aléas obéissent en
vérité à un processus AR(1), la corrélation en série à l’ordre quatre ne signifie
pas non plus qu’ils obéissent à un processus AR(4).
L’énorme difficulté relative aux processus ARMA saisonniers est qu’ils
ne peuvent pas saisir l’un des caractéristiques importantes de la saisonnalité,
en l’occurrence le fait que des saisons différentes de l’année possèdent des
particularités différentes: l’été n’est pas simplement l’hiver avec un nouveau
nom. Mais en ce qui concerne un processus ARMA, l’été est juste l’hiver
avec un nom différent. Si les aléas obéissent à un schéma saisonnier partic-
ulier au début de l’échantillon, alors il est assez probable qu’ils obéissent au
même schéma l’année suivante. Mais pour un processus ARMA stationnaire,
l’influence des conditions initiales tend vers zéro lorsque le temps passe. Ainsi
il n’y a aucune raison de croire que le schéma saisonnier 10 ou 20 ans après le
début de l’échantillon possèdera une quelconque ressemblance avec le schéam
d’origine. En fait, pour T suffisamment élevé, les espérances de uT , uT +1 ,
uT +2 , et uT +3 conditionellement à u1 , u2 , u3 et u4 sont toutes (presque) nulles.
Alors l’utilisation d’un processus ARMA pour modéliser la saisonnalité im-
plique l’hypothèse que tout schéma de saisonnalité particulier est transitoire;
dans le long terme, tout schéma est envisageable. Cela nous entraı̂ne à croire
que l’on utilisera sûrement pas le schéma saisonnier ARMA pour modéliser
le schéma saisonnier d’un objet tel que le prix des framboises, puisque le
modèle serait incapable d’expliquer que le prix a toutes les chances d’être
inhabituellement élevé au milieu de l’hiver ou lors de la récolte. Un moyen
évident de contourner ce problème serait d’inclure des variables saisonnières
muettes dans le modèle. Les variables saisonnières muettes permettraient
aux différentes saisons d’être naturellement différentes, alors que le processus
ARMA saisonnier permettrait au schéma saisonnier d’évoluer dans le temps.
Une troisième stratégie consiste à permettre à certains coefficients de

la fonction de régression de varier dans chaque saison. Ainsi, si le modèle
originel possède k coefficients, on estimerait un modèle avec 4k ou 12k co-
efficients. Cela serait pertinent si les variations du schéma de saisonnalité
dans le temps étaient associées à des modifications des valeurs de certaines
variables indépendantes dans le temps. Une objection immédiate à cette ap-
proche est que le nombre de coefficients serait souvent très élevé compara-
tivement à la taille de l’échantillon, et ils tendront tous à être estimés avec
trop peu de précision. Gersovitz et MacKinnon (1978) ont à cette occasion
suggéré l’utilisation des informations a priori de régularité, comparables à
celles dont nous avons discuté lors de la Section 19.3 pour l’estimation des re-
tards échelonnés, afin d’éviter des variations trop fortes des coefficients d’une
saison à l’autre. Cela paraı̂t être une contrainte raisonnable à imposer dans
le cas de données mensuelles, mais cela paraı̂trait difficile à justifier dans le
cas de données trimestrielles;
Une quatrième stratégie consiste à incorporer des dynamiques saison-
nières directement dans la spécification de la fonction de régression, à l’aide
d’une forme quelconque de modèle ADL saisonnier. Un modèle partic-
ulièrement simple de ce genre est
(1 − L4 )yt = β0 + β1 (1 − L4 )xt + β2 (yt−4 − λxt−4 ) + ut .
Cela ressemble à un modèle ADL(1, 1) écrit sous sa forme à correction
d’erreur — à comparer à (19.30) — mais avec des retards à la quatrième
période au lieu des retards à une période. Il est presque certainement trop
simple, bien sûr, et l’addition de variables saisonnières muettes ou de retards
de yt et xt . Un article très connu qui estime les modèles ALD saisonniers fur
écrit par Davidson, Hendry, Srba, et Yeo (1978).
A l’exception discutable des modèles ADL saisonniers, les stratégies
aperçues jusqu’à présent sont essentiellement mécaniques. On commence avec
un modèle non saisonnier et on le transforme afin de lui faire manipuler la
saisonnalité. Ce n’est sûrement pas le meilleur moyen de procéder. Dans
un monde idéal, on aimerait incorporer la saisonnalité dès le départ dans le
modèle. Cela a pourtant toutes les chances de rendre l’élaboration du modèle
beaucoup plus difficilie, et cela explique sans doute pourquoi peu d’auteurs
s’y sont attaqués, à l’exception de Plosser (1979b), Miron (1986), et Osborn
(1988, 1991). A moins que la théorie économique ne prenne explicitement en
compte la saisonnalité, il sera très difficile aux économètres d’intégrer cette
saisonnalité dans les modèles qu’ils estiment.
Termes et Concepts 703
19.8 Conclusion
Dans ce chapitre, nous avons vu un certain nombre de problèmes qui appa-
raissent fréquemment lorsque l’on tente d’estimer des modèles de régression
à l’aide de données temporelles. Dans la majeure partie du chapitre, nous
avons supposé que toutes les séries sont stationnaires, ou I(0), de sorte que l’on
peut employer des méthodes d’estimation classiques et la théorie asymptotique
standard. Pour de nombreuses séries cependant, cette hypothèse peut être en-
freinte à moins de prendre les différences premières avant l’estimation. Mais
comment sait-on qu’une opération des différences premières est nécessaire?
Dans le chapitre qui suit, nous discutons de la manière de répondre à cette
question, et il nous permet d’aborder des thèmes importants qui lui sont rat-
tachés.
Termes et Concepts
retards d’Almon modèle d’ajustement partiel
modèles ADL(p, q) et modèles modèle PDL(q, d)
ADL(1, 1) retard échelonné polynomial (PDL)
modèle autorégressif à retard marche aléatoire, avec ou sans dérive
échelonné (ADL) procédure d’ajustement saisonnier
modèle dynamique basée sur la régression
forme à correction d’erreur (d’un saisonnalité
modèle ADL) données ajustées par saison
terme de correction d’erreur modèle ADL saisonnier
poids filtrant processus AR saisonnier
opérateur de la différence première variation saisonnière
causalité au sens de Granger dans les informations a priori de régularité
VAR régression erronée
variables intégrées contraintes stochastiques
variables I(0) et I(1) variable à tendance stationnaire
filtre linéaire modèle à vecteur autorégressif
estimation mixte processus VAR(p)

Ch19 Modèles de Régression Pour Données Chronologiques

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ch19 Modèles de Régression Pour Données Chronologiques

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 19

19.2 Régressions Erronées

par l’un des deux modèles suivants:

où les aléas ut ne seront, en général, ni indépendants ni identiquemt dis-

de tendance dans le membre de droite d’une régression linéaire ou non linéaire.

rejette l’hypothèse nulle beaucoup plus souvent qu’il ne le devrait et tend à

Tableau 19.1 Rejets Erronés et Taille d’Echantillon

n Marche Aléatoire Retard Ajouté Dérive Tendance

25 0.530 0.146 0.645 0.066

ajoutée à la régression. Pour les colonnes 3 et 4, la régression est simple-

n’indique pas pourquoi, pour des tailles d’échantillon suffisamment impor-

19.3 Retards Échelonnés

où il s’agit d’estimer la constante α et les coefficients βj . Le nombre entier q est

A condition que q > 2, il y aura moins de paramètres ηi que βj . Nous voyons

C’est simplement un modèle de régression linéaire avec trois nouveaux régres-

−β3 + 3β2 − 3β1 + β0 = 0,

On peut écrire ces contraintes sous la forme Rβ = 0, où la matrice R serait

polynômes orthogonaux, on peut réduire en grande partie cette corrélation,

supposons que le modèle qu’il s’agit d’estimer est le modèle de régression

où β est un vecteur à k composantes. Supposons ensuite qu’un vecteur

β̌ = β + v, E(vv> ) = V (β̌) ≡ η −1 (η> )−1. (19.10)

Le membre de droite de l’expression pour la matrice de covariance fait us-

Cela ressemble à une régression linéiare avec k observations et k variables

Rβ = v, v ∼ N (0, σv2 I). (19.13)

Cette formulation autorise un éventail très large de contraintes linéaires sur

En fait, nous avons ajouté r observations supplémentaires à l’ensemble

L’estimation OLS de β à partir de (19.15) est

Il est facile de calculer cette expression, et il est aisé de la comprendre. Comme

Le problème majeur de cette procédure est que λ ne sera jamais connu.

Bien évidemment, on pourait utiliser une quelconque autre forme de statis-

tout, si xt affecte yt au travers d’un retard échelonné, comment justifier que

19.4 Modèles de Régression Dynamiques

yt = yt−1 − (1 − δ)yt−1 + (1 − δ)Xt β ∗ + (1 − δ)et + vt

où β ≡ (1 − δ)β ∗ et ut ≡ (1 − δ)et + vt . Si l’on désire estimer β ∗, on peut

Le second terme dans l’expression la plus à droite de (19.22) n’est pas

La limite en probabilité du numérateur estPzéro. Cela provient du fait

ou, en utilisant les opérateurs retard

A(L, β)yt = α + B(L, γ)xt + ut , ut ∼ IID(0, σ 2 ).

yt = α + β1 yt−1 + γ0 xt + γ1 xt−1 + ut . (19.24)

statique est un cas particulier avec β1 = γ1 = 0, un modèle AR(1) univarié est

En résolvant cette équation pour y ∗ en fonction de x∗ on obtient

Nous voyons donc que la dérivée de y ∗ par rapport à x∗ en longueur période

∆yt = α + (β1 − 1)yt−1 + γ0 xt + γ1 xt−1 + ut ; (19.26)

estimations et les écarts types s’obtiennent directement à partir de l’estimation

19.5 Autorégressions Vectorielles

Yt = α + Yt−1 Φ1 + · · · + Yt−p Φp + Ut , Ut ∼ IID(0, Ω), (19.31)

où α est un vecteur ligne à m composantes, et Φ1 , Φ2 jusqu’à Φp sont des

Par conséquent la valeur maximisée de la fonction de log-vraisemblance est

Lorsque nous spécifions une modélisation VAR, il est important de

avec une notation qui est très explicite. La distribution asymptotique de

19.6 L’Ajustement Saisonnier

Log des Constructions

Figure 19.1 Constructions de bâtiments au Canada, 1968–1987

conditions climatiques saisonnières régulières ou d’habitudes sociales telles

Il existe deux visions assez divergentes sur la nature de la saisonnalité

pour une année. Supposons maintenant que l’on régresse un vecteur à n

où β̂ est l’estimation de β, et û est le vecteur de résidus provenant de

Comme la Figure 19.1 l’illustre, les llures saisonnières paraissent vraiment

D ≡ [D1 D2 D3 D1∗T D2∗T D3∗T D1∗T ∗T D2∗T ∗T D3∗T ∗T ].

Il y a trois ensembles de variables saisonnières muettes: celles qui sont les

habituellement à l’aide d’une transformation de Fourier. 4 Après transfor-

variations chronologiques des saisons, les variations du nombre de jours de

La différence entre zt et wt est une estimation mobile de la quantité par