Vous êtes sur la page 1sur 19

Chapitre 8 : Toujours plus haut : les processus stochastiques non

stationnaires

1. Pot pourri de séries non stationnaires


2. Tendance stochastique
3. Tendance déterministe
4. Le cas général des tendances déterministe et stochastique
5. Estimation d'un modèle AR(1) non stationnaire
6. La pratique des séries non stationnaires
7. Quelques détails importants
8. La non stationnarité et les calculs usuels : impulse et prévisions
9. La non stationnarité dans un VAR : régressions illusoires et co-intégration

1. Pot-pourri de séries non stationnaires

On connaît bien les propriétés d'une série stationnaire :

 moyenne et variance ne dépendent pas du temps;


 les autocorrélations j tendent vers zéro à mesure que le délai j augmente;
 la représentation moyenne du modèle ARMA(p,q) correspondant converge i.e. les
impulses tendent vers zéro;
 les prévisions y*T+h pour h grand tendent vers la moyenne et l'intervalle de confiance vers
le corridor naturel de la série.

Dans les domaines de l'économie et de la finance, peu de séries sont toutefois naturellement
stationnaires. Règle générale, le PIB augmente à chaque trimestre tout comme les
investissements ou les importations. Les taux d'intérêt ont connu des épisodes prolongés où ils
ont été passablement élevés puis se sont retrouvés à des niveaux beaucoup plus bas. Depuis
les années 80, le taux d'inflation canadien est passé de 8% à 6% puis depuis 1991 oscille entre
1% et 2%. Bien sûr, l'indice des prix à la consommation augmente à chaque mois ou presque.

L'exemple POT_POUR.PRG présente différents exemples de séries non stationnaires.


Malheureusement, tous les outils développés pour les séries stationnaires ne s'appliquent plus
à des séries non stationnaires à moins de trouver une façon de les transformer pour qu'elles
suivent les conditions énoncées plus haut. Pire, il est possible de montrer que l'estimation de
modèles avec des données non stationnaires peut occasionner de graves problèmes
d'estimation. Un examen attentif de cette problématique s'impose.

2. Tendance stochastique

La série non stationnaire la plus simple et aussi la plus fondamentale est la marche aléatoire

yt = yt-1 + et où et suit une N(0,2).

6-837 - CHAPITRE 8 1
Il s'agit d'un modèle AR(1) sans constante où le coefficient  est égal à 1. On voit tout de
suite que les hypothèses concernant la stationnarité ne seront pas respectées :

 la moyenne /(1-) n'existe pas tout comme la variance 2/(1-2);


 les autocorrélations j = j sont toujours égales à 1 et ne convergent pas vers zéro quand j
tend vers un grand nombre. Le présent est parfaitement relié au passé!
 la représentation moyenne mobile

yt = et + 1et-1 + 2et-2 + 3et-3 ...

où j = j = 1 peut alors s'écrire

yt = et + et-1 + et-2 + et-3 + .... + e1

si bien que l'effet d'un choc très éloigné ne s'estompe pas graduellement. Il est permanent!

On peut facilement dériver l'intuition de ce résultat en simulant récursivement la marche


aléatoire. Posons une valeur de départ y0. Alors

y1 = y0 + e1
y2 = y1+e2 = y0 + e1 + e2
y3 = y2 + e3 = y0 + e1 + e2 + e3
yt = yt-1 + et = y0 + e1 + e2 + .... + et

Effectivement, la valeur de l'observation t dépend de tous les chocs passés qui ont touchés la
série. Les chocs ont bien un effet permanent. Ce résultat est important : les autorités
monétaires seraient sûrement très intéressées à connaître si les chocs de taux d'intérêt ont un
effet permanent (série non stationnaire ) ou transitoire (série stationnaire).

De plus, en posant y0 = 0, on voit tout de suite que la variance de la série yt est donnée par

Var(yt) = 2 + 2 + ... + 2 = T2.

La variance augmente sans cesse! Le corridor s'élargit à mesure que le temps passe. Il ne
s'agit certainement pas du cas d'une variable stationnaire.

Toutes ces propriétés et d'autres encore peuvent être visualisées à l'aide de l'exemple
MARCHE.PRG qui simule une dizaine de sentiers possibles pour une marche aléatoire. On
peut voir que selon les chocs et simulés, la série peut rester stable, augmenter ou diminuer, un
comportement que nous n'avions pas observé dans le cas stationnaire.

On dira alors que la série générée par une marche aléatoire n'est pas stationnaire car elle a une
racine unitaire i.e. =1. Fait intéressant, identifiée correctement, il est très facile de
transformer cette série pour qu'elle devienne stationnaire. Il s'agit tout simplement de prendre
la première différence. Ainsi

6-837 - CHAPITRE 8 2
yt = yt-1 + et

n'est pas stationnaire mais

yt - yt-1 = et

i.e. la première différence est stationnaire car elle correspond au bruit blanc e t qui, par
construction, est stationnaire. Pour simplifier, on écrit alors le modèle comme suit

wt = et

où wt est une variable stationnaire égale à y t - yt-1 = (1-L)yt. On pourra alors procéder avec les
outils biens connus d’analyse d’une série stationnaire.

On sait que la première différence d'un série correspond à la pente locale d'un graphique ou à
sa tendance. Alors comme la première différence (la pente ou la tendance) est égale à un bruit
blanc, on dira que la série a une tendance stochastique i.e. une pente qui change selon la
période t.

Finalement, il est possible de généraliser le cas de la marche aléatoire. Par exemple,


supposons le modèle AR(2) non stationnaire suivant (1,5+(-0,5) =1)

yt = 1,5 yt-1 - 0,5 yt-2 + et .

Il est possible de trouver les racines caractéristiques qui donnent lieu à la représentation
polynomiale

(1- 1,5L + 0,5L2) yt = et .

(1-0,5 L) (1-L) yt = et

Comme (1-L)yt =wt, en prenant la première différence, on a transformé un modèle AR(2) non
stationnaire en yt en un modèle AR(1) stationnaire en wt.

(1-0,5 L) wt = et

wt = 0,5wt-1 + et

Nous aurons l'occasion de le constater à plusieurs reprises que racine unitaire est
synonyme de première différence.

3. Tendance déterministe

6-837 - CHAPITRE 8 3
Toutes les séries non stationnaires ne sont pas nécessairement générées par une tendance
stochastique. On peut très bien observer des phénomènes un peu différents. Par exemple,

yt =  +  t + y+t où y+t =  y+t-1 + et.

La moyenne de la série augmente au rythme  +  t (tendance déterministe) mais est quelques


fois supérieures, quelques fois inférieures selon les valeurs prises par y +t qui est un processus
AR(1) de moyenne zéro. Si la série correspond effectivement à un tel modèle, la méthode de
transformation pour la rendre stationnaire est relativement simple. À l'aide des moindres
carrés (dans ce cas précis, les moindres carrés ont des propriétés tout à fait correctes), la
tendance linéaire est estimée et les résidus nécessairement stationnaires sont obtenus. Ainsi

yt - a - b t = résidus = y+t.

Dans le cas général, on peut imaginer plusieurs fonctions déterministes et la notation


correspondante serait

yt = DRt + y+t où y+t = 1 y+t-1 + 2 y+t-2 + ...+ p y+t-p + et.

où les racines du modèle AR(p) sont toutes à l'intérieur du cercle unité.

4. Le cas général des tendances stochastique et déterministe

En pratique, on ne sait jamais lequel des deux cas est le plus approprié. La série contient-elle
une tendance déterministe, une tendance stochastique ou même les deux. Dans ce cas, on
aurait

yt = DRt + y+t où y+t = 1 y+t-1 + 2 y+t-2 + ... + p y+t-p + et

avec la possibilité que la série y+t contienne une tendance stochastique i.e qu'une racine du
polynôme soit sur le cercle unité.

5. Estimation d'un modèle AR(1) avec racine unitaire

Revenons au modèle AR(1)

yt =  yt-1 + et.

À première vue, la méthode pour détecter un racine unitaire semble relativement simple. On
estime le modèle AR(1) en question et on calcule le test t usuel en tenant compte maintenant
que H0 : =1 vs H1:  <1.

6-837 - CHAPITRE 8 4
Le programme DICKEY1.PRG simule deux modèles AR(1) : un stationnaire, l'autre pas
(marche aléatoire). Il s'intéresse ensuite aux distributions des estimateurs dans les deux cas.
Dans le cas stationnaire, on retrouve les résultats habituels : la moyenne des estimés de  est
proche de la vraie valeur et la distribution des  estimés est symétrique autour de la vraie
valeur. Dans le cas non stationnaire, les estimés sont systématiquement inférieurs à 1 et la
distribution est non symétrique. Manifestement, si H0 est vraie, on ne pourra pas utiliser
l'hypothèse que les estimés suivent une distribution normale centrée sur la vraie valeur de .

En 1976, Dickey et Fuller se sont intéressés à ce problème et ont dérivé de façon numérique la
distribution des estimés des coefficients autorégressifs sous l'hypothèse nulle que H0 :  =1
est vraie (comme on le sait, la distribution des tests suppose toujours H0 vraie). Le
programme DICKEY2.PRG donne les valeurs critiques du fameux test de Dickey et Fuller car
il faut maintenant faire appel, et c'est là son originalité, à des tables spéciales.

Notons ici que le test de Dickey et Fuller est habituellement obtenu en transformant le modèle
AR initial. Ainsi :

yt =  yt-1 + et.

Retranchons yt-1 de chaque côté,

yt -yt-1 = (-1) yt-1 + et.

Sous H0 :  =1, on peut réécrire le modèle

yt -yt-1 =  yt-1 + et. où  = (-1)

et les hypothèses à considérer sont maintenant

H0 :  =0 i.e. =1
H1 :  <0 i.e. <1.

Il est beaucoup plus facile de visualiser les résultats de cette dernière formulation du test car
on s'intéresse à l'hypothèse habituelle de nullité d'un coefficient. Quand on teste =1 de la
première façon, il n'est pas possible d'utiliser rapidement l'information disponible donnée par
les logiciels. Moins pratique!

Supposons maintenant qu'il nous faille investiguer si un AR(2) - le retard 2 est une donnée
supposée connue - a une racine unitaire. Notre modèle s'écrit

yt = 1 yt-1 + 2 yt-2 + et.

Ajoutons et retranchons 2 yt-1 au membre de droite

yt = 1 yt-1 + 2 yt-1 - 2 yt-1 + 2 yt-2 + et.

6-837 - CHAPITRE 8 5
yt = (1+ 2 ) yt-1 - 2 (yt-1 - yt-2 ) + et.

Retranchons yt-1 de chaque côté

yt - yt-1 = (1+ 2 -1) yt-1 - 2 (yt-1 - yt-2 ) + et.

On se rappelle que dans le cas d'un modèle AR(2) stationnaire, la somme des coefficients 1+
2 doit être inférieure à 1 car la moyenne /(1-1+ 2) ne serait pas définie. On peut alors
réécrire l'équation du test comme

wt =  yt-1 - 2 wt-1 + et.

Sous H0 : existence d'une racine unitaire =0 i.e 1+ 2=1


Sous H1 : absence d'une racine unitaire <0 i.e 1+ 2<1.

Dans le cas d'un modèle AR(p), on peut généraliser l'équation du test de la façon suivante

wt = (1+ 2 + ...+ p -1) yt-1 - 2 wt-1 - 3 wt-2 - ... - p wt-p+1 + et.

wt =  yt-1 - 2 wt-1 - 3 wt-2 - ... - p wt-p+1 + et.

Sous H0 : existence d'une racine unitaire =0 i.e 1+ 2+ ...+ p =1
Sous H1 : absence d'une racine unitaire <0 i.e 1+ 2+...+p<1.

6. La pratique des séries non stationnaires

Voici une approche en 5 étapes pour analyser des séries à première vue non stationnaires :

i. Analyser le graphique de la série et trouver le modèle le plus vraisemblable pour la


tendance déterministe DR. Comme on le verra plus loin, ce modèle pourrait jouer le
rôle de modèle alternatif sous H1. Rappelons que plusieurs modèles sont possibles
selon l'allure de la série :
 DR = {} aucune variable
 DR = {1} constante
 DR = {1,t} constante et tendance linéaire
 DR = {1,DU} constante + changement de constante

ii. Estimer le modèle déterministe en question et garder les résidus qui correspondent à
y+t.

6-837 - CHAPITRE 8 6
iii. Faire un test de Dickey-Fuller augmenté sur y+t i.e. un test de Dickey-Fuller en
incluant le nombre de retards appropriés de façon à ce que les résidus estimés du test
soient bruit blanc.
iv. Si une racine unitaire est détectée i.e on ne rejette pas H0, procéder à une première
différence de la série et recommencer à l'étape i. au cas où la première différence de la
série serait non stationnaire.

v. Si le test de Dickey-Fuller permet de rejeter H0 i.e il n'y a pas de racine unitaire, nous
sommes alors sous H1. IL fautvérifier si le modèle déterministe estimé en i. a des
coefficients qui sont significativement différents de zéro.

 si les coefficients de DR sont significativement différents de zéro, vous estimez un


modèle AR(p) stationnaire à l'aide des résidus y +t. La série en question est non
stationnaire de type déterminsite.
 si les coefficients de DR ne sont pas significativement différents de zéro, vous
estimez un modèle AR(p) stationnaire à l'aide des données originales yt et la série
est fort probablement stationnaire.

7. Quelques détails importants

Le cas de la marche aléatoire avec tendance ou «drift»

Un modèle très courant en séries chronologiques est le suivant :

yt =  + yt-1 + et .

Il diffère de la marche aléatoire seulement par l'ajout d'une constante mais cette seule
différence est à la source de nombreuses confusions. Étudions ce modèle de plus près. En
première différence, nous avons

yt - yt-1 =  + et .

Les changements de la série sont toujours aléatoires mais maintenant centrés sur une moyenne
. Périodes après périodes, on s'attend à ce que cette série augmente à un taux . Ceci est
important car on peut écrire un tel modèle de façon différente.

yt =  + [  + yt-2 + et-1] + et
yt = 2 + yt-2 + et-1 + et

yt = 2 + [  + yt-3 + et-2] + et-1 + et


yt = 3 + yt-3 + et-2 + et-1 + et

En poursuivant cette substitution jusqu'à y0, on aurait

yt = t + y0 + e1 + ... + et-2 + et-1 + et

6-837 - CHAPITRE 8 7
yt = t + y0 + ut
et finalement

yt =  + t + ut

où  = y0 et =. Cette dernière formulation ressemble à s'y méprendre au modèle de


régression avec tendance. Mais attention, le terme d'erreur u n'a pas les propriétés habituelles
i.e. il n'est pas stationnaire : sa moyenne est peut être égale à zéro mais sa variance augmente
sans cesse au rythme de t2.

Fait intéressant, le modèle de marche aléatoire avec «drift» comprend à la fois une tendance
déterministe  et une tendance stochastique i.e. une racine unitaire. Nous y reviendrons lors
des prévisions.

On comprend maintenant qu'il est très important d'examiner de près l'inclusion ou non
d'une constante dans un modèle où la variable de gauche est en première différence. Si on
ajoute par négligence une constante non significative dans un modèle pour w, nous
supposons que la série en niveau augmente sans cesse au rythme .

8. La non stationnarité et les calculs usuels : impulse et prévisions

Maintenant que le principe de la non stationnarité est maîtrisé et qui nous savons comment la
détecter les différents types, nous pouvons retourner à notre préoccupation première, à savoir
la prévision.

Le passage de la première différence au niveau :

Partons d’une marche aléatoire simple :

yt = yt-1 + et
yt - yt-1 = et
yt - yt-1 = wt = et

Ainsi,

yt = yt-1 + wt

La valeur de y de la période courante est égale à la valeur de y à la période précédente plus


son changement. On peut écrire :

y1 =y0 + w1  y1 = y0 + (y1 -y0)


y2 =y1 + w2  y2 = (y0 + w1) + w2
: :
yT = yT-1 + wT  yT = y0 + i=1…T (wi)

Si y0 = 0  yT = i=1…T (wi)

6-837 - CHAPITRE 8 8
À partir de ce résultat important, nous venons de montrer comment on peut passer d’une série
en première différence à une série en niveau. Ce que ce résultat nous dit, c’est que lorsqu’il y
a une racine unitaire dans une série, le niveau de cette dernière n’est en fait qu’une somme des
chocs du passé.

Impulse

Afin de mieux visualiser ce résultat, nous allons procéder à l’analyse d’un choc sur une série
en première différence. Posons et = 1 pour t =1, 0  t 1. Posons aussi y0 = 0. Le tableau
suivant résume les impacts de ce choc dans le temps, sur le niveau de y t. En guise
d’illustration, nous posons le modèle de régression suivant :

yt =  yt-1 + et

T et Équation 1 WT = YT = i=1…T(Wi)
YT
1 1 y1 = 0 + 1 = 1 1 1
2 0 y2 = 1 + 0 =  1 1 + 1 = *1
3 0 y3 = + 0 = 2 2 1 + 1 + 2 = *2
4 0 y4 = 2 + 0 = 3 3 1 + 1 + 2 + 3 =
*3

Note : le coefficient j est celui que donnera RATS par la commande IMPULSE sur votre
modèle en première différence. Comme vous l’aurez compris, il s’agit de la représentation
moyenne mobile du modèle posé.

Prévision

Un peu de la même façon que dans l’analyse des chocs, nous sommes intéressé à pouvoir faire
des prévisions sur la variables expliquée, mais en niveau. Comme notre modèle est en
première différence, nous précéderons de la même façon que précédemment, c’est-à-dire que
nous ferons nos prévisions sur le modèle en première différence et par la suite, nous
reconstruirons le sentier de Yt mais en niveau.

Nous avons déjà montré que :


yT+1 =yT + wT+1
yT+2 =yT+1 + wT+2
...
yT+h =yT + wT+1 + wT+2 + … + wT+h
Comme nous faisons des prévisions, nous sommes intéressés par E[yT+h | T] = y*T+h

y*T+h =y*T + w*T+1 + w*T+2 + … + w*T+h


Travaillons avec quelques exemples simples.

6-837 - CHAPITRE 8 9
MARCHE ALÉATOIRE SIMPLE

Nous savons que la marche aléatoire simple s’écrit :

yt = yt-1 + et  yt – yt-1 = et  wt = et

Nous savons que y*T+h =y*T + w*T+1 + w*T+2 + … + w*T+h


Puisque : wt = et et que et ~ N(0,1), nous savons donc que

E(wT+h | T) = 0,  h = 1,…, H

Donc, nous pouvons écrire que :

E(yT+h | T) = yT.

LA MARCHE ALÉATOIRE AVEC DÉRIVE (DRIFT)

Soit maintenant le modèle suivant :

yt =  + yt-1 + et  yt – yt-1 =  + et  wt =  + et
Il est important de noter que lorsque l’on pose ce modèle, on reconnaît alors avoir une
tendance déterministe.

Encore une fois, puisque et ~ N(0,1), nous savons que :

E (wT+1) = E ( + eT+1) = 
E (wT+2) = E ( + eT+2) = 
: :
E (wT+h) = E ( + eT+h) = ,  h=1,…,H

On a déjà démontré, à l’équation que :

y*T+h =yT + w*T+1 + w*T+2 + … + w*T+h


Après substitution, on obtient, dans le cas d’un modèle avec dérive :

y*T+h = yT +  +  + … + 

y*T+h = yT + h

EXEMPLE DE PRÉVISIONS

Prenons le modèle suivant :

wt =  + wt-1 + et où wt = yt – yt-1

6-837 - CHAPITRE 8 10
Ainsi  yt – yt-1 =  +  ( yt-1 – yt-2) + et

Notons que e*wt est l’erreur de prévision de wt

Calculs pour h=1

w*T+1 = E( + wt + et+1) =  + wt

e*wT+1 = wT+1 – w*T+1 =  + wt + et+1 –( + wt) = eT+1

Si nous sommes à yT, nous savons qu’à la période T+1, y aura augmenté de notre prévision
sur son changement, à savoir w*T+1. Ainsi :

y*T+1 = yT + w*T+1
Aisément, on comprend que notre erreur de prévision sur yT+1 correspond en fait à notre erreur
sur wT+1. Il s’agit donc de eT+1.

Calculs pour h=2

w*T+2 = E( + wt+1 + et+2) =  + w*T+1 =  +  ( + wT) = (1+) + 2wT


e*wT+2 =  + wt+1 + et+2 –( + w*T+1) = eT+2 +  (wT+1 – w*T+1) = eT+2 + eT+1 = eT+2 + 1 eT+1

y*T+2 = yT + w*T+1 + w*T+2


Pour trouver l’erreur de prévision en niveau, il faut prendre un petit détour. On sait que

(yt - yt-1) =  +  ( yt-1 - yt-2) + et  yt =  + (1+)yt-1 - yt-2 + et

e*T+2 = yT+2 – y*T+2 =  + (1+)yT+1 - yT + eT+2 -  - (1+)y*T+1 - yT

e*T+2 = eT+2 + (1+) (yT+1 – y*T+1) = eT+2 + (1+) eT+1 = eT+2 + *1 eT+1
On aurait aussi pu aborder la chose de façon intuitive en se disant que tout comme la variable
y, les erreurs de prévision en niveau sont simplement la somme des erreurs de prévision en
niveau :

e*T+2 = eT+1 + eT+2 + eT+1 = eT+2 + (1+) eT+1 = eT+2 + *1 eT+1
Calculs pour h

On remarque que plus h est éloigné de T, nos prévisions sur wT+h sont

w*T+h = (1+ + 2 + …) + hwT  w*T+h =  / (1-)

car par transformation, notre modèle en première différence est stationnaire.

Quant à nos erreurs de prévision sur

e*wT+h = eT+h + eT+h-1 + 2eT+h-2 + … + heT+1 = eT+h + 1eT+h-1 + 2eT+h-2 + … + heT+1

6-837 - CHAPITRE 8 11
y*T+h = yT + w*T+1 + w*T+2 +…+ w*T+h
e*T+h = eT+h + *1eT+h-1 + *2eT+h-2 + … + *heT+1

*1 = 1+ 1, *2 = (1 + 1 + 2), *h = (1 + 1 + 2 + … + h)


Maintenant, la variance de nos prévisions est :

Var(e*wT+h) = 2(1 + 12 + 22 + … + h2)  tend vers la variance non conditionnelle.

Var(e*T+h) = 2(1 + *12 + *22 + … + *h2)  devient infinie car chaque * est une

somme.

Résumons nos résultats dans le tableau suivant :

h w*T+h e*wT+h y*T+h e*T+h


1  + wT eT+1 *
yT + w T+1 eT+1
2 (1+) +  wT
2
eT+2 + 1eT+1 * *
yT + w T+1 + w T+2 eT+2 + *1eT+1
3 (1++ )
2
+ eT+3+1eT+2 +2eT+1 yT + w*T+1 + w*T+2 + eT+3 + *1eT+2 +
 wT
3 w*T+3 *2eT+1

9. La non stationnarité dans un VAR : régressions illusoires et co-intégration

L'étude des marches aléatoires a eu un impact important sur l'économétrie des séries
chronologiques. Très rapidement, on a réalisé que les racines unitaires ne pouvaient être
ignorées et qu'une négligence à ce niveau pouvait occasionner de sérieux problèmes
d'estimation.

Une marche aléatoire

Revenons tout d'abord à notre série marche aléatoire

y1t = y1t-1 + e1t .

On sait que son parcours risque d'être très variable, adoptant souvent une trajectoire vers le
haut, un peu comme dans le cas d'une tendance déterministe. Dans un tel cas, on recommande
de transformer cette série en prenant une première différence : la résultante est une série
stationnaire qui respecte les hypothèses habituelles où les deux premiers moments ne
dépendent pas du temps.

Deux marches aléatoires

6-837 - CHAPITRE 8 12
Considérons maintenant une deuxième marche aléatoire

y2t = y2t-1 + e2t

qui, compte tenu de ses caractéristiques, reprend le comportement de la série y 1 : nous


retrouverons une même variabilité, une même propension à adopter des trajectoires tantôt vers
le haut, tantôt vers le bas. Pas besoin d'argumenter longtemps pour réaliser qu'en théorie, les
trajectoires des séries y1 et y2 ne devraient pas être reliées. Les deux formulations sont très
claires : ces deux séries n'ont absolument aucun lien entre elles ou si un lien était trouvé, il
serait tout à fait accidentel.

Dans un article important, Granger et Newbold (1974) ont montré, sous forme de simulation,
que dans 40% des cas, les régressions habituelles de y1 sur y2 montreraient des liens
statistiquement significatifs. Bien évidemment, il s'agit d'une illusion créée par la nature des
deux marches aléatoires qui adoptent souvent des trajectoires à la hausse sans que l'estimateur
des moindres carrés habituel ne puisse détecter cette supercherie! Voir GRANGER.PRG pour
une illustration de ce problème.

Devant un tel problème, la solution peut paraître évidente. La série y 1 contient une racine
unitaire tout comme y2. Ces deux racines sont la source des mouvements qui nous causent des
problèmes. En appliquant l'opérateur première différence [=(1-L)] à chacune des deux
séries, nous obtenons deux séries stationnaires qui n'auraient aucun lien entre elles, comme il
se doit. Fini les régressions illusoires, la première différence démystifie les relations et permet
d'obtenir des réponses claires et non ambigues. Les moindres carrés ont retrouvé leurs belles
propriétés.

Une marche aléatoire et demie!

Supposons maintenant les deux séries suivantes :

y1t = y1t-1 + e1t

y2t = y1t-1 + e2t

La série y1 est une marche aléatoire habituelle, donc une série non stationnaire. Contrairement
à la formulation habituelle, la série y2t ne dépend pas de y2t-1 mais bien de y1t-1. Comme y1 n'est
pas une variable stationnaire, il est facile de réaliser que, par construction, y 2 ne sera pas non
plus une variable stationnaire. Les trajectoires de y2 auront toutefois une caractéristique
fondamentale : la distance entre y2 et y1 sera stationnaire i.e. les deux séries seront toujours
proches l'une de l'autre. Autrement dit, bien que nous ayons deux séries , nous n'avons qu'une
seule source de non stationnarité i.e. celle de y 1. Conséquemment, il ne faut pas prendre deux
mais bien qu'une seule première différence. Ainsi , le modèle

y1t - y1t-1 = e1t

y2t - y1t-1 = e2t

6-837 - CHAPITRE 8 13
pourra se prêter aux estimations habituelles car les deux variables à gauche sont stationnaires
mais une seule différence aura été nécessaire. La deuxième équation indique que la différence
entre la première et la deuxième série est stationnaire. En langage des séries chronologiques,
on dira que les deux séries sont co-intégrées : i. les deux séries sont non stationnaires; ii. la
différence entre les deux séries est stationnaire.

Il est possible de réécrire ce modèle d'une autre façon. Ainsi, en partant de l'équation initiale

y2t = y1t-1 + e2t

on ajoute y2t-1 de chaque côté pour obtenir une formulation en première différence

y2t - y2t-1 = -(y2t-1 - y1t-1) + e2t

qui stipule que le changement de y2 dépend de la distance entre y2 et y1. Si y2 s'éloigne de y1,
un mécanisme automatique sera mis en branle pour s'assurer que les changements de y 2 soient
négatifs de façon à rapprocher y2 de y1. Il s'agit ici bien sûr d'un exemple simple spécifié de
façon à présenter les caractéristiques fondamentales de la problématique. Passons maintenant
à des situations plus usuelles.

Une analyse en deux étapes

En pratique, dans le cas où deux variables sont étudiées, on procède de la façon suivante :

i. on applique le test de DF à chacune des deux séries de façon à vérifier si elles sont
intégrées d'ordre 1 i.e. si elles ont chacune une racine unitaire.

ii. on estime ensuite le modèle

y1t = 0 + 1y2t + ut
de façon à vérifier, à l'aide du test de Dickey-Fuller habituel, si les résidus estimés i.e.
y1t - b0 - b1y2t sont stationnaires [attention, il faut utiliser des tables spéciales
compilées par Engle et Yoo, 1987]. Si la série est stationnaire, on dira que la
combinaison linéaire y1t - b0 - b1y2t est stationnaire i.e. les deux séries sont co-
intégrées. Notons que b1 n'est pas nécessairement égal à 1.

iii. Si le terme y1t - b0 - b1y2t est considéré stationnaire, on estime alors un modèle VAR
avec w1 = (1-L) y1t et w2 = = (1-L) y2t en introduisant explicitement le terme y1t - b0 -
b1y2t dans chacune des deux équations.

iv. Si le terme y1t - b0 - b1y2t n'est pas stationnaire, on estime alors un modèle VAR avec
w1 et w2 sans autre variable additionnelle.

Notons que le terme d'erreur estimé peut s'écrire de façon matricielle comme suit :

6-837 - CHAPITRE 8 14
 y1t 
y1t  b0  b1 y 2t  b y t  1  b0  b1   1 
 y 2t 

La formulation générale pour deux variables

y1t = 11,1 y1t-1 + ... + 11,p y1t-p + 12,1 y2t-1 + ... + 12,p y2t-p + 1(y1t-1 - b0 - b1y2t-1 )+ e1t

y2t = 21,1 y1t-1 + ... + 21,p y1t-p + 22,1 y2t-1 + ... + 22,p y2t-p + 2(y1t-1 - b0 - b1y2t-1 )+ e2t

où (y1t - b0 - b1y2t ) est le terme de co-intégration i.e le terme qui assure que les deux séries
auront des trajectoires non stationnaires proches l'une de l'autre i.e. la distance entre les deux
séries sera stationnaire.

La formulation générale pour 3 variables explicatives

Soient y1, y2 et y3, trois variables non stationnaires. Dans un tel contexte, la notion de co-
intégration tient toujours mais doit être précisée. En fait, il existe potentiellement quatre
situations.

Cas 1 : une relation de long terme

Dans le premier cas, nous supposons qu'il existe une relation de long-terme entre les trois
variables si bien que

y1t = 2y2t + 3y3t + ut


ou sous forme matricielle
 y1t 
  y 
y1t   1 y 2t   2 y 3t    y t  1  1  2   2t 
   y 3t 

En supposant le modèle VAR le plus simple possible (aucun retard pour les variables), nous
avons

y1t = 1'yt-1 + e1t


y2t = 2'yt-1+ e2t
y3t = 3'yt-1+ e3t

où les coefficients i sont à la source des ajustements des différentes variables quand elles
dévient de la relation de co-intégration de long terme ('yt-1). Sous forme plus compacte,

yt = 'yt-1+ et
yt = yt-1+ et

6-837 - CHAPITRE 8 15
où =' est une matrice (3x3) dont le rang (nombre de lignes ou de colonnes indépendantes)
est central à l'analyse des systèmes multivariés. Dans notre cas, puisque qu'il y a une relation
de co-intégration, le rang de  est égal à 1: toutes les lignes sont des multiples du vecteur '
i.e. la première ligne est égale à 1', la deuxième à 2', etc. Dans le programme RATS
COINT3.PRG, on donne l'exemple suivant :

 y1t  0  y1t 1   e1t   0 0 0   y1t 1   e1t 


 y   0,1 1  1  1 y   e   0,1  0,1  0,1  y   
 2t     2t 1   2t     2t 1   e2t 
 y 3t  0,1  y 3t 1   e3t  0,1  0,1  0,1  y 3t 1   e3t 

 y1t   0 0 0   y1t 1   e1t 


 y   0,1  0,1  0,1  y   
 2t     2 t 1   e2t 
 y 3t  0,1  0,1  0,1  y 3t 1   e3t 

Trois variables (k=3), une relation de co-intégration (r=1), nous avons fondamentalement
deux phénomènes non stationnaires (k-r=2). Ceci est très facile à vérifier en réécrivant le
système

yt = yt-1+ et

comme

yt = Iyt-1 + yt-1+ et
yt = (I+ )yt-1+ et

où I est la matrice identité. Dans notre exemple,

1 0 0  0 0 0  1 0 0 
0 1 0  0,1  0,1  0,1  0,1 0,9  0,1

0 0 1  0,1  0,1  0,1 0,1  0,1 0,9 

On sait que les racines unitaires correspondent aux racines caractéristiques de cette matrice
(I+) égale à la matrice  des coefficients du premier retard d'un VAR. La commande de
EIGEN de RATS donne les racines réelles suivantes : 1, 1, 0,8. Nous avons effectivement
deux phénomènes non stationnaires de nature stochastique. Autrement dit, nous avons trois
séries non stationnaires mais la relation de long terme réduit le système à deux phénomènes
non stationnaires.

Cas 2 : deux relations de long terme

Dans le deuxième cas, nous supposons qu'il existe deux relations de long-terme entre les trois
variables si bien que

y1t = 21y2t + 31y3t + u1t

6-837 - CHAPITRE 8 16
y2t = 32y3t + u2t
ou sous forme matricielle

 y1t 
1   21   31   
  yt   y2t
0 1   32   
 y 3t 

En supposant le modèle le plus simple possible (aucun retard), nous avons

yt = 'yt-1+ et
yt = yt-1+ et

où =' est une matrice (3x3) donc le rang (nombre de lignes ou de colonnes indépendantes)
est maintenant égal à 2 i.e. deux relations de long termes indépendantes. Dans le programme
RATS COINT3.PRG, on donne l'exemple suivant

 y1t   0 0   y1t 1   e1t   0 0 0   e1t 


y    0,1 0  1  1  1  y   e   0,1  0,1  0,1   e 
 2t    0 1  1  2t 1   2t     2t 
 y 3t  0,1 0,1    y 3t 1  e3t  0,1 0  0,2 e3t 

Trois variables (k=3), deux relations de co-intégration (r=2), nous avons fondamentalement un
seul phénomène non stationnaires (k-r=1). Vérifions avec le calcul des racines du système
VAR

yt = (I+ )yt-1+ et où (I+) est donné par

1 0 0 
0,1 0,9  0,1
 

0,1 0 0,8 

Les trois racines sont égales à 1, 0,9 et 0,8. Nous n'avons plus qu'un seul phénomène non
stationnaire fondamental.

Cas 3 : aucune relation de co-intégration

Il se peut très bien qu'aucune relation de co-intégration existe entre les trois variables. Dans ce
cas, le rang de la matrice  est égal à zéro ou de façon équivalente, nous avons trois racines
unitaires pour la matrice (I+). En fait, nous avons trois marches aléatoires.

Cas 4 : trois relations de co-intégration

Dans le cas de séries préalablement identifiées non-stationnaires, cette situation est hautement
improbable puisqu'elle suppose r=3 i.e. k-r=0 i.e. aucun phénomène non stationnaire. Ce cas
hypothétique est rarement obtenu en pratique.

6-837 - CHAPITRE 8 17
Le test de rang de Johansen - l'équivalent multivarié de Dickey-Fuller

On se rappelle que le test de Dickey-Fuller le plus simple dans le cas univarié AR(1) se faisait
à partir de l'équation

yt -yt-1 =  yt-1 + et

où sous H0 :  = 0. Un peu de la même façon, Johansen (1988) a développé la version


multivariée du même test à partir de

yt -yt-1 = yt-1 + et

où yt est un vecteur (kx1) de variables explicatives et  est une matrice (kxk) reliant les
changements des variables à leur niveau retardé d'une période. Il s'agit (est-ce une surprise!)
de la représentation utilisée précédemment.

Un peu comme dans le cas univarié, la matrice  jouera un rôle particulièrement important
dans le test développé par Johansen. En particulier, nous allons nous intéresser au rang de .
Comme nous l'avons vu plus haut, le rang de  nous donne le nombre de combinaisons
linéaires indépendantes présentes dans cette matrice : ces combinaisons sont en fait des
fonctions de nos relations de co-intégration.

Nous connaissons bien les racines caractéristiques qui ont été utilisées jusqu'à maintenant pour
vérifier la stationnarité des modèles. Dans un autre contexte, on peut aussi montrer que le
rang d'une matrice est égal au nombre de racines caractéristiques différentes de zéro. Ainsi, il
s'agira d'estimer la matrice  et de calculer les racines caractéristiques i, i=1,...k. Bien
évidemment, il faudra tenir compte du fait que ce sont des estimés. Osterwald-Lenum (1992)
a compilé des tables spéciales (comme celles de Dickey-Fuller) pour guider notre analyse.
Plus précisément, les deux tests qui reposeront sur les estimés des racines caractéristiques sont
les suivants:

k
trace (r )  T  ln(1  ˆ )
i  r 1
i

 max (r , r  1)  T ln(1  ˆr 1 )

Les deux tests exploitent le fait que si l'estimé de i est petit (proche de zéro), alors ln(.) sera
égal à 1 et ln(1) est égal à zéro. Ces tests nous guideront dans le choix du nombre de relations
de co-intégration i.e. le nombre de racines caractéristiques de la matrice  statistiquement
différentes de zéro.

Les tests multivariés de Johansen en pratique : k variables

De façon générale, on écrira un modèle VAR multivarié co-intégré de la façon suivante :

6-837 - CHAPITRE 8 18
yt = 0 + 1 yt-1 + 2yt-2 + ...+ pyt-p + yt-1 + et

où yt est un vecteur de dimension (kx1) et  = ' est de dimension (kxk). Des retards ont
été ajoutés pour tenir compte de la dynamique des séries et assurer des résidus bruit blanc. 0
permet d'inclure des constantes dans le modèle en première différence, donc des tendances
déterministes pour les séries en niveau (voir la section sur les marches aléatoires avec drift).

Les étapes de la méthodologie de Johansen sont les suivantes :

i. On procède à une analyse graphique des séries en présence en identifiant le modèle


déterministe le plus vraisemblable. Note : l'analyse de co-intégration est relativement
simple dans le cas des modèles déterministes {1} et {1,t}. Les autres cas sont plus
compliqués et ne seront pas couverts dans le cours ;
ii. On applique le test de Dickey-Fuller aux k variables du modèle. Si l'hypothèse d'une
racine unitaire ne peut être rejetée pour chacune des variables, on passe à l'étape
suivante;
iii. On estime un modèle VAR en niveau en choisissant nombre de retards de façon
usuelle i.e. Lagrange, Akaike, etc. Il faut que les k résidus soient bruit blanc.
iv. À l'aide d'un logiciel spécialisé (sous-routine JOHANSEN.SRC), on calcule les racines
caractéristiques de la matrice  pour effectuer les tests appropriés. Note : les
variables déterministes considérées sont très importantes et conditionnent le choix des
valeurs critiques des tests. Dans le cours, nous n'aborderons que deux cas : i. pas de
tendance déterministe dans les variables i.e. les exemples précédents et illustrés dans
ENDERS.PRG; ii. tendance déterministe dans les variables analysées et donc
inclusion de constante dans le modèle de correction d'erreur.
v. Une fois le nombre de relations de co-intégration identifiées, les logiciels fournissent
habituellement les estimés de la matrice B (dans bien des cas, il faudra normaliser ces
relations i.e. s'assurer qu'un coefficient est égal à 1);
vi. On estime finalement un modèle VAR en première différence en prenant bien soin
d'inclure la ou les relations de co-intégration identifiées précédemment.
vii. On peut procéder à l'analyse de chocs en postulant un ordonnancement triangulaire ou
autre.

Lectures supplémentaires

Vous vous doutez bien qu'il a été impossible de couvrir de façon complète et exhaustive ce
volet des VAR co-intégrés. Plusieurs livres intéressants et très spécialisés couvrent le sujet.
En particulier, le livre et le workbook de Enders (1995, 1997) et les livres de Harris (1995) et
de Barnerjee, A., J. Dolado, J.W. Galbraith et D.F. Hendry (1993) sont très complets. On
peut aussi consulter le programme CATS de Johansen disponible chez Estima, programme
dont le manuel donne des instructions et des exemples très précis qui pourraient vous guider.

6-837 - CHAPITRE 8 19

Vous aimerez peut-être aussi