CoursSeriesTemp Chap2 PDF

Chapitre 2. UFR Economie Applique. Cours de C.
Hurlin 1
U.F.R. Economie Applique
Matrise dEconomie Applique
Cours de Tronc Commun
Economtrie Applique
Sries Temporelles
Christophe HURLIN
Chapitre 2. UFR Economie Applique. Cours de C. Hurlin 2
Chapitre 2
Tests de Non Stationnarit
et Processus Alatoires Non Stationnaires
Dans le premier chapitre, nous avons vu quune des premire tape de la dmarche de modlisa-
tion dune srie temporelle consiste vrier la stationnarit du processus gnrateur de donnes.
Gnralement, on se limite vrier la stationnarit faible ou stationnarit du second ordre.
Nous allons prsent tudier de faon de plus prcise ce quest un processus non stationnaire.
Il existe en eet deux sorte de non stationnarit : la non stationnarit dterministe et la non
stationnarit stochastique. Nous verrons que suivant lorigine de la non stationnarit, il convient
dadopter une mthode de stationnarisation particulire.
La seconde partie de ce chapitre sera ensuite consacre la prsentation des principaux tests
de non stationnarit. Il sagit alors de dnir une stratgie empirique permettant de vrier si les
processus sont stationnaires ou au contraire si il est ncessaire de les stationnariser et quelle est
alors la mthode approprie.
1 Processus non stationnaires
Dans le premier chapitre, nous avons introduit la notion de stationnarit du second ordre ou station-
narit faible. Daprs cette dnition, un processus est stationnaire au second ordre si lensemble
de ses moments dordre un et dordre deux sont indpendants du temps. Par opposition, un proces-
sus non stationnaire est un processus qui ne satisfait pas lune ou lautre de ces deux conditions.
Ainsi, lorigine de la non stationnarit peut provenir dune dpendance du moment dordre un (le-
sprance) par rapport au temps et/ou dune dpendance de la variance ou des autocovariances par
rapport au temps.
Le fait quun processus soit stationnaire ou non conditionne le choix de la modlisation que lon
doit adopter. En rgle gnrale, si lon sen tient notamment la mthodologie de Box et Jenkins,
si la srie tudie est issue dun processus stationnaire, on cherche alors le meilleur modle parmi
la classe des processus stationnaire pour la reprsenter, puis on estime ce modle. En revanche
si la srie est issue dun processus non stationnaire, on doit avant toutes choses, chercher la
stationnariser, cest dire trouver une transformation stationnaire de ce processus. Puis, on
modlise et lon estime les paramtres associs la composante stationnaire.
La dicult rside dans le fait quil existe direntes sources de non stationnarit et qu chaque
origine de la non stationnarit est associe une mthode propre de stationnarisation. Nous allons
donc commencer dans cette section par prsenter deux classes de processus non stationnaires,
selon la terminologie de Nelson et Plosser (1982) : les processus TS (Time Stationary) et les
processus DS (Dierency Stationary). Dans la section suivante, nous prsenterons les mthodes de
stationnarisation pour chacune de ces classes de processus. Mais au del des enjeux de modlisation
conomtriques, nous verrons dans cette partie, que lorigine de la non stationnarit a de trs fortes
implications sur lanalyse conomique des sries que lon tudie. Nous verrons en particulier que
pour les processus DS il existe une proprit de persistance des chocs qui nexiste pas dans les
processus TS. Une telle hypothse implique par exemple que si les sries macroconomiques satisfont
une reprsentation de type DS, limpact des chocs conjoncturels peut avoir un eet permanent sur
le niveau de la srie tudie.
Avant de prsenter de faon formelle les direntes sources de non stationnarit, nous allons
considrer quelques exemples simples de processus non stationnaires. Rappelons au passage la
dnition de la stationnarit du second ordre (cf. chapitre 1) :
Denition 1 Un processus (x
t
, t Z) est dit stationnaire au second ordre, ou station-
naire au sens faible, ou stationnaire dordre deux si les trois conditions suivantes sont
satisfaites :
t Z, E
_
x
2
t
_
<
t Z, E(x
t
) = m, indpendant de t
(t, h) Z
2
, cov (x
t
, x
t+h
) = E[(x
t+h
m) (x
t
m)] = (h) , indpendant de t
Figure 1.1: Processus Non Stationnaire : Modle avec Rupture
-5
0
5
10
15
50 100 150 200 250
X
Sur la gure (1.1), est reprsente une simulation dun processus (x
t
, t Z) prsentant une
rupture de moyenne partir de la date t
0
= 125, avec (
t
, t Z) i.i.d. (0, 2) :
x
t
= 3 +
t
t < t
0
x
t
= 10 +
t
t t
0
Ce processus est par dnition non stationnaire (condition sur le moment dordre un) et lon
vrie bien sur la gure (1.1) que la ralisation de la moyenne empirique (estimateur convergent de
lesprance) dpendra alors de lchantillon considr (avant t
0
, ou aprs t
0
). Dans ce cas, la non
stationnarit provient de la rupture du modle, ou plus gnralement de la non linarit.
Un autre exemple de processus non stationnaire est celui du processus suivant :
x
t
= 1 + 0.05t +
t
avec
t
i.i.d.N (0, 1) . Dans ce cas, le processus x
t
correspond la somme dune fonction linaire du
temps, f (t) = 1 + 0.05t et dun bruit blanc.
Figure 1.2: Processus Non Stationnaire : Trend Dterministe
-5
0
5
10
15
20
50 100 150 200 250
Y
On voit clairement sur le graphique (1.2) que ce processus ne satisfait pas la seconde condition
de la dnition de la stationnarit du second ordre. En eet E(x
t
) = 1 + 0.05t croit avec le
temps, chaque date la variable alatoire x
t
, t Z a une esprance plus grande que celle de
x
t1
, x
t2
, ..., x
tj
... Dans ce cas, lorigine de la non stationnarit provient tout naturellement de
linclusion de la tendance (ou plus gnralement de la fonction du temps f (.)) dans la dnition
du processus (x
t
, t Z) . On dit que la non stationnarit est alors de type dterministe.
Mais il existe dautres sources de non stationnarit. Considrons le processus suivant, que lon
qualie gnralement de marche alatoire pure (Random Walk Process) ou marche alatoire sans
drive :
x
t
= x
t1
+
t
(1.1)
avec
t
i.i.d.N
_
0,
2
_
. A priori dans ce cas, la non stationnarit nest pas de type dterministe,
puisque le processus x
t
ne comporte pas de fonction dterministe du temps (gure 1.3). Pourtant
ce type de processus est aussi non stationnaire. Cherchons donc dterminer lorigine de cette non
stationnarit. Le processus (x
t
, t Z) peut se rcrire sous la forme :
x
t
=
t
+
t1
+
t2
+... +
tj
+...
=

j=0
tj
(1.2)
Ds lors, connaissant les proprits du bruit blanc
t
, on montre que :
E(x
t
) = E
_
_

j=0
tj
_
_
=

j=0
E(
tj
) = 0 (1.3)
Donc le processus x
t
, t Z a une esprance nulle et donc satisfait la seconde condition de la
dnition de la stationnarit. Mais il ne satisfait pas la premire condition puisque :
V (x
t
) = V
_
_

j=0
tj
_
_
=

j=0
V (
tj
) =

j=0
(1.4)
La variance de x
t
est non convergente. De plus, si lon avait dnie une condition initiale
x
0
, alors la variance de x
t
, dnie par V (x
t
) =

t1
j=0
= t
2
serait fonction de t. La troisime

condition de la stationnarit faible est alors viole. Le processus (x
t
, t Z) est donc un processus
non stationnaire. Pourtant, lexamen dune ralisation quelconque de ce processus (gure 1.3) ne
permet pas a priori de dire que cette variable est non stationnaire. On sent dores et dj, la
ncessit de proposer des tests de lhypothse de stationnarit.
Figure 1.3: Processus Non Stationnaire : Marche Alatoire Sans Drive
-15
-10
-5
0
5
10
15
50 100 150 200 250
Z
Dans ce dernier cas, la non stationnarit du processus (x
t
, t Z) tient au fait que les chocs
t
saccumulent au cours du temps, ce qui accrot la variance de x
t
au fer et mesure que le temps
passe. Lorigine de la non stationnarit provient ici de laccumulation de chocs stochastiques
t
:
la non stationnarit peut donc tre de type stochastique. Le fait que la stationnarit puisse tre
de type dterministe ou stochastique nous amne prsent dnir la classe des processus TS
(Trend Stationary), qui correspondent une non stationnarit de type dterministe et la classe
des processus DS (Differency Stationary), qui correspondent une non stationnarit de type
stochastique. Cette distinction selon lorigine de la non stationnarit est essentielle tant sur le plan
statistique que sur le plan de lanalyse conomique.
1.1 Les processus TS
Commenons par dnir ce quest un processus TS pour Trend Stationary , selon la terminologie
propose par Nelson et Plosser (1982)
Denition 2 (x
t
, t Z) est un processus TS sil peut scrire sous la forme
x
t
= f (t) +z
t
(1.5)
o f (t) est une fonction du temps et z
t
est un processus stochastique stationnaire.
Dans ce cas, le processus x
t
scrit comme la somme dune fonction dterministe du temps
et dune composante stochastique stationnaire, ventuellement de type ARMA. Ds lors, il est
vident que le processus ne satisfait plus la dnition de la stationnarit du second ordre. En eet,
on montre immdiatement que E(x
t
) = f (t) +z o z = E(z
t
) , dpend du temps, ce qui viole la
seconde condition de la dnition dun processus stationnaire.
Lexemple le plus simple dun processus TS est celui dune tendance linaire perturbe par un
bruit blanc. On pose f (t) = a
0
+a
1
t et z
t
=
t
:
x
t
= a
0
+a
1
t +
t
(1.6)
avec (a
0
, a
1
) R
2
,
t
i.i.d.
_
0,
2
_
. Dans ce cas, on vrie que le processus x
t
est non stationnaire
puisque lesprance, E(x
t
) = a
0
+a
1
t, dpend de t. En revanche, le processus y
t
dni par lcart
entre x
t
et la composante dterministe f (t) = a
0
+ a
1
t, est quand lui stationnaire : y
t
=
x
t
a
0
+a
1
t =
t
est un bruit blanc, par dnition stationnaire.
Une des proprits importantes de ce type de processus rside dans linuence des innovations
stochastiques
t
. En eet, nous allons montrer que lorsque un processus TS est aect par un choc
stochastique, leet de ce choc tend disparatre au fer et mesure que le temps passe : cest la
proprit de non persistance des chocs. De faon plus formelle, cette proprit est la suivante :
Proprit 1. Linuence dun choc
t
une date T sur un processus x
t
dni par
x
t
= f (t) +z
t
avec z
t
stationnaire et E(z
t
) = 0, est transitoire. La tendance du modle tant
dterministe, aprs le choc
T
, la squence des x
t
converge ainsi vers sa valeur de
long terme dnie par f (t) . Il ny a pas de persistance des chocs.
Cela signie que lorsque lon a un processus TS, en cas de choc positif ou ngatif une date
donne, toutes choses gales par ailleurs, linuence de ce choc a tendance sestomper au cours
du temps. La variable considre rejoint alors sa dynamique de long terme dtermine par f (t).
Dans le cas o f (t) est une fonction ane du temps, la variable rejoint la tendance linaire de long
terme. Cette proprit traduit lexistence dune tendance non stochastique, et qui donc ne prsente
pas de rupture ds lors que la fonction f (t) est continue. Economiquement, cela signie que la
trajectoire de long terme de la srie est insensible aux alas conjoncturels.
An dillustrer cette proprit considrons lexemple suivant o lon a introduit une structure
autorgressive dans la perturbation z
t
:
x
t
= a
0
+a
1
t +z
t
(1.7)
z
t
= z
t1
+
t
(1.8)
o (a
0
, a
1
) R
2
, || < 1 et
t
i.i.d.
_
0,
2
_
. Le processus z
t
est un AR(1) stationnaire, puisque
la racine associe son polynme autorgressif, gale 1/, est suprieure lunit en module.
Admettons que E(z
t
) = 0. Etudions prsent linuence du choc
t
une date T quelconque
sur la squence des (x
t
, t T) . Pour ce faire, appliquons la dcomposition de Wold au processus
stationnaire z
t
, il vient :
z
t
=

j=0
tj
On peut alors rcrire le processus x
t
sous la forme suivante :
x
t
= a
0
+a
1
t +

j=0
tj
Supposons qu la date T, on a ait une ralisation du choc
T
positive (
T
> 0) et quensuite
les chocs
t
pour t T soient nuls. A la date T, on a donc :
x
T
= a
0
+a
1
T +

j=0
Tj
A la date T + 1, les chocs
T+1
tant nul, on obtient :
x
T+1
= a
0
+a
1
(T + 1) +

j=1
T+1j
De faon gnrale, toute date T +k, k 0, le processus x
T+k
est dni par :
x
T+k
= a
0
+a
1
(T +k) +

j=k
T+kj
(1.9)
On peut alors montrer que plus le temps passe, cest dire plus k est lev, plus linuence
du choc
T
de la date T sestompe. Linuence de ce choc est donc transitoire. En eet, la
v.a.r. x
T+k
va converger vers sa valeur de long terme dnie par la tendance linaire f (.) . Pour
le montrer, il sut de considrer lcart entre x
T+k
et la valeur correspondante de la tendance
f (T +k) = a
0
+a
1
(T +k) et de montrer que cet cart converge vers 0 quand k tend vers linni.
On pose x
t
= x
t
f (t) . A la date T +k, on a x
T+k
= x
T+k
a
0
+a
1
(T +k) et daprs lquation
(1.9), cet cart la tendance linaire, peut se rcrire sous la forme :
x
T+k
=

j=k
T+kj
= lim
n
_
T
+
k+1
T1
+... +
k+n
Tn
_
(1.10)
Maintenant, voyons ce qui se passe lorsque lon sloigne de la date du dernier choc T, cest
dire lorsque k tend vers linni.
lim
k
x
T+k
= lim
k
_
lim
n
_
T
+
k+1
T1
+... +
k+n
Tn
__
(1.11)
Sous lhypothse que le processus z
t
est stationnaire, cest dire sous lhypothse que || < 1,
alors montre immdiatement que :
x
T+k
p
k
0 (1.12)
Ce rsultat signie que lorsque k tend vers linni, lcart entre le processus x
T+k
et la tendance
linaire, converge en probabilit vers 0. Ainsi, sous leet des chocs antrieurs la date T, on sest
loign de la tendance, mais lorsque le temps passe, leet de ces chocs sestompe et lon rejoint
la tendance de long terme. Ce rsultat illustre labsence de persistance des chocs, ou
labsence dhystrsis pour les processus TS.
Nous allons prsent raliser une exprience numrique pour illustrer cette proprit de non
persistance. On considre le processus x
t
= 1+0.05 t+z
t
avec z
t
= z
t1
+
t
o z
0
= 1, = 0.4 < 1
et
t
i.i.d. (0, 1) . Le prol gnral dune ralisation de ce processus est celui de la gure (1.2). Nous
allons prsent crire un petit programme sous Eviews dans lequel nous allons annuler toutes les
ralisations du choc
t
partir de la date T = 50, puis nous allons comparer les volutions du
processus x
t
et de la tendance dterministe f (t) = 1 + 0.05 t. Le programme
1
utilis sous Eviews
est le suivant :
1
Pour lancer ce programme, il convient au pralable de crer un Workle de type Undated or Irregular, de 1
100, puis de charger le programme (open program) ou de le taper (new program), et ensuite de lexcuter (Run).
- Cni.1io:i i.inii i cioc-

:ii 1 50
oi:nii =:n:
:ii 51 100
oi:nii =0
- Cni.1io:i i.co:io.:1i 1.1io::.ini z

:ii 1 100
oi:nz =1
:ii 2 100
oi:nz =0.4*z(-1)+ii
- Cni.1io:i i.1i:.:ci i
:ii 1 100
oi:ni =1+0.05*@1ni:(1)
- Cni.1io:i i.inii x
oi:nx=i+z
Ce programme dbute par la simulation dune ralisation des chocs tirs dans une loi normale
N (0, 1) par linstruction :n: sur la priode de 1 50, puis par lannulation des chocs pour t allant
de 51 100. Ensuite on construit une ralisation de la composante stationnaire z
t
. On commence
pour cela par initialiser la srie z
t
lunit (puisque z
0
= 1) sur lensemble de la priode, puis on
gnre un AR(1) grce linstruction z(-1) qui correspond aux valeurs retardes dune priode
de la srie z
t
. Enn, on cre la composante tendancielle dterministe f (t) laide de linstruction
@1ni:(:) qui permet de gnrer un trend prenant la valeur 0 la date N.
Figure 1.4: Illustration de la Proprit de Non Persistance des Chocs : Processus TS
-2
0
2
4
6
8
10 20 30 40 50 60 70 80 90 100
X F
Sur le graphique (1.4) on a report les deux sries i et x en crant un groupe sous Eviews. On
vrie sur cette gure qu partir de la date darrt des chocs (T = 50), la ralisation du processus
x
t
converge vers la tendance dterministe. Les chocs antrieurs la date T voient leur inuence
diminuer au fer et mesure que le temps passe. On vrie bien ici la proprit de non persistance
des chocs propre au processus TS.
1.2 Les processus DS
Comme nous lavons prcdemment mentionn, il existe une autre forme de non stationnarit,
provenant non pas de la prsence dune composante dterministe tendancielle, mais dune source
stochastique. Cest pourquoi nous allons prsent introduire la dnition des processus DS pour
Differency Stationnary.
Denition 3 Un processus non stationnaire (x
t
, t Z) est un processus DS (Differency
Stationnary) dordre d, o d dsigne lordre dintgration, si le processus ltr dni
par (1 L)
d
x
t
est stationnaire. On dit aussi que (x
t
, t Z) est un processus intgr
dordre d, not I (d) .
Ainsi, on peut dnir une classe de processus stochastiques qui ne satisfont pas les conditions
de la stationnarit, mais dont la dirence lordre d satisfait elle les proprits de la stationnarit.
Par exemple, si un processus z
t
nest pas stationnaire, on dit que ce processus est DS, intgr
dordre un, not I (1) , si le processus dni par la dirence premire z
t
= z
t
z
t1
est quant
lui stationnaire. De la mme faon, le processus z
t
est I (2) si le processus dni par la dirence
seconde (1 L)
2
z
t
= (1 L) z
t
= z
t
2z
t1
+z
t2
est stationnaire.
On comprend alors que la dnition des processus DS repose sur la prsence de racines unitaires
dans le polynme associ la dynamique autorgressive du processus.
Proprit 1. Un processus non stationnaire (x
t
, t Z) est un processus DS intgr
dordre d, not I (d) , si le polynme (L) dni en loprateur retard L, associ
sa composante autorgressive admet d racines unitaires :
(L) x
t
= z
t
avec (L) = (1 L)
d

(L) (1.13)
o z
t
est un processus stationnaire, et si les racines du polynme

(L) sont toutes
suprieures strictement lunit en module.
En eet, on pose (L) x
t
= z
t
avec (L) = (1 L)
d

(L) . Si lon admet que les racines du
polynme

(L) sont infrieures lunit en module, ce polynme est inversible. On peut alors
crire la dirence d
` eme
de x
t
sous la forme dune somme de valeurs retardes de z
t
, :
(1 L)
d

(L) x
t
= z
t
(1 L)
d
x
t
= (L) z
t
(1.14)
o (L) =

1
(L) . Si z
t
est un processus stationnaire, la somme pondre de ses valeurs passes
(L) z
t
est elle aussi stationnaire. Donc, en rsum, ds lors que le polynme autorgressif (L)
de x
t
admet d racines unitaires, la quantit (1 L)
d
x
t
est stationnaire, donc le processus x
t
est
I (d) .
Exi:iii : Considrons le processus ARMA(2, 2) suivant (L) x
t
= (L)
t
avec (L) =
_
1 2.5L + 1.5L
2
_
et (L) = (1 0.5L) , et
t
i.i.d.
_
0,
2
_
. On admet que x
t
est non stationnaire
et lon cherche dterminer si x
t
est un processus I (d) et quel est alors son degr dintgration.
Pour cela il sut de dterminer le nombre de racines unitaires de (L) . Soient
1
et
2
les racines
de (L) = 0, on a
1
= 1 et
2
= 2/3. Ds lors, le processus x
t
est I (1) , en eet :
(L) =
_
1
1
1
L
__
1
1
2
L
_
= (1 L)
_
1
3
2
L
_
(1 L)
d

(L)
o

(L) =
_
1
3
2
L
_
admet une racine
2
= 2/3 infrieure un en module.
Dans la classe gnrale des processus DS, un type de processus apparat de faon rgulire, si
bien que lon lui a attribu un nom particulier : la marche alatoire.
Denition 4 Une marche alatoire (Random Walk), ou martingale, est un processus
AR(1) intgr dordre un, not I (1) :
x
t
= (1 L) x
t
= c +
t
x
t
= c +x
t1
+
t
(1.15)
o
t
est un bruit blanc i.i.d.
_
0,
2
_
. Si c = 0, on parle dune marche alatoire pure
(Pure Random Walk).
Le terme de marche alatoire provient du fait que la ralisations du processus la date t, part
de lendroit o stait arrt x
t1
(la ralisation de x
t1
) et va dans une direction (le choc
t
)
totalement alatoire. Les processus de martingale sont ainsi souvent employs en nance, o sous
des proprits particulires (marchs complets etc..) ils permettent de caractriser le cours dun
actif et le rsultat selon lequel il ny a pas de meilleure prdicteur pour le cours de demain que le
cours daujourdhui.
Une des principales proprits des processus DS est lhystrsis ou la persistance des chocs.
Proprit 2. Linuence dune innovation
t
une date T sur un processus I (d)
(1 L)
d
x
t
= (L)
t
(1.16)
est permanente. On a ainsi une proprit de persistance des chocs ou dhystrsis.
Cela signie que, contrairement au cas des processus TS, les chocs alatoires
t
conservent une
inuence sur le niveau de la variable I (d) et cela jusqu linni des temps. Pour bien comprendre
cette proprit, nous allons considrer le cas dune marche alatoire avec drive :
x
t
= c +x
t1
+
t
(1.17)
o
t
i.i.d.
_
0,
2
_
. On sait que ce processus I (1) est, par dnition, non stationnaire, donc on
ne peut pas lui appliquer la dcomposition de Wold (cf. chapitre prcdent). Pour autant, rien
ne nous empche dexprimer x
t
sous la forme dune moyenne mobile innie dans les innovations
passes
tj
. En eet, on a x
t
= c + x
t1
+
t
, en substituant x
t1
par son expression on obtient
x
t
= 2c +x
t2
+
t1
+
t
. En itrant t fois cette substitution, on obtient nalement :
x
t
= x
0
+t.c +
t
j=1
j
(1.18)
On constate
2
partir de cette criture moyenne mobile innie que le processus (x
t
, t Z) cor-
respond une accumulation des chocs passs et prsent. Ds lors, un choc une date T quelconque
un impact permanent sur le niveau processus pour toutes les dates ultrieures. Supposons ainsi
pour simplier que c = 0 et quil ny ait quun seul choc
T
la date T (
t
= 0, t = T). Le
processus x
t
la date T est alors dni par x
T
= x
0
+
T
. Pour tout k 0, on a x
T+k
= x
0
+
T
.
Ds lors, lorsque k tend vers linni, le niveau du processus x
T+k
ne rejoint pas la valeur initiale
x
0
. Leet du choc est donc permanent.
Sur la gure (1.5), on a simul deux marches alatoires avec et sans drive, pour un chantillon
de taille 100. La premire not x
t
correspond au processus x
t
= x
t1
+
t
et la seconde au processus
y
t
= y
t1
+ 0.05 +
t
avec
t
i.i.d. N (0, 1) et x
1
= y
1
= 1. Le programme utilis sous Eviews est le
suivant :
- Cni.1io:i i.inii i::o\.1io:-

:ii 1 1000
oi:nii =:n:
2
On vrie au passage que la marche alatoire xt est non stationnaire puisque si lon suppose que la condition
initiale x0 est donne et exogne, on a :
E (x
t
) =
t
= x
0
+t.c (1.19)
lim
t
E
_
(xt
t
)
2
= lim
t
_
t
2
_
= (1.20)
(h) = E
_
(xt
t
)
_
x
th

th
_
=
2
min(t, t h) h Z (1.21)
Ds lors, les trois conditions de la stationnarit du second ordre sont violes. Ceci est vrai, mme si la constante c
est nulle puisque dans ce cas les premire (quation 1.20) et troisime conditions (quation 1.21) demeurent invalides.
Pour stationnariser la srie, il sut de lui appliquer le ltre (1 L)
d
, avec ici d = 1. En eet, (1 L) xt = t, o t
est un bruit blanc, donc la srie (1 L) x
t
est bien stationnaire.
- I:i1i.ii.1io: i inii
:ii 1 1000
oi:nx=1
oi:n.=1
- Cni.1io:i inii xi1 .

:ii 2 1000
oi:nx=x(-1)+ii
oi:n.=.(-1)+0.05+ii
:ii 1 1000
Le programme nappelle aucun commentaire particulier. Pour les deux ralisations obtenues
sur la gure (1.5), on constate qua priori il nexiste aucun phnomne de rattrapage vers une
quelconque tendance linaire de long terme pour ces deux processus. Mais en fait, nous verrons
que leur tendance est stochastique.
Figure 1.5: Simulations de Marches Alatoires
-20
0
20
40
60
80
200 400 600 800 1000
X Y
1.3 Processus DS ou TS : quels enjeux ?
A ce niveau de lexpos, on peut se demander quels sont les enjeux associs la distinction entre les
notions de non stationnarit dterministe et de non stationnarit stochastique. En eet aprs tout,
jusquen matrise les tudiants ont dj eu une certaine pratique de lconomtrie sans connatre la
notion de stationnarit. Alors, aprs tout, quest ce que cela change que les sries soient TS, DS
etc..., pourrait se demander ltudiant press de cliquer sur sa souris. Nous allons montrer que les
consquences sont doubles, sur le plan statistique et sur le plan conomique.
1.3.1 Consquences statistiques de la non stationnarit
Ce que nous allons montrer tout au long de ce chapitre, cest que si on lve lhypothse de sta-
tionnarit, et quen particulier on considre des processus de la classe DS, alors les principales
mthodes destimation et dinfrence deviennent non fondes.
Remarque Les proprits de stationnarit ou de non stationnarit des sries utilises
dterminent le type de modlisation et les proprits asymptotiques des mthodes
conomtriques correspondantes.
En dautres termes, le fait de savoir si la srie statistique est une ralisation dun processus
stationnaire, non stationnaire DS ou non stationnaire TS conditionne dune part le choix du
modle conomtrique qui doit tre utilis. Mais de faon plus fondamentale et insidieuse, cela
conditionne les proprits asymptotiques des estimateurs des paramtres de ce modle et donc par
consquent les proprits asymptotiques des statistiques des tests usuels sur les paramtres. Si le
processus est stationnaire on retrouve les proprits standard du cours dconomtrie de base, mais
si le processus est non stationnaire, et en particulier DS, on a alors des proprits asymptotiques
particulires.
Mais aprs tout, dira lconomtre cliqueur, moi les proprits asymptotiques des MCO et
des statistiques de test de Student cest pas mon problme ! Certes, mais lignorance de ces pro-
prits asymptotiques particulires peut conduire, par exemple dans le cas dun processus DS des
erreurs de diagnostics et des modlisations totalement fallacieuses. Prenons un exemple concret
: le seuil asymptotique de signicativit 5% dune statistique de Student dun test de nullit sur
un coecient. Tout conomtre, mme cliqueur, doit savoir que du fait de lapproximation de
la loi de Student par une loi normale N (0, 1) , ce seuil est asymptotiquement gal 1.96 dans le
cas standard. Ce seuil est en particulier valide dans le cas dune rgression entre deux processus
stationnaires. Or, nous allons montrer que lorsque lon rgresse deux processus I (1) , la loi asymp-
totique de la statistique de Student associ au test de la nullit du coecient estim nest plus une
loi de Student, ni une loi normale centre rduite. Ds lors, le fameux seuil 5% de 1.96 nest
plus valide. Si lconomtre cliqueur continue dutiliser ce seuil pour tablir son diagnostic ou sil
continue dutiliser les pvalues fournies par le logiciel dconomtrie sur la base dune distribution
normale, il peut commettre et il commettra souvent des erreurs de diagnostic. Ainsi, il acceptera
tort la signicativit dune variable ou au contraire il rejettera tort la signicativit dune autre.
Pour bien prendre la mesure des enjeux statistiques, nous allons mener une petite exprience
sous Eviews. On simule deux marches alatoires x
t
et y
t
qui nont aucun lien entre elles :
x
t
= x
t1
+
t
y
t
= y
t1
+
t
avec
t
N
_
0,
2
_
et
t
N
_
0,
2
_
. On pose T = 1000,
2
=
2
= 1. A partir de deux ralisations de

ces deux processus on estime le modle suivant par la mthode des MCO :
x
t
=
0
+
1
y
t
+
t
(1.22)
De faon thorique, on sait que
1
= 0, puisquil nexiste aucune corrlation thorique entre les
deux variables. Le programme sous Eviews est le suivant :
- Cni.1io:i inii i::o\.1io:-

:ii 1 1000
oi:niix=:n:
oi:nii.=:n:
- I:i1i.ii.1io: i inii
:ii 1 1000
oi:nx=1
oi:n.=1
- Cni.1io:i inii xi1 .

:ii 2 1000
oi:nx=x(-1)+iix
oi:n.=.(-1)+ii.
:ii 1 1000
- Rioniio:
i xc.
Les rsultats de lestimation sont reports sur la gure (1.6). On constate que si lon sen tient
la thorie standard et que la test la signicativit du coecient
1
, on conclut que
1
est dirent
de zro puisque la statistique de Student associe est trs largement suprieure au seuil 1.96 5%.
La variable y
t
est donc largement signicative, alors que les deux marches alatoires sont totalement
indpendantes.
Figure 1.6: Rgression de Deux Marches Alatoires
Cet exemple de simulations est ce que lon appelle une rgression fallacieuse (Spurious Regres-
sion). Dans la vraie vie, on peut ainsi multiplier cet exercice linni. Il sut de considrer deux
sries non stationnaires, par exemple deux sries possdant une tendance croissante relativement
similaire, et de les rgresser lune sur lautre. En appliquant les thories asymptotiques standards,
vous montrerez ainsi que la production de sous vtements fminins au Burkina Faso est une variable
explicative trs importante dans la dtermination du cours de laction Microsoft sur la place de
New York. Il ne restera plus alors qu trouver une justication conomique...
1.3.2 Consquences conomiques
Les consquences conomiques de lintroduction des processus DS furent toutes aussi importantes
que les consquences statistiques. La mise vidence de la non stationnarit dorigine stochastique
a tout dabord conduit une mise en cause gnrale des schmas de dcomposition tendance /
cycle. Ce type de dcomposition est utilise dans de nombreux champs de lconomie applique
(par exemple en nance dans le cadre de lanalyse chartiste etc..), mais plus particulirement en
macroconomie. En eet, en macroconomie applique, la dcomposition des principales sries,
comme le PIB, le taux de chmage, en une composante tendancielle et un cart conjoncturel est
trs souvent employe. Sur le plan thorique, elle se justie par la relative indpendance des thories
traditionnelles de la croissance par rapport aux thories des uctuations conjoncturelles, souvent
inspirs des thses keynsiennes ou montaristes. Jusqu la n des annes 80, les macroconomistes
eectuaient cette dcomposition laide de lextraction dune tendance dterministe des principales
sries macroconomiques.
Dans le cas du PIB, la tendance tait alors assimil au PIB potentiel, et les carts la tendance
estime correspondaient aux uctuations conjoncturelles, cest dire aux cycles conomiques (GNP-
gap). Or dj la suite de la crise conomique des annes 70, la rupture de rythme de croissance des
conomies occidentales, avait conduit sinterroger sur cette mthode de dcomposition, puisque
une composante tendancielle ane du temps ne permet pas de rendre compte de cette volution.
Les plus optimistes assimilaient le ralentissement conomique leet transitoire dun choc sur la
composante dcart conjoncturel. Pour dautres, au contraire, les annes 70 marquaient une rupture
de tendance dans le schma de croissance. Mais ds lors que lon autorise la prsence dune rupture
de tendance, on tend remettre en cause le statut dterministe de la composante tendancielle.
La date de rupture est elle alatoire ? Le phnomne de rupture peut il se reproduire ? Quel
aurait t la signication dune tendance dterministe prsentant des ruptures toutes dates ? La
rponse toutes ces questions est venue avec la remise en cause de lassimilation de la composante
tendancielle une composante dterministe et donc au choix de la mthode de dcomposition.
Lextraction dune tendance est en eet une mthode de stationnarisation propre aux processus
TS, et ne sapplique pas aux processus DS. Nous allons montrer dans ce chapitre que la rgres-
sion dun processus DS sur une tendance dterministe peut engendrer des rsultats totalement
fallacieux. Chan, Hayya et Ord (1977) furent les premiers mettre en vidence ce rsultat, ils
montrent en particulier que :
Llimination dune tendance linaire dune marche alatoire cre articiellement une
forte autocorrlation positive des rsidus dans les premiers retards, Chan, Hayya et
Ord (1977), p. 741.
Cela signie que si la srie tudie est DS, et en particulier une marche alatoire, le fait de la
rgresser sur une tendance, comme le faisaient lpoque les macroconomistes, va conduire une
forte autocorrlation, totalement fallacieuse, des rsidus, qui correspondent en fait la composante
dcarts conjoncturels dans la dcomposition tendance / cycle. Or cette autocorrlation dterminent
en fait les caractristiques cycliques des uctuations conjoncturelles. Nelson et Kang (1981, 1984),
partir de simulations, montrent ainsi que la composante conjoncturelle prsente une volution
pseudo priodique alors quaucun facteur nintervenait dans les processus gnrateurs de donnes.
Les cycles conomiques proviendraient ils dun artefact statistique ?
Lenjeu est important pour lanalyse conjoncturelle et la vision traditionnelle dune
dissociation entre cycle et croissance. A la limite, lexistence mme du phnomne
cyclique relverait-il de la construction articielle de sries en carts une tendance
dterministe ? Slutz et Wasserfallen (1985) trouvent en eet que les cycles disparaissent
dans plusieurs conomies de lOCDE lorsque les sries dactivit sont considres comme
DS et non comme TS. On mesure de ce fait limportance que revt la possibilit de tests
spciques de la nature des sries macroconomiques, Hnin (1989), p. 666.
La question qui se pose prsent est de savoir, si les principales sries utilise en macroconomie
sont issues de processus DS ou de processus TS. Aprs tout, si la non stationnarit stochastique est
un phnomne marginal, le rsultat de Chan, Hayya et Ord naurait que peu dimportance. Ainsi,
Nelson et Plosser (1982) furent les premiers appliquer de faon systmatique un ensemble de tests
3
de lhypothse de racine unitaire, cest dire de tests de lhypothse DS, un ensemble de 14 sries
macroconomiques amricaines annuelles sur des dures de 60 ans un sicle et se terminant en
1970. Ils considrent le PNB rel, le PNB nominal, le PNB par tte, la production industrielle,
diverses sries de prix, de salaires et de rendement, la monnaie et sa vitesse de circulation ainsi
que le taux de chmage. A la seule exception du taux de chmage, les tests eectus ne permettent
pas de rejeter lhypothse de sries DS. Ainsi, lexception du taux de chmage, toutes les sries
macroconomiques amricaines sont issues de processus DS et non TS. Des conclusions similaires
ont t obtenues pour la plupart des pays de lOCDE.
Les conclusions de Nelson et Plosser (1982) ont trois principales consquences : la premire cest
que la prsence de racines unitaires implique que, pour une part au moins, les impulsions conjonc-
turelles sont constitues de chocs permanents. Linuence dun choc aecte de faon permanente
le niveau de la variable observ, cest la proprit de persistance des chocs des processus DS. Une
telle proprit peut par exemple expliquer labsence de phnomne de rattrapage sur le PNB
aprs le choc des annes 70. Les sries comporte alors des tendances stochastiques. La seconde
consquence est que la plus grande part de la variabilit conjoncturelle aurait son origine dans la
tendance stochastique de lconomie, cest dire dans les ralisations du processus de croissance
lui mme. La troisime implication fut notamment lorigine du courant de pense de nouvelle
conomie classique ou des cycles rels (RBC pour Real Busisnes Cycles) : si lon assimile, comme
dans le keynsianisme de la synthse, les chocs de demande des chocs transitoires, il faut alors in-
terprter comme chocs dore les impulsions permanentes qui dominent la variabilit conjoncturelle
des sries macroconomiques amricaines.
3
Les tests de Dickey Fuller et de Dickey Fuller Augments utiliss par les auteurs seront prsents dans les sections
3 et 4 de ce chapitre.
2 Elments de thorie asymptotique pour les processus I (1)
On cherche prsent connatre les proprits asymptotiques destimateurs usuels comme les
MCO dans des modles conomtriques incluant des sries intgres. Nous nous au limiterons au
cas de sries intgres dordre 1, not I (1). Ces proprits nous permettront de non seulement
comprendre les modications des proprits asymptotiques des MCO dans le cadre de rgressions
avec variables I (1) , mais aussi de construire des tests de lhypothse de non stationnarit.
2.1 Mouvement Brownien et Thorme Central Limite Fonctionnel
Dans cette section, nous introduirons la notion de mouvement Brownien, ou processus de Wiener,
puis nous prsenterons le thorme central limite fonctionnel.
2.1.1 Mouvement Brownien
La dnition dun mouvement Brownien est la suivante :
Denition 5 Un mouvement Brownien standard W (.) est un processus stochastique en
temps continu qui chaque date t [0, 1] associe le scalaire W (t) tel que
(i) W (0) = 0
(ii) Pour toutes dates 0 t
1
t
2
... t
k
1, les accroissements correspondants
[W (t
2
) W (t
1
)] , [W (t
3
) W (t
2
)] ,...et [W (t
k
) W (t
k1
)] sont indpendants et distribus
selon une loi normale N(0, s t)
(iii) Pour toutes ralisations, W (t) est continu en t avec une probabilit de 1.
Un processus stochastique en temps continu W (.) associe toute date t R
+
une variable
alatoire W (t) , alors quun processus en temps discret nest dni que pour des indices de temps
entiers, t N. Cest pourquoi, on distingue gnralement la notation des indices pour ces deux types
de processus : un indice en subscript pour les processus en temps discret, Y
t
, et un indice entres
parenthses pour un processus en temps continu W (t) . Un processus en temps discret est ainsi
reprsent par une squence dnombrable de variables alatoires {Y
t
}
t=1
, tandis que la ralisation
dun processus en temps continu correspond une fonction stochastique W (.) , t [0, [ R
1
.
Le mouvement Brownien est un processus en temps continu particulier, dont les ralisations
W (t) sont dnies de faon continue sur t [0, 1], et donc les accroissements sont indpendants et
distribus selon une loi normale. On comprend ainsi, que bien que W (t) soit continu en t, cette
quantit ne peut pas tre direncie en utilisant les techniques usuelles, puisque laccroissement
entre les dates t et t+ peut aller dans nimporte quel direction et prendre nimporte quelle valeur,
et cela dautant plus que est trs petit.
2.1.2 Thorme central limite fonctionnel
On considre une Nous avons vu que lorsquune srie est intgre dordre un, linuence des chocs
est persistante. Ds lors, si lon suppose par exemple que les ralisations des innovations dun
processus x
t
sont toutes positives, le processus considr a un comportement explosif, au sens o la
squence des x
t
diverge lorsque T tend vers linni.
Soit x
t
un processus I (1) observ sur les dates t = 1, ., T. On sait que x
t
explose quand T
tend vers linni. On a donc ici une dirence entre lindice du processus et la dimension T qui
tend vers linni. On commence donc par se ramener un indice de temps unique tendant vers
linni.
Denition 6 Si lon pose t = T.
t
T
= [r.T] o [.] dsigne la partie entire, on a :
x
t
= x
[r.T]
(2.23)
avec r =
t
T
[0, 1] . On a ainsi concentr le temps et x
[r.T]
est dite srie concentre.
Prenons lexemple dun processus {x
t
}
T
t=0
avec T = 4. On cherche donc changer lindice de
temps de la squence de la faon suivante :
1 = [T.r] r =
1
4
2 = [T.r] r =
1
2
3 = [T.r] r =
3
4
4 = [T.r] r = 1
On peut donc changer lindice de temps de la squence {x
0
, x
1
, x
2
, x
3
, x
4
} de la faon suivante
_
x
[T.0]
, x
[T
1
4
]
, x
[T
1
2
]
, x
[T
3
4
]
, x
[T1]
_
ce qui revient poser
_
x
[Tr]
_
pour r =
_
0,
1
4
,
1
2
,
3
4
, 1
_
et T = 4.
Mais attention, la srie concentre x
[r.T]
est dnie pour un indice r continu sur [0, 1]. Ainsi, si
r < 1/4, alors [T.r] = 0, donc on a :x
[T.r]
= x
0
. Pour
4
r [1/4, 1/2[ alors [T.r] = 1, donc x
[T.r]
= x
1
.
La dnition du processus concentr x
[r.T]
pour r [0, 1] est donc la suivante :
x
[r.T]
=
_
_
x
0
x
1
x
2
x
3
x
4
r <
1
4
1
4
r <
1
2
1
2
r <
3
4
3
4
r < 1
r = 1
(2.24)
De plus, lorsque T tend vers linni lindice de la srie concentre x
[Tr]
, r [0, 1] converge lui
aussi vers linni.
4
Par exemple r = 0.3 [1/4, 1/2[ , on a [T.r] = [4.0.3] = [1.2] = 1.
En second lieu, il faut contrler la vitesse dexplosion de la srie. On sait que si x
t
est I (1) ,
ce processus explose en t
1/2
quand T tend vers linni. Mais de faon gnrale on note la
vitesse dexplosion dun processus qui explose en t
. On cherche alors contrler cette vitesse de

convergence de la faon suivante :
Denition 7 Si le processus x
t
explose en t
, > 0, on note :
X
T
(r) =
x
[Tr]
T
r [0, 1] (2.25)
On cherche alors caractriser X
T
(r) (qui est un processus index par un ensemble continu
sur r), lorsque T tend vers linni, pour tout r [0, 1] en choisissant de telle sorte que X
T
(r)
nait plus de comportement explosif en T. Pour cela nous allons prsent considrer lexemple de
la marche alatoire pure.
On considre un processus x
t
reprsent par une marche alatoire pure :
x
t
= x
t1
+
t
(2.26)
avec
t
i.i.d.
_
0,
2
_
. On pose x
0
= 0, ds lors on a x
t
=
t
j=1
j
. On sait que le processus x
t
explose
la vitesse T
1
2
. On dnit donc la srie suivante :
X
T
(r) = T
1
2
x
[Tr]
r [0, 1] (2.27)
Or, dans ce cas on montre que :
X
T
(r) = T
1
2
[T.r]
j=1
j
r [0, 1] (2.28)
En fait, le processus X
T
(r) correspond un processus en marche descalier. Pour tout r <
1
T
,
on a t = [r.T] = 0 et donc on a x
[T.r]
= x
0
Theorem 8 (Thorme Central Limite Fonctionnel TCLF) Soit v
t
un vecteur de dimension
n de variables alatoires i.i.d. (0, ) , avec = PP
. On pose, t = 1, .., T
u
t
= (L) v
t
=

s=0
s
v
ts
o les lments
s
ij
du polynme matriciel (L) vrient

s=0
s
s
ij
< i, j = 1, .., n. La
squence de fonctions stochastiques vectorielles
_
TX
T
(.)
_
T=1
dnies par
X
T
(r) =
1
T
[Tr]
t=1
u
t
r [0, 1]
a une distribution asymptotique dcrite par un mouvement Brownien vectoriel (n, n) standard, not
W
(.).
TX
T
(.)
L
T
(1) PW
(.)
o (1) PW
(r) est distribu suivant une loi normale N

_
0, r
_
(1) (1)
_
.
Dans le cas r = 1, on retrouve le TCL standard.
Theorem 9 (Continuous Mapping Theorem) Soit S
T
(.) une fonction stochastique telle que
S
T
(.)
L
S (.) et soit g (.) une fonctionnelle continue, alors g [S
T
(.)]
L
g [S (.)] .
2.2 Application aux processus I (1)
La premire utilisation du thorme central limite fonctionnel pour tablir les distributions asymp-
totiques de statistiques construites partir de processus I (1) est due Phillips (1986, 1978). On
se limitera ici ltude du cas simple dune marche alatoire. Pour ltude des processus dont
les innovations sont autocorrles, le lecteur pourra se rfrer Phillips (1986, 1978). Ces distri-
butions asymptotiques nous serons particulirement utiles pour la construction des tests de non
stationnarit et pour bien comprendre les enjeux statistiques de la non stationnarit statistique.
Lillustration la plus simple des rsultats de Phillips conduit tudier une marche alatoire
pure :
x
t
= x
t1
+
t
(2.29)
avec
t
i.i.d.
_
0,
2
_
. On suppose pour simplier que la condition initiale sur le processus (2.29) est
dterministe et nulle : x
0
= 0. Nous avons vu que dans ce cas l le processus en temps discret x
t
correspond laccumulation des chocs passs entre la date 1 et la date t :
x
t
=
1
+
2
+... +
t
(2.30)
A partir de la dnition du processus x
t
on peut dnir la fonction continue stochastique
X
T
(r) = x
[r.T]
/T en fonction dun indice de temps continu r [0, 1] :
X
T
(r) =
_
_
1
T
x
0
= 0
1
T
x
1
=

1
T
1
T
x
2
=
1
T
(
1
+
2
)
...
1
T
x
T
=
1
T
(
1
+.. +
T
)
0 r <
1
T
1
T
r <
2
T
2
T
r <
3
T
...
r = 1
(2.31)
La fonction stochastique X
T
(r), conditionnellement aux ralisations
1
,
2
, ...,
T
peut ainsi tre
reprsente sous la forme dune fonction en marches descalier, comme le montre lillustration
(2.7). Pour toutes les valeurs de r comprises entre 0 et 1/T, valeur exclue, les ralisations de
TX
T
(r) correspondent la condition initiale x
0
. Entre 1/T et 2/T, valeur exclue, les ralisations
de TX
T
(r) correspondent la ralisation
1
, et ainsi de suite. Pour les valeurs de r comprises entre
(T 1) /T et T, ralisations de TX
T
(r) correspondent la somme des ralisations de
1

T1
.
Figure 2.7: Illustration de la Forme des Ralisations X
T
(r)
Bien entendu, laire dnie par cette fonction en marches descalier correspond la somme de
laire de T rectangles. Le i
` eme
rectangle a une largeur gale 1/T et une longueur gale x
i1
/T,
et donc son aire est gale x
i1
/T
2
. Ds lors lintgrale de la fonction stochastique X
T
(r) est
quivalente la somme :
_
1
0
X
T
(r) dr =
x
0
T
2
+
x
1
T
2
+
x
2
T
2
+... +
x
T1
T
2
(2.32)
En multipliant les deux membres de cette galit par

T, on obtient :
T
_
1
0
X
T
(r) dr = T
3
2
T
t=1
x
t1
(2.33)
Or, daprs le thorme central limite fonctionnel on sait que :
TX
T
(.)
L
W (.) (2.34)
On dnie prsent une fonctionnelle continue g (.) , telle que g
_
TX
T
(r)
_
=
_
1
0
TX
T
(r) dr =
T
_
1
0
X
T
(r) dr, par application du continuous mapping theorem on obtient :
T
_
1
0
X
T
(r) dr
L
_
1
0
W (r) dr (2.35)
Ds lors, on peut tablir la distribution asymptotique de la somme de marches alatoires :
T
3
2
T
t=1
x
t1
L
_
1
0
W (r) dr (2.36)
Ce rsultat implique que pour une marche alatoire sans drive, la somme T
3
2

T
t=1
x
t1
con-
verge vers une variable alatoire de distribution normale N
_
0,
2
/3
_
dont la distribution peut tre
exprime comme une intgrale de ralisations de mouvements Browniens de variance
2
. Il est in-
tressant de rappeler ici que pour une marche alatoire sans drive, la moyenne empirique T

T
t=1
x
t
diverge.
De la mme faon, en utilisant le thorme central limite fonctionnel ainsi que le continuous
mapping theorem, on peut driver la distribution asymptotique de la plupart des moments em-
piriques dune marche alatoire. Ces rsultats sont rsums dans la proposition (10).
Proposition 10 On considre un processus x
t
satisfaisant une reprsentation AR(1)
non stationnaire I (1) telle que :
x
t
= x
t1
+
t
(2.37)
avec x
0
= 0 et o
t
i.i.d.
_
0,
2
_
. Les distributions asymptotiques des principaux mo-
ments empiriques de x
t
sont alors les suivantes :
T
1/2
T
t=1
t
L
W (1) (2.38)
T
1
T
t=1
x
t1
t
L
T
1
2
_
[W (1)]
2
1
_
(2.39)
T
3/2
T
t=1
t
t
L
W (1)
_
1
0
W (r) dr (2.40)
T
3/2
T
t=1
x
t1
L
_
1
0
W (r) dr (2.41)
T
2
T
t=1
x
2
t1
L
T

2
_
1
0
[W (r)]
2
dr (2.42)
T
5/2
T
t=1
t x
t1
L
_
1
0
r W (r) dr (2.43)
T
3
T
t=1
t x
2
t1
L
T

2
_
1
0
r [W (r)]
2
dr (2.44)
T
(v+1)
T
t=1
t
v
T
1/ (v + 1) v N (2.45)
o W (.) dsigne un mouvement Brownien standard.
Nous ne dmontrerons pas lensemble des ces convergences. Nous nous limiterons aux rsultats
(2.39) et (2.42). Commenons par le rsultat (2.42). Pour cela, on dnit une nouveau processus
en temps continu S
T
(r) tel que :
S
T
(r) T [X
T
(r)]
2
r [0, 1] (2.46)
Ce nouveau processus S
T
(r) correspond en fait la somme partiel des carrs des innovations
t
puisque :
S
T
(r) =
_
_
1
T
x
2
0
= 0
1
T
x
2
1
=
1
T
2
1
1
T
x
2
2
=
1
T
(
1
+
2
)
2
...
1
T
x
2
T
=
1
T
(
1
+.. +
T
)
2
0 r <
1
T
1
T
r <
2
T
2
T
r <
3
T
...
r = 1
(2.47)
En faisant le mme raisonnement que prcdemment, on montre que :
T
2
T
t=1
x
2
t1
=
x
2
0
T
2
+
x
2
1
T
2
+
x
2
2
T
2
+... +
x
2
T1
T
2
=
_
1
0
S
T
(r) dr (2.48)
Daprs le thorme central limite fonctionnel on sait que :
TX
T
(.)
L
W (.)
On dnit prsent une fonctionnelle continue g (.) , telle que toute ralisation S
T
(r) =
T [X
T
(r)]
2
=
_
TX
T
(r)
_
2
on associe g [S
T
(r)] =
_
1
0
S
T
(r) dr =
_
1
0
_
TX
T
(r)
_
2
dr. Par applica-
tion du continuous mapping theorem on obtient :
_
1
0
S
T
(r) dr =
_
1
0
_
TX
T
(r)
_
2
dr
L
T
g [
W (r)]
_
1
0
[
W (r)]
2
dr
Daprs ce rsultat, en reprenant lgalit (2.48), on dmontre nalement le rsultat (2.42) :
T
2
T
t=1
x
2
t1
=
_
1
0
S
T
(r) dr
L
T

2
_
1
0
[W (r)]
2
dr (2.49)
Dmontrons prsent le rsultat (2.39) de la proposition (10) selon lequel :
T
1
T
t=1
x
t1
t
L
T
1
2
_
[W (1)]
2
1
_
(2.50)
Pour cela il convient tout dabord de transformer le moment empirique

T
t=1
x
t1
t
. Pour cela,
on utilise le rsultat suivant :
_
T
t=1
t
_
2
=
T
t=1
2
t
+ 2
T
t=1
_
_
t1
j=1
j
_
_
t
(2.51)
Etant la dnition de la marche alatoire x
t
, on sait que x
t
=
T
t=1
t
puisque x
0
= 0. Ds lors
cette galit peut se rcrire sous la forme suivante :
x
2
T
=
T
t=1
2
t
+ 2
T
t=1
x
t1
t
On en dduit alors une nouvelle expression du moment empirique qui nous intresse, savoir
T
t=1
x
t1
t
:
_
1
T
_
T
t=1
x
t1
t
=
_
1
2
__
1
T
_
x
2
T

_
1
2
__
1
T
_
T
t=1
2
t
(2.52)
Etudions la convergence de ces dirents lements. Commenons par la quantit T
1
T
t=1
2
t
.
En utilisant la loi des grands nombres (cf. chapitre 1), on sait que si
t
est i.i.d.
_
0,
2
_
alors cette
quantit, qui est tout simplement le moment empirique dordre deux des
t
, converge en probabilit
vers le moment thorique dordre deux, savoir la variance
2
:
_
1
T
_
T
t=1
2
t
p
T

2
(2.53)
Reste le premier lments de lquation (2.52). En reprenant la dnition du processus en
temps continu S
T
(.) , on montre immdiatement que T
1
x
2
T
= S
T
(1)
_
TX
T
(1)
_
2
. Daprs
le thorme central limite fonctionnel, on sait que

TX
T
(1) converge en loi vers
W (1) . Ds
lors, on dnit une fonctionnelle g (.) qui toute ralisation

TX
T
(r) associe g
_
TX
T
(r)
_
=
_
TX
T
(r)
_
2
= S
T
(r) . Par application du continuous mapping theorem on montre alors que S
T
(1)
converge en loi vers
2
[W (1)]
2
. Finalement, on montre ainsi que :
_
1
T
_
x
2
T
= S
T
(1)
L
T
g [S
T
(1)]
2
[W (1)]
2
(2.54)
En reprenant les rsultats (2.53) et (2.54), ainsi que lexpression (2.52) du moment empirique
on retrouve le rsultat (2.39) de la proposition (10) :
_
1
T
_
T
t=1
x
t1
t
=
_
1
2
__
1
T
_
x
2
T

_
1
2
__
1
T
_
T
t=1
2
t
L
T
_
2
_
[W (1)]
2
2
_
(2.55)
Rappelons que la ralisation W (1) , cest dire la ralisation dun mouvement Brownien la
date 1, a une distribution N (0, 1) . Cela signie que la variable alatoire [W (1)]
2
a une distribution
2
(1) .
Ltude de ces distributions asymptotiques nous permet en particulier de dnir les vitesses de
convergence des dirents moments empiriques de la marche alatoire. Cette vitesse est reprsent
par la puissance de T pour laquelle un processus T
z
t
converge en probabilit vers une valeur
nie.
Denition 11 Une squence de variable alatoire {z
t
}
t=1
est dite Op (T
), si pour tout
> 0, il existe une valeur nie M telle que :
P
_
z
T
T
> M
_
< (2.56)
En appliquant cette dnition aux rsultats de la proposition (10), on dtermine les vitesses de
convergence des dirents moments empiriques :
Proposition 12 Les vitesses de convergence des moments empiriques dune marche
alatoire sont les suivantes :
T
t=1
t
= Op
_
T
1
2
_

T
t=1
x
t1
t
= Op (T)
T
t=1
t
t
= Op
_
T
3
2
_

T
t=1
x
t1
= Op
_
T
3
2
_
T
t=1
x
2
t1
= Op
_
T
2
_
T
t=1
t x
t1
= Op
_
T
5
2
_
T
t=1
t x
2
t1
L
T
= Op
_
T
3
_
Ltudiant intress devra outre la proposition (10), tudier le cas o les innovations
t
sont
autocorrls et le cas vectoriel, o x
t
dsigne un vecteur dobservation de n variables.
2.3 Les rgressions fallacieuses
Maintenant que nous avons tabli les distributions asymptotique dun certain nombre de moments
empiriques associs une marche alatoire, on peut sintresser aux proprits asymptotiques des
estimateurs des MCO et des principales statistiques de tests usuelles lorsque le modle comprend
des variables I (1) . Nous allons en particulier tudier le cas des rgressions fallacieuses (Spurious
Regressions). De faon gnrale, on a le rsultat suivant :
Denition 13 On considre une rgression de la forme y
t
= x
t
+
t
o x
t
et y
t
dsigne
deux variables I (1) . On suppose quil nexiste aucune valeur de telle que le rsidu
t
= y
t
x
t
soit I (0). Alors lestimateur des MCO, appliqu ce modle, conduit
une phnomne de rgression fallacieuse.
Ce phnomne a t mis en vidence partir dexpriences de Monte Carlo par Granger et
Newbold (1974) et fut plus tard expliqu thoriquement par Phillips (1986). Que ce passe-t-il dans
le cas des rgressions fallacieuses ? Nous allons montrer que bien que les estimateurs des MCO
soient convergents, la plupart des statistiques de tests usuelles nont plus une distribution standard.
Ds lors, on comprend les enjeux statistiques associs la non stationnarit : si lon applique les
thories usuelles dans des congurations de rgressions fallacieuses, on pourra montrer sans aucun
problme que la production de sous vtements fminins au Burkina Faso est une variable explicative
trs importante dans la dtermination du cours de laction Microsoft sur la place de New York....
Nous allons tout dabord tudier ce phnomne sur le plan thorique avant de mener des expriences
de Monte Carlo.
2.3.1 Distributions asymptotiques dans le cas des rgressions fallacieuses
Montrons prsent comment, dans le cas dune rgression fallacieuse, les proprits asymptotiques
des estimateurs et des statistiques de tests usuelles sont aectes. Pour cela nous allons considrer
un petit modle extrmement simple.
Hypothses (H
1
) On considre deux marches alatoires pures sans aucun lien :
x
t
= x
t1
+
t
(2.57)
y
t
= y
t1
+
t
(2.58)
avec x
0
= y
0
= 0, et
t
i.i.d.
_
0,
2
_
,
t
i.i.d.
_
0,
2
_
. On suppose que les innovations
des processus x
t
et y
t
sont totalement indpendantes : E(
t
s
) = 0, (s, t) .
Supposons quun conomtre tourdi rgresse la variable x
t
sur la variable y
t
, sans avoir au
pralable diagnostiquer la non stationnarit de ces deux processus et labsence de relation stable
entre les deux sries. Notre conomtre va donc eectuer la rgression :
y
t
=
0
+
1
x
t
+
t
(2.59)
Nous sommes ici dans une conguration de rgression fallacieuse. Etudions le comportement
asymptotitque des estimateurs des MCO,

0
et

1
ainsi que le comportement asymptotique de la
statistique de Student associe au test H
0
:
1
= 0. Rappelons au passage, que puisque les deux
variables x
t
et y
t
nont aucun lien, on a
1
=
0
= 0.
Commenons par tudier le comportement des estimateurs

0
et

1
. Daprs la dnition des
estimateurs de MCO du modle (2.59), on a :
_

1
_
=
_
_
_
_
T
T
t=1
x
t
T
t=1
x
t
T
t=1
x
2
t
_
_
_
_
1
_
_
_
_
T
t=1
y
t
T
t=1
x
t
y
t
_
_
_
_
(2.60)
Essayons prsent dtudier la vitesse de convergence des dirents lements des estimateurs
0
et

1
. Llment T diverge la vitesse T, il est Op (T). Concernant llment

T
t=1
x
t
, on a :
T
t=1
x
t
=
T
t=1
x
t1
+x
T
=
T
t=1
x
t1
+
T
t=1
t
(2.61)
Nous avons vu dans la section prcdent que
T
t=1
t
= Op
_
T
1
2
_
et que
T
t=1
x
t1
= Op
_
T
3
2
_
.
Il convient donc de dater

T
t=1
x
t
par T
3/2
pour obtenir une distribution non divergente :
T
3/2
T
t=1
x
t
= T
3/2
T
t=1
x
t1
+T
1
_
T
1/2
T
t=1
t
_
= T
3/2
T
t=1
x
t1
+T
1
.Op
_
T
1
2
_
Cela signie que la quantit droite de cette expression converge en probabilit vers 0, lorsque
T tend vers linni :
T
1/2
T
t=1
t
L
W (1) T
1
_
T
1/2
T
t=1
t
_
p
T
0
Ainsi la quantit T
3/2
T
t=1
x
t
converge vers la mme limite que T
3/2
T
t=1
x
t1
. Ds lors, en
utilisant la proposition (10), on montre que :
T
3/2
T
t=1
x
t
L
_
1
0
W
1
(r) dr (2.62)
De la mme faon, on montre que :
T
3/2
T
t=1
y
t
L
_
1
0
W
2
(r) dr (2.63)
o W
1
(.) et W
2
(.) sont deux mouvement Browniens standards indpendants.
Concernant llment

T
t=1
x
2
t
de la dnition des MCO, on sait que :
T
t=1
x
2
t
=
T
t=1
x
2
t1
+x
2
T
=
T
t=1
x
2
t1
+
_
T
t=1
t
_
2
(2.64)
Par un raisonnement analogue au prcdent, sachant que

T
t=1
x
2
t1
= Op
_
T
2
_
, il convient de
dater

T
t=1
x
2
t
par T
2
pour obtenir une distribution non divergente :
T
2
T
t=1
x
2
t
= T
2
T
t=1
x
2
t1
+T
1
_
T
1/2
T
t=1
t
_
2
= T
2
T
t=1
x
t1
+T
1
.
_
Op
_
T
1
2
__
2
De la mme faon, on montre que la quantit T
2
T
t=1
x
2
t
converge vers la mme limite que
T
2
T
t=1
x
2
t1
. Ds lors, en utilisant la proposition (10), on montre que :
T
2
T
t=1
x
2
t1
L
T

2
_
1
0
[W
1
(r)]
2
dr (2.65)
o W
1
(.) dsigne le mouvement Brownien prcdemment dni.
Il ne reste plus enn qu tudier la convergence de llment
T
t=1
x
t
y
t
. On admettra le rsultat
suivant :
T
2
T
t=1
x
t
y
t
L
_
1
0
W
1
(r) W
2
(r) dr (2.66)
o W
1
(.) et W
2
(.) sont les deux mouvement Browniens prcdemment dnis.
Nous avons prsent lensemble des lements ncessaires la dtermination de la distribution
asymptotique des estimateurs

0
et

1
. Il sut pour cela dquilibrer lquation (2.60) dans les
termes en T, aprs avoir contrler la vitesse de convergence de chaque lment
5
. On obtient alors
la distribution asymptotique des estimateurs

0
et

1
.
Proposition 14 Sous les hypothses (2.3.1), les estimateurs des MCO ,

0
et

1
,
obtenus dans le modle :
y
t
=
0
+
1
x
t
+
t
(2.67)
ont pour distribution asymptotique :
_
T
1
2
1
_
=
_
_
_
_
T
1
.T T
3
2
T
t=1
x
t
T
3
2
T
t=1
x
t
T
2
T
t=1
x
2
t
_
_
_
_
1
_
_
_
_
T
3
2
T
t=1
y
t
T
2
T
t=1
x
t
y
t
_
_
_
_
(2.68)
L
T
_
1
_
1
0
W
1
(r) dr
_
1
0
W
1
(r) dr
2
_
1
0
[W
1
(r)]
2
dr
_
1
_

_
1
0
W
2
(r) dr
_
1
0
W
1
(r) W
2
(r) dr
_
En explicitant les termes de la proposition (14), on montre en particulier que :
1
L
T
h
1
=
_
_
_
_
_
_
1
0
W
1
(r) W
2
(r) dr
_
1
0
W
1
(r) dr
_
1
0
W
2
(r) dr
_
1
0
[W
1
(r)]
2
dr
_
_
1
0
W
1
(r) dr
_
2
_
_
_ (2.69)
5
En eet, T R
+
, et (a, b, c, d, e, f) R
6
tels que ad = c
2
, on a :
_
T
1
a T
3
2
c
T
3
2
c T
2
d
_
1 _
T
3
2
e
T
2
f
_
=
_
de+cf
T(ad+c
2
)
ce+af
ad+c
2
_
On remarque que la loi asymptotique de lestimateur

1
est non standard, pour autant cette
estimateur demeure convergent puisque on peut montrer que la distribution h
1
est quivalente
une loi normale centre sur 0. En moyenne, lestimateur

1
est donc nul, ce qui est logique compte
tenu de la dnition du modle. Mais attention cela ne signie pas que la ralisation de

1
est nulle.
Or, lconomtre tourdi partir de la ralisation de

1
va eectuer un test de signicativit pour
tester si le paramtre
1
est nul. Reste donc savoir si le test de Student
1
= 0 ne va pas conduire
lconomtre un mauvais diagnostic si ce dernier continue dappliquer la thorie standard et par
exemple le seuil de 1.96 5%. Par la suite, on notre h
0
la distribution asymptotique de T
1
2
0
.
Dterminons donc prsent la distribution de la statistique de Student, not t
1
, associe au
test de lhypothse
1
= 0, sachant que sous (2.3.1) cette hypothse est vraie. De faon standard,
la statistique t
1
est dnie de la faon suivante :
t
1
=

1
s
T
(
22
)
1
2
(2.70)
o s
2
T
=
_
T
t=1
2
t
_
/ (T 2) dsigne lestimateur de la variance des rsidus
t
et o
22
dsigne
llment de la deuxime colonne, deuxime ligne de la matrice (XX)
1
. En utilisant lcriture
(2.60), on montre que :
t
1
=
_

1
s
T
T
1
2
_
_
_
T
T
t=1
x
2
t

_
T
t=1
x
t
_
2
_
_
1
2
(2.71)
Commenons par dterminer la distribution asymptotique de s
2
T
et en particulier de la somme
des carrs des rsidus SCR
T
=
_
T
t=1
2
t
_
.
SCR
T
=
T
t=1
2
t
=
T
t=1
_
y
t
1
x
t
_
2
=
T
t=1
y
2
t

T
t=1
_
0
+
1
x
t
_
2
2
T
t=1
y
t
_
0
+
1
x
t
_
(2.72)
On sait que le premier lment de cette somme

T
t=1
y
2
t
est Op
_
T
2
_
. Dans le second lment,
la quantit

T
t=1
2
1
x
2
t
est aussi Op
_
T
2
_
, ainsi que la quantit

T
t=1
0
x
t
. Enn, dans le troisime
terme, seul la quantit

T
t=1
x
t
y
t
est Op
_
T
2
_
. Il faut donc diviser la somme des carrs des rsidus
par T
2
pour obtenir une distribution non divergente. En regroupant les termes croiss ayant une
vitesse de convergence gale T
2
, on obtient :
T
2
SCR
T
= T
2
_
T
t=1
y
2
t

2
1
T
t=1
x
2
t
2
0
T
t=1
x
t
2
1
T
t=1
x
t
y
t
_
+T
2+
Op ()
avec < 2. En utilisant les rsultats prcdents, on montre que :
T
1
s
2
T
=
SCR
T
T (T 2)
L
T
(2.73)
avec
=
2
_
1
0
[W
2
(r)]
2
dr h
1
_
1
0
[W
1
(r)]
2
dr
2h
0
_
1
0
W
1
(r) dr 2h
1
_
1
0
W
1
(r) W
2
(r) dr (2.74)
o h
0
et h
1
dsignent les distributions asymptotiques de

0
et de

1
, et o W
1
(.) et W
2
(.) sont
deux mouvement Browniens standards indpendants. Dores et dj, on peut faire la remarque
suivante :
Remarque Sous les hypothses (2.3.1), lestimateur s
2
T
de la variance des rsidus
t
dans le modle
y
t
=
0
+
1
x
t
+
t
(2.75)
diverge, puisque :
T
1
s
2
T
L
T
(2.76)
avec
=
2
_
1
0
[W
2
(r)]
2
dr h
1
_
1
0
[W
1
(r)]
2
dr
2h
0
_
1
0
W
1
(r) dr 2h
1
_
1
0
W
1
(r) W
2
(r) dr (2.77)
o h
0
et h
1

0
et de

1
, et o W
1
(.)
et W
2
Cette remarque signie que si lconomtre tourdi ne date pas lestimateur s
2
T
par T, il
obtiendra une ralisation dun processus divergent. Plus T sera important, plus s
2
T
sera grand.
Pour T tendant vers linni, s
2
T
diverge. Le problme cest que s
2
T
intervient dans la construction
de la statistique de Student. Ds lors, nous allons montrer que cette statistique diverge elle aussi.
En eet, reprenons lexpression (2.71) de la statistique de Student
t
1
=
_

1
s
T
T
1
2
_
_
_
T
T
t=1
x
2
t

_
T
t=1
x
t
_
2
_
_
1
2
(2.78)
On sait que s
T
est Op
_
T
1/2
_
,

1
est Op(1) ,
T
t=1
x
2
t
est Op
_
T
2
_
et que

T
t=1
x
t
est Op
_
T
3/2
_
.
En utilisant ces proprits, on contrle la vitesse de convergence des dirents lements de la faon
suivante :
t
1
=
_

1
_
T
1/2
s
T
_
T
1/2
T
1/2
_
_
_
T T
2
_
T
2
T
t=1
x
2
t
_
T
3
_
T
3/2
T
t=1
x
t
_
2
_
_
1
2
=
T
3/2
T
_

1
_
T
1/2
s
T
_
_
_
_
_
T
2
T
t=1
x
2
t
_
_
T
3/2
T
t=1
x
t
_
2
_
_
1
2
(2.79)
Ds lors, on constate immdiatement que pour obtenir une valeur non divergente de la statistique
de Student, celle-ci doit imprativement tre multipli par une facteur T
1/2
. Si lon ne multiplie
pas la statistique de Student par ce facteur, celle -ci diverge. Plus lchantillon est grand plus
les ralisations de la statistique de Student seront importantes. En eet, en utilisant les rsultats
asymptotiques prcdents, on tablit immdiatement la proposition suivante.
Proposition 15 Sous les hypothses (2.3.1), la statistique de Student associe au test
1
= 0, fonde sur lestimateur des MCO, dans le modle :
y
t
=
0
+
1
x
t
+
t
(2.80)
est divergente. On montre que :
T
1
2
t
1
=
_

1
_
T
1/2
s
T
_
_
_
_
_
T
2
T
t=1
x
2
t
_
_
T
3/2
T
t=1
x
t
_
2
_
_
1
2
L
T
_
h
1
_
_
_
1
0
[W
1
(r)]
2
dr
__
1
0
W
1
(r) dr
_
2
_
(2.81)
o h
0
et h
1

0
et de

1
, et o W
1
(.) et
W
2
Ainsi, si notre conomtre tourdi ne contrle pas la vitesse de convergence de la statistique
de Student, cest dire sil considre uniquement les ralisations de t
1
, il obtiendra ds lors des
ralisations dun processus qui diverge la vitesse T
1/2
. Pour un mme tirage de chocs, plus la
taille dchantillon sera importante, plus la ralisation de t
1
sera grande. Ds lors, si lconomtre
applique le seuil de signicativit standard de 1.96 5%, il aura de forte chance de rejeter tort
la nullit du paramtre , et ce dautant plus que la taille dchantillon est importante. Ainsi
si lon rgresse deux marches alatoires qui nont aucun lien, les tests usuels conduisent dans de
trs nombreux cas accepter tort la signicativit de la variable explicative. Cest que lon
a pu observer dans le tableau (1.6) o lon constate que la statistique de Student est gale
20 (T = 1000) alors que les deux sries non aucun lien. Voil pourquoi, si lon sen tient la
thorie usuelle des tests, la production de sous vtements fminins au Burkina Faso est une variable
explicative trs importante dans la dtermination du cours de laction Microsoft sur la place de New
York...
2.3.2 Exercices de Simulations
An de mieux comprendre la divergence de la statistique dans le cas dune rgression fallacieuse,
nous allons prsent mener un exercice de simulation. On simule 1000 ralisations des processus
{x
t
}
T
t=1
et {y
t
}
T
t=1
, pour une taille dchantillon T, selon le modle :
x
t
= x
t1
+
t
(2.82)
y
t
= y
t1
+
t
(2.83)
avec x
0
= y
0
= 0, et
t
i.i.d. N (0, 1) ,
t
i.i.d. N (0, 1) . Pour chaque pseudo chantillon, on eectue
la rgression :
y
t
=
0
+
1
x
t
+
t
et lon stocke la ralisation de la statistique de Student t
1
associe au test
1
= 0. On dispose
ainsi de 1000 ralisations de cette statistique partir desquelles on peut calculer un certain nombre
dindicateurs. Dans le programme, nous faisons varier la taille des chantillons qui est dabord xe
T = 5000, puis T = 1000, puis T = 500 et enn T = 100. Le programme utilis est report en
Annexe (A.1). Les rsultats sont reports dans le tableau (2.1)
Tableau 2.1: Rsultats des Simulations : t
1
T = 100 T = 500 T = 1000 T = 5000
Moyenne des t
1
0.03 0.45 0.47 0.54
Mdiane des t
1
0.17 0.73 0.32 4.14
Ecart Type 10.24 22.01 31.77 69.83
Moyenne des

8.06 17.40 24.46 55.74

Skewness 0.03 0.03 0.03 0.13
Kurtosis 3.03 3.05 3.46 2.81
P
_
> 1.96
_
0.83 0.93 0.94 0.98
Les rsultats sont obtenus partir de 1000 simulations.
On observe que plus la taille dchantillon crot, plus lcart type des ralisations augmente
tandis que la moyenne est peu prs stable. Cela signie que plus la taille augmente, plus les
ralisations sont importantes en valeur absolue, comme le conrme la quatrime ligne du tableau
(2.1). La valeur absolue de t
1
crot avec T, ce qui conrme notre rsultat thorique de divergence.
Cest pourquoi, notre conomtre tourdi sil applique les thories usuelles et sil compare la rali-
sation de

avec le seuil de 1.96 5%, rejettera dautant plus souvent lhypothse nulle
1
= 0
que la taille T sera importante. On constate, sur la dernire ligne du tableau, que le nombre de
ralisations de

suprieures au seuil de 1.96 crot avec T.

Les implications statistiques de la non stationnarit sont donc particulirement fortes, puisque
dans notre exercice pour T = 100, lconomtre tourdi rejettera dans prs de 83% de cas lhy-
pothse de nullit de
1
. Ainsi, notre conomtre aura 8 chances sur dix darmer que la variable
x
t
est signicative dans la rgression de y
t
sur x
t
, alors que les deux processus nont aucun lien.
Encore une fois, si lon sen tient la thorie usuelle des tests, la production de sous vtements
fminins au Burkina Faso est ainsi une variable explicative trs importante dans la dtermination
du cours de laction Microsoft sur la place de New York... Bien entendu, une telle conclusion ne
serait sans doute pas accept, si lon avait au pralable stationnaris les deux sries x
t
et y
t
en
les direntiant. Cest pourquoi la stationnarisation des sries est une tape fondamentale de la
modlisation conomtrique.
2.4 Consquences dune mauvaise stationnarisation du processus
Nous avons dans la section prcdente montrer quel point la stationnarisation des sries tait
importante pour viter de se retrouver dans la situation des rgressions fallacieuses. Reste dter-
miner quelle est la mthode de stationnarisation approprie suivant que la srie est DS ou TS.
Proposition 16 Pour stationnariser un processus TS, il convient de retirer la com-
posante dterministe f
t
en rgressant la srie x
t
sur la plan dni par les puissances
de t. Pour stationnariser un processus DS dordre d, il convient dappliquer le ltre
(1 L)
d
.
Par exemple, pour stationnariser le processus x
t
= a
0
+ a
1
t +
t
, il sut de rgresser x
t
sur
une constante et sur t pour obtenir un processus x
t
a
0
a
1
t stationnaire. Nous allons prsent
tudier les consquences dune mauvaise stationnarisation des processus.
2.4.1 Consquence sur un processus TS
Supposons que (x
t
, t Z) soit un processus TS dni par
x
t
= a
0
+a
1
t +
t
o
t
est un bruit blanc gaussien N
_
0,
2
_
. Supposons que lon applique, tort, au processus x
t
un ltre aux dirences premires. On dnit le processus x
t
tel que
x
t
= (1 L) x
t
= x
t
x
t1
On montre que
x
t
= a
1
+
t
t1
Cette criture implique que lapplication dun ltre aux dirences premires au processus
TS x
t
a conduit introduire une racine unitaire dans la partie moyenne mobile du processus
x
t
= (1 L) x
t
. Vrions si lapplication dun ltre aux dirences premires nous a permis
de dnir un processus x
t
stationnaire. Reprenons les trois conditions de la dnition de la
stationnarit du second ordre.
Convergence de E
_
(x
t
)
2
_
: On montre que E
_
(x
t
)
2
_
converge puisque
E
_
(x
t
)
2
_
= E
_
(x
t
x
t1
)
2
_
= E[a
1
+ (
t
t1
)]
2
= a
2
1
+E
_
(
t
t1
)
2
_
= a
2
1
+ 2
2
<
Moment dordre un : Montrons que E(x
t
) est indpendant de t
E(x
t
) = a
1
indpendant de t
Moments dordre deux : Dterminons la fonction gnratrice dautocovariance (h) du proces-
sus x
t
.
(h) = E{[x
t
E(x
t
)] [x
th
E(x
th
)]}
= E[(
t
t1
) (
th
th1
)]
Do lon tire que :
(h) =
_
_
_
2
2
0
h = 0
h = {1; 1}
sinon
(2.84)
On vrie que (h) est indpendant de t. Donc les trois conditions de la stationnarit du second
ordre sont vries. Le processus x
t
est stationnaire. Attention, rsultat nest pas gnral puisque
par exemple lapplication dun ltre lordre deux (1 L)
2
aurait conduit un processus
2
x
t
non
stationnaire. Mais mme si le processus x
t
est stationnaire, il ne correspond un bruit blanc.
Remarque 1. La direnciation dun processus TS conduit une autocorrlation fal-
lacieuse du rsidu du ltre.
En eet, la fonction gnratrice dautocovariance (h) ne correspond pas celle dun bruit
blanc. Donc le fait davoir direnci x
t
a introduit une autocorrlation dordre un de linnovation
du processus x
t
qui nexistait pas dans la composante stationnaire du processus x
t
a
0
a
1
t.
2.4.2 Consquence sur un processus DS
Supposons que (x
t
, t Z) soit un processus DS dni dordre un sans drive (Pure Random Walk)
x
t
= x
t1
+
t
(2.85)
o
t
est un bruit blanc gaussien N
_
0,
2
_
. Supposons que lon applique, tort, au processus x
t
une mthode de stationnarisation consistant rgresser la srie x
t
sur une constante et un trend
dterministe t. On considre donc le modle empirique suivant
x
t
=
0
+
1
t +
t
(2.86)
On devrait alors montrer que les estimateurs des MCO

0
et

1
convergent vers 0 et que les
t-statistiques (test de Student) associes sont gnralement non signicatives aux seuils standards.
Or nous allons voir prcisment que tel nest pas le cas. La distribution des t-statistiques est en
particulier divergente et une fois contrle par la vitesse de convergence, cette distribution est de
plus non standard.
Remarque 2. Lextraction dune tendance linaire dun processus DS conduit crer
articiellement une forte autocorrlation des rsidus aux premiers retards et donc
un mouvement pseudo-priodique des rsidus.
Considrons un petit exemple. Soit le processus x
t
= x
t1
+
t
o
t
suit une N (0, 1/4) . On
considre 1000 chantillons du bruit blanc
t
partir desquels sont construites 1000 pseudo sries
x
t
. Pour chacun de ces pseudo chantillons, on tudie la rgression :
x
t
=
0
+
1
t +
t
On obtient alors les rsultats suivants :
moyenne des

0
= 1.3081 moyenne des

1
= 0.0007. var(T
1
2
1
)
4
3
moyenne des

t
0
= 5.26 et moyenne des

t
1
= 2.34
P
_
> 1.96
_
= 93% et P
_
> 1.96
_
= 96% . Cela signie que si lon applique tort
les seuils de signicativit standard, dans plus de 90% des cas on rejette lhypothse de nullit
des coecients
0
et
1
.
Autocorrlation moyenne des rsidus
t
: ordre 1 : 0.9899, ordre 2 : 0.9799, ordre 3 : 0.9699,
ordre 10 : 0.9012.
Tout ceci montre limportance de bien choisir la mthode de stationnarisation des sries en
fonction de lorigine de la non stationnarit : DS ou TS Il convient donc prsent de prsenter des
tests qui nous permettent, tout dabord de vrier que les sries sont non stationnaires et dautre
part de discriminer entre les processus DS et TS : ce sont les tests de racine unitaire.
3 Un Test de Racine Unitaire : le Test de Dickey Fuller
Le test de Dickey Fuller simple (1979) est un test de racine unitaire (ou de non stationnarit) dont
lhypothse nulle est la non stationnarit dun processus autorgressif dordre un. Considrons un
processus (x
t
, t Z) satisfaisant la reprsentation AR(1) suivante :
x
t
= x
t1
+
t
(3.87)
avec
t
i.i.d.
_
0,
2
_
, et R. Le principe gnral du test de Dickey Fuller consiste tester
lhypothse nulle de la prsence dune racine unitaire :
H
0
: = 1 (3.88)
H
a
: || < 1 (3.89)
En eet, sous lhypothse nulle H
0
, le processus (3.87) se ramne une pure marche alatoire
(Random Walk Process). Lhypothse nulle teste correspond ainsi une hypothse de non sta-
tionnarit stochastique
6
. Ce test, comme tout test non symtrique, peut tre ralis de direntes
faons. La plus simple consiste utiliser une statistique de Student associe lhypothse H
0
.
En cela, le test de Dickey Fuller ne se distingue pas dun test quelconque dune hypothse non
symtrique. L o lapplication du test de Dickey Fuller dire de celle dun test standard, cest
dans la distribution asymptotique de la statistique de Student associe au test H
0
. En eet, nous
allons montrer que la distribution asymptotique de lestimateur des MCO du paramtre , sous
lhypothse de non stationnarit, est non standard. On na plus dans ce cas une distribution as-
ymptotique normale, comme en conomtrie de base. De la mme faon, la statistique de Student
associe au tests = 1, na pas une distribution asymptotique standard (distribution de Student
approxime par une distribution normale). Cest pourquoi, lapplication du test de Dickey Fuller
ncessite que lon utilise des seuils dirents de ceux que lon utilise traditionnellement pour des
statistiques de Student.
De plus, puisquun malheur narrive jamais seul, nous montrerons que la distribution asympto-
tique de la statistique de Student associe au test H
0
, nest pas la mme suivant que dans le modle
(3.87) on inclut ou non, une constante et un trend dterministe. Ds lors, puisque a priori, on
se sait pas si lon doit inclure cette constante et ce trend, il convient dappliquer non pas un test
simple, mais une stratgie de tests de Dickey Fuller.
6
Cest pourquoi le test de Dickey Fuller, contrairement dautres tests que nous verrons par la suite, est un test
de non stationnarit, et non pas un test de stationnarit.
3.1 Des distributions asymptotiques non standard sous H
0
Considrons le modle le plus simple sans constante, ni trend. Soit un processus (x
t
, t Z) satis-
faisant la reprsentation AR(1) suivante :
x
t
= x
t1
+
t
(3.90)
avec
t
i.i.d.
_
0,
2
_
. Dans ce modle, le test de Dickey Fuller revient tester lhypothse nulle
= 1. Nous commencerons par tudier la distribution asymptotique de lestimateur des MCO du
paramtre , sous lhypothse H
0
. Puis nous tudierons la distribution la statistique de Student
associe au test = 1.
3.1.1 Distribution de lestimateur
Daprs la dnition des MCO, pour un chantillon de taille T, lestimateur est dni par :
=
T
t=1
x
t
x
t1
T
t=1
x
2
t1
(3.91)
Nous savons que sous, lhypothse H
0
( = 1) , le processus gnrateur de donnes (modle
3.108) se ramne alors une simple marche alatoire
x
t
= x
t1
+
t
(3.92)
avec
t
i.i.d.
_
0,
2
_
. Ainsi on a

T
t=1
x
t
x
t1
=

T
t=1
x
2
t1
+
T
t=1
x
t1
t
. Ds lors, le biais associ
lestimateur peut scrire sous la forme :
1 =
T
t=1
x
t1
t
T
t=1
x
2
t1
(3.93)
An de contrler les vitesses de convergence des moments empiriques apparaissant au numra-
teur et au dnominateur, nous allons transformer cette expression de la faon suivante :
T ( 1) =
T
1
T
t=1
x
t1
t
T
2
T
t=1
x
2
t1
(3.94)
Nous savons que sous, lhypothse H
0
( = 1) , le processus gnrateur de donnes est une
simple marche alatoire. En appliquant le Thorme Central Limite Fonctionnel et le Continuous
Mapping Theorem, on sait que dans ce cas :
T
1
T
t=1
x
t1
t
L
2
_
W (1)
2
1
_
(3.95)
T
2
T
t=1
x
2
t1
L
T

2
_
1
0
[W (r)]
2
dr (3.96)
o W (.) dsigne un mouvement Brownien scalaire standard. On peut alors tablir la distribution
asymptotique de lestimateur sous lhypothse H
0
.
Proposition 17 Sous lhypothse H
0
de non stationnarit, = 1, la distribution asymp-
totique de lestimateur des MCO du paramtre dans le modle
x
t
= x
t1
+
t
(3.97)
avec
t
i.i.d.
_
0,
2
_
, est la suivante :
T ( 1)
L
T
1
2
_
W (1)
2
1
_
_
1
0
[W (r)]
2
dr
(3.98)
o W (.) est un mouvement Brownien standard.
On vrie ainsi que conformment ce que nous avions nonc en introduction, la distribution
asymptotique de lestimateur obtenue sous H
0
est non standard, et en particulier non symtrique.
Plusieurs remarques peuvent tre faites ce niveau, qui nous permettront de bien comprendre les
implications de la non stationnarit.
Remarque 1. Lestimateur converge la vitesse 1/T, sous lhypothse H
0
= 1, alors
quil converge la vitesse 1/T
1/2
sous lhypothse alternative H
a
, || < 1 :
Sous H
0
: T ( 1)
L
T
1
2
_
W (1)
2
1
_
_
1
0
[W (r)]
2
dr
(3.99)
Sous H
a
:

T ( )
L
T
N
_
0,
2
_
(3.100)
Une autre faon de comprendre ce rsultat est la suivante. Quelle que soit lhypothse retenue,
stationnarit ou non, lestimateur des MCO converge en probabilit vers la vraie valeur (avec
= 1, si H
0
est vraie, || < 1, si H
a
est vraie).
T

Toutefois, si les donnes sont non stationnaires (H
0
: = 1), lestimateur des MCO, converge
plus vite vers la vraie valeur du paramtre , gale 1 dans ce cas l. La variance de la distribution
asymptotique scrase alors la vitesse T sous H
0
, alors quelle ne scrase qu la vitesse

T
dans le cas stationnaire (cf. illustration de la convergence en probabilit, chapitre 1).
Remarque 2. Sous lhypothse de non stationnarit H
0
, la distribution asympotique de
lestimateur est non standard (non normale). En particulier, cette distribution
est non symtrique.
Rappelons que dans le cas stationnaire, la distribution asymptotique de

T ( ) est une
loi normale centre, donc par dnition une distribution symtrique. En revanche, sous H
0
, la
distribution de T ( 1) nest pas une distribution normale, et en particulier cette distribution est
non symtrique.
T ( 1)
L
T
1
2
_
W (1)
2
1
_
_
1
0
[W (r)]
2
dr
En eet, tant donne la dnition dun mouvement Brownien standard, le processus W (1)
2
suit
approximativement un
2
(1) . Sachant que P
_
2
(1) < 1
= 0.68, cela signie que la distribution de

T ( 1) , conditionnellement
_
1
0
[W (r)]
2
dr, est non symtrique et quenviron 2/3 des ralisations
de

seront infrieures 1.
Pour illustrer cette dernire remarque, on peut raliser un exercice de simulation sous Eviews.
Lide gnrale de cet exercice est la suivante. On va rpliquer, par la mthode de Monte Carlo,
N chantillons (qualis de pseudo chantillons) du processus x
t
dni par lquation (3.90) sous
lhypothse nulle = 1. Pour cela il sut de se donner une valeur numrique pour
2
et de tirer
N chantillons de taille T dans une loi normale
7
N
_
0,
2
_
. A partir de ces N chantillons du
processus {
t
}
T
t=1
, on reconstruit N chantillons de taille T du processus {x
t
}
T
t=1
selon lquation
x
t
= x
t1
+
t
, en se donnant pour chaque chantillon une condition initiale sur x
0
(par exemple x
0
=
0). Ensuite, il sut deectuer la rgression de x
t
sur x
t1
et de stocker pour chaque chantillon la
ralisation de lestimateur des MCO. Ainsi, au nal, on obtient N ralisations de cet estimateurs,
partir desquelles on peut calculer un certain nombre de statistiques et construire, en particulier,
un estimateur de la distribution de .
Tableau 3.2: Valeurs des Paramtres de la Simulation
N T
2
x
0
100 5000 1 0
Pour approcher au mieux de la distribution asymptotique il convient de choisir une taille T
dchantillon assez importante. De plus, il convient de faire un grand nombre N de simulations
pour obtenir des statistiques indpendantes des tirages eectus dans la loi normale. Les paramtres
que nous avons retenus pour cet exercice sont reports dans le tableau (3.2).
7
Lhypothse de normalit des t est en eet compatible avec lhypothse t i.i.d. de notre modle.
Le programme
8
utilis sous Eviews est le suivant :
- Vic1ini Ri.ii.1io: i i i1i:.1ini MCO-

\ic1on(100) nio
ion!i =1 1o100
i:i1i.ii.1io:inoci
:ii 1 5001
oi:nx=0
Co:1nc1io:i i.M.ncii Aii.1oini
oi:nii =:n:
:ii 2 5001
oi:nx=x(-1)+ii
Rioniio:OLS
iq.1io:iq1.i xx(-1)
nio(!i) =iq1.@coii(1)
:ix1
Co:\inio:i Vic1in i:Sinii
:ii 1 100
:1o(nio,nio-)
oi:nii.i- =(nio--1)*5000
Ce programme dbute par la dclaration dun vecteur, nomm nio, de dimension (N, 1) dans
lequel seront stockes les valeurs de la ralisation de lestimateur pour chaque simulation. Ensuite
une boucle est construite avec un indice i allant de 1 N = 100. Au sein de cette boucle, on
commence par initialiser le processus x
t
en lgalisant 0 sur lensemble de la priode allant de
1 5001 (la premire valeur correspondant au x
0
). Ensuite, laide de la commande :n: on
eectue un tirage dans un loi normale N (0, 1) que lon stocke dans une srie ii. En rduisant
la priode dchantillon, de la date 2 la date 5001, on reconstruit la srie x
t
selon le modle
x
t
= x
t1
+
t
. La valeur retarde de x
t
se note x(-1). Reste enn eectuer la rgression de x
t
sur x
t1
(i xx(-1)) et stocker dans le vecteur nio la valeur de lestimateur obtenue pour le
i
` eme
pseudo chantillon, grce linstruction nio(!i) =iq1.@coii(1). Au sortir de la boucle,
on convertit le vecteur nio en une srie nio- an deectuer plus facilement certains calculs, et
lon construit la variable transforme ii.i- correspondant la v.a.r. T ( 1).
En cliquant sur la srie nio-, puis en cliquant sur View, Descriptive Statistics, et Histogramm
and Stats, on obtient les informations qui sont reportes sur la gure (3.8). Tout dabord, ces
8
rsultats apparaissent compatibles avec le fait que lestimateur soit un estimateur convergent
(plim = 1) puisque lon observe que la moyenne des 100 ralisations des est trs proche de 1.
La distribution des apparat en outre relativement concentre autour de la vraie valeur = 1. Mais
ce qui est le plus frappant, cest que lon vrie partir de cette petite exprience la non symtrie
de la distribution (cf. remarque 2). On peut le vrier visuellement partir de lhistogramme,
mais en outre cette intuition est conforte par lexamen de la Skewness qui vaut 1.38 dans cette
exprience et qui est donc largement dirente de 0. Le test de normalit de Jarque-Bera (cf.
chapitre 4) rejette ainsi la normalit de la distribution.
Figure 3.8: Histogramme et Statistiques Descriptives des
0
2
4
6
8
10
12
14
0.9975 0.9980 0.9985 0.9990 0.9995 1.0000 1.0005
Series: RHO_S
Sample 1 100
Observations 100
Mean 0.999622
Median 0.999819
Maximum 1.000712
Minimum 0.997520
Std. Dev. 0.000579
Skewness -1.381356
Kurtosis 5.011701
Jarque-Bera 48.66468
Probability 0.000000
Ce premier examen quand la non normalit de la distribution, est toute fois incomplet et
non fond sur le plan thorique. En eet, nous avons montr que la distribution asymptotique
de tait dgnre dans le sens o converge en probabilit vers 1. Ainsi si lon fait tendre T
vers linni, la distribution des convergera vers une masse ponctuelle en 1. Donc pour tudier
correctement la forme de la distribution asymptotique des , il convient dtudier le comportement
de la transforme T ( 1) qui elle possde une distribution non dgnre. Pour ce faire, on
clique sur la srie ii.i-, puis sur View, Distribution Graphs, Kernel Density. On obtient alors
un estimateur (estimateur noyau) de la fonction de densit thorique de la v.a.r. T ( 1) . Cet
estimateur de la densit thorique est reproduit sur la gure (3.9).
Sur la gure (3.9), on vrie bien que la distribution asymptotique de T ( 1) nest pas une
loi normale, conformment la proposition (17). On vrie en outre que cette distribution est non
symtrique, et que la probabilit dobtenir une valeur de infrieure 1, est largement suprieure
celle dobtenir une valeur suprieure, et cela dans un rapport de 2/3, 1/3. En eet, la surface dnie
par la fonction de distribution empirique de T ( 1) entre et 1 est largement suprieure
celle dnie entre 1 et +. Ainsi pour les N = 100 simulations eectues, nous avons obtenu 74
ralisations infrieures 1, et 26 suprieures. La probabilit empirique 0.74 dobtenir une valeur
infrieure 1 est donc relativement proche de la probabilit thorique de 0.68. Pour un nombre de
simulations N plus important, la dirence aurait t encore plus faible.
Figure 3.9: Estimateur de la Fonction de Densit Thorique des T ( 1)
0.00
0.05
0.10
0.15
0.20
0.25
-10 -5 0 5
BIAIS_ST
Kernel Density (Epanechnikov, h = 1.8832)
3.1.2 Distribution de la statistique de Student t
=1
Nous allons maintenant nous intresser au coeur du problme du test de Dickey Fuller, savoir le
comportement asymptotique de la statistique de Student associe au test = 1 dans le modle :
x
t
= x
t1
+
t
(3.101)
avec
t
i.i.d.
_
0,
2
_
. La question que lon se pose sur le plan pratique est la suivante : peut on,
sous lhypothse H
0
, adopter les seuils standard dune loi normale (1.96 5% par exemple) pour
eectuer le test de Dickey Fuller ? Exprime en dautres termes, cette question revient dterminer
si la distribution asympotique de la statistique de Student associe au test = 1, correspond, sous
H
0
, une loi de Student, qui peut tre approxime par une loi normale pour T (cf. chapitre
1). Si tel nest pas le cas, alors le test de Dickey Fuller ne devra bien entendu pas tre construit
partir des seuils standards de la loi normale.
Pour rpondre cette question, commenons par dnir la statistique de Student sur laquelle
sera fonde le test de Dickey Fuller de lhypothse nulle = 1. Cette dernire, note t
=1
, est tout
simplement dnie de la faon suivante :
t
=1
=
( 1)
= ( 1)
_
_
T
t=1
x
2
t1
s
2
T
_
_
1
2
(3.102)
o s
2
T
dsigne lestimateur empirique de la variance des rsidus :
s
2
T
=
1
(T 1)
T
t=1
2
t
=
1
(T 1)
T
t=1
(x
t
x
t1
)
2
(3.103)
An de contrler la vitesse de convergence des moments intervenant au numrateur et au dnom-
inateur de t
=1
, nous allons tudier la distribution asymptotique de t
=1
exprime sous la forme
suivante :
t
=1
=
T
1
T
t=1
x
t1
t
_
T
2
T
t=1
x
2
t1
_
1
2
s
T
(3.104)
Essayons prsent dtablir la distribution asymptotique de t
=1
sous H
0
. Pour cela tudions
tout dabord le comportement asymptotique de s
2
T
. On sait que sous H
0
, ou sous H
a
, lestimateur
est convergent (plim = ). Donc par construction, les rsidus estimes
t
= x
t
x
t1
sont non
biaiss. Dans ce cas, on montre que le moment empirique dordre deux s
2
T
converge en probabilit
vers la variance
2
de la population des rsidus

t
(cf. chapitre 1).
T
=s
2
T
p
T

2
(3.105)
Reprenons maintenant un un les dirents lements de lexpression de t
=1
(quation 3.104)
et tudions leurs distributions respectives. Daprs les rsultats de la premire section, on a :
T
1
T
t=1
x
t1
t
L
2
_
W (1)
2
1
_
T
2
T
t=1
x
2
t1
L
T

2
_
1
0
[W (r)]
2
dr
s
T
p
En utilisant les direntes proprits numres dans le cadre des rappels du premier chapitre
sur la convergence en loi et en probabilit, on peut alors immdiatement driver la distribution
asymptotique de t
=1
.
0
de non stationnarit, la distribution asymptotique
de la statistique de Student associe au test de Dickey Fuller, = 1, dans le modle
x
t
= x
t1
+
t
(3.106)
avec
t
i.i.d.
_
0,
2
_
, est la suivante :
t
=1
L
T
1
2
_
W (1)
2
1
_
_
_
1
0
[W (r)]
2
dr
_1
2
(3.107)
o W (.) est un mouvement Brownien standard.
Ainsi, on vrie que cette distribution asymptotique nest pas une distribution normale. Encore
une fois, en particulier, cette distribution est non symtrique en raison de la prsence du terme
W (1)
2
distribu selon un
2
. Les seuils de cette loi ont t tabuls par Dickey et Fuller (1979) et
par dautres auteurs comme Mc Kinnon (1981).
Remarque 1. La distribution asymptotique, sous H
0,
de la statistique de Student t
=1
du test de Dickey Fuller dans le modle (3.101) nest pas standard. Lutilisation,
tort, des seuils standard associs une distribution normale peut ainsi conduire
un mauvais diagnostic quant la non stationnarit de la srie tudie. En
particulier, ce type derreur conduit rejeter trop souvent lhypothse de non
stationnarit.
Essayons, de bien comprendre les enjeux de cette remarque. Pour cela, menons nouveau un
exercice de simulation. On simule, de la mme faon que prcdemment, un grand nombre (N) de
pseudo chantillons du processus {x
t
}
T
t=1
sous lhypothse H
0
. Pour chaque pseudo chantillon, on
ralise la rgression de x
t
sur x
t1
, et lon conserve la ralisation de la statistique de Student t
=1
associe au test = 1. On obtient N ralisations de cette statistique, partir desquelles on peut la
distribution de t
=1
.
Dans la pratique, les principaux logiciels dconomtrie (et en particulier Eviews), proposent
une statistique de Student associe au test de la nullit dun paramtre dj programme, alors
que le test de lgalit dun paramtre 1 nest pas toujours programm. Cest pourquoi, pour
viter de programmer la construction de t
=1
, nous allons tout dabord transformer ce modle avant
dappliquer le test de Dickey Fuller.
Proposition 19 Le test de lhypothse = 1 dans lquation (3.90) est identique au test
de lhypothse = 0 dans le modle transform suivant :
x
t
= x
t1
+
t
(3.108)
avec = 1 et x
t
= (1 L) x
t
= x
t
x
t1
. Dans ce modle, le test de Dickey Fuller
se ramne alors H
0
: = 1 = 0 contre H
a
: < 0. La statistique t
=0
a la mme
distribution asympotique que t
=1
.
Pour cet exercice de simulation, nous avons retenu les mme paramtres que pour la simulation
prcdente (cf. tableau 3.2), lexception du nombre de simulations N que nous avons port
1000. Le programme
9
sous Eviews est le suivant :
- TS1.1i1iqi : Ti1 i Dicii.Fiiin-

\ic1on(1000) 11.1
ion!i =1 1o1000
i:i1i.ii.1io:inoci
:ii 1 5001
oi:nx=0
Co:1nc1io:i i.M.ncii Aii.1oini
oi:nii =:n:
:ii 2 5001
oi:nx=x(-1)+ii
oi:nx=x- x(-1)
Rioniio:OLS
iq.1io:iq1.i xx(-1)
11.1(!i) =iq1.@11.1(1)
:ix1
Conversiondes V ecteurs enSeries
:ii 1 1000
:1o(11.1,11.1-)
Lide gnrale du programme est sensiblement la mme que pour lexercice prcdent, la seule
dirence tant que cette fois-ci, on construit le vecteur des statistiques de Student grce lin-
struction @11.1(1) qui permet de rcuprer les t-stats de la rgression des MCO. Lestimateur
de la fonction de densit de t
=0
obtenu partir des 1000 simulations est report sur la gure
(3.10). On constate une nouvelle fois que la distribution asymptotique de t
=0
(qui a la mme
distribution asympotique que t
=1
) nest pas une loi normale. On vrie, que conformment au
rsultat thorique, cette distribution nest pas symtrique.
A partir des 1000 simulations, il est en outre possible de calculer les quantiles au seuil associs
au test non symtrique = 1 et de le comparer ceux que lon obtiendrait, si lon supposait,
9
Figure 3.10: Estimateur de la Fonction de Densit Empirique de t
=0
0.0
0.1
0.2
0.3
0.4
0.5
-3 -2 -1 0 1 2 3
TRHO_S
Kernel Density (Epanechnikov, h = 0.4944)
tort que t
=1
tait distribue selon une loi N (0, 1) . On cherche donc le seuil C
()
tel que
10
:
P
_
t
=0
C
()
_
= (3.109)
Pour cela, il sut de classer dans lordre croissant les 1000 ralisations de t
=0
et de considrer
la N/100
` eme
ralisation. Par exemple, pour le seuil 5%, aprs avoir class les ralisations, on
retiendra la 50
` eme
observation, puisque empiriquement, il existe 95% de chances que lon ait une
ralisation suprieure ce seuil. Sur le tableau (3.3) sont reports les seuils obtenus partir des
simulations, et les seuils thoriques associs un test unilatral fond sur une loi N (0, 1) .
Tableau 3.3: Seuils Critiques des Tests t
=0
= 1% = 5% = 10%
C
()
2, 44 1, 98 1, 58
C
N(0,1)
()
2.32 1.64 1.28
On observe ainsi que si lon considre un risque de premire espce de 5%, le seuil dune loi
normale pour le test unilatral = 1, est gal 1.64. Mais, nous avons vu thoriquement que
la statistique t
=0
ne suit pas une loi normale. Les 1000 simulations montrent que le vrai seuil
10
Contrairement au test standard, on ne considre pas ici la valeur absolue de la t-stat : le test est non symtrique.
5% de la loi de t
=0
, est en fait plus proche de 1.98. Ainsi, on vrie que lon aurait eu tendance
trop souvent rejeter la non stationnarit si lon avait appliqu pour le test de Dickey Fuller les
seuils standard dune loi normale. Le mme diagnostic vaut pour les autres niveaux de risque.
Cest pourquoi, il est ncessaire dutiliser les seuils tabuls par Dickey Fuller (1979) ou Mc Kinnon
(1981) pour eectuer les test de non stationnarit.
3.2 Des distributions conditionnelles au modle choisi...
Comme un malheur narrive jamais seul, le pauvre conomtre qui voit dj disparatre sa sacro
sainte loi normale dans lapplication des tests de Dickey Fuller, va de plus tre confront un autre
type de problme : celui de la dpendance des distributions asymptotiques au modle choisi.
0
de la statistique de Student t
=1
dire suivant que le modle utilis soit :
x
t
= x
t1
+
t
(3.110)
x
t
= x
t1
+c +
t
(3.111)
x
t
= x
t1
+c +t +
t
(3.112)
avec
t
i.i.d.
_
0,
2
_
.
Ainsi, le fait dintroduire une constante, ou une constante et un trend dterministe aecte la
distribution asymptotique de t
=1
. Pour le praticien, cela signie que les seuils critiques du tests de
Dickey Fuller ne seront pas identiques, suivant que lon inclut ou non dans le modle une constante
et un trend. Cela pose naturellement un problme, puisque a priori, on ne sait pas si lon doit
inclure ces lments dans le modle test. Cest pourquoi, on propose gnralement une stratgie
de tests de Dickey Fuller, et non pas un seul test unique.
Nous ne dmontrerons pas le rsultat gnral de cette proposition. Nous nous contenterons
de dmontrer que la distribution de lestimateur obtenue dans le modle (3.110) dire de celle
obtenue dans le modle (3.111). Naturellement, il en dcoule que la distribution de t
=1
dans les
deux modles dire. Dterminons la distribution de t
=1
partir du modle (3.111). Pour ce faire,
nous considrerons pour simplier que sous H
0
, le processus x
t
est non stationnaire (hypothse du
test de Dickey Fuller), mais quen plus il se ramne une marche alatoire pure (c = 0). Ainsi
supposons que les donnes soient gnres par le modle :
x
t
= x
t1
+
t
(3.113)
avec
t
i.i.d.
_
0,
2
_
. Le modle estim par les MCO, pour eectuer le test de non stationnarit,
inclut une constante (modle 1 des tests Dickey Fuller donn par lquation 3.111) :
x
t
= x
t1
+c +
t
(3.114)
Les estimateurs et c sont alors dnis par le systme matriciel :
_
c
1
_
=
_
_
T
T
t=1
x
t1
T
t=1
x
t1
T
t=1
x
2
t1
_
_
1
_
_
T
t=1
t
T
t=1
x
t1
t
_
_
Etudions le comportement asymptotique de ces dirents lments :
T
1
T
t=1
x
t1
t
L
2
_
W (1)
2
1
_
T
2
T
t=1
x
2
t1
L
T

2
_
1
0
[W (r)]
2
dr
T
3
2
T
t=1
x
t1
L
_
1
0
W (r) dr
T
1
2
T
t=1
t
L
W (1)
An de contrler la vitesse de convergence des dirents lments de cette expression, on doit
donc utiliser la transforme suivante
11
:
_
T
1
2
c
T ( 1)
_
=
_
_
T
1
T T
3
2
T
t=1
x
t1
T
3
2
T
t=1
x
t1
T
2
T
t=1
x
2
t1
_
_
1
_
_
T
1
2
T
t=1
t
T
1
T
t=1
x
t1
t
_
_
(3.115)
Ds lors, en utilisant les proprits de la convergence en loi, on montre que :
_
T
1
2
c
T ( 1)
_
L
T
_
1
_
1
0
W (r) dr
_
1
0
W (r) dr
2
_
1
0
[W (r)]
2
dr
_
1
_

W (1)
2
_
W (1)
2
1
_
_
A partir de ces dirents lments, on peut facilement driver la distribution asymptotique de
lestimateur .
11
En eet, T R
+
, et (a, b, c, d, e, f) R
6
tels que ad = c
2
, on a :
_
T
1
a T
3
2
c
T
3
2
c T
2
d
_
1 _
T
1
2
e
T
1
f
_
=
_

T
decf
adc
2
T
ce+af
adc
2
_
Proposition 21 La distribution asymptotique de lestimateur obtenue dans le modle
x
t
= x
t1
+c +
t
(3.116)
sous lhypothse de non stationnarit H
0
, est la suivante :
T ( 1)
L
T
1
2
_
W (1)
2
1
_
W (1)
_
1
0
W (r) dr
_
1
0
[W (r)]
2
dr
_
_
1
0
W (r) dr
_
2
(3.117)
Dans le modle :
x
t
= x
t1
+
t
(3.118)
cette mme distribution asymptotique de tait dnie par :
T ( 1)
L
T
1
2
_
W (1)
2
1
_
_
1
0
[W (r)]
2
dr
(3.119)
On vrie bien que la distribution de lestimateur dire suivant que lon inclut ou non dans
le modle estim une constante. Il en va de mme pour lintroduction dune tendance dterministe.
Naturellement, si la distribution de dire suivant les modles, celle de la statistique de Student
du test de Dickey Fuller dire elle aussi suivant le modle estim. En particulier, on peut montrer
(exercice) :
0
de la statistique de Student associe au test de Dickey Fuller, = 1, dans le modle
x
t
= x
t1
+c +
t
(3.120)
avec
t
i.i.d.
_
0,
2
_
, est la suivante :
t
=1
L
T
1
2
_
W (1)
2
1
_
W (1)
_
1
0
W (r) dr
_
_
1
0
[W (r)]
2
dr
_
_
1
0
W (r) dr
_
2
_1
2
(3.121)
Ainsi, on vrie que la prsence dune constante modie la distribution asymptotique de la
statistique de test de lhypothse de racine unitaire. En eet, dans le modle sans constante, nous
avions montr que :
t
=1
L
T
1
2
_
W (1)
2
1
_
_
_
1
0
[W (r)]
2
dr
_1
2
(3.122)
Il en est exactement de mme concernant la prsence dune tendance dans le modle. A chaque
fois la distribution asymptotique de t
=1
est aecte.
Tout ceci est dautant plus regrettable pour lconomtre que les seuils critiques sont relative-
ment dirents pour les 3 modles. Comme on peut lobserver sur le tableau (3.4), la dformation
de la distribution asymptotique est susamment importante pour que les seuils standard soient
trs dirents. On note C
1
()
le seuil critique pour un risque de premire espce de % associ au
modle (3.110) sans constante ni trend. On note C
2
()
le seuil critique associ au modle (3.111)
avec constante sans trend. On note C
3
()
le seuil critique associ au modle (3.112) avec constante
et trend.
Tableau 3.4: Seuils Critiques des Tests t
=0
= 1% = 5% = 10%
C
1
()
2.58 1.95 1.62
C
2
()
3.43 2.86 2.57
C
3
()
3.96 3.41 3.12
Les seuils sont tirs de Fuller (1976) pour T=
On comprend ainsi que si lon se trompe de modle, par exemple si lon inclut tort une
constante dans le modle estim, on se trompe de seuil critique, et donc risque fort de se tromper
de diagnostic quant la stationnarit de la srie tudie. Cest pourquoi, il convient prsent
de dvelopper une stratgie de tests de non stationnarit pour tester la non stationnarit dans un
modle adquat.
3.3 Une Stratgie de Tests
Nous allons prsent proposer une stratgie de tests de Dickey Fuller permettant de tester la non
stationnarit conditionnellement la spcication du modle utilis. On considre trois modles
dnis comme suit :
Modle 1 : x
t
= x
t1
+
t
(3.123)
Modle 2 : x
t
= x
t1
+c +
t
(3.124)
Modle 3 : x
t
= x
t1
+c +t +
t
(3.125)
avec
t
i.i.d.
_
0,
2
_
. On cherche tester lhypothse de racine unitaire :
H
0
: = 0 H
1
: < 0 (3.126)
Remarque 1. Le principe gnral de la stratgie de tests est le suivant. Il sagit de
partir du modle le plus gnral, dappliquer le test de racine unitaire en utilisant
les seuils correspondant ce modle, puis de vrier par un test appropri que
le modle retenu tait le bon. En eet, si le modle ntait pas le bon, les
seuils utiliss pour le test de racine unitaire ne sont pas valable. On risque alors
de commettre une erreur de diagnostic quant la stationnarit de la srie. Il
convient dans ce cas, de recommencer le test de racine unitaire dans un autre
modle, plus contraint. Et ainsi de suite, jusqu trouver le bon modle, les
bons seuils et bien entendu les bons rsultats.
Le droulement de la stratgie de test est reporte sur la gure suivante. On commence par
tester la racine unitaire partir du modle le plus gnral, savoir le modle 3. On compare
la ralisation de la statistique de Student t
=0
aux seuils C
3
()
tabuls par Dickey et Fuller, ou
McKinnon pour le modle 3 (par exemple 3.41 5%, pour T ). Si la ralisation de t
=0
est suprieure
12
au seuil C
3
()
, on accepte lhypothse nulle de non stationnarit. Une fois que le
diagnostic est tabli, on cherche vrier si la spcication du modle 3, incluant une constante et
un trend, tait une spcication compatible avec les donnes. On teste alors la nullit du coecient
de la tendance. Deux choses lune :
Soit on a rejet au pralable lhypothse de racine unitaire, dans ce cas on teste la nullit de
par un simple test de Student avec des seuils standards (test symtrique, donc seuil de 1.96
5%). Si lon rejette lhypothse = 0, cela signie que le modle 3 est le bon modle
12
Etant donn que le test est non symtrique, on ne considre pas, bien entendu, la valeur absolue de t
=0
, mais
son niveau relatif.
pour tester la racine unitaire, puisque la prsence dune tendance nest pas rejete. Dans ce
cas, on conclut que la racine unitaire est rejete, la srie est TS, du fait de la prsence de la
tendance. En revanche, si lon accepte lhypothse = 0, le modle nest pas adapt puisque
la prsence dune tendance est rejete. On doit refaire le test de racine unitaire partir du
modle 2, qui ne comprend quune constante.
Soit, au contraire, on avait au pralable, accept lhypothse de racine unitaire, et dans ce
cas, on doit construire un test de Fischer de lhypothse jointe = 0 et = 0. On teste ainsi
la nullit de la tendance, conditionnellement la prsence dune racine unitaire:
H
3
0
: (c; b; ) = (c; 0; 0) contre H
3
1
(3.127)
La statistique de ce test se construit de faon standard par la relation :
F
3
=
_
SCR
3,c
SCR
3
_
/2
SCR
3
/ (T 3)
(3.128)
o SCR
3,c
est la somme des carrs des rsidus du modle 3 contraint sous H
3
0
:
x
t
= c +
t
et SCR
3
est la somme des carrs des rsidus du modle 3 non contraint (quation 3.125). Les
seuils distance ni de cette statistique sont fournies dans la partie annexe du programme de
cours. Si la ralisation de F
3
est suprieure la valeur
3
lue dans la table un seuil %, on
rejette lhypothse H
3
0
. Dans ce cas, le modle 3 est le bon modle et la srie x
t
est intgre
dordre 1, I (1) +c +T, le taux de croissance est TS, x
t
= c +t +
t
. En revanche, si lon
accepte H
3
0
, le coecient de la tendance est nul, le modle 3 nest pas le bon modle, on
doit donc eectuer nouveau le test de non stationnarit dans le modle 2.
Stratgie de Tests de Dickey Fuller
Si lon a accept la nullit du coecient de la tendance, on doit alors eectuer nouveau les
tests de non stationnarit partir cette fois-ci du modle 2 (quation 3.124) incluant uniquement
une constante. On compare alors la ralisation de la statistique de Student t
=0
aux seuils C
2
()
tabuls par Dickey et Fuller, ou McKinnon pour le modle 2 (par exemple 2.86 5%, pour
T ). Si la ralisation de t
=0
est suprieure au seuil C
2
()
, on accepte lhypothse nulle de
non stationnarit. Une fois que le diagnostic est tabli, on cherche vrier si la spcication du
modle 2, incluant une constante, est une spcication compatible avec les donnes. On teste alors
la nullit du coecient c de la constante. Deux choses lune :
Soit on a rejet au pralable lhypothse de racine unitaire, dans ce cas on teste la nullit de
c par un simple test de Student avec des seuils standard (test symtrique, donc seuil de 1.96
5%). Si lon rejette lhypothse c = 0, cela signie que le modle 2 est le bon modle
pour tester la racine unitaire, puisque la prsence dune constante nest pas rejete. Dans
ce cas, on conclut que la racine unitaire est rejete, la srie est stationnaire I (0) + c. En
revanche, si lon accepte lhypothse c = 0, le modle 2 nest pas adapt puisque la prsence
dune constante est rejete. On doit refaire le test de racine unitaire partir du modle 1,
qui ne comprend ni constante ni trend.
Soit, au contraire, on avait au pralable, accept lhypothse de racine unitaire, et dans ce
cas, on doit construire un test de Fischer de lhypothse jointe = 0 et c = 0. On teste ainsi
la nullit de la constante, conditionnellement la prsence dune racine unitaire:
H
2
0
: (c; ) = (0; 0) contre H
2
1
(3.129)
La statistique de ce test se construit de faon standard par la relation :
F
2
=
_
SCR
2,c
SCR
2
_
/2
SCR
2
/ (T 2)
(3.130)
o SCR
2,c
est la somme des carrs des rsidus du modle 2 contraint sous H
2
0
, cest dire
SCR
2,c
=

T
t=1
2
t
=

T
t=1
(x
t
)
2
et SCR
2
est la somme des carrs des rsidus du modle
2 non contraint (quation 3.124). Les seuils distance ni de cette statistique sont fournies
dans la partie annexe du programme de cours. Si la ralisation de F
2
est suprieure la
valeur
1
lue dans la table un seuil , on rejette lhypothse H
2
0
au seuil %. Dans ce cas,
le modle 2 est le bon modle et la srie x
t
est intgre dordre 1, I (1) +c. En revanche, si
lon accepte H
2
0
, le coecient de la constante est nul, le modle 2 nest pas le bon modle,
on doit donc eectuer nouveau le test de non stationnarit dans le modle 1.
Enn, si lon a accept la nullit du coecient c de la constante, on doit alors eectuer
nouveau les tests de non stationnarit partir cette fois-ci du modle 1 (quation 3.123) sans
constante ni trend. On compare alors la ralisation de la statistique de Student t
=0
aux seuils
C
1
()
tabuls par Dickey et Fuller, ou McKinnon pour le modle 1 (par exemple 1.95 5%, pour
T ). Si la ralisation de t
=0
est suprieure au seuil C
1
()
, on accepte lhypothse nulle de
non stationnarit. Dans ce cas la srie x
t
est I (1) et correspond une pure marche alatoire,
x
t
= x
t1
+
t
. Si lhypothse nulle est rejete, la srie est stationnaire, I (0) de moyenne nulle
x
t
= x
t1
+
t
, avec || < 1.
3.4 Application : PIB, consommation et commerce extrieur
Nous allons proposer prsent une application de la stratgie de tests de Dickey Fuller direntes
sries
13
issues des Comptes Nationaux Trimestriels de lINSEE, releves sur la priode allant du
premire trimestre 1978 au deuxime trimestre 2001, soit 94 observations. Les quatre sries utilises
sont exprimes en milliards deuros, au prix de 1995, et correspondent ainsi des agrgats en volume
qui sont de plus corrigs des variations saisonnires (donnes CVS).
1. CONSO : correspond la consommation des mnages.
2. EXPORT : correspond aux exportations CAF agrges.
3. IMPORT : correspond aux importations CAF agrges.
4. PIB : correspond au produit intrieur brut.
Le graphique de ces sries est report sur la gure (3.11).
Figure 3.11: Comptes Trimestriels de lINSEE : 1978:1-2001:2
120
140
160
180
200
78 80 82 84 86 88 90 92 94 96 98 00
CONSO
20
40
60
80
100
120
78 80 82 84 86 88 90 92 94 96 98 00
EXPORT
20
40
60
80
100
78 80 82 84 86 88 90 92 94 96 98 00
IMPORT
200
220
240
260
280
300
320
340
360
78 80 82 84 86 88 90 92 94 96 98 00
PIB
13
Ces sries sont disponibles sur le site de lINSEE (www.insee.fr) dans la rubrique comptes nationaux.
Un simple examen graphique met clairement en vidence le fait que les quatre sries tudies
sont a priori non stationnaires. Les processus gnrateurs correspondants ne semblent pas satisfaire
en eet la condition dinvariance de lesprance, et il en va de mme pour la variance. Reste savoir
si ces processus sont des processus DS ou TS selon la terminologie de Nelson et Plosser (1982).
Nous faisons lhypothse
14
pour linstant que les quatre processus, sils sont I (d) , sont au plus
I (1) . Appliquons la stratgie de tests de Dickey Fuller expose prcdemment tout dabord la
consommation des mnages.
On commence par estimer le modle 3, x
t
= x
t1
+ c + .t +
t
, incluant une constante et
un trend. On teste alors la prsence dune racine unitaire dans le processus en testant la nullit du
paramtre laide dune statistique de Student t
, o

dsigne lestimateur des MCO. Sous le
logiciel Eviews, on peut soit eectuer directement cette rgression en crant au pralable la srie
x
t
et la tendance grce linstruction @1ni:(:), soit on utilise le test pr-programm sous le
logiciel. Pour cela, il sut de cliquer sur la srie, puis sur longlet View, puis sur longlet Unit Root
Test. Apparat alors une bote de dialogue dans lequel on choisit le type Augmented Dickey Fuller,
le test in level, on inclut une constante et un trend (Trend and Intercept) et lon choisit un nombre
de termes en dirences retards (Lagged Dierence) gal 0. Le rsultat de lachage pour la
srie CONSO est reproduit sur la gure (3.12).
Figure 3.12: Test de Racine Unitaire sur CONSO : Modle 3
14
Si lon dsire vrier cette hypothse, il sut de tester la stationnarit des taux de croissance des sries en
appliquant les tests de Dickey Fuller ces taux de croissance.
Cette procdure nous donne la valeur des ralisations des estimateurs des MCO des dirents
paramtres du modle 3 (, c, ) ainsi que les statistiques de Student associes aux tests de nullit de
ces paramtres. Ce qui nous intresse ici plus particulirement cest bien entendu la statistique de
Student t
associe la variable endogne retarde CONSO(1). Celle-ci est ici gale 1.236,
et cette valeur est en outre reporte en haut de lachage (ADF Test Statistic). Pour tester
lhypothse = 0, on utilise alors les seuils tabuls par Dickey et Fuller (cf. document joint,
polycopi dexercices) pour le modle 3 et pour une taille dchantillon de 93 observations (T 1 en
raison de la valeur retarde sur CONSO). Ces seuils sont reports dans lachage de la procdure
dEviews. Au seuil de 5%, le seuil critique est C
()
= 3.4581 (3.45 dans la table fournie en
annexe pour 100 observations). Ainsi, dans ce cas pour un niveau de risque de 5%, t
> C
()
, on
accepte lhypothse nulle de racine unitaire ( = 0).
Il faut prsent valuer la validit de notre diagnostic en vriant que le modle partir
duquel nous avons fait le test (modle 3) est bien le bon modle. Il nous faut donc prsent
tester la nullit du coecient de la tendance conditionnellement la prsence dune racine unitaire.
On eectue pour cela le test H
3
0
: (c, , ) = (c, 0, 0) . Malheureusement, ce test joint nest pas
prprogramm dans Eviews, il faut donc crire le petit programme suivant pour obtenir la valeur
de la statistique de Fisher F
3
associe H
3
0
.
- Co:1nc1io:i iiiini:ci ini:iini

:ii 1978:2 2001:2
oi:nco:o=co:o-co:o(-1)
- E1i:.1io::oiii iiini
iq.1io: :o3.i co:oc@1ni:(1978:1) co:o(-1)
c.i.ncn3=@n
c.i.n:i=@niooi-@:coii
- E1i:.1io::oiii co:1n.i:1
iq.1io: :o3c.i co:oc
c.i.ncn3c=@n
- Co:1nc1io:i i.1.1i1iqi i3
c.i.ni3=((cn3c-cn3)/2)/(cn3/:i)
Ce programme nappelle que peu de commentaires. Il utilise simplement linstruction @n qui
correspond la somme des carrs des rsidus de la rgression prcdente, linstruction @niooi qui
correspond au nombre dobservations de cette rgression et linstruction @:coii qui correspond au
nombre de coecients estims. On estime
15
successivement le modle libre (modle 3) et le modle
15
Dans ce cas, bien entendu il nest pas ncessaire dappliquer les MCO pour obtenir la somme des carrs des
rsidus du modle contrainte puisque RC3c =

T
t=1
_
xt xt
_
2
avec xt = (1/T)
T
t=1
xt. Toutefois, nous
verrons que dans le cas des tests ADF, il sera ncessaire de faire une telle rgression. Cest pourquoi, nous prsentons
contraint sous H
3
0
, cest dire le modle x
t
= c +
t
. La valeur de la ralisation de la statistique
de Fischer F
3
est stocke dans la variable scalaire (c.i.n) nomme i3. Il sut de cliquer sur ce
scalaire dans le Workle dEviews pour voir sacher la valeur correspondante en bas de lcran.
Pour la variable de consommation, nous obtenons ainsi une valeur de F
3
gale 1.08. Cette valeur
est comparer aux seuils critiques lus dans la table de Dickey et Fuller (1981), tableau VI, page
1063, fournie en annexe (cf. polycopi dexercices). Pour une taille dchantillon de 100, et un
risque de premire espce de 5%, la valeur critique est gale 6.49. Donc la ralisation de F
3
est
infrieure au seuil critique, on accepte lhypothse nulle de la nullit du coecient de la tendance
conditionnellement la prsence dune racine unitaire. Ceci signie que le test de non stationnarit
pratiqu avec les seuils asymptotiques incluant une tendance (modle 3) doit tre remis en cause.
Il faut donc recommencer ce test partir du modle incluant uniquement une constante.
On estime alors le modle 2, x
t
= x
t1
+c +
t
et lon teste la prsence dune racine unitaire.
Pour cela, il sut de cliquer sur la srie, puis sur longlet View, puis sur longlet Unit Root Test.
Apparat alors une bote de dialogue dans lequel on choisit le type Augmented Dickey Fuller, le
test in level, on inclut uniquement une constante (Intercept) et lon choisit un nombre de termes
en dirences retards (Lagged Dierence) gal 0. Le rsultat de lachage pour la srie CONSO
est reproduit sur la gure (3.13).
le programme sous cette forme an de prsenter une dmarche systmatique.
La statistique de Student t
associe la variable endogne retarde CONSO(1) prend ici une

valeur de 0.595. Pour tester lhypothse = 0, on utilise alors les seuils tabuls par Dickey et Fuller
pour le modle 2 (cf. document joint, polycopi dexercices) et pour une taille dchantillon de 93
observations. Ces seuils sont reports dans lachage de la procdure dEviews. Au seuil de 5%,
le seuil critique est C
()
= 2.8925 (2.89 dans la table fournie en annexe pour 100 observations).
Ainsi, dans ce cas pour un niveau de risque de 5%, t
> C
()
, on accepte lhypothse nulle de racine
unitaire ( = 0) dans le modle 2.
Il faut nouveau valuer la validit de notre diagnostic en vriant que le modle 2 partir
duquel nous avons fait le test de racine unitaire est bien le bon modle. On teste pour cela la
nullit du coecient de la constante conditionnellement la prsence dune racine unitaire. On
eectue le test H
2
0
: (c, ) = (0, 0) , ce qui revient, dans le cas du test de Dickey Fuller simple, tester
la nullit des deux coecients du modle 2. Ds lors, on peut utiliser la valeur de la ralisation
de la statistique de Fisher programm dans Eviews pour le test de la nullit de lensemble des
coecients du modle. Attention, ceci nest valable que pour le test de Dickey Fuller simple et ne le
sera plus pour les tests ADF que nous verrons ultrieurement. Sur la gure (3.13), on observe que
la ralisation de la statistique de Fisher, qui dans ce cas prcis et uniquement dans ce cas prcis
correspond F
2
, est gale 0.354. Par contre, on ne doit surtout pas utiliser la pvalue programm
sous Eviews, puisque celle-ci est construite partir dune distribution de Fischer standard de F
2
. Il
faut en eet comparer la ralisation de F
2
aux seuils critiques de la table de Dickey et Fuller (1981),
tableau VI, page 1063, fournie en annexe (cf. polycopi dexercices). Pour une taille dchantillon
de 100, et un risque de premire espce de 5%, la valeur critique est gale 4.71. Pour un risque de
5%, la ralisation de F
3
est infrieure au seuil critique, on accepte lhypothse nulle de la nullit de
la constante conditionnellement la prsence dune racine unitaire. Ceci signie que le test de non
stationnarit pratiqu avec les seuils asymptotiques incluant une constante (modle 2) doit tre
remis en cause. Il faut donc recommencer ce test partir du modle 1 sans constante, ni trend.
Il ne reste plus alors qu recommencer le test de racine unitaire partir du modle 1, x
t
=
x
t1
+
t
. Dans la bote de dialogue, on choisit le type Augmented Dickey Fuller, le test in level,
on exclut la constante et la tendance (None) et lon choisit un nombre de termes en dirences
retards (Lagged Dierence) gal 0. Le rsultat de lachage pour la srie CONSO est reproduit
sur la gure (3.14). La statistique de Student t
associe la variable endogne retarde prend ici

une valeur de 6.538. Pour tester lhypothse = 0, on utilise alors les seuils tabuls par Dickey et
Fuller pour le modle 1 (cf. document joint, polycopi dexercices). Ces seuils sont reports dans
lachage de la procdure dEviews. Au seuil de 5%, le seuil critique est C
()
= 1.9436 (1.94
dans la table fournie en annexe pour 100 observations). Ainsi, dans ce cas pour un niveau de risque
de 5%, t
> C
()
, on accepte lhypothse nulle de racine unitaire ( = 0) dans le modle 1.
Finalement, selon le test de Dickey Fuller simple, on conclut que la srie trimestrielle de consom-
mation des mnages est issue dun processus non stationnaire, de type I (1) et peut tre reprsente
par une pure marche alatoire :
x
t
= x
t1
+
t
(3.131)
avec
t
i.i.d.
_
0,
2
_
. Pour stationnariser cette srie, il convient donc de la direncier. En eet, on
peut vrier sur la gure (3.15) que la dirence premire de la srie de consommation des mnages
semble possder un comportement de type stationnaire.
A lissue de nos tests nous avons conclu que la dirence premire de la srie correspond
linnovation
t
, qui dans le test de Dickey Fuller est assimil un bruit blanc. Or, il convient
de sassurer que la srie direncie possde bien les proprits dun bruit blanc. En particulier,
il convient de sassurer que celle-ci nest pas autocorrle puisque par dnition E(
t
tk
) = 0,
si k = 0. Pour cela, il nous faut tudier le corrlogramme de la srie DCONSO. Pour obtenir ce
corrlogramme sous Eviews, on clique sur la srie, puis sur Correlogram. Pour un choix de lags de
10, les rsultats achs sont reports sur la gure (3.16).
Pour un ordre k allant de 1 10, gurent ce corrlogramme la ralisation de lautocorrlation
empirique dordre k dnie pour une srie z
t
par :
k
=
1
T k
T
t=1
[(z
t
z
t
) (z
tk
z
tk
)] (3.132)
Figure 3.15: Srie de Consommation en Dirences Premires
-3
-2
-1
0
1
2
3
80 82 84 86 88 90 92 94 96 98 00
DCONSO
Figure 3.16: Corrlogramme de la Srie DCONSO
On sait que
k
converge en probabilit vers
k
= E[(z
t
z
t
) (z
tk
z
tk
)] . Or, on observe
dans la premire colonne de la gure (3.16), note AC pour autocorrlation, que lautocorrlation
de la srie DCONSO notamment lordre 2 est relativement importante. Elle est statistiquement
dirente de zro puisque la ralisation sort de lintervalle de la rgion de conance de lhypothse
de nullit matrialise par des petits tirets verticaux. Cela signie que la srie de consommation
direncie est autocorrle. Par consquent, puisque nous avions conclu que x
t
=
t
, le processus
t
nest pas un bruit blanc. Or si le processus
t
nest pas un bruit blanc i.i.d., cela remet en cause
la validit de lensemble des distributions asymptotiques des statistiques de tests de Dickey Fuller
et donc les conclusions que nous avons dress quant la non stationnarit de la srie. Il est donc
ncessaire de tester la non stationnarit de la srie en prenant en compte lautocorrlation des
perturbations
t
. Cest prcisment lobjet des tests de Dickey Fuller Augments, ou tests ADF.
4 Tests de Dickey Fuller Augments
Comme nous lavons vu dans le cadre de lapplication sur la consommation des mnages, il arrive
parfois que les rsidus
t
du modle de Dickey Fuller soient autocorrls. Or, les distributions as-
ymptotiques des statistiques de test de racine unitaire ont t construites sous lhypothse que
t
est
un bruit blanc. Ds que lon lve cette hypothse les statistiques des tests de Dickey Fuller ne suivent
plus les mmes distributions asymptotiques, et donc les seuils de signicativit des tests de racine
unitaire sont dirents. Il apparat donc ncessaire de tenir compte de lventuelle autocorrlation
des rsidus dans la construction des tests de racine unitaire.
Il existe alors deux approches direntes pour tenir de cette ventuelle autocorrlation. La
premire approche, propose par Phillips (1987) et Phillips et Perron (1988) consiste proposer
une correction des estimateurs des MCO et des statistiques de Student associes ces estimateurs
prenant en compte la possible autocorrlation des rsidus. La seconde approche, dveloppe par
Dickey et Fuller (1979), consiste contrler directement lautocorrlation dans le modle (et non au
niveau des estimateurs) en incluant un ou plusieurs termes autorgressifs direncis. Nous allons
montrer quune telle approche permet en eet de blanchir les rsidus et de plus, de se ramener
une reprsentation similaire celle du test de Dickey Fuller Simple. Ds lors, lapplication de
cette nouvelle stratgie est identique celle prsente prcdemment et lon retrouve les mmes
distributions asymptotiques.
4.1 Les tests ADF : la prise en compte de lautocorrlation des rsidus
Pour bien comprendre largument de Dickey Fuller, considrons un processus x
t
admettant une
reprsentation de type AR(1) dont les innovations
t
sont autocorrles dordre p 1.
x
t
= x
t1
+
t
(4.133)
o
t
ne satisfait pas les hypothses dun bruit blanc et est autocorrl dordre p 1 :
t
+
1
t1
+.. +
p1
tp+1
=
t
(4.134)
avec
t
i.i.d.
_
0,
2
_
. En substituant
t
par lexpression x
t
x
t1
, lquation (4.134) se rcrit
sous la forme :
t
= (x
t
x
t1
) +
1
(x
t1
x
t2
) +
2
(x
t2
x
t3
) ... +
p1
(x
tp+1
x
tp
)
= x
t
+ (
1
) x
t1
+ (
2
1
) x
t2
+... + (
p1
p2
) x
tp+1
p1
x
tp
(4.135)
Ainsi, la reprsentation de type AR(1) avec autocorrlation des innovations dordre p 1 peut
tre transforme en une reprsentation AR(p) o les innovations sont des bruits blancs.
x
t
=
1
x
t1
+
2
x
t2
+.... +
p
x
tp
+
t
(4.136)
avec
1
= (
1
) ,
i
= (
i1
i2
) pour i = 2, .., p 1 et
p
=
p1
.
Remarque 1. Lintuition de la dmarche du test de Dickey Fuller Augment consiste
postuler un modle de type AR(p) an de corriger une ventuelle autocorrlation
dordre p 1 des innovations dune reprsentation de type AR(1) .
Toutefois, le test de Dickey Fuller Augment nest pas construit directement partir de la
forme AR(p) avec innovations i.i.d. de lquation (4.135). Les auteurs privilgient une spcication
incluant p 1 termes direncis retards, connue sous le nom de reprsentation de Sims, Stock
et Watson ( 1990).
Proposition 23 (Reprsentation de Sims, Stock et Watson 1990) Tout processus (x
t
, t Z)
satisfaisant une reprsentation AR(p)
x
t
=
1
x
t1
+
2
x
t2
+.... +
p
x
tp
+
t
(4.137)
avec
t
i.i.d.
_
0,
2
_
, peut tre exprim sous la forme suivante :
x
t
= x
t1
+
1
x
t1
+
2
x
t2
+... +
p1
x
t(p1)
+
t
(4.138)
o
j
dsigne loppos de la somme partielle des coecients j = 0, 1, .., p 1 :
j
=
_
j+1
+
j+2
+... +
p
(4.139)
=
0
=
1
+
2
+... +
p
(4.140)
Cette forme canonique est connue sous le nom de reprsentation de Sims, Stock et
Watson (1990).
La dmonstration de cette proposition est la suivante. On considre un processus AR(p) :
(L) x
t
=
_
1
1
L
2
L
2
....
p
L
p
_
x
t
=
t
(4.141)
avec
t
i.i.d.
_
0,
2
_
. Notons que cette quation est formellement identique lquation (4.135).
Nous allons prsent exprimer ce modle en introduisant des termes direncis retards. On
commence par poser :
1
1
L
2
L
2
....
p1
L
p1
p
L
p
= 1
1
L
2
L
2
....
p2
L
p2
p
_
+
_
p1
+
p1
_
L
p1
p
L
p
= 1
1
L
2
L
2
....
p3
L
p3
p
+
p1
_
+
_
p2
+
p1
+
p
_
L
p2
p
_
+
_
p1
+
p
_
L
p1
p
L
p
En poursuivant cette dmarche, on obtient une expression du polynme (L) faisant apparatre
les sommes partielles des coecients, notes
j
:
(L) = 1 (
1
0
) L (
2
1
) L
2
(
3
2
) L
3
....
_
p1
p2
_
L
p1
p1
_
L
p
(4.142)
avec
j
=
_
j+1
+
j+2
+... +
p
j = 0, 1, .., p 1 (4.143)
En arrangeant les termes du polynme (L) , on parvient alors la formulation suivante :
(L) = (1 +
0
L)
_
1
L +
2
L
2
+... +
p1
L
p1
_
(1 L) (4.144)
Cest cette expression de (L) qui nous permet de faire apparatre un polynme retard dni
en la dirence premire (1 L) . En posant =
0
, on retrouve alors la reprsentation de Sims,
Stock et Watson (quation 4.138).
Maintenant, envisageons le cas o le processus AR(p) admet au plus une racine unitaire. Si tel
est le cas, le polynme (L) admet un pour racine.
(1) = 0 1
1
2
....
p
= 0 (4.145)
Sous cette hypothse, le terme =
0
de la reprsentation de Sims, Stock et Watson est alors
gal lunit.
Proposition 24 Si le polynme (L) associ au processus (x
t
, t Z), admet une racine
unitaire, alors le terme dans la reprsentation de Sims, Stock et Watson (quation
4.138) est gal lunit. Le processus (x
t
, t Z) se rcrit alors sous la forme :
x
t
=
1
x
t1
+
2
x
t2
+... +
p1
x
t(p1)
+
t
(4.146)
Ds lors, le test de lhypothse de racine unitaire dans un modle ADF revient tester
la nullit du coecient dans le modle incluant p 1 termes direncis retards :
x
t
= x
t1
+
1
x
t1
+
2
x
t2
+... +
p1
x
t(p1)
+
t
(4.147)
avec = 1. Cette structure est identique celle des tests de Dickey Fuller Simples
aux termes retards prs.
On comprend ainsi que lide de Dickey Fuller consiste se ramener une reprsentation
similaire celle du test de Dickey Fuller Simple, mais qui leur permet de traiter le problme de
lautocorrlation des innovations.
Rsum de la dmarche Partant dun modle AR(1) (quation 4.133), on sait que les rsidus
t
sont autocorrls dordre p 1. Donc on peut pas faire le test directement partir de cette
reprsentation. On cherche se ramener une reprsentation alternative dans laquelle les
innovations sont des bruits blancs. Pour ce faire, on se ramne un AR dordre p (quation
3.87). Mais si lon dsire tester la racine unitaire directement partir de lquation 3.87,
il est ncessaire de proposer une stratgie de test dirente de celle du test de Dickey Fuller
Simple. Donc, les auteurs ont cherch une autre reprsentation de l AR(p) leur permettant
de pratiquer un test de racine unitaire dont la spcication est exactement identique celle
du test de Dickey Fuller Simple : cest la reprsentation de Sims, Stock et Watson (quation
4.138). Ne reste plus qu dmontrer que les distributions asymptotiques des statistiques de
tests sont identiques celles des tests de Dickey Fuller Simples.
An de mieux comprendre cette dmarche considrons lexemple suivant.
Exemple : On considre le processus z
t
satisfaisant une reprsentation AR(1) o les rsidus
t
sont autocorrls :
z
t
=
1
2
z
t1
+
t
t
=
t1
+
t
avec
t
i.i.d.
_
0,
2
_
. Dans ce cas, les rsidus
t
sont autocorrls dordre 1, on peut donc
trouver une reprsentation de type AR(2) sur z
t
avec des innovations de type bruits blancs :
t
=
t1
+
t

_
z
t
1
2
z
t1
_
=
_
z
t1
1
2
z
t2
_
+
t
(4.148)
On obtient ainsi :
z
t
3
2
z
t1
+
1
2
z
t2
= (L) z
t
=
t
A partir de cet AR(2) , on cherche la reprsentation canonique de Sims, Stock et Watson :
(L) = 1
3
2
L +
1
2
L
2
= 1 +
__
3
2
+
1
2
_
1
2
_
L +
1
2
L
2
= 1 L
1
2
L +
1
2
L
2
On obtient ainsi la reprsentation suivante :
(L) = (1 +
0
L) (
1
L) (1 L) = (1 L)
_
1
2
L
_
(1 L)
avec
0
= (
1
+
2
) =
_
3
2

1
2
_
= 1 et
1
=
2
=
1
2
. Le modle scrit donc en un
polynme de degr 1 dni en la dirence premire (1 L) z
t
:
(L) z
t
= z
t
1
2
z
t1
=
t
(4.149)
ou encore :
z
t
= z
t1
+
1
2
z
t1
+
t
(4.150)
On a ici inclut 1 terme direnci retard pour corriger lautocorrlation dordre 1 des rsidus
du modle initial. De plus, daprs la proposition prcdente, on sait que le processus z
t
comporte une racine unitaire et est par l mme I (1) .
Ainsi, pour un choix de p retards, correspondant une autocorrlation dordre p + 1 des in-
novations dans une reprsentation AR(1) , les trois modles utiliss pour dvelopper le test ADF
sont les suivants :
Modle 1 : x
t
= x
t1
+
p
j=1
j
x
tj
+
t
(4.151)
Modle 2 : x
t
= x
t1
+
p
j=1
j
x
tj
+c +
t
(4.152)
Modle 3 : x
t
= x
t1
+
p
j=1
j
x
tj
+c +t +
t
(4.153)
Proposition 25 La stratgie de test ADF consiste en un premire tape dterminer
le nombre de retard p ncessaire pour blanchir les rsidus. Dans la seconde tape, il
sut dappliquer la stratgie squentielle du test de Dickey Fuller Simple aux mod-
les (4.151), (4.152) et (4.153). Les distributions asymptotiques des statistiques de test
t
obtenues dans ces trois modles sont alors identiques celles obtenues dans les
modles de Dickey Fuller Simple correspondants.
La dmonstration de cette proposition sera fournie titre dexercice. Pour lconomtre ap-
pliqu, cela implique que les seuils de signicativit pour les tests de racine unitaire DF et ADF
sont identiques, et cest l le principale avantage de dmarche de Dickey Fuller (1979). Ces deux
auteurs ont ainsi fourni une dmarche de tests intgre, avec des seuils identiques en cas dauto-
corrlation ou non des rsidus, grce ladoption de la reprsentation de Sims, Stock et Watson.
4.2 Choix du nombre de retards optimal
Jusqu prsent nous avons suppos que lordre dautocorrlation des rsidus
t
tait connu. Si
cet ordre est gal p, on sait prsent quil faut inclure dans le test ADF, p termes direncis
retards, ce qui correspond alors un modle de type AR(p + 1). Le problme, cest que dans la
vraie vie, on ignore souvent a priori lordre dautocorrlation des rsidus. On doit donc chercher
le nombre optimal p. Pour ce faire, plusieurs approches peuvent tre envisages, parmi celles-ci
nous nen retiendrons que deux : le contrle ex-post de labsence dautocorrlation des innovations
ou la minimisation de critres dinformation.
4.2.1 Critres dinformation
Une des manires de choisir le nombre de retards consiste comparer dirents modles ADF
incluant dirents choix de retards, sur la base de critres dinformation. Un critre dinforma-
tion est un critre fond sur le pouvoir prdictif du modle considr et qui tient du nombre de
paramtres estimer. De faon concrte ces critres sont construits comme des fonctions de la
variance des rsidus estims du modle
2
t
et du nombre de paramtres estimer. Lobjectif tant
bien entendu de minimiser cette fonction par rapport ces deux arguments (application du principe
de parcimonie). Ces critres sapplique de faon gnrale tout type de modle et pas uniquement
aux modles des tests ADF. Nous en retiendrons que deux : le critre dAkaike et le critre de
Schwarz (1978).
Denition 26 Pour un modle, incluant k paramtres, estim sur T priodes et dont
la ralisation de lestimateur de la variance des rsidus est
2
t
, le critre dAkaike, ou
AIC, est :
AIC (k) = T log
_
t
_
+ 2 (k) (4.154)
Le critre de Schwartz (1978) est dni par :
SC (k) = T log
_
t
_
+k log (T) (4.155)
Dans le cas de notre application au choix du nombre de retards dans les modles ADF, on
cherche le nombre de retard p qui minimise ces deux critres. Prenons par exemple, le cas du
modle ADF 3 :
x
t
= x
t1
+
p
j=1
j
x
tj
+c +t +
t
(4.156)
Dans ce cas, pour un choix de retards p on a un nombre de paramtres estimer gal k = 3+p.
Si lon dispose dun hcnatillon de taille T et que lon note
2
t
la ralisation de lestimateur de la
variance des rsidus obtenue dans le modle avec p retard, les deux critres sont dnis en fonction
de p par :
AIC (p) = T log
_
t
_
+ 2 (3 +p) (4.157)
SC (p) = T log
_
2
t
_
+ (3 +p) log (T) (4.158)
On cherche donc le nombre de retards p qui minimise ces deux critres. Sous Eviews, ces
deux critres sont fournis ds lors que lon utilise linstruction de rgression. Nous verrons dans
lapplication comment obtenir la ralisation de ces deux critres.
4.2.2 Tests dautocorrlation des rsidus
Une fois que lon est parvenu apporter un diagnostic quant la non stationnarit de la srie et
identier un modle nal, on peut obtenir une ralisation du processus des innovations {
t
, t Z} .
Il convient alors de vrier que celle-ci satisfait les proprits dun bruit blanc. Les tests dautocor-
rlation de rsidus ne peuvent donc tre mis en place quex-post : ils ne servent pas directement au
choix ex-ante du nombre de retards, ils ne servent qu valider un choix de retards. Par exemple,
supposons que lon ait identier un modle du type :
x
t
= x
t1
+
1
x
t1
+c +
t
(4.159)
avec = 0, p = 1. Le processus x
t
est donc I (1) . En estimant le modle x
t
=
1
x
t1
+
c +
t
, on obtient une ralisation de taille T des innovations
t
. On doit alors vrier labsence
dautocorrlation des
t
.
Remarque 1. Si il ny pas dautocorrlation, le modle est bien spci. Si en revanche,
il existe de lautocorrlation, le modle est mal spci et en particulier le choix
p = 1 nest pas valide. Il convient daugmenter le nombre de retards an de
corriger lautocorrlation des rsidus.
Pour tester lautocorrlation, on tudie le corrlogramme de la srie et lon utilise le test dit du
porte-manteau
16
, dont il existe deux variantes :
Denition 27 On note r
n
lautocorrlation empirique dordre n des rsidus
t
dun
modle incluant k paramtres et estim sur T priodes. Pour un ordre N, le test de
Box et Pierce est le test de lhypothse H
0
: r
1
= ... = r
N
= 0 contre H
1
: j [1, N] , tel
que r
j
= 0. La statistique de ce test est :
Q
BP
= T
N
n=1
r
2
n
L
T
X
2
(N k) (4.160)
Lhypothse H
0
est rejete au seuil de 5% si Q
BP
est suprieur au quantile 0.95 de la
loi du X
2
correspondant.
Denition 28 Le test du Ljung-Box, pour un ordre N, correspond lhypothse nulle
H
0
: r
n
= 0 n N et sont construites de la faon suivante :
Q
K
= T (T + 2)
N
n=1
r
2
n
T n
L
T
X
2
(N k) (4.161)
16
Ou fourre tout dans une traduction plus prcise du terme anglais.
Sous Eviews, linstruction Correlogram permet dobtenir les Qstats associes au second test,
celui de Ljung-Box. On peut ainsi facilement tester lautocorrlation des rsidus empiriques dun
modle ADF incluant p retards.
4.3 Application des tests ADF : la consommation des mnages
Nous avions montr prcdemment la ncessit dappliquer les tests ADF la srie de consom-
mation des mnages issues des comptes nationaux trimestriels, en raison de la prsence dune
autocorrlation des rsidus du modle retenu. Cest ce que nous allons faire prsent et nous
dterminer la correction de lautocorrlation modie le diagnostic quant la non stationnarit de
la srie. Rappelons que cette srie est disponible du premier trimestre 1978 au deuxime trimestre
2001, soit sur 94 observations. La srie est exprime en milliards deuros, au prix de 1995, et est
corrige des variations saisonnires (donnes CVS). Nous allons dans un premier temps chercher
dterminer lordre des retards optimal, puis nous appliquerons la stratgie de test ADF la srie
CONSO.
4.3.1 Choix optimal des retards
Comme nous lavons indiqu prcdemment, il existe direntes faons de choisir lordre optimal p
des retards dans le modle des tests Dickey Fuller Augments. Dans la pratique, on se limite souvent
lobservations des critres dinformation et la vrication ex-post de labsence dautocorrlation
des innovations.
Tableau 4.5: Choix du Nombre de Retards
Modle 3 Modle 2 Modle 1
p AIC SC AIC SC AIC SC
5 2.765 2.990 2.810 3.007 2.791 2.960
4 2.778 2.974 2.800 2.967 2.779 2.919
3 2.754 2.921 2.782 2.921 2.764 2.875
2 2.779 2.917 2.785 2.895 2.766 2.849
1 2.838 2.948 2.827 2.910 2.808 2.862
0 2.882 2.964 2.881 2.935 2.859 2.887
Dans un premier temps, on utilise ainsi les critres dinformation disponibles sous Eviews,
savoir le critre dAkaike (AIC) et le critre de Schwartz (tableau 4.5). Pour ce faire, il sut
tout dabord de se donner un nombre de retards maximum admissibles, not p
max
, compte tenu
du nombre dobservations disponibles et donc du nombre de degrs de libert des rgressions cor-
respondantes. Dans cette tude nous poserons p
max
= 5. Puis, pour chaque modle, on cherche le
nombre de retards p
optimal, compris entre 0 (test de Dickey Fuller simple) et p

max
qui minimise
les deux critres dinformations. Une des faons de dobtenir les deux critres dinformation sous
Eviews consiste cliquer sur la srie, sur Unit Root Test, de choisir le modle (Intercept and Trend,
Intercept ou None) et le nombre de lags, puis de recommencer lopration pour p variant de 0
p
max
. Les critres dinformation (Akaike Info Criterion et Schwarz criterion) gurent alors sur
lcran dachage des rsultats (voir par exemple la gure 3.14). Aprs avoir rpt cette opration,
les rsultats obtenus ont t reports dans le tableau 4.5.
Quel que soit le modle retenu, on constate que le critre dAkaike conduit un choix de retard
optimal p
= 3, tandis que le critre de Schwartz conduit p
= 2. On est donc ici en prsence dune

divergence de diagnostic quant lutilisation de ces deux critres dinformation, ce qui arrive souvent
dans la pratique. Dans ce cas, il est ncessaire de bien comprendre que lobjectif de lintroduction
des termes retards consiste blanchir les rsidus, cest dire contrler lautocorrlation des
innovations. Ds lors, on cherche la structure minimale qui permet datteindre cet objectif. Selon
un principe de parcimonie, il convient de choisir le modle incluant le minimum de paramtres
estimer et qui permet de blanchir totalement les rsidus. On adopte donc ici un choix optimal
de retard p
= 2 et nous vrierons ex-post dans le modle retenu (avec ou sans constante) que
lintroduction des deux termes direncis retards a permis dliminer totalement lautocorrlation
des rsidus.
4.3.2 Stratgie de tests ADF
Comme nous lavons expliqu prcdemment, la stratgie de test des Dickey Fuller Augments est
strictement identique celle des tests Dickey Fuller simple, mis part la modication des 3 modles
qui inclut prsent des termes direncis retards.
On commence par estimer le modle 3 incluant une constante, un trend et deux termes diren-
cis retards :
x
t
= x
t1
+c +.t +
2
i=1
i
x
ti
+
t
(4.162)
avec
t
i.id.
_
0,
2
_
. On teste alors la prsence dune racine unitaire dans le processus en testant
la nullit du paramtre laide dune statistique de Student t
, o

dsigne lestimateur des
MCO. Pour eectuer ce testes sous le logiciel Eviews, on clique sur la srie, puis sur longlet View,
puis sur longlet Unit Root Test. Apparat alors une bote de dialogue dans lequel on choisit le type
Augmented Dickey Fuller, le test in level, on inclut une constante et un trend (Trend and Intercept)
et lon choisit un nombre de termes en dirences retards (Lagged Dierence) gal 2. Le rsultat
de lachage pour la srie CONSO est reproduit sur la gure (4.17).
Pour cet chantillon de 91 observations (aprs les ajustements ds aux valeurs retardes), la
ralisation de la statistique de Student t
est gale 1.344. On compare cette valeur aux seuils

17
17
On utilise ici les mmes seuils que pour le test de Dickey Fuller Simple.
Figure 4.17: Test de Racine Unitaire ADF sur CONSO : Modle 3
tabuls par Dickey et Fuller (cf. document joint, polycopi dexercices) pour le modle 3 et pour
une taille dchantillon de 91 observations. Au seuil de 5%, le seuil critique est C
()
= 3.4591
(3.45 dans la table fournie en annexe pour 100 observations). Ainsi, dans ce cas pour un niveau
de risque de 5%, t
> C
()
, on accepte lhypothse nulle de racine unitaire ( = 0).
On vrie ensuite que le modle partir duquel nous avons fait le test (modle 3) est bien le
bon modle. On teste pour cela la nullit du coecient de la tendance conditionnellement la
prsence dune racine unitaire : cest le test H
3
0
, (c, , ) = (c, 0, 0) . Pour obtenir la ralisation de
la statistique de Fisher F
3
associe H
3
0
, on construit le mme programme que celui expos dans
le cadre des tests DF simples. La seule dirence rside dans le fait que dans les deux rgressions
(modle libre et modle contraint), on doit maintenant ajouter les termes co:o(-1) et co:o(-
2). Pour la variable de consommation, nous obtenons ainsi une valeur de F
3
gale 1.8725. Cette
valeur est comparer aux seuils critiques lus dans la table de Dickey et Fuller (1981), tableau VI,
page 1063, fournie en annexe (cf. polycopi dexercices). Pour une taille dchantillon de 100, et un
risque de premire espce de 5%, la valeur critique est gale 6.49. Donc la ralisation de F
3
est
infrieure au seuil critique, on accepte lhypothse nulle de la nullit du coecient de la tendance
conditionnellement la prsence dune racine unitaire. Ceci signie que le test de non stationnarit
pratiqu avec les seuils asymptotiques incluant une tendance (modle 3) doit tre remis en cause.
Il faut donc recommencer ce test partir du modle incluant uniquement une constante.
On estime prsent le modle 2 et lon teste la prsence dune racine unitaire dans :
x
t
= x
t1
+c +
2
i=1
i
x
ti
+
t
(4.163)
avec
t
i.id.
_
0,
2
_
. Si dans la procdure Eviews, on inclut uniquement une constante (Intercept)
et lon choisit un nombre de termes en dirences retards (Lagged Dierence) gal 2, on obtient
les rsultats suivants (gure 4.18).
Figure 4.18: Test de Racine Unitaire ADF sur CONSO : Modle 2
La statistique de Student t
associe la variable endogne retarde CONSO(1) prend ici une

valeur de 1.151. Pour tester lhypothse = 0, on utilise alors les seuils tabuls par Dickey et Fuller
pour le modle 2 (cf. document joint, polycopi dexercices) et pour une taille dchantillon de 91
observations. Ces seuils sont reports dans lachage de la procdure dEviews. Au seuil de 5%,
le seuil critique est C
()
= 2.8932 (2.89 dans la table fournie en annexe pour 100 observations).
Ainsi, dans ce cas pour un niveau de risque de 5%, t
> C
()
, on accepte lhypothse nulle de racine
unitaire ( = 0) dans le modle 2.
Il faut nouveau valuer la validit de notre diagnostic en vriant que le modle 2 partir
duquel nous avons fait le test de racine unitaire est bien le bon modle. On teste pour cela la
nullit du coecient de la constante conditionnellement la prsence dune racine unitaire : test
H
2
0
, (c, ) = (0, 0) . Dans le cas des tests de Dickey Fuller Augments, le test H
2
0
ne correspond
plus lhypothse de nullit jointe de lensemble des coecients de la rgression. En eet, sous H
2
0
,
les coecients
i
ne sont pas ncessairement nuls. On ne peut donc plus utiliser la statistique de
Fisher programm dans Eviews pour le test de la nullit de lensemble des coecients du modle.
On doit donc programmer la statistique de Fisher F
2
associe H
2
0
.
- Co:1nc1io:i iiiini:ci ini:iini

:ii 1978:2 2001:2
oi:nco:o=co:o-co:o(-1)
- E1i:.1io::oiii iiini
iq.1io: :o2.i co:occo:o(-1) co:o(-1) co:o(-2)
c.i.ncn2=@n
c.i.n:i=@niooi-@:coii
- E1i:.1io::oiii co:1n.i:1
iq.1io: :o2.i co:oco:o(-1) co:o(-2)
c.i.ncn2c=@n
- Co:1nc1io:i i.1.1i1iqi i2
c.i.ni2=((cn2c-cn2)/2)/(cn2/:i)
La ralisation de la statistique de Fisher F
2
, est gale 8.47. On compare cette ralisation de F
2
aux seuils critiques de la table de Dickey et Fuller (1981), tableau VI, page 1063, fournie en annexe
(cf. polycopi dexercices). Pour une taille dchantillon de 100, et un risque de premire espce
de 5%, la valeur critique est gale 4.71. Pour un risque de 5%, la ralisation de F
3
est suprieure
au seuil critique, on rejette donc lhypothse nulle de la nullit de la constante conditionnellement
la prsence dune racine unitaire. Ceci signie que le modle 2 est le bon modle, ce qui valide
par la mme notre diagnostic quant la non stationnarit de la srie de consommation.
Finalement, lapplication des tests ADF nous indique que la srie trimestrielle de consommation
des mnages est engendre par un processus non stationnaire I (1) de type AR(3), puisque :
Conso
t
= 0.56
(3.94)
+Conso
t1
0.13
(1.26)
(Conso
t1
Conso
t2
)
+ 0.26
(2.56)
(Conso
t2
Conso
t3
) +
t
(4.164)
Par contre, la srie de consommation direncie (qui correspond au taux de croissance si la
srie en logarithme), est gnre par un processus stationnaire I (0) de type AR(2) avec constante
:
Conso
t
=0.56
(3.94)
0.13
(1.26)
Conso
t1
+ 0.26
(2.56)
Conso
t2
+
t
(4.165)
o
t
est un processus bruit blanc. On vrie en eet que le choix du lag p = 2, nous a permis de
blanchir totalement les rsidus
t
, comme le conrme lexamen du corrlogramme (non report).
5 Les processus ARIMA
Il ne nous reste plus qu introduire prsent une sous-classe de processus ARMA, la classe des
processus ARIMA cest les processus ARMA intgr ou DS. Nous distinguerons les processus
ARIMA non saisonniers et les processus saisonniers SARIMA
Denition 29 Le processus stationnaire x
t
satisfait une reprsentation ARIMA (Inte-
grated AutoRegressive Moving Average) dordre p et q, intgr dordre d,note ARIMA(p, d, q),
si :
(L) (1 L)
d
x
t
= c +(L)
t
(5.166)
avec c R, (L) =

q
j=0
j
L
j
, (L) =

p
j=0
j
L
j
o j < q
j
R
2
, j < p
j
R
2
,
0
=
0
= 1 et
_
p
,
q
_
R
2
,avec {
t
} i.i.d.
_
0,
2
_
. Les polynmes (L) et (L) ont
toutes racines situes lextrieur du cercle unit.
Denition 30 Le processus stationnaire x
t
satisfait une reprsentation SARIMA saison-
nier (Seasonal Integrated AutoRegressive Moving Average) dordre p et q, intgr dor-
dre d, de priode s et s
, note SARIMA
s,s
(p, d, q), si :
(L
s
) (1 L
s
)
d
x
t
= c +
_
L
s
t
(5.167)
avec c R, (L) =

q
j=0
j
L
j
, (L) =

p
j=0
j
L
j
o j < q
j
R
2
, j < p
j
R
2
,
0
=
0
= 1 et
_
p
,
q
_
R
2
,avec {
t
} i.i.d.
_
0,
2
_
. Les polynmes (L) et (L) ont
toutes racines situes lextrieur du cercle unit.
A Annexes
A.1 Simulations de rgressions fallacieuses
Le programme des simulations est le suivant :
T1.1i1iqi : Sinio Rioniio:
\ic1on (1000) 11.15000
\ic1on (1000) 11.11000
\ic1on (1000) 11.1500
\ic1on (1000) 11.1100
ion !i=1 1o 1000
I:i1i.ii.1io: Pnoci
:ii 1 5000
oi:n x=0
oi:n .=0
Co:1nc1io: i M.ncii Aii.1oini
:ii 2 5000
oi:n x=x(-1)+:n:
oi:n .=.(-1)+:n:
Rioniio: 5000 ioi:1
:ii 1 5000
iq.1io: iq1.i . c x
11.15000(!i)=iq1.@11.1(1)
Rioniio: 1000 ioi:1
:ii 1 1000
iq.1io: iq1.i . c x
11.11000(!i)=iq1.@11.1(1)
Rioniio: 500 ioi:1
:ii 1 500
iq.1io: iq1.i . c x
11.1500(!i)=iq1.@11.1(1)
Rioniio: 100 ioi:1
:ii 1 100
iq.1io: iq1.i . c x
11.1100(!i)=iq1.@11.1(1)
:ix1
:ii 1 100
:1o(11.15000,11.15000_)
:1o(11.11000,11.11000_)
:1o(11.1500,11.1500_)
:1o(11.1100,11.1100_)

CoursSeriesTemp Chap2 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

CoursSeriesTemp Chap2 PDF

Transféré par

Droits d'auteur :

Formats disponibles

Chapitre 2. UFR Economie Applique. Cours de C.

serait fonction de t. La troisime

- Cni.1io:i i.inii i cioc-

- Cni.1io:i i.co:io.:1i 1.1io::.ini z

- Cni.1io:i i.inii i::o\.1io:-

- Cni.1io:i inii xi1 .

= 1. A partir de deux ralisations de

- Cni.1io:i inii i::o\.1io:-

- Cni.1io:i inii xi1 .

. On cherche alors contrler cette vitesse de

(r) est distribu suivant une loi normale N

8.06 17.40 24.46 55.74

suprieures au seuil de 1.96 crot avec T.

= 0.68, cela signie que la distribution de

- Vic1ini Ri.ii.1io: i i i1i:.1ini MCO-

de la population des rsidus

- TS1.1i1iqi : Ti1 i Dicii.Fiiin-

- Co:1nc1io:i iiiini:ci ini:iini

associe la variable endogne retarde CONSO(1) prend ici une

associe la variable endogne retarde prend ici

optimal, compris entre 0 (test de Dickey Fuller simple) et p

= 3, tandis que le critre de Schwartz conduit p

= 2. On est donc ici en prsence dune

est gale 1.344. On compare cette valeur aux seuils

associe la variable endogne retarde CONSO(1) prend ici une

- Co:1nc1io:i iiiini:ci ini:iini

Vous aimerez peut-être aussi