Vous êtes sur la page 1sur 31

U.F.R.

Economie Appliquée

Maîtrise d’Economie Appliquée


Cours de Tronc Commun

Econométrie Appliquée
Séries Temporelles

Christophe HURLIN
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 2

Chapitre 5

Représentation VAR et Cointégration


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 3

1. Représentation VAR
1.1. Exemple introductif

On considère deux processus stationnaires {y1,t , t ∈ Z} et {y2,t t ∈ Z} définies par les relations
suivantes : p p
y1,t = a1 + b1,i y1,t−i + c1,i y2,t−i − d1 y2,t + ε1,t (1.1)
i=1 i=1
p p
y2,t = a2 + b2,i y1,t−i + c2,i y2,t−i − d2 y1,t + ε1,t (1.2)
i=1 i=1

où les innovations {ε1,t , t ∈ Z} et {ε2,t , t ∈ Z} sont des bruits de variance respective σ 21 et


σ 22 , et non corrélés : E (ε1,t ε2,t−j ) = 0, ∀j ∈ Z. On constate immédiatement que le processus
vectoriel Yt = (y1,t y2,t ) peut s’écrire sous la forme d’un processus AR (p) . En effet :

1 d1 a1 b1,i c1,i
B= A0 = Ai = ∀i ∈ [1, p]
d2 1 a2 b2,i c2,i

On définit un processus vectoriel εt i.i.d. tel que :

ε1,t  σ 21 0
εt = E εt εt = Ω =
ε2,t 0 σ 22

Alors, on montre immédiatement que :


p
BYt = A0 + Ai Yt−i + εt (1.3)
i=1

On qualifie cette représentation de processus V AR (Vectorial Autoregressive) d’ordre p,


noté V AR(p). Ce système initial donnée par les équations (1.1) et (1.2), ou par la définition
matricielle (1.3) est qualifiée de représentation structurelle. On constate que dans cette
représentation le niveau de y2,t a un effet immédiat sur y1,t et vice et versa. L’estimation de
ce modèle suppose donc d’estimer 4 ∗ (p + 1) + 2 + 2 paramètres.

C’est pourquoi on travaille généralement à partir de la forme réduite du modèle V AR.


Ce modèle, obtenu en multipliant les deux membres de (1.3) par B −1 , s’écrit alors sous la
forme : p
Yt = A0 + Ai Yt−i + vt (1.4)
i=1
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 4

avec :

Ai = B −1 Ai ∀i ∈ [0, p]
vt = B −1 εt ∀t ∈ Z

Ce qui peut s’écrire sous la forme :


p p
y1,t = a1 + b1,i y1,t−i + c1,i y2,t−i + v1,t (1.5)
i=1 i=1

p p
y2,t = a2 + b2,i y1,t−i + c2,i y2,t−i + v1,t (1.6)
i=1 i=1

On constate alors que le niveau de y2,t ne dépend plus directement de y1,t , mais seulement
des valeurs passées de y2,t et de y1,t , et de l’innovation v2,t . Les innovations v1,t et v2,t sont
alors fonction des innovations de la forme structurelle (ε1,t et ε2,t ) et peuvent être corrélées
même en l’absence de corrélation des innovations εt . En effet, on a ∀t ∈ Z:
ε1,t − d1 ε2,t
v1,t = (1.7)
1 − d1 d2
ε2,t − d2 ε1,t
v2,t = (1.8)
1 − d1 d2
Dès lors, on vérifie que les processus {v1,t , t ∈ Z} et {v2,t , t ∈ Z} sont i.i.d. puisque :

E (v1,t ) = E (v2,t ) = 0

E (v1,t v1,t−j ) = E (v2,t v2,t−j ) = 0 ∀j ∈ Z∗


Les variances de ces innovations sont alors définies par ∀t ∈ Z

2 σ 21 + d21 σ 22
E v1,t =
(1 − d1 d2 )2

2 σ 22 + d22 σ 21
E v2,t =
(1 − d1 d2 )2
Enfin, on constate que les innovations {v1,t , t ∈ Z} et {v2,t , t ∈ Z} peuvent être corrélées
alors même que les innovations du modèle structurel {ε1,t , t ∈ Z} et {ε2,t , t ∈ Z} sont non
corrélées.
d22 σ21 +d21 σ22
− (1−d 2 h=0
E (v1,t v2,t−h ) = 1 d2 ) (1.9)
0 h=0
On constate que cette covariance est nulle en particulier lorsque d1 = d2 = 0, puisque
dans ce cas là le niveau de y2,t n’a pas d’influence sur celui de y1,t et vice et versa.
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 5

1.2. Représentation générale

La définition générale d’un processus V AR (p) est la suivante.

Definition 1.1. Un processus vectoriel {Xt , t ∈ Z}, de dimension (n, 1) , admet une représen-
tation V AR d’ordre p, notée V AR (p) si :

Xt = c − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p + εt (1.10)

ou de façon équivalente :
Φ (L) Xt = c + εt (1.11)
où c, dimension (n, 1) désigne un vecteur de constantes, Φ (L) = ∞ i
i=0 Φi L , où les matrice
Φi , ∀i ∈ [0, p] de dimension (n, n) , satisfont Φ0 = In et Φp = 0n . Le vecteur (n, 1) des
innovations εt est i.i.d. (0n , Ω) où Ω est une matrice (n, n) symétrique définie positive.

Le processus vectoriel des innovations {εt , t ∈ Z} est i.i.d. (0n , Ω), et satisfait par con-
séquent les propriétés suivantes :
E (εt ) = 0
Ω j=0
E εt εt−j =
0 j=0

De la même façon que pour un AR (1), on peut donc exprimer le polynôme matriciel
Φ (L), de dimension (n, n), de la façon suivante :

Φ (L) = Φi Li = In + Φ1 L − Φ2 L2 − ... − Φp Lp
i=0

où In désigne la matrice identité (n, n) . On pose les définitions suivantes :


     i 
x1,t ε1,t Φ1,1 Φi1,2 ... Φi1,n
 x2,t   ε2,t   Φi2,1 Φi2,2 ... ... 
Xt = 


 ε t = 


 Φ i = 
 i
 ∀i ∈ [1, p]

(n,1) ... (n,1) ... (n,n) ... ... Φ j,k ...
xn,t εn,t Φin,1 Φin,2 ... Φin,n
On retrouve alors la forme réduite évoquée dans l’exemple précédent puisque, les proces-
sus {xi,t , t ∈ Z} sont respectivement définis en fonctions de leur passé et du passé des proces-
sus {xj,t , t ∈ Z} pour j = i. Par exemple, pour x1,t on obtient, ∀t ∈ Z :

x1,t = cj + Φ11,1 x1,t−1 + Φ11,2 x2,t−1 + .. + Φ11,n xn,t−1


+Φ21,1 x1,t−2 + Φ21,2 x2,t−2 + .. + Φ21,n xn,t−2
+...
+Φp1,1 x1,t−p + Φp1,2 x2,t−p + .. + Φp1,n xn,t−p
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 6

De façon plus générale, pour xj,t , ∀j ∈ [1, n] , on a :

xj,t = c1 + Φ1j,1 x1,t−1 + Φ1j,2 x2,t−1 + .. + Φ1j,j xj,t−1 + .. + Φ1j,n xn,t−1


+Φ2j,1 x1,t−2 + Φ2j,2 x2,t−2 .. + Φ2j,j xj,t−2 + .. + Φ2j,n xn,t−2
+...
+Φpj,1 x1,t−p + Φpj,2 x2,t−p .. + Φpj,j xj,t−p + .. + Φpj,n xn,t−p

1.3. Conditions de stationnarité

La définition de la stationnarité d’ordre deux (ou stationnarité du second ordre) est identique
à celle du cas des processus univariés.

Definition 1.2. Un processus vectoriel {Xt , t ∈ Z}, de dimension (n, 1) , est dit stationnaire
au second ordre, ou stationnaire au sens faible, ou stationnaire d’ordre deux si
• ∀t ∈ Z, E (Xt2 ) < ∞
• ∀t ∈ Z, E (Xt ) = m (indépendant de t)
(n,1)

• ∀ (t, h) ∈ Z2 , E (Xt+h − m) (Xt − m) =γ (h) (indépendant de t)


(n,n)

Lorsque l’on considère un processus V AR (p) , on peut démontrer que ces conditions de
stationnarité reviennent à imposer des conditions sur les racines du déterminant du polynôme
matriciel Φ (L) .

Proposition 1.3. Un processus vectoriel {Xt , t ∈ Z}, de dimension (n, 1) , statisfaisant une
représentation V AR (p) telle que ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

est stationnaire si et seulement si les racines du déterminant du polynôme matriciel Φ (L) ,


notée λi i ∈ [1, n], sont toutes supérieures à l’unité en module.

det [Φ (λi )] = |Φ (λi )| = Inλpi − Φ1 λp−1


i − Φ2 λp−2
i − ... − Φp−1 λpi − Φp = 0

|λi | > 1 ∀i ∈ [1, n] (1.12)


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 7

Exemple : On considère un processus bi-varié {Yt , t ∈ Z} admettant une représentation


V AR (1) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t


y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t

On pose Yt = (y1,t y2,t ) et εt = (ε1,t ε2,t ) . Cette représentation peut s’exprimer sous la
forme réduite suivante :
Φ (L) Yt = c + εt
avec c = (3 1) et :

1 0 −0.2 −0.7 1 − 0.2L −0.7L


Φ (L) = + L=
0 1 −0.3 −0.4 −0.3L 1 − 0.4L

Donc la condition de stationnarité du processus {Yt , t ∈ Z} se ramène à déterminer les


racines du polynôme :

det [Φ (L)] = (1 − 0.2L) (1 − 0.4L) − 0.21L2

Les deux racines λ1 = 1.30 et λ2 = −5.91 sont supérieures à 1 en module, le processus V AR


est stationnaire. Donc les processus univariées {y1,t , t ∈ Z} et {y2,t , t ∈ Z} sont stationnaires.

On peut facilement démontrer que cette condition de stationnarité peut être exprimée
en fonction des valeurs propres de la matrice Φ (L) .

Proposition 1.4. Un processus vectoriel {Xt , t ∈ Z}, de dimension (n, 1) , statisfaisant une
représentation V AR (p) telle que ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

est stationnaire si et seulement si les valeurs propres de l’application linéaire Φ (L) , notée λi
i ∈ [1, n], sont toutes inférieures à l’unité en module. Ces valeurs propres satisfont l’équation
caractéristique associée :
p p−1 p−2 p
In λi − Φ1 λi − Φ 2 λi − ... − Φp−1 λi − Φp = 0 (1.13)

λi < 1 ∀i ∈ [1, n] (1.14)


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 8

1.4. Ecriture VAR(1) d’un VAR(p)

Les processus V AR (p) possède une propriété particulièrement utile pour les démonstrations
ultérieures.

Proposition 1.5. Tout processus vectoriel {Xt , t ∈ Z}, satisfaisant une représentation V AR (p)
peut être transformé en un processus Xt , t ∈ Z satisfaisant une représentation V AR (1)
d’espérance nulle.

Preuve : On considère un processus {Xt , t ∈ Z}, avec Xt = (x1,t , ..., xn,t ) satisfaisant la
représentation V AR (p) suivante, ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt


(n,n) (n,1)

Déterminons tout d’abord l’espérance du processus Xt :

E (Xt ) = Φ (L)−1 [c + εt ] = Φ (1)−1 c = µ ∀t ∈ Z

où µ est un vecteur de constante (hypothèse de stationnarité) de dimension (n, 1) . On peut


alors réecrire le processus sous la forme suivante :

Φ (L) (Xt − µ) = εt

⇐⇒ (Xt − µ) = Φ1 (Xt−1 − µ) + Φ2 (Xt−2 − µ) + ... + Φp (Xt−p − µ) + εt


On pose ∀t ∈ Z
   
Xt − µ εt
 Xt−1 − µ   0(n,1) 
   
Xt =  Xt−2 − µ 
 vt = 
 0(n,1) 

(np,1)  ...  (np,1)  ... 
Xt−p+1 − µ 0(n,1)
et  
Φ1 Φ2 ... Φp−1 Φp
 In 0(n,n) ... 0(n,n) 0(n,n) 
 
A =  0(n,n) In ... 0(n,n) 0(n,n) 

(np,np)  0(n,n) 0(n,n) In 0(n,n) 0(n,n) 
0(n,n) 0(n,n) 0(n,n) In 0(n,n)
Alors le processus V AR (p) Xt peut se récrire sous la forme d’un processus transformé
Xt satisfaisant une représentation V AR (1) tel que :

Xt = AXt−1 + vt
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 9

Exemple : On considère un processus bi-varié {Yt , t ∈ Z} admettant une représentation


V AR (2) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 − 0.4y1,t−2 − 0.6y2,t−2 + ε1,t


y2,1 = 1 + 0.3y1,t−1 + 0.4y2,t−1 − 0.1y1,t−2 − 0.8y2,t−2 + ε2,t

On pose Yt = (y1,t y2,t ) et εt = (ε1,t εy2,t ) . Cette représentation peut s’exprimer sous la
forme réduite suivante :
Φ (L) Yt = c + εt
avec c = (3 1) et :

Φ (L) = Φ0 + Φ1 L + Φ2 L2
1 0 −0.2 −0.7 0.4 0.6
= + L+ L2
0 1 −0.3 −0.4 0.1 0.8
1 − 0.2L + 0.4L2 −0.7L + 0.6L2
=
−0.3L + 0.1L2 1 − 0.4L + 0.8L2
Déterminons E (Y ) :
−1
−1 1.2 −0.1 3 2.59
E (Yt ) = Φ (1) c= = =µ
−0.2 1.4 1 1.8
On pose ∀t ∈ Z
   
y1,t − 2.59 ε1,t
Yt − µ  y2,t − 1.8  εt  ε2,t 
Yt = = 
 y1,t−1 − 2.59  vt = =
 0 

(4,1) Yt−1 − µ (4,1) 0(2,1)
y2,t−1 − 1.8 0
et  
−0.2 −0.7 0.4 0.6
Φ1 Φ2  −0.3 −0.4 0.1 0.8 
A= =
 1

(4,4) I2 0(2,2) 0 0 0 
0 1 0 0
Alors on montre que la représentation V AR (1) du processus Yt est identique à la représen-
tation V AR (p) du processus Yt puisque :

Yt = AYt−1 + vt
      
y1,t − 2.59 −0.2 −0.7 0.4 0.6 y1,t−1 − 2.59 ε1,t
 y2,t − 1.8   −0.3 −0.4 0.1 0.8   y2,t−1 − 1.8   ε2,t 
⇐⇒   
 y1,t−1 − 2.59  =  1
 + 
0 0 0   y1,t−2 − 2.59   0 
y2,t−1 − 1.8 0 1 0 0 y2,t−2 − 1.8 0
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 10

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 − 0.4y1,t−2 − 0.6y2,t−2 + ε1,t


⇐⇒
y2,1 = 1 + 0.3y1,t−1 + 0.4y2,t−1 − 0.1y1,t−2 − 0.8y2,t−2 + ε2,t

1.5. Représentation VMA

Considérons un processus vectoriel {Xt , t ∈ Z}, de dimension (n, 1) , stationnaire.

Remark 1. Tout comme dans le cas univarié, sous la condition de stationnarité, il est
possible d’appliquer le théorème de Wold et de représenter Xt sous la forme d’un processus
vectoriel moyenne mobile infini V M A (∞).

Nous allons à nouveau donner l’intuition du théorème de Wold appliqué aux processus
vectoriels. On considère un processus stationnaire satisfaisant la représentation V AR (p)
suivante, ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

On sait que E (Xt ) = Φ (1)−1 c = µ, où µ est un vecteur de constante (hypothèse de


stationnarité) de dimension (n, 1) .
On sait d’après la propriété précédente que ce processus V AR (p) peut être réexprimer
sous la forme d’un processus V AR (1) tel que :

Φ (L) Xt = vt ⇐⇒ Xt = AXt−1 + vt

où les processus Xt et vt , ainsi que la matrice A on été définis précédemment. Dès lors,
en itérant vers le passé, on montre que le processus Xt peut s’écrire sous la forme d’une
moyenne mobile d’ordre fini à t donné.

Xt = vt + Avt−1 + A2 vt−2 + ..... + Ak Xt−k

Si l’on suppose que les valeurs propres de la matrice A sont strictement inférieures à 1
en module (condition de stationnarité), alors lim Ak = 0. Dès lors, le processus Xt peut
k→∞
s’écrire sous la forme :
k ∞
Xt = lim Ai vt−i = Ai vt−i = Ψ (L) vt
k→∞
i=0 i=0

En reprenant la définition du processus Xt , on peut alors déterminer la décomposition


de Wold associée au processus V AR (p) Xt .
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 11

Proposition 1.6. Tout processus {Xt , t ∈ Z}, de dimension (n, 1) , stationnaire, satisfaisant
une représentation V AR (p) , telle que, ∀t ∈ Z :

Xt = Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + c + εt (1.15)

admet une représentation moyenne mobile convergente définie par :



Xt = µ + ψ i εt−i = µ + Ψ (L) εt
i=0

avec µ = E (Xt ) = Φ (1)−1 c, où εt est un bruit blanc vectoriel et où la séquence des matrices
de dimension (n, n) , {ψ i }∞
i=0 satisfait ψ 0 = In et est absolument sommable au sens où les
i
éléments ψ j,k de la matrice ψ i satisfont la condition :

s
ψ ij,k < ∞ ∀i ≥ 1, ∀ (j, k) ∈ [1, n]2
s=0

La condition de sommabilité, qui garantit la convergence des moments d’ordre deux du


processus Xt , doit se comprendre dans ce contexte comme une condition de sommabilité sur
une séquence de matrices {ψ i }∞ i=0 . Cette condition se ramène à démontrer la sommabilité de
tous les éléments ψ ij,k de ces matrices, au sens traditionnel de la sommabilité d’une séquence
de scalaires (cf. chapitre 1).

Il est possible de déterminer de façon générale la forme des matrices de l’opérateur


polynômial associée à la représentation V M A (∞).

∞ i
Proposition 1.7. Le polynôme matriciel Ψ (L) = i=0 ψ i L associé à la représentation
V MA (∞) d’un processus V AR (p) stationnaire, {Xt , t ∈ Z}, ∀t ∈ Z :

Xt = Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + c + εt (1.16)

satisfait la relation de récurrence suivante :

ψ 0 = In

ψ s = Φ1 ψ s−1 + Φ2 ψ s−2 + ... + Φp ψ s−p ∀s ≥ 1


avec ψ s = 0, ∀s < 0.
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 12

Preuve : Une façon simple d’obtenir la représentation V M A (∞) d’un processus V AR (p)
consiste à identifier les polynômes matriciels Φ (L)−1 et Ψ (L) . En effet, dans le cas d’un
processus centré (c = 0), on a :

Xt = Φ (L)−1 εt = Ψ (L) εt ⇐⇒ Φ (L) Ψ (L) = In

Ce égalité peut se réecrire sous la forme :

lim In − Φ1 L − Φ2 L2 − ... − Φp Lp In − Ψ1 L − Ψ2 L2 − ... − Ψp Lp − ... − Ψk Lk = In


k→∞

Dès lors, on montre par identification des termes de même ordre que les matrices de
l’opérateur polynômial associée à la représentation V M A (∞) satisfont une équation de
récurrence qui correspond à celle de la proposition.
Preuve : On considère un processus bi-varié stationnaire {Yt , t ∈ Z} admettant une
représentation V AR (1) telle que :

Φ (L) Yt = c + εt

avec εt i.i.d. (0, Ω) , c = (3 1) et :

1 0 −0.2 −0.7 1 − 0.2L −0.7L


Φ (L) = Φ0 + Φ1 L = + L=
0 1 −0.3 −0.4 −0.3L 1 − 0.4L

Par application du théorème de Wold, on sait que ce processus peut être représenté
comme sous une forme V M A (∞) telle que :

Xt = µ + ψ i εt−i = µ + Ψ (L) εt
i=0

Immédiatement, on montre que


−1
0.8 −0.7 3 9.25
µ = E (Yt ) = =
−0.3 0.6 1 6.29

Par définition, on a Φ (L) Ψ (L) = I2 , ce qui peut se réecrire sous la forme :

lim (I2 − Φ1 L) Ψ0 − Ψ1 L − Ψ2 L2 − ... − Ψp Lp − ... − Ψk Lk = I2


k→∞

Par identification des membres de même terme, on montre que :

Ψ0 = I2
−0.2 −0.7
Ψ1 = Φ1 =
−0.3 −0.4
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 13

2
−0.2 −0.7
Ψ2 = Φ1 Ψ1 = Φ21 =
−0.3 −0.4
et de façon générale, on a :
n
−0.2 −0.7
Ψn = Φ1 Ψn−1 = Φn1 = ∀n ≥ 1
−0.3 −0.4
On retrouve ainsi la formule générale que l’on avait établi par itération vers le passé dans
le cas d’un V AR (1):

Yt = µ + Ψ (L) εt = µ + Φi1 εt−i
i=0
On montre ainsi que :
∞ i
y1,t−1 9.25 −0.2 −0.7 ε1,t−i
Yt = = +
y2,t−1 6.29 −0.3 −0.4 ε2,t−i
i=0

2. Estimation des paramètres

Tous comme pour les processus AR univariés plusieurs méthodes d’estimation sont envisage-
ables pour les processus V AR. La première consiste tout simplement à appliquer les MCO.
La seconde principale méthode consiste en le maximum de vraisemblance.

2.1. Maximum de Vraisemblance

On considère un processus {Xt , t ∈ Z}, avec Xt = (x1,t , ..., xn,t ) satisfaisant la représentation
V AR (p) suivante, ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

On suppose que les innovations εt sont i.i.d. N (0, Ω) et que l’on dispose de T +p observations
du processus Xt . On cherche à déterminer la vraisemblance conditionnelle de Xt en fonction
des réalisations passées Xt−i , i ∈ [1, p] . Par définition, la distribution conditionnelle de Xt
s’écrit :

D (Xt /Xt−1 , Xt−2 , ..., Xt−p ) ∼ N (c + Φ1 Xt−1 + Φ2 Xt−2 − ... + Φp Xt−p , Ω)

Afin de simplifier les calculs, on pose :


   
1 c
 Xt−1   Φ1 
   
Xt = 
 Xt−2

 Π =
 Φ2 

(p,1)  ...   ... 
Xt−p Φp
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 14

On a alors :
D (Xt /Xt−1 , Xt−2 , ..., Xt−p ) ∼ N Π Xt , Ω
Si l’on note Θ le vecteur des paramètres à estimer :
 
c
 Φ1 
 
Π

 Φ2 
Θ= = ...


vect(Ω)  
 Φp 
vect(Ω)

Dès lors la densité conditionnelle de Xt s’écrit :


1 1
f (Xt /Xt−1 , Xt−2 , ..., Xt−p ; Θ) = (2π)−n/2 Ω−1 2
exp − Xt − Π Xt Ω−1 Xt − Π Xt
2

En partant de cette expression, il est possible de dériver la vraisemblance sur l’ensemble de


l’échantillon {Xt }Tt=1 conditionnellement aux valeurs initiales (X0 , X−1 , X−2 , ..., X−p ) s’écrit
T
f (Xt , Xt−1, Xt−2, ..., X1 /Xt−1 , Xt−2 , ..., Xt−p ; Θ) = f (Xt /Xt−1 , Xt−2 , ..., Xt−p ; Θ)
t=1

La log-vraisemblance d’un processus V AR (p) s’écrit donc :


T
L (Θ) = log [f (Xt /Xt−1 , Xt−2 , ..., Xt−p ; Θ)]
t=1
T
Tn 1 1
= − log (2π) + log Ω−1 − Xt − Π Xt Ω−1 Xt − Π Xt (2.1)
2 2 2 t=1

La maximisation de cette vraisemblance permet alors d’obtenir des estimateurs conver-


gents des paramètres Π et de la matrice de variance covariance des innovations Ω.

2.2. Détermination du nombre de retards

Pour déterminer le nombre de retards optimal pour un V AR (p) , on peut utiliser plusieurs
méthodes. En particulier toutes les méthodes de comparaison de modèles étudiées dans le
chapitre précédent sont valides dès qu’elles ont été adaptées au cas vectoriel.
Une procédure type consiste à estimer tous les modèles V AR pour des ordres p allant
de 0 à un certain ordre h fixé de façon arbitraire (nombre de retards maximum pour la
taille d’échantillon considéré, ou nombre de retards maximum compatible avec une théorie
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 15

ou une intuition économique). Pour chacun de ces modèles, on calcule les fonction AIC (p)
et SC (p) de la façon suivante :

k2 p
AIC (p) = ln det Ω + 2 (2.2)
T
k 2 p ln (T )
F C (p) = ln det Ω + (2.3)
T
où T est le nombre d’observations, k le nombre de variable du système, Ω la matrice de
variance covariance des résidus estimés du modèle.

2.3. Prévisions
2.3.1. Le cas d’un VAR(1)

Considérons le cas d’un modèle V AR (1) centré tel que ∀t ∈ Z :

Xt = Φ0 + Φ1 Xt−1 + εt

Supposons que l’on dispose d’une réalisation sur un échantillon de T réalisations (X1 , X2 , .., XT )
d’un estimateur convergent Φ1 de Φ1 et d’un estimateur convergent Φ0 de Φ0 La formule qui
permet d’obtenir une prévision de la réalisation à la date T + 1 du processus Xt est donc
naturellement donnée par :

XT +1 = E (Xt+1 /XT , XT −1 , ..., X1 ) = Φ0 + Φ1 Xt (2.4)

A l’horizon T + 2, on a :

XT +2 = E (Xt+2 /XT , XT −1 , ..., X1 ) = Φ0 + Φ1 Xt+1 = I + Φ1 Φ0 + Φ21 XT (2.5)

Proposition 2.1. De la même façon à un horizon h, la prévision d’un V AR (1) est donnée
par :

XT +h = E (XT +h /XT , XT −1 , ..., X1 ) = I + Φ1 + Φ21 + ... + Φh−1


1 Φ0 + Φh1 Xt

Dès lors, l’erreur de prévision s’écrit sous la forme :

XT +h − XT +h = XT +h − E (XT +h /XT , XT −1 , ..., X1 )


= XT +h − E (XT +h /εT , εT −1 , ..., ε1 )
h−1
= Φi1 εT +h−i
i=0
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 16

Par définition des bruits blancs, cette erreur de prévision a une espérance nulle. La
matrice de variance covariance de l’erreur de prévision est donc :

E XT +h − XT +h XT +h − XT +h /XT , XT −1 , ..., X1

= E εT +h + Φ1 εT +h−1 + .. + Φh−1
1 εT +1 εT +h + Φ1 εT +h−1 + .. + Φh−1
1 εT +1
h−1
= Ω+ Φi1 Ω Φi1
i=1

Proposition 2.2. Pour un processus V AR (1) , la matrice de variance covariance de l’erreur


de prévision à un horizon h est déterminée par la relation :
h−1
E XT +h − XT +h XT +h − XT +h /XT , XT −1 , ..., X1 = Ω + Φi1 Ω Φi1
i=1

Les variances des erreurs de prévisions pour les processus univariés (x1,t , x2,t , ..., x3,t ) sont
déterminés par la diagonale principale de cette matrice.

2.3.2. Le cas d’un VAR(p)

La variance de l’erreur de prévision s’obtient très facilement à partir de la représentation


V MA (∞) d’un V AR d’ordre p quelconque. En effet, si Xt est un processus stationnaire,
alors on peut l’écrire sous la forme :

Xt = ψ i εt−i = Ψ (L) εt
i=0

Dès lors, l’erreur de prévision s’écrit sous la forme :


XT +h − XT +h = XT +h − E (XT +h /XT , XT −1 , ..., X1 )
= XT +h − E (XT +h /εT , εT −1 , ..., ε1 )
h−1
= ψ i εT +h−i
i=0

Par définition des bruits blancs, cette erreur de prévision a une espérance nulle. La
matrice de variance covariance de l’erreur de prévision est donc :

E XT +h − XT +h XT +h − XT +h /XT , XT −1 , ..., X1

= E εT +h + ψ 1 εT +h−1 + .. + ψ h−1 εT +1 εT +h + ψ 1 εT +h−1 + .. + ψ h−1 εT +1


h−1
= Ω+ ψ i Ω (ψ i )
i=1
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 17

Proposition 2.3. Pour un processus V AR (p) , la matrice de variance covariance de l’erreur


de prévision à un horizon h est déterminée par la relation :
h−1
E XT +h − XT +h XT +h − XT +h /XT , XT −1 , ..., X1 = Ω + ψ i Ω (ψ i )
i=1

Les variances des erreurs de prévisions pour les processus univariés (x1,t , x2,t , ..., x3,t ) sont
déterminés par la diagonale principale de cette matrice.

3. Dynamique d’un modèle VAR

Les modèles V AR sont souvent analysés au travers de leur dynamique et ce via la simulation
de chocs aléatoires et l’analyse de la décomposition de leur variance.

3.1. Analyse des chocs

On considère un processus {Xt , t ∈ Z}, avec Xt = (x1,t , ..., xn,t ) satisfaisant la représentation
V AR (p) suivante, ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

On suppose que les innovations εt sont i.i.d. (0, Ω) et que l’on dispose de T + p réalisa-
tions de ce processus. On suppose en outre que les paramètres Ω, Φi sont connus, mais la
même analyse peut être menée lorsque l’on ne dispose que d’estimateurs convergents de ces
paramètres.

Quelle est l’idée générale de l’analyse des chocs ?

Idée Générale Une fonction de réponse aux innovations résume l’information concernant
l’évolution d’une composante xi,t qui intervient suite à une impulsion sur xj,t à la date
T, en supposant que toutes les autres variables sont constantes pour t ≤ T.

3.1.1. Exemple

On considère un processus bi-varié {Yt , t ∈ Z} admettant une représentation V AR (1) telle


que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t


y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 18

On pose Yt = (y1,t y2,t ) et εt = (ε1,t ε2,t ) . On suppose que les chocs ε1,t et ε2,t sont
corrélés. Cette hypothèse est particulièrement importante pour la suite de cet exemple.

σ 21 σ 12 1 0.5
E (εt εt ) = =
σ 12 σ 22 0.5 1

On cherche à identifier l’impact d’un choc unitaire sur y2,T à la date T sur la dynamique
de la variable y1,t aux périodes postérieures à T,en supposant les évolutions de ces deux
variables pour t ≤ T connues et données. Cela revient à supposer :

ε2,T = 1 ε2,t = 0 ∀t > T

On cherche donc à déterminer la variation de y1,t engendrée par ce choc. Pour cela
considérons la décomposition de Wold du processus Yt déterminée infra:

y1,t = µ1 + Ψ1,i εt
i=0

où Ψ1,i désigne la première ligne de la matrice Ψi issue de la représentation V MA :



Yt = Ψ (L) εt = ψ i εt−i
i=0

∞ i
y1,t−1 9.25 −0.2 −0.7 ε1,t−1
Yt = = +
y2,t−1 6.29 −0.3 −0.4 ε2,t−1
i=0

On pourrait penser que suite au choc ε2,T = 1, dans ce cas, la suite des réalisations y1,T +h
soit donnée directement par les coefficients correspondants du vecteur Ψ1,i . On obtiendrait
ainsi une fonction de réponse de la variable y1 à une impulsion de la variable y2 . C’est une
première possibilité de fonctions de réponse.

Le problème ici c’est qu’en raison de la corrélation des deux chocs, l’impulsion initiale sur
ε2,T n’est pas sans influence sur l’innovation ε1,T qui entre elle aussi dans la représentation
moyenne mobile infinie de y1,t . Conditionnellement à la réalisation de ε2,T , du fait de la
corrélation des deux chocs, la probabilité d’engendrer une innovations ε1,T non nulle est elle
même non nulle.

Or généralement, ce qui intéressant sur le plan économique c’est d’envisager une impulsion
sur la composante orthogonale de ε2,t à ε1,t . C’est à dire, il convient d’isoler l’innovation
”propre” au processus y2,t non ”polluée” par la réaction de l’innovation y1,t . C’est pourquoi,
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 19

il convient dans le cas général où E (εt εt ) Ω = In , d’orthogonaliser les innovations. On


considère donc la décomposition suivante de la matrice de covariance des innovations :

Ω = ADA

où A est une matrice (2, 2) triangulaire inférieure et où D est une matrice diagonale. Dans
notre exemple, on a :

σ 21 σ 12 1 0 σ 21 0 1 σσ122
Ω= = σ 12 σ 212 1
σ 12 σ 22 σ21
1 0 σ 22 − σ21 0 1

D’où dans notre exemple :

1 0 1 0
A= D=
0.5 1 0 0. 75

On pose:
vt = A−1 εt
On remarque alors que les innovations vt sont des combinaisons linéaires des innovations
du modèle initial εt qui possèdent une propriété d’indépendance puisque :

E (vt vt ) = A−1 E (εt εt ) A−1


= A−1 Ω A−1
  −1
= A−1 ADA A
= D

Donc la matrice de variance covariance des innovations vt est diagonale, ce qui prouve
que ces innovations ne sont pas corrélées. Dans notre exemple, il est très simple de constater
que cette orthogonalisation correspond à la projection linéaire des ε2,t sur les ε1,t . Le résidu
v2,t correspond à la composante orthogonale des ε2,t .
σ 12 ε1,t
v2,t = ε2,t − ε = ε2,t −
2 1,t
σ1 2

E v2 ε1,t = E v2 v1,t = 0
Reprenons la décomposition de Wold associée à Yt il vient :

Yt = µ + Ψ (L) εt = µ + Φi1 εt−i
i=0
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 20

Or on pose εt = Avt , dès lors cette représentation V M A (∞) peut se réécrire en fonction
d’innovations vt non corrélées.
∞ ∞
Yt = Ψ (L) εt = µ + ψ i vt−i = µ + Φi1 A vt−i (3.1)
i=0 i=0

On obtient donc dans notre exemple :


∞ i
y1,t−1 9.25 −0.2 −0.7 1 0 v1,t−1
Yt = = +
y2,t−1 6.29 −0.3 −0.4 0.5 1 v2,t−1
i=0

De façon équivalente on peut réecrire le V AR en fonction des seules innovations orthog-


onales :
ε1,t 1 0 v1,t
εt = Avt ⇐⇒ =
ε2,t 0.5 1 v2,t

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + v1,t


y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + 0.5v1,t + v2,t

Dès lors, on construit de la même façon la séquence des y1,T +h obtenus conditionnellement
à un choc unitaire sur la composante orthogonale v2,T . Cela revient à supposer :

v2,T = 1 v2,t = 0 ∀t > T

Voici la représentation de ces IRF :

3.1.2. Cas général

On cherche ainsi de façon générale à se ramener à une représentation où les innovations sont
orthogonales.

Proposition 3.1. Dans le cas général où E (εt εt ) = Ω = In , on orthogonalise les innovations


de la façon suivante. On pose :
vt = A−1 εt (3.2)
où la matrice A est issue de l’orthogonalisation de Ω :

Ω = ADA (3.3)

où A est une matrice (2, 2) triangulaire inférieure et où D est une matrice diagonale. On
cherche donc à récrire le système V AR non plus en fonction des innovations corrélés εt , mais
en fonction des innovations orthogonales vt qui satisfont :

E (vt vt ) = D matrice diagonale (3.4)


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 21

Figure 3.1: Fonction de Réponses de y1

Proposition 3.2. Cette phase d’orthogonalisation implique toutefois que l’ordre dans lequel
sont disposées les variables du V AR affecte l’analyse dynamique et en particulier l’analyse
des fonctions de réponse.

En effet, reprenons l’exemple précédent. On considère un processus bi-varié {Yt , t ∈ Z}


admettant une représentation V AR (1) telle que :

y1,t = 3 + 0.2y1,t−1 + 0.7y2,t−1 + ε1,t


y2,t = 1 + 0.3y1,t−1 + 0.4y2,t−1 + ε2,t

On suppose que les deux chocs ε1,t et ε2,t sont corrélés et ont des variances différentes.
1
cov (ε1,t ε2,t ) = σ 21 = 1 σ 22 = 2
2
Il existe deux façons d’écrire le V AR, soit on pose Yt = (y1,t y2,t ) , soit l’on écrit Yt =
(y2,t y1,t ) . Le choix de l’ordre des variables va dès lors conditionner notre schéma d’orthog-
onalisation :

1. Cas 1 : on écrit Yt = (y1,t y2,t ) et εt = (ε1,t ε2,t ) . Dès lors, on pose :


σ 21 σ 12 1 0.5
E (εt εt ) = Ω = =
σ 12 σ 22 0.5 2
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 22

Dans ce cas, on a :
 1 0 1 0 1 0.5
Ω = ADA =
0.5 1 0 1. 75 0 1
Les innovations orthogonales sont donc définit par
−1
v1,t 1 0 ε1,t 1 0 ε1,t
: vt = A−1 εt ⇐⇒ = =
v2,t 0.5 1 ε2,t −0.5 1 ε2,t
v1,t = ε1,t
⇐⇒
v2,t = − 12 ε1,t + ε2,t
Dès lors v2,t mesure la composante de ε2,t orthogonale à ε1,t .

2. Cas 2 : on écrit Yt = (y2,t y1,t ) et εt = (ε2,t ε1,t ) . Dès lors, on pose :


σ 22 σ 12 2 0.5
E (εt εt ) = Ω = =
σ 12 σ 22 0.5 1
Dans ce cas, on a :
 1 0 2 0 1 0.25
Ω = ADA =
0.25 1 0 78 0 1
Les innovations orthogonales sont donc définit par :
−1
v2,t 1 0 ε2,t 1 0 ε2,t
vt = A−1 εt ⇐⇒ = =
v1,t 0.25 1 ε1,t −0.25 1 ε1,t
v1,t = − 14 ε2,t + ε1,t
⇐⇒
v2,t = ε2,t
Dans ce cas, v2,t n’est rien d’autre que ε2,t , qui par nature est corrélé avec ε1,t .

3. En conséquence, dans cet exemple on montre que (i) si l’on désire étudier l’impact
d’une innovation ”pure” du processus y2,t sur le niveau de y1,t , et que (ii) on retient
cette méthode d’orthogonalisation, il convient d’écrire le système V AR sous la forme
Yt = (y1,t y2,t ) . Bien entendu, les fonctions de réponse obtenues dans les deux cas ne
sont pas identiques.

Résultat De façon générale dans l’écriture d’un V AR, la variable, que l’on suppose économique-
ment être la variable explicative, doit figurer après la variable dont on veut expliquer
les évolutions.

La démonstration de ce principe dans le cas général d’un V AR à n variables est donnée


dans Hamilton (1994), pages 291 et suivantes.
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 23

3.2. Décomposition de la variance

Définition Partant de la décomposition des résidus en innovations ”pures” ou orthogonales,


on peut calculer quelle est la contribution de chaque innovation à la variance totale de
l’erreur de prévisions du processus xi,t . C’est ce que l’on appelle la décomposition de la
variance.

On considère processus {Xt , t ∈ Z}, avec Xt = (x1,t , ..., xn,t ) satisfaisant la représentation
V AR (p) suivante, ∀t ∈ Z :

Φ (L) Xt = Xt − Φ1 Xt−1 − Φ2 Xt−2 − ... − Φp Xt−p = c + εt

On suppose que les innovations εt sont i.i.d. (0, Ω) On suppose que ce processus est station-
naire et peut être représenté sous la forme d’un V M A (∞) :

Xt = ψ i εt−i = Ψ (L) εt
i=0

avec ψ i = In L’erreur de prévision à l’horizon h s’écrit est :

Xt+h − XT +h = Xt+h − E (Xt+h /XT , XT −1 , ..., X1 )


= Xt+h − E (Xt+h /εT , εT −1 , ..., ε1 )
h−1
= ψ i εT +h−i
i=0

Par définition des bruits blancs, cette erreur de prévision a une espérance nulle. La
matrice de variance covariance de l’erreur de prévision est donc :
h−1
E Xt+h − XT +h Xt+h − XT +h =Ω+ ψ i Ω (ψ i )
i=1

Cette erreur de prévision est donc exprimée en fonction de la matrice de variance covari-
ance Ω non diagonale des résidus εt .

Pour obtenir une décomposition de la variance du vecteur Xt = (x1,t , ..., xn,t ) il suffit de
réexprimer cette matrice de variance covariance sous la forme d’une combinaison linéaire des
variances des innovations orthogonales vt .

vt = A−1 εt ⇐⇒ εt = Avt (3.5)


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 24

où la matrice A est issue de l’orthogonalisation de Ω :



Ω = ADA

On suppose que ∀t ∈ Z :
   
ε1,t v1,t
 ε2,t  a1 a2 .. an  v2,t 
εt =  
 ...  = (n,1) (n,1) (n,1)

 ... 

εn,t vn,t

où ai désigne la ième colonne de la matrice A. Dès lors :

Ω = E (εt εt ) = a1 a1 var (v1,t ) + a2 a2 var (v2,t ) +


+..... + an an var (vn,t ) (3.6)

En substituant cette expression dans la variance de la prévision pour un horizon h,


cela donne permet de réexprimer cette variance en fonction de la variance des innovations
”orthogonales” :

E Xt+h − XT +h Xt+h − XT +h
h−1
= Ω+ ψ i Ω (ψ i )
i=1
n h−1
= var (vj,t ) ψ i aj aj (ψ i )
j=1 i=0

Proposition 3.3. A partir de cette formule, on est en mesure de calculer la contribution


d’une innovation pure vj,t à la variance totale de la prévision à un horizon h :

var (vj,t ) aj a j + ψ 1 aj aj (ψ 1 ) + .... + ψ h−1 aj aj ψ h−1 (3.7)

4. La causalité

Une des questions que l’on peut se poser à partir d’un V AR est de savoir s’il existe une rela-
tion de causalité entre les différentes variables du système. Il existe ainsi plusieurs définitions
de la causalité :

• causalité au sens de Granger

• causalité au sens de Sims


Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 25

Nous nous limiterons à l’exposé de la causalité au sens de Granger qui est la plus fréquem-
ment utilisée en économétrie. On se restreint au cas d’un processus bi-varié (n = 2) que
l’on
yt
Zt =
xt

4.1. Causalité au sens de Granger

La question est de savoir si la variable x ”cause” ou non la variable y.

Definition 4.1. On dit que la variable x cause au sens de Granger la variable y si et


seulement si la connaissance du passé de x améliore la prévision de y à tout horizon.

De cette définition découle un corollaire :

Corollary 4.2. On dit que la variable x ne cause pas la variable y au sens de Granger, si
et seulement si :

E (yt+h /yt , yt−1 , ..., y1 ) = E (yt+h /yt , yt−1 , ..., y1 , xt , xt−1 , .., x1 )

De façon équivalente, on dit alors que la variable y est exogène au sens des séries temporelles.

4.1.1. Application au cas d’un V AR (p) avec n = 2

Pour un V AR (p) avec n = 2 la condition de la causalité de Granger est immédiate à obtenir.

Résultat Dans le système bi-varié suivant V AR (p) :∀t ∈ Z

yt c1 φ111 φ112 yt−1 φ211 φ212 yt−2


Zt = = + +
xt c2 φ121 φ122 xt−1 φ221 φ222 xt−2
φp11 φp12 yt−p εy,t
+... + + (4.1)
φp21 φp22 xt−p εx,t

la variable xt ne cause pas la variable yt si et seulement si :

φ112 = φ212 = φ312 = ... = φp12 = 0 (4.2)

Autrement dit, la variable xt ne cause pas la variable yt si et seulement si les matrices


Φi sont toutes triangulaires inférieures pour ∀i ∈ [1, p] .
Chapitre 5. Représentation VAR et Coinégration. Cours de C. Hurlin 26

En effet, réécrivons le processus sous cette condition, on a :

yt c1 φ111 0 yt−1 φ211 0 yt−2


Zt = = + +
xt c2 φ121 φ122 xt−1 φ221 φ222 xt−2
φp11 0 yt−p εy,t
+... + + (4.3)
φp21 φp22 xt−p εx,t

Dès lors,

E (yt+h /yt , yt−1 , ..., y1 ) = c1 + φ111 yt + φ211 yt−1 + .. + φp11 yt−p+1

E (yt+h /yt , yt−1 , ..., y1 , xt , xt−1 , .., x1 ) = c1 + φ111 yt + φ211 yt−1 + .. + φp11 yt−p+1
On a bien alors :

E (yt+h /yt , yt−1 , ..., y1 ) = E (yt+h /yt , yt−1 , ..., y1 , xt , xt−1 , .., x1 )
Cointégration et Modèle à Correction d’Erreur

January 8, 2002

1. Cointegration
1.1. Cointégration
Rappelons la définition d’un porcessus intégré :

Definition 1.1. Un processus est (xt , t ∈ Z) est un processus DS (Dif ferency Stationnary)
d’ordre d, ou un processus iintégré d’ordre d, si le processus filtré défini par (1 − L)d xt est
stationnaire.

Partant de là, on peut introduire la notion de cointégration :

Definition 1.2. On considère un processus vectoriel Xt = (x1,t x2,t ...xN,t ) de dimension


(N, 1) intégré d’ordre d. Les processus (xi,t , t ∈ Z) sont dits cointégrés si et seulement si il
existe un vecteur α = (α1 α2 ...αN ) ∈ RN tel que la combinaison linéaire α Xt est stationnaire
ou intégré d’ordre 0. Le vecteur α correspond à un vecteur de cointégration.

Considérons l’exemple suivant :

y1,t = γy2,t + ε1,t (1.1)

y2,t = y2,t−1 + ε2,t (1.2)


où (ε1,t , t ∈ Z) et (ε2,t , t ∈ Z) sont deux bruits blancs non corrélés. La série y2,t est une marche
aléatoire intégrée d’ordre , I (1) puisque la différence première ∆y2,t = ε2,t est stationnaire.
De la même façon, la série y1,t proportionnelle à un choc stationnaire près, à y1,t est elle aussi
non statioonaire et I (1) . En effet la différence première

∆y1,t = γ∆y2,t + ε1,t = γε2,t + ε1,t

est stationnaire. Considérons à présent la combinaison linéaire

y1,t − γy2,t = ε1,t (1.3)


Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 43

Cette combinaison est elle aussi stationnaire. On dit que les processus (y1,t , t ∈ Z) et
(y2,t , t ∈ Z) sont cointégrés de vecteur (1, −γ) . Bien entendu, toute transformation monotone
du vecteur (1, −γ) permet d’obtenir une autre relation de cointégration. C’est pourquoi le
vecteur (1, −γ) constitue en fait une base de l’espace de cointégration.

La relation de cointégration s’assimile donc à une relation de long terme entre les variables
de l’espace de cointégration et permet de définir une ou plusieurs tendances stochastiques
communes. Bien entendu, les réalisations des processus de l’espace de cointégration peuvent
à tout moment ne pas satisfaire cette relation. Mais ces variables ne peuvent durablement
s’en écarter. On peut ainsi introduire la notion d’ECM : Modèle à Correction d’Erreur.

2. Représentation VECM
2.1. Modèle à Correction d’Erreur : ECM
Il s’agit ici de proposer dans un modèle intégré une représentation statique qui constitue une
cible de long terme (la relation de cointégration) et une représentation dynamique de court
terme (l’ajustement à cette cible).

Reprenons l’exemple précédent :

y1,t = γy2,t + ε1,t (2.1)

y2,t = y2,t−1 + ε2,t (2.2)


Considérons l’équation de y1,t :

y1,t = γy2,t + ε1,t

y1,t−1 = γy2,t−1 + ε1,t−1 = γy2,t−1 + [y1,t−1 − γy2,t−1 ]


On peut alors réécrire l’équation de y1,t sous la forme suivante :

∆y1,t = − [y1,t−1 − γy2,t−1 ] + γ∆y2,t + ε1,t (2.3)

Cette dernière équation constitue une représentation ECM. En effet, la dynamique du


taux de croissance de y1,t est déterminée par une cible de long terme (la relation de cointé-
gration y1,t−1 − γy2,t−1 ). Si il existe un écart positif à la période t − 1 par rapport à cette
relation de long terme, alors le coefficient négatif devant la relation de long terme (−1),
implique une diminution du taux de croissance de y1 à la date t. On dit que le coefficient
−1 constitue une force de rappel. Enfin, la composante dynamique du modèle est représenté
par la partie γ∆y2,t .

Considérons à présent le cas général avec N processus (xi,t , t ∈ Z).


Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 44

Definition 2.1. On considère N processus (xi,t , t ∈ Z) intégrés d’ordre un satisfaisant une


relation de cointégration représentée par le vecteur α telle que la combinaison linéaire :

µt = α0 + α1 x1,t + α2 x2,t + ... + αN xN,t

soit stationnaire. Alors il existe une représentation ECM pour chaque processus (xi,t , t ∈ Z)
tel que :
p p p
[ [ [
∆xi,t = c + γµt−1 + β 1,i ∆x1,t−k + β 2,i ∆x2,t−k .... + β N,i ∆xN,t−k + εt (2.4)
k=1 k=1 k=1

Le coefficient γ < 0 représente la force de rappel de l’ECM.

Si le coefficient γ devant le résidu de la relation de cointégration est positif ou nul, la


représentation ECM n’est pas valide.

Exemple

2.2. Généralisation de la représentation VECM


On considère un processus V AR (p) , noté Xt de dimension (N, 1) tel que :

Xt = A0 + A1 Xt−1 + A2 Xt−2 + .. + Ap Xt−p + εt

Nous allons représenter ce processus sous la forme d’un VECM. Pour cela on considère
l’équation suivante :

Xt − Xt−1 = A0 + (A1 − I) Xt−1 + A2 Xt−2 + .. + Ap Xt−p + εt

⇐⇒ ∆Xt = A0 + (A1 − I) (Xt−1 − Xt−2 ) + (A2 + A1 − I) Xt−2 + .. + Ap Xt−p + εt


⇐⇒ ∆Xt = A0 + (A1 − I) ∆Xt−1 + (A2 + A1 − I) (Xt−2 − Xt−3 ) + .. + Ap Xt−p + εt
Et ainsi de suite. On se ramène finallement à une représentation susceptible d’être un
VECM :

∆Xt = B0 + B1 ∆Xt−1 + B2 ∆Xt−2 + ... + Bp−1 ∆Xt−p+1 + ΠXt−1 + εt

où les matrices Bi sont fonctions des matrices Ai et où


p
[
Π= Ak − I
k=1

Considérons l’exemple d’un V AR (2) :

Xt = A0 + A1 Xt−1 + A2 Xt−2 + εt
Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 45

On obtient de cette façon l’équation :


Xt − Xt−1 = A0 + (A1 − I) Xt−1 + A2 Xt−2 + εt
⇐⇒ ∆Xt = A0 + (A1 − I) (Xt−1 − Xt−2 ) + (A2 + A1 − I) Xt−2 + εt

⇐⇒ ∆Xt = A0 + (A1 − I) ∆Xt−1 + (A2 + A1 − I) Xt−2 + εt


Mais il convient de faire apparître le niveau de Xt−1 pour éventuellement faire apparaître
les résidus des relations de cointégration de la période précédente. Pour cela, on réalise
l’opération suivante :
∆Xt = A0 + (A1 − I) ∆Xt−1 + (A2 + A1 − I) Xt−2
− (A2 + A1 − I) X + (A2 + A1 − I) Xt−1 + εt
On obtient finalement :
∆Xt = A0 − A2 ∆Xt−1 + (A1 + A2 − I) Xt−1 + εt
ou encore
∆Xt = B0 + B1 ∆Xt−1 + ΠXt−1 + εt
avec B1 = −A2 , B0 = A0 et Π = (A1 + A2 − I) .

Definition 2.2. De façon générale, la matrice Π peut s’écrire sous la forme :


[
P
Π= Ak − I = α β
k=1

où le vecteur α est la force de rappel vers l’équilibre de long terme et β la matrice dont les
vecteurs colonnes sont constitués par les coefficients des différentes relations de cointégration
pouvant exister entre les éléments du vecteur Xt . Le rang de la matrice Π détermine le nombre
de relations de cointégration présentes entre les N variables du vecteur Xt.
r = nombre de relations de cointégration
Si le rang de la matrice Π (c’est à dire le nombre de colonnes linéairement indépendantes)
est égal à la dimension N du V AR alors toutes les variables du V AR sont stationnaires I (0)
et le problème de la cointégration ne se pose pas.
Definition 2.3. Si en revanche, le rang de la matrice Π satisfait :
1≤r ≤N −1
alors il existe r relations de cointégration et la représentation VECM est valide :
∆Xt = B0 + B1 ∆Xt−1 + B2 ∆Xt−2 + ... + Bp−1 ∆Xt−p+1 + α µt−1 + εt
avec µt = βXt−1
Chapitre 4. Estimation, Tests de Validation, Prevision des Processus ARMA 46

2.3. Test du nombre de relation de cointégration


Le test de Johansen (1988) est fondé sur l’estimation de

∆Xt = B0 + B1 ∆Xt−1 + B2 ∆Xt−2 + ... + Bp−1 ∆Xt−p+1 + ΠYt−1 + εt

Ce test est fondé sur les vecteurs propres correspondant aux valeurs propres les plus
élevées de la matrice Π. Nous ne présenterons ici que le test de la trace. A partir des valeurs
propres de la matrice Π, on construit la statistique :
N
[
λtrace (r) = −T log (1 − λi )
i=r+1

où T est le nombre d’observations, r le rang de la matrice, λi la ième valeur propre et N


le nombre de variables du V AR. Cette statistique suit une loi de probabilité tabulée par
Johansen et Juselius (1990). Ce test fonctionne par exclusion d’hypothèses alternatives :

1. Test H0 : r = 0 contre H1 : r > 0. Test de l’hypothèse aucune relation de cointégration


contre au moins une relation. Si λtrace (0) est supérieur à la valeur lue dans la table
au seuil α%, on rejette H0 , il existe au moins une relation, on passe alors à l’étape
suivante, sinon on arrête et r = 0.

2. Test H0 : r = 1 contre H1 : r > 1. Test de l’hypothèse une relation de cointégration


contre au moins deux relation. Si λtrace (1) est supérieur à la valeur lue dans la table
au seuil α%, on rejette H0 , il existe au moins une relation, on passe alors à l’étape
suivante, sinon on arrête et r = 1.

Et ainsi de suite jusqu’à la dernière étape (si elle est nécessaire) :

1. Test H0 : r = N − 1 contre H1 : r > N − 1. Test de l’hypothèse N − 1 relation


de cointégration contre au moins N − 1 relations. Si λtrace (N − 1) est supérieur à la
valeur lue dans la table au seuil α%, on rejette H0 , il existe N relations (en fait dans
ce cas les N variables sont I (0)) sinon r = N − 1.

Sous Eviews vous disposez directement des valeurs λtrace (r) pour r = 1, N ainsi que les
seuils tabulés par Johansen.