Poly Var - Estimation - Prévision - 2020

ENSAE - Sénégal
Ecole Nationale de la Statistique et de l’Analyse Economique

2019 - 2020
S. Fofana 1
Modélisation VAR
1 Introduction
Pour améliorer les prédictions des modèles univariés, les économètres se sont attachés à
l’étude des relations entre plusiseurs variables. Il s’agit ainsi de réaliser des prédictions
de Yt , en considérons un ensemble informationnel plus grand {Yt−h , Xt−h , h = 0, 1, 2, ...}
et en construisant un modèle multivarié : Yt = f (Yt−h , Xt , Xt−h , εt , εt−h ), h > 0. Cette
modélisation multivariée présente deux avantages importants :
– Elle permet, non plus de décrire, mais d’expliquer l’évolution de la série étudiée.
– Elle conduit à de meilleures prévisions que celles délivrées par le modèle univarié, en
raison de l’ensemble informationnel plus large.
Les modèles de séries temporelles multivariés et plus particulièrement les modèles VAR
(AutoRégressive Vectoriels) constituent une alternative aux grands modèles macroécono-
métriques structurels d’inspiration keynésienne et aux modèles à équations simultanées.
Christopher Sims a été le premier à s’intéresser aux modèles de type VAR (modèles vec-
toriels autorégressifs) et VAR structurels dans les années 1980.
Comment le PIB et l’inflation sont affectés par une augmentation temporaire des taux d’in-
térêt ou une baisse d’impôts ? Que se passe-t-il si une banque centrale modifie de façon
permanente son objectif d’inflation ou si un gouvernement modifie son objectif d’équilibre
budgétaire ? Telles sont les type de questions auxquelles les lauréats du nodel 2011, Thomas
Sargent et Sim, ont apporté une réponse.
Les recherches de Christopher Sims ont porté plus particulièrement sur la façon dont
les chocs économiques – tels que la flambée des prix du pétrole, ou la forte baisse de la
consommation des ménages – agissent sur l’économie.
1.1 Processus stochastique vectoriel

Soit (Ω, A, P) un espace probabilisé, (Rm , B(Rm )) espace mesurable borélien.
Un vecteur aléatoire de dimension m est une application définie sur Ω, ensemble des événe-
ments élémentaires muni d’une tribu A et de d’une mesure de probabilté définie sur A, à
valeurs dans l’espace mesurable Rm muni de la tribu borélienne B(Rm ).
Soit X un vecteur aléatoire de dimension m, on a
X : (Ω, A, P) 7−→ (Rm , B(Rm ))

1. ENSAE-Sénégal, Rocade Fann Bel-air Cerf-volant, Bp 45512 Fann, Dakar Sénégal,
e-mail : fof_sn@yahoo.fr, souleymane.fofana@ansd.sn
1
En supposant que l’espace Ω des événements élémentaires est indéxé par le temps t, on
définit ainsi un processus stochastique vectoriel (Xt )t∈Z , de dimension m sur Ωt , et
on a
Xt : (Ωt , A, P) 7−→ (Rm , B(Rm ))
où, pour chaque t fixé Xt est un vecteur aléatoire de dimension m issu du processus
vectoriel (Xt )t∈Z .  
Xt,1
Xt = (Xt,1 , ..., Xt,m )0 =  ... 
 
Xt,m
où A0 désigne la transposé de A.
Une série temporelle m-dimensionnelle (Xt )t=1,...,T est alors une réalisation d’un processus
stochastique vectoriel (Xt )t∈Z m-dimensionnelle.
Hypothèse : (Xt ) ∈ (L2 )m i.e. 2 ) < +∞,

E(Xt,i i = 1, ..., m.
Définition 1
Soit un processus (Xt ) dans (L2 )m
Espérance mathématique
µt = E(Xt ) = (µt,1 , ..., µt,m )0
µt,i = E(Xt,i ), i = 1, ..., m
Fonction d’autocovariance (ou matrice d’autocovariance)
Γ(h, t) = E (Xt − µt )(Xt−h − µt−h )0

∀h ∈ Z

= γij(h,t) 1≤i,j≤m

γi,j (h, t) = E (Xt,i − µt,i )(Xt−h,j − µt−h,j )
Remarque :
– Γ(h, t) = cov(Xt , Xt−h ) , Γ(0, t) = V (Xt ),
– Si Xt ∈ C , Γ(h, t) = E (Xt − µt )(Xt−h − µt−h )0
m

1.1.1 Stationnarité
Définition 2
Un processus (Xt )t∈Z est dit stationnaire au second ordre si :
– E(Xt ) = µ ∀t ∈ Z (indépendant de t)
– E(|Xt |2 ) < ∞ ∀t ∈ Z
– Γ(h, t) = E (Xt − µ)(Xt−h − µ)0 = Γ(h) < +∞ ∀h, t ∈ Z

Fonction d’autorrélation (ou matrice des corrélations)

R(k) = ρij (k) 1≤i,j≤m
γij (k)
ρij (k) = p p , i, j = 1, 2, ..., m
γii (0) γjj (0)
Théorème 3
La fonction Γ(.) est telle que
2
1. Γ(−h) = Γ0 (h) ∀ h ∈ Z.
1
2. γij (h) ≤ γii (0)γjj (0) 2 i, j = 1, ..., m.
n X
X n
3. a0j Γ(j − h)ah ≥ 0 ∀ n ∈ N∗ , ∀ah ∈ Rm , i.e. Γ(.) est semi-définie positive.
h=1 j=1
Théorème de Wold
Tout processus (Xt ) dans Rm stationnaire peut se décomposer de la manière suivante:


 Dt est la partie déterministe
 et

Xt = Dt + Zt où X∞
 Zt = Ck εt−h est la composante stochastique




h=0
avec Ch = E(Xt ε0t−h ) une suite de matrice carrées absolument sommable, C0 = I et

εt un bruit blanc de Rm , c’est à dire un processus de moyenne nulle, de variance constante
Vε et non autocorrélé.
1.1.2 Bruit Blanc dans Rm

Définition 4
Un processus (Ut )t∈Z m-dimensionnel tel que ∀t ∈ Z est dit de bruit blanc (noté BB) si
1. E(Ut ) = 0,
2. V ar(Ut ) = E(Ut Ut0 ) < ∞, (ou V ar(Ut ) = ΩU )
3. Cov(Ut , Ut+h ) = 0 )
E(Ut Ut+h =0 ∀ h 6= 0
Un bruit blanc est ainsi un processus centré, de variance constante et non autocorrélé.
On note Ut ∼ BB(0, ΩU ).
Remarque
Si (Ut ) est une suite de variable aléatoire indépendantes et identiquement distribuées, on
note Ut ∼ IID(0, Ω).
Exemple :
xt
Xt =
yt

 xt = zt − 0.5zt−4
zt ∼ BB(0, 1)
yt = zt + 0.8zt−4

Montrer que (Xt ) est un processus stationnaire au 2nd ordre.
1.1.3 Estimation de l’espérance et de la FAC

(Xt ) dans Rm , µ = E(Xt ), Γ sa FAC.
X1 , X2 , ..., XT T observations de (Xt ).
3
Moment empirique
T
1X
XT = Xt : estimateur de l’espérance du processus Xt , t = 1, ..., T.
T
t=1
= (X 1,T , ..., X m,T )0
T
1X
X i,T = Xt,i , i = 1, ...m
T
t=1
Autocovariance empirique
i, j = 1, 2, ..., m, on a :
T −h

 1 X


 T
 (Xt,i − X i,T )(Xt+h,j − X j,T ) si 0 ≤ h ≤ T − 1
t=1
γ̂ij (h) = T
 1 X
(Xt,i − X i,T )(Xt+h,j − X j,T ) si − T + 1 ≤ h < 0



 T
t=1−h
On en deduit
T −h

1 X
(Xt − X T )(Xt+h − X T )0



 T
 si 0 ≤ h ≤ T − 1
t=1
Γ̂(h) = T
1 X
(Xt+h − X T )(Xt+h − X T )0 si − T + 1 ≤ h < 0




 T
t=1−h
Autocorrélation empirique
γ̂ij (h)
ρ̂ij (h) = p i, j = 1, ..., m.
γ̂ii (0)γ̂jj (0)
1.1.4 Opérateur de retard

Soit B : Xt 7−→ BXt = Xt−1
X
A(B) = Ak B k
k∈Z
=⇒ Xt = µX + A(B)Ut , Ut ∼ BB(0, Ω) dans (L2 )2 .
Théorème 5
Si (Xt )t∈Z m-dimensionnel stationnaire au second
X ordre et
si (Ck )k∈Z est une (n × m)-matrice telle que Cij (k) < +∞ 1 ≤ i ≤ n, 1 ≤ j ≤ m
k∈Z
dans (L2 )n
P
alors la sérieCk Xt−k est convergente
+∞
X
et sa somme Yt = Ck Xt−k est un processus stationnaire au second ordre
k=−∞
n-dimensionnel, et X
E(Yt ) = µX où µX = E(Xt ) ∀ t ∈ Z
k∈Z
X
ΓY (h) = Cj ΓX (h + k − l)Ck0
j,k
4
1.2 Les Processus VAR
Soit Xt = (X1t , X2t , ..., Xmt ) un processus vectoriel stationnaire au second ordre. (Xt )t∈Z
suit un processus Vectoriel Auto-Regressif, noté V AR(p), si et seulement si l’équation suiv-
ante est vérifiée
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + εt
où (εt )t∈Z suit un bruit blanc, c’est à dire un processus vérifiant

0 Vε si s = t
E(εt ) = 0 ∀t et E(εt εs ) =
0 si t 6= s
Donc εt est un processus de moyenne 0 de matrice variance-covariance Vε et non corrélé.

Φ0 vecteur constante de dimension (m, 1),
Φi matrice de dimension (m, m) ∀i = 1, ..., p.
Sous forme matricielle, on a

p
X
Xt = Φ0 + Φi Xt−i + εt
i=1
où    
X1t X1t−i
 X2t   X2t−i 
Xt =  , Xt−i =  ,
   
.. ..
 .   . 
Xmt Xm,t−i
φ11i φ12i ... φ1mi
     
µ1 ε1t
 µ2   φ21i φ22i ... φ2mi   ε2t 
Φ0 =  , Φi =  , εt =  .
     
.. .. .. .. ..  ..
 .   . . . .   . 
µm φm1i φ m ... φm
2i mi 1≤i≤p
εmt
ce qui est équivalent à
(Im − Φ1 B − Φ2 B 2 − ... − Φp B p )Xt = Φ0 + εt
Ce qui donne sous la forme condensée
Φ(B)Xt = Φ0 + εt
où
∞
X
Φ(B) = Im − Φi B i = Im − Φ1 B − Φ2 B 2 − ... − Φp B p ,
i=1
où Im désigne la matrice identité (m, m).
Le processus V AR(p) peut aussi être écrit sous la forme suivante :
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p − dXt + εt (1)
ce qui est équivalent à

p
X
Xt = Φ0 + Φi Xt−i − dXt + εt
i=1
5
où
d21 . . . dm
     
X1t X1t−i 0 1
 X2t   X2t−i   d12 0 . . . dm2

Xt =  , Xt−i =  , d= ,
     
.. .. .. .. ..
 .   .   . . ... . 
Xmt Xm,t−i d1m d2m . . . 0
φ11i φ12i ... φ1mi
     
µ1 ε1t
 µ2   φ21i φ22i ... φ2mi   ε2t 
Φ0 =  . , Φi =  , εt =  . .
     
.. .. .. ..
 ..  ..

  . . . .  
µm m m
φ1i φ2i ... φmi m εmt
1≤i≤p
En posant
d21 . . . dm
 
1 1
 d12 1 . . . dm2

A = Im + d = 
 
.. .. .. 
 . . ... . 
d1m d2m . . . 1
On a
p
X
AXt = Φ0 + Φi Xt−i + εt (2)
i=1
Cette représentation matricielle de V AR(p), comme celle donnée par l’équation (1), est
qualifiée de représentation structurelle dans laquelle le niveau de Xi,t est directement
influencé par ceux de Xj,t , j = 1, ..., m, j 6= i.
La représentation structurelle est non utilisable en pratique. On travaille plutôt avec sa

forme réduite en représention V AR(p). Cette représentation est obtenue en multipliant
chacun des termes de la représentation structurelle (2) par l’inverse A−1 de la matrice A.
La représentation (2) est alors équivalente à
p
X
−1 −1
A AXt = A Φ0 + A−1 Φi Xt−i + A−1 εt
i=1
équivalente à
p
X
Xt = Θ0 + Θi Xt−i + ηt (3)
i=1
avec Θ0 = A−1 Φ0 , Θi = A−1 Φi et ηt = A−1 εt .
A partir de l’équation (3), nous remarquons que

– le niveau de Xi,t ne dépend plus directement des Xj,t , j = 1, ..., m, j 6= i mais uniquement
de ses valeurs passées.
– les innovations de la forme réduite η1,t ,...,ηm,t sont respectivement fonction des innovations
structurelles ε1,t ,...,εm,t et peuvent être corrélées même si ces dernières respectent les
propriétés d’un bruit blanc. Elles sont définies, pour m = 2, par
ε1,t − d1 ε2,t ε2,t − d2 ε1,t
η1,t = , η2,t =
1 − d1 d2 1 − d1 d2
Remarque
Ce que l’on définit par non structurel en économétrie est simplement un domaine d’investi-
gation dans lequel les équations structurelles sont abandonnées ; on s’intéresse strictement
aux interrelations et interactions entre les variables.
6
1.2.1 Représentation VAR à deux dimension 2
Considérons deux processus (X1,t )t∈Z et (X2,t )t∈Z définis de la forme suivante :
Pp Pp
X1,t = µ1 + i=1 φ1,i X1,t−i + j=1 θ1,i X2,t−i − d1 X2,t + ε1,t
Pp Pp
X2,t = µ2 + i=1 φ2,i X1,t−i + j=1 θ2,i X2,t−i − d2 X1,t + ε2,t
où les innovations (ε1,t )t∈Z et (ε2,t )t∈Z sont bruit blanc de variance respective σ12 et σ22 et
non corrélés : E(ε1,t ε2,t−j ) = 0 ∀j ∈ Z.
m = 2 nombre de variables, p nombre de retard.
Sous forme marticielle, on a :

p
X
AXt = Φ0 + Φi Xt−i + εt
i=1
où
X1t X1t−i 1 d1
Xt = , Xt−i = , A= ,
X2t X2t−i i=1,...,p d2 1

µ1 φ1i θ1i ε1t
Φ0 = , Φi = , εt = .
µ2 φ2i θ2i i=1,...,p ε2t
Pour p = 1, on a

X1t µ1 φ11 θ11 X1,t−1 0 d1 X1,t ε1t
Xt = = + − +
X2t µ2 φ21 θ21 X2,t−1 d2 0 X2,t ε2t
= Φ0 + Φ1 Xt−1 − dXt + εt
Il s’agit d’un VAR structurel d’ordre 1 : SV AR(1).
Exemple de modèles VAR

V AR(1)
X1,t = µ1 + φ1 X1,t−1 + θ1 X2,t−1 + ε1,t
X2,t = µ2 + φ2 X1,t−1 + θ2 X2,t−1 + ε2,t

" 2
E(ε21t
# " #
σ1 σ12 E(ε1t ε2t )
Vε = =
σ12 σ22 E(ε1t ε2t ) E(ε22t )
V AR(1)
X1,t = µ1 + φ1 X1,t−1 + θ1 X2,t−1 − d1 X2,t + ε1,t
X2,t = µ2 + φ2 X1,t−1 + θ2 X2,t−1 − d2 X1,t + ε2,t
1.2.2 Représentation canonique d’un VAR

Soit (Xt )t∈Z un modèle V AR(p) c’est-à-dire Φ0 = 0
Φ(B)Xt = εt
7
Si Φ(B) est inversible alors le V AR est qualifié de stable et on a :
Xt = Φ(B)−1 εt
Φ̃(B)0
= εt
det[Φ(B)]
= Ψ(B)ε
avec Φ̃(B) = I − Φ̃1 B − Φ̃2 B 2 − Φ̃3 B 3 − ... − Φ̃p B p la matrice des cofacteurs cij des éléments
aij de la matrice Φ(B) et Φ̃(B)0 est appelé matrice adjointe de Φ(B).
Si toutes les racine du polynôme det[Φ(B)] sont de modules supérieurs à 1, ou si toutes les
valeurs propres de l’application linéaire Φ(B) sont de modules inférieurs à 1, alors l’équation
Φ(B)Xt = εt définit un unique processus V AR(p) stationnaire. On dit que Xt est en
représentation canonique et εt est appelé le processus des innovations.
Le processus (Xt )t∈Z peut, en effet, se réécrire sous la forme d’un processus V M A(∞), et
on a : 
X∞  Ψ0 = X
I
Xt = Ψj εt−j = Ψ(B)εt où
 Ψ(B) = Ψj B j
j=0 j≥0
X
et Ψj une suite de matrice carrés m × m absolument sommable, ||Ψj || < ∞.
j∈Z
Les innovations canoniques, naturellement associées à un modèle VAR non-contraint,

représentent des chocs ou impulsions dont la propagation se traduit par les fluctuations
du système dynamique étudié.
– Si les impulsions sont non-corrélées instantanément, il est possible de mesurer la contri-
bution de chaque impulsion à la dynamique des différentes variables du système.
– Si les implusions ne sont pas indépendants (sont corrélées instantanément), on peut ef-
fectuer une orthogonalisation "statistique", comme l’ont montré les premiers travaux de
Sims (1980), reposant sur la décomposition de Choleski de la variance des innovations
canoniques. Mais cette technique d’orthogonalisation présente l’inconvénient de ne pas
permettre une interprétation économique des impulsions ainsi obtenues.
Pour pallier à ce probème, Shapiro et Watson (1988) et Blanchard et Quah (1989)
ont proposé l’utilisation d’un VAR structurel qui permet d’identifier des impulsions
structurelles qui soient interprétables économiquement :
Exemple
Soit Xt ∼ V AR(1) défini comme suit
X1,t = 2 + 0.3X1,t−1 + 0.4X2,t−1 + ε1,t

X2,t = 5 − 0.1X1,t−1 + 0.2X2,t−1 + ε2,t
Sous forme réduite, on a

Φ(B)Xt = µ + εt
avec
Xt = (X1,t , X2,t )0 , εt = (ε1,t , ε2,t )0 , µ = (2, 1)0

1 0 0.3 0.4 1 − 0.3B −0.4B
Φ(B) = − B= .
0 1 −0.1 0.2 0.1B 1 − 0.2B
8
Le polynôme det[Φ(B)] est donné par
det[Φ(B)] = (1 − 0.3B)(1 − 0.2B) + 0.04B 2

= 0.1B 2 − 0.5B + 1
√ √
∆ = 0.25 − 0.4 = −0.15, ∆ = i 0.15
Les racines
λ1 = et λ2 =
sont en module supérieures à 1, donc le processus V AR(1) est bien stationnaire. Parsuite
les processus univariés (X1,t )t∈Z et (X2,t )t∈Z sont bien stationnaires.
1.2.3 Caractéristiques d’un VAR

Espérance
Soit (Xt )t∈Z un processus V AR(p)
Xt = Φ0 + Φ1 Xt−1 + ... + Φp Xt−p + εt
on a
E(Xt ) = Φ0 + Φ1 E(Xt−1 ) + ... + Φp E(Xt−p ) + E(εt )
(Xt )t∈Z processus stationnaire, donc
E(Xt ) = Φ−1 Φ0
où
p
X
Φ=I− Φi
i=1
Fonction d’autocovariance, Fonction d’autocorrélation

Soit (Xt )t∈Z un processus V AR(p) centré, stationnaire
Xt = Φ1 Xt−1 + ... + Φp Xt−p + εt
La fonction d’autocovariance (ou matrice des covariance) être déterminée en résolvant les
équations de Yule-Walker. En effet,
Xt = Φ1 Xt−1 + ... + Φp Xt−p + εt

0
Γ(h) = E(Xt Xt−h ) =?
0 0 0 0
E(Xt Xt−h ) = Φ1 E(Xt−1 Xt−h ) + ... + Φp E(Xt−p Xt−h ) + E(εt Xt−h )
c’est-à-dire pour tout h > 0

0 0 0
Γ(h) = Φ1 E(Xt−1 Xt−h ) + ... + Φp E(Xt−p Xt−h ) + E(εt Xt−h )
| {z }
0
p
X
= Φi Γ(h − i)
i=1
9
Pour h = 0, on a la variance de Xt , V (Xt ) = Γ(0)
Γ(0) = Φ1 E(Xt−1 Xt0 ) + ... + Φp E(Xt−p Xt0 ) + E(εt Xt0 )

Xp
= Φi Γ(−i) + Vε
i=1
 p
 X
Φi Γ(−i) + Vε pour h = 0




Γ(h) = i=1
Xp

Φi Γ(h − i) pour h > 0




i=1
La fonction d’autocovariance (ou matrice des covariance) peut aussi être déterminée en
utilisant la représentation V M A(∞) de Xt .
En effet, Xt sous forme V M A(∞) est par défini
∞
X
Xt = Ψj εt−j
j=0
et on a
Γ(h) = E(Xt Xt−h )

∞
X ∞
X 0
= E Ψj εt−j Ψi εt−h−i
j=0 i=0
∞
XX∞
E εt−j ε0t−h−i Ψ0i

= Ψj
j=0 i=0 
| {z }
 0 si j 6= h + i
=
 Vε si j = h + i
∞
X ∞
X
= Ψj Vε Ψ0j−h = Ψh+i Vε Ψ0i
j=0 i=0
∞
X
Γ(h) = Ψh+j Vε Ψ0j , pour h > 0 (4)
j=0
 ∞
X
Ψj Vε Ψ0j



 pour h = 0

j=0
Γ(h) = ∞
X
Ψh+j Vε Ψ0j




 pour h > 0
j=0
∞
X 1
Les matrices Ψj sont déterminées uniquement par Ψ(z) = Ψj z j = ou de manière
Φ(z)
j=0
récursive à travers l’équation suivante :
j
X
Ψj = Φi Ψj−i avec Ψ0 = I0 , j = 1, 2, ...
i=1
et où
Φi = 0, i>p
10
On en déduit la fonction d’autocorélation R(h) = [ρij (h)]1≤i,j≤2 où
γij (h)
ρij (h) = p
γii (0)γjj (0)
Remarque
L’expression de V M A(∞) montre que
– Cov(Xt , εt ) = Vε
– Cov(Xt−h , εt ) = 0 pour tout h > 0
Exemple
Xt = Φ1 Xt−1 + εt
Sa fonction d’autocovariance est définie par
0
Γ(h) = E(Xt Xt−h ) =?
0 0 0 0
E(Xt Xt−h ) = Φ1 E(Xt−1 Xt−h ) + ... + Φp E(Xt−p Xt−h ) + E(εt Xt−h )
- Pour h = 0, on a
Γ(0) = E(Xt Xt0 ) = E (Φ1 Xt−1 + εt )Xt0

= Φ1 E(Xt−1 Xt0 ) + E(εt Xt0 )

= Φ1 Γ(1) + E(εt Xt0 )
E(εt Xt0 ) = E(εt (Φ1 Xt−1 + εt )0 ) = Φ1 E(εt Xt−1

0
) + E(εt ε0t )
= 0 + Vε
D’où
Γ(0) = Φ1 Γ(1) + Vε
- Pour h = 1, on a
0 0 0

Γ(1) = E(Xt Xt−1 ) = E (Φ1 Xt−1 + εt )Xt−1 = Φ1 E(Xt−1 Xt−1 )
= Φ1 Γ(0)
D’où pour tout h ≥ 1, la matrice d’autocovariance d’ordre h d’un processus V AR(p) est :
Γ(h) = Φ1 Γ(h − 1), ∀h ≥ 0
Fonction d’autocorrélation partielle

La fonction d’autocorrélation partielle pour un processus V AR(p) comme dans le cas
univarié permet d’identifier l’ordre p du processus. Elle est définit par des matrices
d’autocorrélations partielles.
Densité Spectrale d’un processus stationnaire bivarié

xt
Xt = stationnaire
yt
11
On a :
 
fxx (λ) fxy (λ) ∞
= 1
X
fX =  Γ(h)e−ihλ , −π ≤ λ ≤ π.
2π
fyx (λ) fyy (λ) h=−∞

fxx (λ) : densité de (xt )
2π_périodique et paires
fyy (λ) : densité de (yt )
fxy : spectre (ou densité spectrale) croisé de (xt ) et (yt ).
fxy et fyx sont complexes non symétriques autour de 0.
Définition 6  
fxx (λ) fxy (λ)
xt
Si Xt = de densité spectrale fX (λ) =  
yt
fyx (λ) fyy (λ)
2 (λ) = |fxy (λ)|2
la fonction Kxy fxx (λ)fyy (λ) est appelée fonction cohérence (carré) de (xt ) et (yt ).
Remarque
2 (λ) ≤ 1
0 ≤ Kxy ∀λ
2
– Kxy (λ) = 0 si (xt ) et (yt ) non corrélées
2 (λ) = 1
– Kxy si (xt ) et (yt ) sont liées linéairement
Sous forme condensée la densité d’un processus VAR est définie par
1 −1 −iλ
f (λ) = Φ (e )Vε Φ−1 (eiλ )0 .
2π
2 Estimation des paramètres

On suppose que les séries sont stationnaires, on estime les paramètres par la méthode MCO
(moindres carrés ordinaires) ou par la méthode du maximum de vraissemblance. Au cas
contraire, c’est-à-dire lorsque les variables sont non stationnaires et cointégrées, on utilise
d’après Engle et Granger (1987) le modèle à correcteur d’erreur.
2.1 Estimation par la méthode des moindres carrés ordinaires

Soit (Xt )t∈Z un processus V AR(p) de la forme
Φ(B)Xt = εt où εt ∼ BB(0, Vε ).
Soit m le nombre de variable du processus, le nombre de paramètres à estimer est égale à
m2 p + m(m+1)
2 où m2 p est le nombre de paramètres à estimer dans Φ et m(m+1)
2 le nombre
de paramètres à estimer dans Vε .
Considérons la j eme équation du V AR(p), on a

Φ11j
 
X00 . . . X1−p0
 
Φ21j
   
Xj1 0 0
  εj1
 X1 . . . X2−p 
..

 Xj2  
.. ..
   εj2 

..
   .   ..
  
   . .  
. = Φm + .
XT0 −1 . . . Xt−p
0
  1j

      
 ..  
.. ..
 Φ12j   .
  ..

 .   
..

 . .  
XjT  .  εjT
XT0 −1 . . . XT0 −p
Φm pj
Soit
X j = XΨj + εj
12
2.2 Estimation par la méthode du maximum de vraisemblance
Soit (Xt )t∈Z un processus satisfaisant la représentation V AR(p) suivante,
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + εt où εt ∼ BB(0, Vε ).
Par définition, la loi conditionnelle de Xt est une loi normale définie de la façon suivante :
Xt /Xt−1 , ..., Xt−p ∼ N (Φ0 + Φ1 Xt−1 + ... + Φp Xt−p , Vε )
La densité de Xt conditionnellement à ses valeurs passées est donnée par :
2 1 0 −1
f (Xt |Xt−1 , ..., Xt−p+1 ; Θ) = √ √ e− 2 (Xt −Φ0 −Φ1 Xt−1 −...−Φp Xt−p ) Vε (Xt −Φ0 −Φ1 Xt−1 −...−Φp Xt−p )
( 2π)m detVε
2 1 0 −1
= √ √ e− 2 (Xt −ΠX̃t ) Vε (Xt −ΠX̃t )
( 2π)m detVε
où  
    Φ0
1 Φ0
 Φ1 

 Xt−1   Φ1 
Π  .. 
X̃t =  .  , Π =  .  , Θ = = . 
   
 ..   ..  Vε  
 Φp 
Xt−p Φp
Vε
On retrouve ici une difficulté déjà rencontrée lors de l’estimation des processus ARM A
univariés : l’espérance conditionnelle de Xt fait intervenir les p réalisations précédentes
Xt−1 , ..., Xt−p , qui ne sont pas observées pour les p premières observations. Comme on
sait, la solution la plus simple est de traiter ces p premières valeurs comme des vecteurs de
constantes définissant les conditions initiales du processus à estimer. On maximisera donc
la vraisemblance conditionnelle :
f (XT , XT −1 , ..., X1 |X0 , X−1 , X−2 , ..., X−p+1 ; Θ)
D’où la densité de
f (XT , XT −1 , ..., X1 |X0 , X−1 , X−2 , ..., X−p+1 ; Θ) = f (XT |XT −1 , ..., X1 , X0 , X−1 , ..., X−p+1 , Θ)
×... × f (X2 |X1 , X0 , X−1 , ..., X−p+1 , Θ)
×f (X1 |X0 , X−1 , ..., X−p+1 , Θ)
T
Y
= f (Xt |Xt−1 , ..., X−p+1 , Θ)
t=1
T
Y
= f (Xt |Ft , Θ)
t=1
Le logarithme de la vraisemblance conditionnellement à toutes les valeurs passées du pro-

cessus est donnée alors par :
L(Θ) = ln f (XT , XT −1 , ..., X1 |X0 , X−1 , X−2 , ..., X−p+1 ; Θ)
T
X
= ln f (Xt /Ft ; Θ)
t=1
T
mT T 1X 0
Xt − ΠX̃t Vε−1 Xt − ΠX̃t

=− ln(2π) + ln det(Vε ) −
2 2 2 t=1
T
mT T 1 X 0 −1
=− ln(2π) − ln det(Vε ) − ε V εt
2 2 2 t=1 t ε
L’estimateur du maximum de vraisemblance, noté Θ̂, est le paramètre qui maximise la

log-vraisemblance, i.e.:
Θ̂ = Arg max L(Θ)
Θ
13
2.3 Estimation des processus Autorégressifs par l’algorithme Durbin-
Levinson
L’estimation des coefficients par l’algorithme de Durbin-Levinson en version multivarié
requiert la résolution sumultanée de deux ensembles d’équation, l’une provenant du cal-
cul du prédicteur futur, P (Xn+1 |X1 , ..., Xn ), et l’autre du calcul du prédicteur passé,
P (X0 |X1 , ..., Xn ). Soit X̂n+1 et X̂0 les prédicteur linéaires passé et futur respective de
Xn+1 et X0 basés sur les observations X1 , ..., Xn , il existe 2 × 2 matrices Φn1 , ..., Φnn et
2 × 2 matrice Φ̃n1 , ..., Φ̂nn telles que
X̂n+1 = Φn1 Xn + ... + Φnn X1 , n = 1, 2, ... (5)
X̂0 = Φ̃n1 X1 + ... + Φ̃nn Xn , n = 1, 2, ... (6)
Soit les observations x1 , ..., xn d’une série temporelle bivariée stationnaire et soit
Γ̂(0), ..., Γ̂(n−1) l’estimateur de la fonction de covariance de l’échantillon. Alors le processus
AR(p) (p < n) estimé est
Xt = Φ̂p1 Xt−1 + ... + Φ̂pp Xt−p + εt εt ∼ BB(0, V̂ε )
où les coefficients Φ̂p1 , ..., Φ̂pp et ˆ ε sont obtenus récursivement à partir de la proposition
P
de Durbin-Levinson, en remplaçant Γ(h) par Γ̂(h), h = 0, ..., n − 1.

Propriété 7 : Algorithme de Durbin-Levinson dans le cas multivarié
Soit (Xt )t∈Z un processus stationnaire bivarié avec E(Xt ) = 0 et de fonction d’autovariance
γ(h) = E(Xt X0t+h ). Si la matrice de covariance des 2n composants X1 , ..., Xn est non
singulière pour tout n ≥ 1, alors les coefficients (Φnj ), (Φ̃nj ) dans 5 et 6, satisfont, pour
tout n ≥ 1,
−1
Φnn = ∆n−1 Ṽn−1 ,
˜ n−1 V
Φ̃nn = ∆ 1
,
n−1
Φnk = Φn−1,k − Φmn Φ̃n−1,n−k , k = 1, ..., n − 1,
Φ̃nk = Φ̃n−1,k − Φ̃mn Φn−1,n−k , k = 1, ..., n − 1,
˜ n sont donnés respectivement par
where Vn , Ṽn , ∆ et ∆
Vn = E (Xn+1 − X̂n+1 )X0n+1

= Γ(0) − Φn1 Γ(−1) − ... − Φnn Γ(−n)
Ṽn = Γ(0) − Φn1 Γ(1) − ... − Φnn Γ(n)
∆n = E (Xn+1 − X̂n+1 )X00

= Γ(n + 1) − Φn1 Γ(n) − ... − Φnn Γ(1),

et
˜ n = E (X0 − P (X0 |X1 , ..., Xn ))X0n+1

∆
= Γ(−n − 1) − Φ̃n1 Γ(−n) − ... − Φ̃nn Γ(−1),
V0 = Ṽ0 = Γ(0)
Γ0 = ∆˜ 00 = Γ(1)
L’ordre autoregressif p peut être choisi en minimisant

2(pm2 + 1)
AICC = −2 ln L(Φ̂p1 , ..., Φ̂pp , V̂p ) + .
nm − pm2 − 2
14
3 Validation par tests
3.1 Significativité des paramètres ou détermination de l’ordre du VAR
Pour tester la significativité des paramètres paramètres, on utilise ici le test du rapport du
maximum de vraisemblance. La statistique du test est donnée par
detV̂εc

RM V = T log
detV̂εnc
V̂εc et V̂εnc désignent respectivement les estimateurs de la matrice de variance covariance des
résidus du modèle contraints et non contraints.
Considérons un échantillon constitué d’observations relatives à m variables. Un premier

VAR a été ajusté avec p = p0 retards. Soit donc :
p0
X
Xt = µ + Φi Xt−i + εt (7)
i=1
dont on tire notamment l’estimation de Vε , notée V̂ε|p=p0 afin de montrer sa dépendance

au nombre de retards retenus dans le modèle dont elle est issue. On se demande si un
modèle avec seulement p1 retards, avec p1 < p0 ne serait pas équivalent empiriquement au
précédent, ce qui conduirait à la structure
p1
X
Xt = µ + Φi Xt−i + εt (8)
i=1
et à une estimation de Vε , notée V̂ε|p=p1
Dans cette situation, le modèle non contraint correspond à (7) et le modèle contraint à (8),
les contraintes faisant le passage du premier au deuxième étant la nullité des coefficients
des explicatives retardées de plus de p1 périodes dans (7).
Afin de fixer une valeur raisonnable pour p, on peut imaginer d’estimer un VAR d’ordre p0
avec p0 relativement élevé puis de mener un test de
H0 : Φp0 = 0 V ar(p0 − 1)
contre
H1 : Φp0 6= 0 V ar(p0 )
Sous l’hypothèse nulle, cette statistique suit une loi de Khi-deux à k degrés de lib-
erté où k désigne le nombre de contraintes.
En cas de rejet, on reste sur p = p0 , où éventuellement, on teste l’opportunité d’augmenter

p0 d’une unité. En cas de non rejet, on passe à p = p0 −1 et on reprend la logique précédente
en se demandant s’il n’est pas déraisonnable de baisser ce nombre de retards d’une unité.
L’objectif étant qu’à la fin de ces tests séquentiels, on soit conduit à retenir un p∗ tel que
en opposant H0 : p = p∗ versus H1 : p = p∗ + 1 on ne rejette pas H0 , et, en opposant
H0 : p = p∗ − 1 versus H1 : p = p∗ on rejette H0 . Le problème avec cette démarche est que
l’on ne maitrise pas le seuil de risque qui permet de sélectionner p∗ a l’issue d’une succession
de tests qui sont individuellement réalisés à un seuil α, même si ce dernier est clairement
identifié.
15
3.2 Tests de bruit blanc des erreurs
Pour tester le manque de corrélation dans la série des résidus d’un modèle Var(p), un test
de Portmanteau et le test de LM proposé par Breusch et Godfrey (1978) sont généralement
appliqués.
– Test de Portmanteu
La statistique du test de Portmanteau de Box & Pierce est définie comme suit
K
X
BPK = T trace(Ĉj0 Ĉj−1 Ĉj Ĉ0−1 )
j=
avec Ĉi = T1 Tt=i+1 ε̂t ε̂0t−i .

P
Pour un échantillon de petite taille, Ljung & Box propose la version améliorée
h
X 1
LBK = T 2 trace(Ĉj0 Ĉj−1 Ĉj Ĉ0−1 )
T −j
j=
La distribution asymptotique suit une loi du chi-deux à m2 K − n∗ degrés de liberté où n∗

désigne le nombre de paramètres estimés et K le nombre de retards choisis pour calculer
les autocorrélations.
Le test à effectuer est
H0 : C1 = C2 = . . . = CK = 0
contre
H1 : il ∃ Ch 6= 0 pour h = 1, 2, ..., K
– Test de Breusch-Godfrey
La statistique LM du test est basée sur la regression auxiliaire suivante :
ε̂t = Φ1 Xt−1 + ... + Φp Xt−p + µDt + Θ1 ε̂t−1 + ... + Θh ε̂t−h + εt
La statistique du test est définie par
LMK = T m − tr(ṼR−1 Ṽe ) ,

où ṼR et Ṽe représentent respectivement la matrice de covariance des résidus des modèles
restreints et non restreints. La distribution du test suit une loi χ2Km2 .
Le test à effectuer est
H0 : Φ1 = Φ2 = . . . = ΦK = 0
contre
H1 : il ∃ Φh 6= 0 pour h = 1, 2, ..., K
Edgerton et Shukur (1999) ont proposé une correction du test qui tient compte des
échantillons de petits tailles, elle est donnée par la statistique suivante :
1
1 − (1 − Rr2 ) r N r − q
LM FK = 1
(1 − Rr2 ) r ml
q
où Rr2 = 1 − ||ṼṼe || , r = mm2 +l
2 l2 −4 1 1
2 −5 , q = 2ml − 1 et N = T − m − l − 2(m−l+1) , où n est le
R
nombre de regresseur dans le système riginal et l = mK. Cette statistique modifiée est
distribuée suivant la loi de Fisher F Km2 , int(N r − q) .
16
3.3 Normalité
Pour étudier la normalité des résidus, on peut se servir des tests de normalité univariés qui
vont porter successivement sur chacune des séries résiduelles des m équations. On peut
citer le test de Jarque-Bera de normalité des résidus. Ce test se fonde sur les mesures de
skewness (asymétrie), et de kurtosis (aplatissement) définis comme suit :
µ23 µ4
Sk = et Ke =
µ32 µ22
Ce test exploite le fait que pour une gaussienne, le coefficient Sk est nul, car la densité de
la normale est symétrique, et que son Ke est égal à 3. Jarque et Bera ont montré que
ˆ e K̂e − 3 i d
h Sk
JB = T + −−−−→ χ22
6 24 T →∞
ˆ e et K̂e sont obtenus en prenant les estimateurs empiriques des moments dans les
où Sk
définitions précédentes.
La version multivariée de la statistique du test Jarque Bera est définie par

JBM V = S32 + S42
où S2 et S42 sont donnés par
T b01 b1 T (b2 − 3m )0 (b2 − 3m )
S32 = S42 =
6 24
b1 et b2 sont respectivement le troisième et le quatrième vecteur moment non centré des
résidus standardisés ε̂st = P̃ − (ε̂t − ε̂t ) et P̃ est la matrice triangulaire inférieure avec di-
agonale positive telle que P̃ P̃ 0 = Ṽε ; i.e. la décomposition de Choleski de la matrice de
covariance des residus. La statistique du test JBM V est distribuée suivant la loi χ22m et les
tests du skewness multivarié, S32 , et du kurtosis multivarié, S42 , sont distribués suivant la loi
χ2m .
Ces tests sont implémentés dans la fonction normality.test() contenue dans le package vars.
Comme pour le test d’effet ARCH, le rejet de l’hypothèse nulle ici ne remet pas forcément
en cause le choix de l’ordre p. D’ailleurs, si la taille de l’échantillon T est élevée, l’hypothèse
de normalité n’est pas cruciale.
3.4 Critères d’information

Comme dans le cas univarié, on se servira des critères d’information pour le choix du meilleur
modèle.
2
– Le critère AIC : AIC = log detV̂ε + 2mT p
– Le critère SIC : SIC = log detV̂ε + m2 p logT T
– Le critère HQ : HQ = log detV̂ε + m2 p 2 log(log
T
T)
∗
m
– Le critère FPE : F P E(p) = TT +n
−n∗ detV̂ε
m est le nombre de variables du système, V̂ε estimateur de la matrice de variance covariance
T
1X 0 ∗
des résidus V̂ε = ε̂t ε̂t , n est le nombre total de paramètres dans chaque équation, p
T
t=1
le retard d’ordre et T le nombre d’observations.
Le p qui minimise ces critère correspondra au meilleur modèle pour la prévision.
17
4 Prévision d’un VAR
On souhaite effectuer une prévision de Xt+h et déterminer une région de confiance de la
prévision de Xt+h .
Considérons un modèle V AR(p) estimé à partir de T observations :
Xt = Φ̂0 + Φ̂1 Xt−1 + Φ̂2 Xt−2 + ... + Φ̂p Xt−p + εt
La prévision en t + h du processus est alors
X̂t (h) = E(Xt+h |It )

= Φ̂0 + Φ̂1 Xt+h−1 + Φ̂2 Xt+h−2 + ... + Φ̂p Xt+h−p
Supposons que le V AR est stationnaire, donc il peut être représenté sous la forme d’un
V M A(∞), et on a
Xt = εt + Ψ1 εt−1 + Ψ2 εt−2 + Ψ3 εt−3 + ...
La prévision théorique est alors
Xt+h = εt+h + Ψ1 εt+h−1 + Ψ2 εt+h−2 + Ψ3 εt+h−3 + ...
et
X̂t (h) = E(Xt+h |It )

= Φh εt + Ψh+1 εt−1 + Ψh+2 εt−2 + ...
X
= Φh+i εt−i
i≥0
L’erreur de prévision en T à l’horizon h, noté ε̂t+h , s’écrit sous la forme

h−1
X
ε̂t+h = Xt+h − X̂t (h) = Ψj εt+h−j
j=0
Si on suppose que le bruit εt est blanc et gaussien de variance Vε , alors ε̂t suit une loi
N (0, Vε̂ ), où
h−1
X
Vε̂ = Vε + Ψi Vε Ψ0i
i=1
5 Causalité
Il s’agit d’examiner les relations existantes entre les m variables X1t , ..., Xmt du système.
La mise en évidence de relations causales entre les variables économiques permet une
meilleure compréhension des phénomènes économiques, et par la même, permet la mise
en place d’une politique économique optimisée.
Soient Xt et Yt deux processus stationnaires, Xt est causal (ou Yt cause Xt ) si l’erreur de

2 2
prévision
de X t est telle que E Xt − E(Xt
|It−1 , Jt−1 ) < E Xt − E(Xt |J t−1 ) où
It−1 = Xt−i , i ≥ 1 et Jt−1 = Yt−i , i ≥ 1 .
Causalité au sens de Granger (1969)
18
Définition 8
On dit que la variable X cause au sens de Granger la variable Y si et seulement si la
connaissance du passé de X améliore la prévision de Y à tout horizon.
Au sens des séries temporelles Xt est causal signifie que la prévision de Xt basée sur la
connaissance des passés conjointes de εt et de Xt est meilleure que celle de Xt fondée sur
la seule connaissance du passé de Xt .
On énonce ainsi les corollaires suivants

Corollaire 9
t si E Xt |It−1 , Jt−1 6= E Xt |It−1 où It−1 = Xt−i , i ≥ 1 et
εt cause Xt à la date
Jt−1 = εt−i , i ≥ 1
Corollaire 10
εt ne cause
X t à la date t si E Xt |I t−1 , Jt−1 = E Xt |I t−1 où It−1 = Xt−i , i ≥ 1 et
Jt−1 = εt−i , i ≥ 1
De façon équivalente, on dit alors que la variable X est exogène au sens des séries tem-
porelles.
Causalité au sens de Sims (1980)

X1t est causal (ou X2t cause X1t ) si les valeurs futures de X1t peuvent expliquer les valeurs
présentes de X2t , on en déduit que X2t est la cause de X1t .
On dira aussi que X1t est causale si les innovations de X2t contribuent à la variance de
l’erreur de prévision de X1t .
5.1 Test de causalité

5.1.1 Test de causalité au sens de Granger
Pour mener le test de causalité au sens de Granger, on détermine le nombre de retard p du
modèle VAR(p). Considérons un processus V AR(p), de la forme suivante
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + εt (9)
où les Φi sont des matrices de coefficients de dimension (m, m) et (εt )t∈Z un processus de
bruit blanc de moyenne 0 et de variance Vε .
Considérons un processus VAR(2) à deux variables X1,t et X2,t défini comme suit :
X1,t = µ1 + φ1,1 X1,t−1 + φ1,2 X1,t−2 + θ1,1 X2,t−1 + θ1,2 X2,t−2 + ε1,t
X2,t = µ2 + φ2,1 X1,t−1 + φ2,2 X1,t−2 + θ2,1 X2,t−1 + θ2,2 X2,t−2 + ε2,t
L’avantage principal de cette méthode réside dans le fait qu’elle précise la direction de la
causalité et permet de tester celle-ci dans les deux sens. Le test est bidirectionnelle ou
2 types de causalité qu’il faudra tester. Les deux équations ci-dessus
bivarié, ce sont Cm
permettent respectivement de tester si la variable X1t cause la variable X2t ou si la variable
X2t cause X1t à la Granger, soit C22 = 1 tests à effectuer.
On décide de tester la causalité de X2,t pour X1,t , l’hypothèse nulle est alors X2,t ne cause
pas X1,t , c’est-à-dire X2,t n’aide pas à la prévision de X1,t , ce qui est équivalent à tester :
H0 : θ1,1 = θ1,2 = 0.
19
Cette hypothèse de non causalité est testée à l’aide de la statistique du test de Wald (Fisher)
ou de χ2 .
5.1.2 Test de non causalité

La statistique du test est celle du rapport de vraisemblance et est donnée par

detVε Yt |Jt−1

RV = T ln
detVε Yt |Jt−1 , It−1
Sous l’hypothèse nulle de non causalité, cette statistique est suit une loi de χ2r(T −r)p avec r
est le nombre de contrainte imposées.
6 Dynamique de court terme du système d’un modèle VAR

Pour expliquer les différences de comportement entre les variables des modèles VAR, on se
sert de la dynamique de ces derniers via la simulation de chocs aléatoires et l’analyse de la
décomposition de leur variance.
6.1 Analyse des chocs ou fonction de réponse aux innovations

L’analyse d’un choc consiste à mesurer l’impact de la variation d’une innovation sur les
variables.
Les fonctions de réponse impulsionnelle ont pour rôle de montrer comment une variable
réagit dynamiquement suite à un choc donné à une autre variable sachant que toutes les
autres variables intervenant dans le modèle restent constantes. Autrement dit, elles résu-
ment l’information concernant l’évolution d’une composante Xit à la suite d’une impulsion
sur une variable Yit à la date t en supposant que toutes les autres variables ne bougent pas
(sont constantes) pour t0 ≥ t.
Ces fonctions délivrent une information quand à la durée de persistance d’un choc.
Pour analyser les chocs d’un processus V AR, il convient au préalable de le réécrire sa forme
vectorielle moyenne mobile V M A (Vector Moving Average). Si on suppose que l’estimation
du modèle V AR a été effectué après identification et suppression de toutes les relations de
cointégration déterministes, alors le modèle est stationnaire et en plus la convergence des
estimateurs et l’indépendance des résidus du modèle sont assurées (comme le soulignent
Johansen & Juselius, [1990]). Il devient possible de retranscrire un modèle V AR(p) sous
forme V M A(∞) en faisant apparaître les multiplicateurs dynamiques du système. C’est
sur ces éléments que repose l’étude des chocs.
Considérons (Xt )t∈Z un V AR(p) stationnaire et centré sous la forme
p
X
Xt = Φi Xt−i + εt
i=1
Suivant le Théorème de Wold, ce processus V AR(p) admet une représentation sous la forme
d’un processus V M A(∞), et on a

X∞  Ψ0 = X I
Xt = Ψj εt−j = Ψ(B)εt où
 Ψ(B) = Ψj B j
j=0 j≥0
20
X
Ψj une suite de matrice carrés absolument sommable, ||Ψj || < ∞.
j∈Z
Le terme εt représente le vecteur des innovations (chocs ou impulsions ) du processus.
L’équation de Xt sous forme V M A(∞) peut être écrite sous forme de système d’équations
comme suit
X1,t = ε1,t + ∞
P 1
P∞ 1 P∞ 1
j=1 ψ1,j ε1,t−j + j=1 ψ2,j ε2,t−j + ... + i=1 ψm,j εm,t−j
P∞ 2 P∞ 2 P∞ 2
X2,t = ε2,t + j=1 ψ1,j ε1,t−j + i=1 ψ2,j ε2,t−j + ... + j=1 ψm,j εm,t−j
.. .. .. .. ..
. . P∞ m . P∞ m . P∞ . m
Xm,t = εm,t + j=1 ψ1,j ε1,t−j + i=1 ψ2,j ε2,t−j + ... + j=1 ψm,j εm,t−j
Cette forme V M A(∞) permet alors, via la dynamique du processus V AR, de déterminer
l’effet (ou impact) des chocs sur les variables endogènes (ou réponses des variables endogènes
Xit aux différentes innovations εjs , s ≤ t) à l’aide des multiplicateurs dynamiques ψj . Ces
multiplicateurs sont déterminés par
∂Xi,t+p
ψij,p =
∂εj,p
ψij,p détermine ainsi l’impact d’un choc εj à la date t sur la variable Xi à p périodes après
le choc.
– Orthogonalisation des innovations
Si les chocs (innovations canoniques) εit et εjt sont corrélés entre eux, εjt aura un effet sur
Xi,t+p de même l’innovation εit aura un effet sur Xi,t+p . Or pour interpréter une analyse
de fonction impulsionnelle, il faut des chocs non corrélés. Il devient dés lors intéressant,
d’idenditifier l’impact de chaque choc séparément : on parle alors d’orthogonalisation
des innovations. Pour ce faire Choleski propose une méthode d’orthogonalisation des
innovations reposant sur la décomposition de la variance des innovations canoniques.
Soit Vε la matrice de variance-covariance de ε, on a
Vε = E(εt ε0t ) = ADA0 = I
où A est une matrice m × m triangulaire de où D est une matrice diagonale.

On pose comme nouveau processus d’innovation le processus ut tel que u = A−1 εt et on
a
E(ut u0t ) = A−1 E(εt ε0t )(A−1 )0 = A−1 Vε (A−1 )0 = A−1 ADA0 (A−1 )0 = D.
Les innovations ut sont alors non corrélées puisque leur matrice de variance-covariance
est la matrice diagonale D.
– Exemple
Soit Xt un processus bivarié définit par un modèle V AR(1) sous la forme suivante
X1t = µ1 + φ1,1 X1,t−1 + φ1,2 X2,t−1 + ε1t

X2t = µ2 + φ2,1 X1,t−1 + φ2,2 X2,t−1 + ε2t
On suppose que les chocs ε1t et ε2t sont corrélés.

Donc E(εt ε0t ) = Vε 6= In . On décompose alors Vε sous la forme V = ADA0 .
σ12
! ! !
0 1 σσ122
2
1 0

0 σ1 σ21
E(εt εt ) = = σ12 1 σ2 1
σ12 σ22 σ12 0 σ22 − σ122 0 1
1
21
On pose ut = A−1 εt , ce qui donne
!−1 !
1 0 1 0

u1t ε1t ε1t
= σ12
1 = − σσ122 1
u2t σ2 ε2t ε2t
1 1
équivalent à (
u1t = ε1t
u2t = − σσ122 ε1t + ε2t
1
– Exemple : causalité et chocs

Considérons un procesus bivarié (Xt )t∈Z composé de X1t et X2t et admettant une
représentation V AR(p).
– Si X1t cause X2t alors
– un choc sur X2t à un instant t a une conséquence sur X2t mais pas sur X1t .
– un choc sur X1t à un instant t a une conséquence sur X1t et sur X2t .
– Si X2t cause X1t alors
– un choc sur X1t à un instant t a une conséquence sur X1t mais pas sur X2t .
– un choc sur X2t à un instant t a une conséquence sur X2t et sur X1t .
L’étude des fonctions de réponse aux chocs est bien souvent complétée par une analyse de
la décomposition de la variance de l’erreur de prévision.
6.2 Décomposition de la variance de l’erreur de prévision

La décomposition de la variance de l’erreur de prévision a pour objectif de calculer pour
chacune des innovations sa contribution à la variance de l’erreur.
– Si un choc sur ε1t n’affecte pas la variance de l’erreur de X2t , alors X2t est considéré
comme exogène (X2t évolue indépendamment de ε1t ).
– Si un choc sur ε1t affecte fortement la variance de l’erreur de X2t , alors X2t est considéré
comme endogène .
Remarque
Comme dans le cas univarié avec l’extension des processus AR aux processus ARM A, on
peut, aussi dans le cas des multivarié, tenir compte d’une autocorrélation des erreurs d’ordre
q en étendant les processus V AR aux processus ARM A multivariés, appélés V ARM A et
qui s’écrivent sous la forme suivante :
Xt = Φ0 + Φ1 Xt−1 + ... + Φp Xt−p + εt + Θ1 εt−1 + ... + Θq εt−q
Soit encore :
Φ(B)Xt = Θ(B)εt + Φ0
où Φ est un polynôme matriciel d’ordre p et Θ un polynôme matriciel d’ordre q.
22

Poly Var - Estimation - Prévision - 2020

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly Var - Estimation - Prévision - 2020

Transféré par

Droits d'auteur :

Formats disponibles

ENSAE - Sénégal

Ecole Nationale de la Statistique et de l’Analyse Economique

1.1 Processus stochastique vectoriel

X : (Ω, A, P) 7−→ (Rm , B(Rm ))

Hypothèse : (Xt ) ∈ (L2 )m i.e. 2 ) < +∞,

Γ(h, t) = E (Xt − µt )(Xt−h − µt−h )0

Fonction d’autorrélation (ou matrice des corrélations)

 Zt = Ck εt−h est la composante stochastique

avec Ch = E(Xt ε0t−h ) une suite de matrice carrées absolument sommable, C0 = I et

1.1.2 Bruit Blanc dans Rm

Montrer que (Xt ) est un processus stationnaire au 2nd ordre.

1.1.3 Estimation de l’espérance et de la FAC

1.1.4 Opérateur de retard

Donc εt est un processus de moyenne 0 de matrice variance-covariance Vε et non corrélé.

Sous forme matricielle, on a

(Im − Φ1 B − Φ2 B 2 − ... − Φp B p )Xt = Φ0 + εt

Ce qui donne sous la forme condensée

où Im désigne la matrice identité (m, m).

Le processus V AR(p) peut aussi être écrit sous la forme suivante :

Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p − dXt + εt (1)

ce qui est équivalent à

La représentation structurelle est non utilisable en pratique. On travaille plutôt avec sa

A partir de l’équation (3), nous remarquons que

Sous forme marticielle, on a :

Il s’agit d’un VAR structurel d’ordre 1 : SV AR(1).

Exemple de modèles VAR

X2,t = µ2 + φ2 X1,t−1 + θ2 X2,t−1 + ε2,t

X2,t = µ2 + φ2 X1,t−1 + θ2 X2,t−1 − d2 X1,t + ε2,t

1.2.2 Représentation canonique d’un VAR

Les innovations canoniques, naturellement associées à un modèle VAR non-contraint,

X1,t = 2 + 0.3X1,t−1 + 0.4X2,t−1 + ε1,t

Sous forme réduite, on a

det[Φ(B)] = (1 − 0.3B)(1 − 0.2B) + 0.04B 2

1.2.3 Caractéristiques d’un VAR

Xt = Φ0 + Φ1 Xt−1 + ... + Φp Xt−p + εt

Fonction d’autocovariance, Fonction d’autocorrélation

Xt = Φ1 Xt−1 + ... + Φp Xt−p + εt

Xt = Φ1 Xt−1 + ... + Φp Xt−p + εt

c’est-à-dire pour tout h > 0

Γ(0) = Φ1 E(Xt−1 Xt0 ) + ... + Φp E(Xt−p Xt0 ) + E(εt Xt0 )

Γ(h) = E(Xt Xt−h )

Γ(0) = E(Xt Xt0 ) = E (Φ1 Xt−1 + εt )Xt0

= Φ1 E(Xt−1 Xt0 ) + E(εt Xt0 )

E(εt Xt0 ) = E(εt (Φ1 Xt−1 + εt )0 ) = Φ1 E(εt Xt−1

Γ(h) = Φ1 Γ(h − 1), ∀h ≥ 0

Fonction d’autocorrélation partielle

Densité Spectrale d’un processus stationnaire bivarié

2 Estimation des paramètres

2.1 Estimation par la méthode des moindres carrés ordinaires

Considérons la j eme équation du V AR(p), on a

Le logarithme de la vraisemblance conditionnellement à toutes les valeurs passées du pro-

L’estimateur du maximum de vraisemblance, noté Θ̂, est le paramètre qui maximise la

de Durbin-Levinson, en remplaçant Γ(h) par Γ̂(h), h = 0, ..., n − 1.

= Γ(0) − Φn1 Γ(−1) − ... − Φnn Γ(−n)

Ṽn = Γ(0) − Φn1 Γ(1) − ... − Φnn Γ(n)

∆n = E (Xn+1 − X̂n+1 )X00

= Γ(n + 1) − Φn1 Γ(n) − ... − Φnn Γ(1),

L’ordre autoregressif p peut être choisi en minimisant

Considérons un échantillon constitué d’observations relatives à m variables. Un premier

dont on tire notamment l’estimation de Vε , notée V̂ε|p=p0 afin de montrer sa dépendance

et à une estimation de Vε , notée V̂ε|p=p1

En cas de rejet, on reste sur p = p0 , où éventuellement, on teste l’opportunité d’augmenter

avec Ĉi = T1 Tt=i+1 ε̂t ε̂0t−i .