Académique Documents
Professionnel Documents
Culture Documents
S. Fofana 1
Modélisation VAR
1 Introduction
Pour améliorer les prédictions des modèles univariés, les économètres se sont attachés à
l’étude des relations entre plusiseurs variables. Il s’agit ainsi de réaliser des prédictions
de Yt , en considérons un ensemble informationnel plus grand {Yt−h , Xt−h , h = 0, 1, 2, ...}
et en construisant un modèle multivarié : Yt = f (Yt−h , Xt , Xt−h , εt , εt−h ), h > 0. Cette
modélisation multivariée présente deux avantages importants :
– Elle permet, non plus de décrire, mais d’expliquer l’évolution de la série étudiée.
– Elle conduit à de meilleures prévisions que celles délivrées par le modèle univarié, en
raison de l’ensemble informationnel plus large.
Les modèles de séries temporelles multivariés et plus particulièrement les modèles VAR
(AutoRégressive Vectoriels) constituent une alternative aux grands modèles macroécono-
métriques structurels d’inspiration keynésienne et aux modèles à équations simultanées.
Christopher Sims a été le premier à s’intéresser aux modèles de type VAR (modèles vec-
toriels autorégressifs) et VAR structurels dans les années 1980.
Comment le PIB et l’inflation sont affectés par une augmentation temporaire des taux d’in-
térêt ou une baisse d’impôts ? Que se passe-t-il si une banque centrale modifie de façon
permanente son objectif d’inflation ou si un gouvernement modifie son objectif d’équilibre
budgétaire ? Telles sont les type de questions auxquelles les lauréats du nodel 2011, Thomas
Sargent et Sim, ont apporté une réponse.
Les recherches de Christopher Sims ont porté plus particulièrement sur la façon dont
les chocs économiques – tels que la flambée des prix du pétrole, ou la forte baisse de la
consommation des ménages – agissent sur l’économie.
1
En supposant que l’espace Ω des événements élémentaires est indéxé par le temps t, on
définit ainsi un processus stochastique vectoriel (Xt )t∈Z , de dimension m sur Ωt , et
on a
Xt : (Ωt , A, P) 7−→ (Rm , B(Rm ))
où, pour chaque t fixé Xt est un vecteur aléatoire de dimension m issu du processus
vectoriel (Xt )t∈Z .
Xt,1
Xt = (Xt,1 , ..., Xt,m )0 = ...
Xt,m
où A0 désigne la transposé de A.
Une série temporelle m-dimensionnelle (Xt )t=1,...,T est alors une réalisation d’un processus
stochastique vectoriel (Xt )t∈Z m-dimensionnelle.
Définition 1
Soit un processus (Xt ) dans (L2 )m
Espérance mathématique
µt = E(Xt ) = (µt,1 , ..., µt,m )0
µt,i = E(Xt,i ), i = 1, ..., m
Fonction d’autocovariance (ou matrice d’autocovariance)
Remarque :
– Γ(h, t) = cov(Xt , Xt−h ) , Γ(0, t) = V (Xt ),
– Si Xt ∈ C , Γ(h, t) = E (Xt − µt )(Xt−h − µt−h )0
m
1.1.1 Stationnarité
Définition 2
Un processus (Xt )t∈Z est dit stationnaire au second ordre si :
– E(Xt ) = µ ∀t ∈ Z (indépendant de t)
– E(|Xt |2 ) < ∞ ∀t ∈ Z
– Γ(h, t) = E (Xt − µ)(Xt−h − µ)0 = Γ(h) < +∞ ∀h, t ∈ Z
γij (k)
ρij (k) = p p , i, j = 1, 2, ..., m
γii (0) γjj (0)
Théorème 3
La fonction Γ(.) est telle que
2
1. Γ(−h) = Γ0 (h) ∀ h ∈ Z.
1
2. γij (h) ≤ γii (0)γjj (0) 2 i, j = 1, ..., m.
n X
X n
3. a0j Γ(j − h)ah ≥ 0 ∀ n ∈ N∗ , ∀ah ∈ Rm , i.e. Γ(.) est semi-définie positive.
h=1 j=1
Théorème de Wold
Tout processus (Xt ) dans Rm stationnaire peut se décomposer de la manière suivante:
Dt est la partie déterministe
et
Xt = Dt + Zt où X∞
Un bruit blanc est ainsi un processus centré, de variance constante et non autocorrélé.
On note Ut ∼ BB(0, ΩU ).
Remarque
Si (Ut ) est une suite de variable aléatoire indépendantes et identiquement distribuées, on
note Ut ∼ IID(0, Ω).
Exemple :
xt
Xt =
yt
xt = zt − 0.5zt−4
zt ∼ BB(0, 1)
yt = zt + 0.8zt−4
3
Moment empirique
T
1X
XT = Xt : estimateur de l’espérance du processus Xt , t = 1, ..., T.
T
t=1
= (X 1,T , ..., X m,T )0
T
1X
X i,T = Xt,i , i = 1, ...m
T
t=1
Autocovariance empirique
i, j = 1, 2, ..., m, on a :
T −h
1 X
T
(Xt,i − X i,T )(Xt+h,j − X j,T ) si 0 ≤ h ≤ T − 1
t=1
γ̂ij (h) = T
1 X
(Xt,i − X i,T )(Xt+h,j − X j,T ) si − T + 1 ≤ h < 0
T
t=1−h
On en deduit
T −h
1 X
(Xt − X T )(Xt+h − X T )0
T
si 0 ≤ h ≤ T − 1
t=1
Γ̂(h) = T
1 X
(Xt+h − X T )(Xt+h − X T )0 si − T + 1 ≤ h < 0
T
t=1−h
Autocorrélation empirique
γ̂ij (h)
ρ̂ij (h) = p i, j = 1, ..., m.
γ̂ii (0)γ̂jj (0)
4
1.2 Les Processus VAR
Soit Xt = (X1t , X2t , ..., Xmt ) un processus vectoriel stationnaire au second ordre. (Xt )t∈Z
suit un processus Vectoriel Auto-Regressif, noté V AR(p), si et seulement si l’équation suiv-
ante est vérifiée
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + εt
où (εt )t∈Z suit un bruit blanc, c’est à dire un processus vérifiant
0 Vε si s = t
E(εt ) = 0 ∀t et E(εt εs ) =
0 si t 6= s
où
X1t X1t−i
X2t X2t−i
Xt = , Xt−i = ,
.. ..
. .
Xmt Xm,t−i
φ11i φ12i ... φ1mi
µ1 ε1t
µ2 φ21i φ22i ... φ2mi ε2t
Φ0 = , Φi = , εt = .
.. .. .. .. .. ..
. . . . . .
µm φm1i φ m ... φm
2i mi 1≤i≤p
εmt
ce qui est équivalent à
Φ(B)Xt = Φ0 + εt
où
∞
X
Φ(B) = Im − Φi B i = Im − Φ1 B − Φ2 B 2 − ... − Φp B p ,
i=1
5
où
d21 . . . dm
X1t X1t−i 0 1
X2t X2t−i d12 0 . . . dm2
Xt = , Xt−i = , d= ,
.. .. .. .. ..
. . . . ... .
Xmt Xm,t−i d1m d2m . . . 0
φ11i φ12i ... φ1mi
µ1 ε1t
µ2 φ21i φ22i ... φ2mi ε2t
Φ0 = . , Φi = , εt = . .
.. .. .. ..
.. ..
. . . .
µm m m
φ1i φ2i ... φmi m εmt
1≤i≤p
En posant
d21 . . . dm
1 1
d12 1 . . . dm2
A = Im + d =
.. .. ..
. . ... .
d1m d2m . . . 1
On a
p
X
AXt = Φ0 + Φi Xt−i + εt (2)
i=1
Cette représentation matricielle de V AR(p), comme celle donnée par l’équation (1), est
qualifiée de représentation structurelle dans laquelle le niveau de Xi,t est directement
influencé par ceux de Xj,t , j = 1, ..., m, j 6= i.
Remarque
Ce que l’on définit par non structurel en économétrie est simplement un domaine d’investi-
gation dans lequel les équations structurelles sont abandonnées ; on s’intéresse strictement
aux interrelations et interactions entre les variables.
6
1.2.1 Représentation VAR à deux dimension 2
Considérons deux processus (X1,t )t∈Z et (X2,t )t∈Z définis de la forme suivante :
Pp Pp
X1,t = µ1 + i=1 φ1,i X1,t−i + j=1 θ1,i X2,t−i − d1 X2,t + ε1,t
Pp Pp
X2,t = µ2 + i=1 φ2,i X1,t−i + j=1 θ2,i X2,t−i − d2 X1,t + ε2,t
où les innovations (ε1,t )t∈Z et (ε2,t )t∈Z sont bruit blanc de variance respective σ12 et σ22 et
non corrélés : E(ε1,t ε2,t−j ) = 0 ∀j ∈ Z.
m = 2 nombre de variables, p nombre de retard.
où
X1t X1t−i 1 d1
Xt = , Xt−i = , A= ,
X2t X2t−i i=1,...,p d2 1
µ1 φ1i θ1i ε1t
Φ0 = , Φi = , εt = .
µ2 φ2i θ2i i=1,...,p ε2t
Pour p = 1, on a
X1t µ1 φ11 θ11 X1,t−1 0 d1 X1,t ε1t
Xt = = + − +
X2t µ2 φ21 θ21 X2,t−1 d2 0 X2,t ε2t
= Φ0 + Φ1 Xt−1 − dXt + εt
Φ(B)Xt = εt
7
Si Φ(B) est inversible alors le V AR est qualifié de stable et on a :
Xt = Φ(B)−1 εt
Φ̃(B)0
= εt
det[Φ(B)]
= Ψ(B)ε
avec Φ̃(B) = I − Φ̃1 B − Φ̃2 B 2 − Φ̃3 B 3 − ... − Φ̃p B p la matrice des cofacteurs cij des éléments
aij de la matrice Φ(B) et Φ̃(B)0 est appelé matrice adjointe de Φ(B).
Si toutes les racine du polynôme det[Φ(B)] sont de modules supérieurs à 1, ou si toutes les
valeurs propres de l’application linéaire Φ(B) sont de modules inférieurs à 1, alors l’équation
Φ(B)Xt = εt définit un unique processus V AR(p) stationnaire. On dit que Xt est en
représentation canonique et εt est appelé le processus des innovations.
Le processus (Xt )t∈Z peut, en effet, se réécrire sous la forme d’un processus V M A(∞), et
on a :
X∞ Ψ0 = X
I
Xt = Ψj εt−j = Ψ(B)εt où
Ψ(B) = Ψj B j
j=0 j≥0
X
et Ψj une suite de matrice carrés m × m absolument sommable, ||Ψj || < ∞.
j∈Z
Exemple
Soit Xt ∼ V AR(1) défini comme suit
8
Le polynôme det[Φ(B)] est donné par
on a
E(Xt ) = Φ0 + Φ1 E(Xt−1 ) + ... + Φp E(Xt−p ) + E(εt )
(Xt )t∈Z processus stationnaire, donc
E(Xt ) = Φ−1 Φ0
où
p
X
Φ=I− Φi
i=1
La fonction d’autocovariance (ou matrice des covariance) être déterminée en résolvant les
équations de Yule-Walker. En effet,
0 0 0 0
E(Xt Xt−h ) = Φ1 E(Xt−1 Xt−h ) + ... + Φp E(Xt−p Xt−h ) + E(εt Xt−h )
9
Pour h = 0, on a la variance de Xt , V (Xt ) = Γ(0)
La fonction d’autocovariance (ou matrice des covariance) peut aussi être déterminée en
utilisant la représentation V M A(∞) de Xt .
En effet, Xt sous forme V M A(∞) est par défini
∞
X
Xt = Ψj εt−j
j=0
et on a
∞
X ∞
X
= Ψj Vε Ψ0j−h = Ψh+i Vε Ψ0i
j=0 i=0
∞
X
Γ(h) = Ψh+j Vε Ψ0j , pour h > 0 (4)
j=0
∞
X
Ψj Vε Ψ0j
pour h = 0
j=0
Γ(h) = ∞
X
Ψh+j Vε Ψ0j
pour h > 0
j=0
∞
X 1
Les matrices Ψj sont déterminées uniquement par Ψ(z) = Ψj z j = ou de manière
Φ(z)
j=0
récursive à travers l’équation suivante :
j
X
Ψj = Φi Ψj−i avec Ψ0 = I0 , j = 1, 2, ...
i=1
et où
Φi = 0, i>p
10
On en déduit la fonction d’autocorélation R(h) = [ρij (h)]1≤i,j≤2 où
γij (h)
ρij (h) = p
γii (0)γjj (0)
Remarque
L’expression de V M A(∞) montre que
– Cov(Xt , εt ) = Vε
– Cov(Xt−h , εt ) = 0 pour tout h > 0
Exemple
Xt = Φ1 Xt−1 + εt
Sa fonction d’autocovariance est définie par
0
Γ(h) = E(Xt Xt−h ) =?
0 0 0 0
E(Xt Xt−h ) = Φ1 E(Xt−1 Xt−h ) + ... + Φp E(Xt−p Xt−h ) + E(εt Xt−h )
- Pour h = 0, on a
D’où
Γ(0) = Φ1 Γ(1) + Vε
- Pour h = 1, on a
0 0 0
Γ(1) = E(Xt Xt−1 ) = E (Φ1 Xt−1 + εt )Xt−1 = Φ1 E(Xt−1 Xt−1 )
= Φ1 Γ(0)
D’où pour tout h ≥ 1, la matrice d’autocovariance d’ordre h d’un processus V AR(p) est :
11
On a :
fxx (λ) fxy (λ) ∞
= 1
X
fX = Γ(h)e−ihλ , −π ≤ λ ≤ π.
2π
fyx (λ) fyy (λ) h=−∞
fxx (λ) : densité de (xt )
2π_périodique et paires
fyy (λ) : densité de (yt )
fxy : spectre (ou densité spectrale) croisé de (xt ) et (yt ).
fxy et fyx sont complexes non symétriques autour de 0.
Définition 6
fxx (λ) fxy (λ)
xt
Si Xt = de densité spectrale fX (λ) =
yt
fyx (λ) fyy (λ)
2 (λ) = |fxy (λ)|2
la fonction Kxy fxx (λ)fyy (λ) est appelée fonction cohérence (carré) de (xt ) et (yt ).
Remarque
2 (λ) ≤ 1
0 ≤ Kxy ∀λ
2
– Kxy (λ) = 0 si (xt ) et (yt ) non corrélées
2 (λ) = 1
– Kxy si (xt ) et (yt ) sont liées linéairement
Sous forme condensée la densité d’un processus VAR est définie par
1 −1 −iλ
f (λ) = Φ (e )Vε Φ−1 (eiλ )0 .
2π
Soit
X j = XΨj + εj
12
2.2 Estimation par la méthode du maximum de vraisemblance
Soit (Xt )t∈Z un processus satisfaisant la représentation V AR(p) suivante,
Xt = Φ0 + Φ1 Xt−1 + Φ2 Xt−2 + ... + Φp Xt−p + εt où εt ∼ BB(0, Vε ).
Par définition, la loi conditionnelle de Xt est une loi normale définie de la façon suivante :
Xt /Xt−1 , ..., Xt−p ∼ N (Φ0 + Φ1 Xt−1 + ... + Φp Xt−p , Vε )
La densité de Xt conditionnellement à ses valeurs passées est donnée par :
2 1 0 −1
f (Xt |Xt−1 , ..., Xt−p+1 ; Θ) = √ √ e− 2 (Xt −Φ0 −Φ1 Xt−1 −...−Φp Xt−p ) Vε (Xt −Φ0 −Φ1 Xt−1 −...−Φp Xt−p )
( 2π)m detVε
2 1 0 −1
= √ √ e− 2 (Xt −ΠX̃t ) Vε (Xt −ΠX̃t )
( 2π)m detVε
où
Φ0
1 Φ0
Φ1
Xt−1 Φ1
Π ..
X̃t = . , Π = . , Θ = = .
.. .. Vε
Φp
Xt−p Φp
Vε
On retrouve ici une difficulté déjà rencontrée lors de l’estimation des processus ARM A
univariés : l’espérance conditionnelle de Xt fait intervenir les p réalisations précédentes
Xt−1 , ..., Xt−p , qui ne sont pas observées pour les p premières observations. Comme on
sait, la solution la plus simple est de traiter ces p premières valeurs comme des vecteurs de
constantes définissant les conditions initiales du processus à estimer. On maximisera donc
la vraisemblance conditionnelle :
f (XT , XT −1 , ..., X1 |X0 , X−1 , X−2 , ..., X−p+1 ; Θ)
D’où la densité de
f (XT , XT −1 , ..., X1 |X0 , X−1 , X−2 , ..., X−p+1 ; Θ) = f (XT |XT −1 , ..., X1 , X0 , X−1 , ..., X−p+1 , Θ)
×... × f (X2 |X1 , X0 , X−1 , ..., X−p+1 , Θ)
×f (X1 |X0 , X−1 , ..., X−p+1 , Θ)
T
Y
= f (Xt |Xt−1 , ..., X−p+1 , Θ)
t=1
T
Y
= f (Xt |Ft , Θ)
t=1
13
2.3 Estimation des processus Autorégressifs par l’algorithme Durbin-
Levinson
L’estimation des coefficients par l’algorithme de Durbin-Levinson en version multivarié
requiert la résolution sumultanée de deux ensembles d’équation, l’une provenant du cal-
cul du prédicteur futur, P (Xn+1 |X1 , ..., Xn ), et l’autre du calcul du prédicteur passé,
P (X0 |X1 , ..., Xn ). Soit X̂n+1 et X̂0 les prédicteur linéaires passé et futur respective de
Xn+1 et X0 basés sur les observations X1 , ..., Xn , il existe 2 × 2 matrices Φn1 , ..., Φnn et
2 × 2 matrice Φ̃n1 , ..., Φ̂nn telles que
X̂n+1 = Φn1 Xn + ... + Φnn X1 , n = 1, 2, ... (5)
X̂0 = Φ̃n1 X1 + ... + Φ̃nn Xn , n = 1, 2, ... (6)
Soit les observations x1 , ..., xn d’une série temporelle bivariée stationnaire et soit
Γ̂(0), ..., Γ̂(n−1) l’estimateur de la fonction de covariance de l’échantillon. Alors le processus
AR(p) (p < n) estimé est
Xt = Φ̂p1 Xt−1 + ... + Φ̂pp Xt−p + εt εt ∼ BB(0, V̂ε )
où les coefficients Φ̂p1 , ..., Φ̂pp et ˆ ε sont obtenus récursivement à partir de la proposition
P
14
3 Validation par tests
3.1 Significativité des paramètres ou détermination de l’ordre du VAR
Pour tester la significativité des paramètres paramètres, on utilise ici le test du rapport du
maximum de vraisemblance. La statistique du test est donnée par
detV̂εc
RM V = T log
detV̂εnc
V̂εc et V̂εnc désignent respectivement les estimateurs de la matrice de variance covariance des
résidus du modèle contraints et non contraints.
Dans cette situation, le modèle non contraint correspond à (7) et le modèle contraint à (8),
les contraintes faisant le passage du premier au deuxième étant la nullité des coefficients
des explicatives retardées de plus de p1 périodes dans (7).
Afin de fixer une valeur raisonnable pour p, on peut imaginer d’estimer un VAR d’ordre p0
avec p0 relativement élevé puis de mener un test de
H0 : Φp0 = 0 V ar(p0 − 1)
contre
H1 : Φp0 6= 0 V ar(p0 )
Sous l’hypothèse nulle, cette statistique suit une loi de Khi-deux à k degrés de lib-
erté où k désigne le nombre de contraintes.
15
3.2 Tests de bruit blanc des erreurs
Pour tester le manque de corrélation dans la série des résidus d’un modèle Var(p), un test
de Portmanteau et le test de LM proposé par Breusch et Godfrey (1978) sont généralement
appliqués.
– Test de Portmanteu
La statistique du test de Portmanteau de Box & Pierce est définie comme suit
K
X
BPK = T trace(Ĉj0 Ĉj−1 Ĉj Ĉ0−1 )
j=
où ṼR et Ṽe représentent respectivement la matrice de covariance des résidus des modèles
restreints et non restreints. La distribution du test suit une loi χ2Km2 .
Le test à effectuer est
H0 : Φ1 = Φ2 = . . . = ΦK = 0
contre
H1 : il ∃ Φh 6= 0 pour h = 1, 2, ..., K
Edgerton et Shukur (1999) ont proposé une correction du test qui tient compte des
échantillons de petits tailles, elle est donnée par la statistique suivante :
1
1 − (1 − Rr2 ) r N r − q
LM FK = 1
(1 − Rr2 ) r ml
q
où Rr2 = 1 − ||ṼṼe || , r = mm2 +l
2 l2 −4 1 1
2 −5 , q = 2ml − 1 et N = T − m − l − 2(m−l+1) , où n est le
R
nombre de regresseur dans le système riginal et l = mK. Cette statistique modifiée est
distribuée suivant la loi de Fisher F Km2 , int(N r − q) .
16
3.3 Normalité
Pour étudier la normalité des résidus, on peut se servir des tests de normalité univariés qui
vont porter successivement sur chacune des séries résiduelles des m équations. On peut
citer le test de Jarque-Bera de normalité des résidus. Ce test se fonde sur les mesures de
skewness (asymétrie), et de kurtosis (aplatissement) définis comme suit :
µ23 µ4
Sk = et Ke =
µ32 µ22
Ce test exploite le fait que pour une gaussienne, le coefficient Sk est nul, car la densité de
la normale est symétrique, et que son Ke est égal à 3. Jarque et Bera ont montré que
ˆ e K̂e − 3 i d
h Sk
JB = T + −−−−→ χ22
6 24 T →∞
ˆ e et K̂e sont obtenus en prenant les estimateurs empiriques des moments dans les
où Sk
définitions précédentes.
Comme pour le test d’effet ARCH, le rejet de l’hypothèse nulle ici ne remet pas forcément
en cause le choix de l’ordre p. D’ailleurs, si la taille de l’échantillon T est élevée, l’hypothèse
de normalité n’est pas cruciale.
17
4 Prévision d’un VAR
On souhaite effectuer une prévision de Xt+h et déterminer une région de confiance de la
prévision de Xt+h .
Considérons un modèle V AR(p) estimé à partir de T observations :
Supposons que le V AR est stationnaire, donc il peut être représenté sous la forme d’un
V M A(∞), et on a
Xt = εt + Ψ1 εt−1 + Ψ2 εt−2 + Ψ3 εt−3 + ...
La prévision théorique est alors
et
Si on suppose que le bruit εt est blanc et gaussien de variance Vε , alors ε̂t suit une loi
N (0, Vε̂ ), où
h−1
X
Vε̂ = Vε + Ψi Vε Ψ0i
i=1
5 Causalité
Il s’agit d’examiner les relations existantes entre les m variables X1t , ..., Xmt du système.
La mise en évidence de relations causales entre les variables économiques permet une
meilleure compréhension des phénomènes économiques, et par la même, permet la mise
en place d’une politique économique optimisée.
18
Définition 8
On dit que la variable X cause au sens de Granger la variable Y si et seulement si la
connaissance du passé de X améliore la prévision de Y à tout horizon.
Au sens des séries temporelles Xt est causal signifie que la prévision de Xt basée sur la
connaissance des passés conjointes de εt et de Xt est meilleure que celle de Xt fondée sur
la seule connaissance du passé de Xt .
Corollaire 10
εt ne cause
X t à la date t si E Xt |I t−1 , Jt−1 = E Xt |I t−1 où It−1 = Xt−i , i ≥ 1 et
Jt−1 = εt−i , i ≥ 1
De façon équivalente, on dit alors que la variable X est exogène au sens des séries tem-
porelles.
où les Φi sont des matrices de coefficients de dimension (m, m) et (εt )t∈Z un processus de
bruit blanc de moyenne 0 et de variance Vε .
Considérons un processus VAR(2) à deux variables X1,t et X2,t défini comme suit :
X1,t = µ1 + φ1,1 X1,t−1 + φ1,2 X1,t−2 + θ1,1 X2,t−1 + θ1,2 X2,t−2 + ε1,t
X2,t = µ2 + φ2,1 X1,t−1 + φ2,2 X1,t−2 + θ2,1 X2,t−1 + θ2,2 X2,t−2 + ε2,t
L’avantage principal de cette méthode réside dans le fait qu’elle précise la direction de la
causalité et permet de tester celle-ci dans les deux sens. Le test est bidirectionnelle ou
2 types de causalité qu’il faudra tester. Les deux équations ci-dessus
bivarié, ce sont Cm
permettent respectivement de tester si la variable X1t cause la variable X2t ou si la variable
X2t cause X1t à la Granger, soit C22 = 1 tests à effectuer.
On décide de tester la causalité de X2,t pour X1,t , l’hypothèse nulle est alors X2,t ne cause
pas X1,t , c’est-à-dire X2,t n’aide pas à la prévision de X1,t , ce qui est équivalent à tester :
H0 : θ1,1 = θ1,2 = 0.
19
Cette hypothèse de non causalité est testée à l’aide de la statistique du test de Wald (Fisher)
ou de χ2 .
Sous l’hypothèse nulle de non causalité, cette statistique est suit une loi de χ2r(T −r)p avec r
est le nombre de contrainte imposées.
Les fonctions de réponse impulsionnelle ont pour rôle de montrer comment une variable
réagit dynamiquement suite à un choc donné à une autre variable sachant que toutes les
autres variables intervenant dans le modèle restent constantes. Autrement dit, elles résu-
ment l’information concernant l’évolution d’une composante Xit à la suite d’une impulsion
sur une variable Yit à la date t en supposant que toutes les autres variables ne bougent pas
(sont constantes) pour t0 ≥ t.
Ces fonctions délivrent une information quand à la durée de persistance d’un choc.
Pour analyser les chocs d’un processus V AR, il convient au préalable de le réécrire sa forme
vectorielle moyenne mobile V M A (Vector Moving Average). Si on suppose que l’estimation
du modèle V AR a été effectué après identification et suppression de toutes les relations de
cointégration déterministes, alors le modèle est stationnaire et en plus la convergence des
estimateurs et l’indépendance des résidus du modèle sont assurées (comme le soulignent
Johansen & Juselius, [1990]). Il devient possible de retranscrire un modèle V AR(p) sous
forme V M A(∞) en faisant apparaître les multiplicateurs dynamiques du système. C’est
sur ces éléments que repose l’étude des chocs.
Considérons (Xt )t∈Z un V AR(p) stationnaire et centré sous la forme
p
X
Xt = Φi Xt−i + εt
i=1
Suivant le Théorème de Wold, ce processus V AR(p) admet une représentation sous la forme
d’un processus V M A(∞), et on a
X∞ Ψ0 = X I
Xt = Ψj εt−j = Ψ(B)εt où
Ψ(B) = Ψj B j
j=0 j≥0
20
X
Ψj une suite de matrice carrés absolument sommable, ||Ψj || < ∞.
j∈Z
Le terme εt représente le vecteur des innovations (chocs ou impulsions ) du processus.
L’équation de Xt sous forme V M A(∞) peut être écrite sous forme de système d’équations
comme suit
X1,t = ε1,t + ∞
P 1
P∞ 1 P∞ 1
j=1 ψ1,j ε1,t−j + j=1 ψ2,j ε2,t−j + ... + i=1 ψm,j εm,t−j
P∞ 2 P∞ 2 P∞ 2
X2,t = ε2,t + j=1 ψ1,j ε1,t−j + i=1 ψ2,j ε2,t−j + ... + j=1 ψm,j εm,t−j
.. .. .. .. ..
. . P∞ m . P∞ m . P∞ . m
Xm,t = εm,t + j=1 ψ1,j ε1,t−j + i=1 ψ2,j ε2,t−j + ... + j=1 ψm,j εm,t−j
Cette forme V M A(∞) permet alors, via la dynamique du processus V AR, de déterminer
l’effet (ou impact) des chocs sur les variables endogènes (ou réponses des variables endogènes
Xit aux différentes innovations εjs , s ≤ t) à l’aide des multiplicateurs dynamiques ψj . Ces
multiplicateurs sont déterminés par
∂Xi,t+p
ψij,p =
∂εj,p
ψij,p détermine ainsi l’impact d’un choc εj à la date t sur la variable Xi à p périodes après
le choc.
– Orthogonalisation des innovations
Si les chocs (innovations canoniques) εit et εjt sont corrélés entre eux, εjt aura un effet sur
Xi,t+p de même l’innovation εit aura un effet sur Xi,t+p . Or pour interpréter une analyse
de fonction impulsionnelle, il faut des chocs non corrélés. Il devient dés lors intéressant,
d’idenditifier l’impact de chaque choc séparément : on parle alors d’orthogonalisation
des innovations. Pour ce faire Choleski propose une méthode d’orthogonalisation des
innovations reposant sur la décomposition de la variance des innovations canoniques.
Soit Vε la matrice de variance-covariance de ε, on a
σ12
! ! !
0 1 σσ122
2
1 0
0 σ1 σ21
E(εt εt ) = = σ12 1 σ2 1
σ12 σ22 σ12 0 σ22 − σ122 0 1
1
21
On pose ut = A−1 εt , ce qui donne
!−1 !
1 0 1 0
u1t ε1t ε1t
= σ12
1 = − σσ122 1
u2t σ2 ε2t ε2t
1 1
équivalent à (
u1t = ε1t
u2t = − σσ122 ε1t + ε2t
1
L’étude des fonctions de réponse aux chocs est bien souvent complétée par une analyse de
la décomposition de la variance de l’erreur de prévision.
Remarque
Comme dans le cas univarié avec l’extension des processus AR aux processus ARM A, on
peut, aussi dans le cas des multivarié, tenir compte d’une autocorrélation des erreurs d’ordre
q en étendant les processus V AR aux processus ARM A multivariés, appélés V ARM A et
qui s’écrivent sous la forme suivante :
Soit encore :
Φ(B)Xt = Θ(B)εt + Φ0
où Φ est un polynôme matriciel d’ordre p et Θ un polynôme matriciel d’ordre q.
22