Les Modèles VAR (P) : Mémoire

Les modèles VAR(p)
Mémoire
Amenan Christiane Chukunyere
Maîtrise en statistique - avec mémoire

Maître ès sciences (M. Sc.)
Québec, Canada
© Amenan Christiane Chukunyere, 2019

Résumé
Ce mémoire a pour objectif d’étudier une famille de méthodes pour modéliser de façon conjointe
plusieurs séries temporelles. Nous nous servons de ces méthodes pour prédire le comportement de
cinq séries temporelles américaines et de ressortir les liens dynamiques qui pourraient exister entre
elles. Pour ce faire, nous utilisons les modèles de vecteurs autorégressifs d’ordre p proposés par Sims
(1980) qui sont une généralisation multivariée des modèles de Box et Jenkins. Tout d’abord, nous
définissons un ensemble de concepts et outils statistiques qui seront utiles à la compréhension de
notions utilisées par la suite dans ce mémoire. S’ensuit la présentation des modèles et de la méthode
de Box et Jenkins. Cette méthode est appliquée à chacune des cinq séries en vue d’avoir des modèles
univariés. Puis, nous présentons les modèles VAR(p) et nous faisons un essai d’ajustement de ces
modèles à un vecteur dont les composantes sont les cinq séries. Nous discutons de la valeur ajoutée
de l’analyse multivariée par rapport à l’ensemble des analyses univariées.
ii
Abstract
This thesis aims to study a family of methods to jointly model several time series. We use these meth-
ods to predict the behavior of five US time series and to highlight the dynamic links that might exist
between them. To do this, we use the p-order autoregressive vector models proposed by Sims (1980),
which are a multivariate generalization of the Box and Jenkins models. First, we define a set of con-
cepts and statistical tools that will be useful for the understanding of notions used later in this thesis.
Follows the presentation of the models and the method of Box and Jenkins. This method is applied to
each of the five series in order to have univariate models. Then, we present the VAR(p) models and
we test the fit of these models to a vector series whose components are the five aforementioned series.
We discuss the added value of multivariate analysis compared to the five univariate analyzes.
iii
Table des matières
Résumé ii
Abstract iii
Table des matières iv
Liste des tableaux vi
Liste des figures ix
Remerciements xiii
Introduction 1
1 QUELQUES OUTILS ET DÉFINITIONS STATISTIQUES 3

1.1 Processus stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Stationnarité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.4 Autocovariance et autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5 Estimation de la moyenne et des fonctions d’autocovariance, d’autocorrélation et
d’autocorrélation partielle d’un processus stationnaire . . . . . . . . . . . . . . . 7
1.6 Opérations sur les séries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Transformation de Box et Cox . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.8 Processus linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 LES MODÈLES DE BOX ET JENKINS 14

2.1 Les modèles ARIMA(p, d, q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Les processus multiplicatifs saisonniers (SARIMA(P, D, Q)(p, d, q)) . . . . . . . 23
2.3 La méthode de Box et Jenkins : ses étapes . . . . . . . . . . . . . . . . . . . . . 25
3 APPLICATION UNIVARIÉE 30
3.1 Analyse descriptive des séries . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 La série « taux de chômage » . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.3 La série « produit national brut » . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4 La série « consommation » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.5 La série « investissements privés en capitaux » . . . . . . . . . . . . . . . . . . . 47
3.6 La série « investissements gouvernementaux » . . . . . . . . . . . . . . . . . . . 52
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
iv
4 MODÈLES VAR(p) 57
4.1 Stationnarité d’un processus K-vectoriel . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Écriture moyenne mobile d’un processus K-vectoriel et décomposition de Wold . 62
4.3 Les processus VAR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.4 Estimation d’un VAR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.5 Choix de l’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.6 Validation de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.7 Prévisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
4.8 Analyse structurelle d’un processus VAR(p) . . . . . . . . . . . . . . . . . . . . 88
4.9 Construction d’un modèle VAR . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5 RETOUR À L’APPLICATION : ANALYSE MULTIVARIÉE 102

5.1 Observation graphique des cinq séries transformées . . . . . . . . . . . . . . . . 102
5.2 Analyse multivariée : 5 variables . . . . . . . . . . . . . . . . . . . . . . . . . . 103
5.3 Analyse multivariée : Modèle à 4 variables . . . . . . . . . . . . . . . . . . . . . 113
Conclusion 121
A Algèbre vectorielle et notion statistique 123

A.1 Algèbre vectorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
A.2 Les coefficients d’aplatissement et d’asymétrie . . . . . . . . . . . . . . . . . . 125
B Tableaux et graphiques 126

B.1 Tableaux section taux de chômage . . . . . . . . . . . . . . . . . . . . . . . . . 126
B.2 Tableaux section produit national brut . . . . . . . . . . . . . . . . . . . . . . . 128
B.3 Tableaux section consommation . . . . . . . . . . . . . . . . . . . . . . . . . . 128
B.4 Tableaux section investissements privés . . . . . . . . . . . . . . . . . . . . . . 130
B.5 Tableaux section investissements gouvernementaux . . . . . . . . . . . . . . . . 132
B.6 Tableaux de décomposition de la variance des erreurs de prédiction . . . . . . . . 132
B.7 Graphiques de prévisions du chapitre 5 . . . . . . . . . . . . . . . . . . . . . . . 140
C Code informatique 142

C.1 Code SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
C.2 Code R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Bibliographie 165
v
Liste des tableaux
3.1 Tableau des estimateurs des paramètres du modèle de départ AR(1) avec constante
pour la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . . . . . . 33
3.2 Comparaison des modèles candidats sans constante-Test Portmanteau sur les résidus,
AIC, BIC-série « taux de chômage » . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Tableau des estimateurs des paramètres du modèle candidat AR(12) sans constante
avec p=1,4,8,12 pour la série « taux de chômage » différenciée . . . . . . . . . . . . 34
3.4 Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0) . 34
3.5 Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « taux
de chômage » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.6 Tableau des estimateurs des paramètres du modèle MA(2) avec constante pour la série
« produit national brut » transformée et différenciée . . . . . . . . . . . . . . . . . . 38
3.7 Matrice de corrélation des estimateurs pour le modèle final MA(2) . . . . . . . . . . 38
3.8 Test Portmanteau sur les résidus du modèle final MA(2) - série « produit national brut » 39
3.9 Tableau des estimateurs des paramètres du modèle de départ MA(3) pour la série
« consommation » transformée et différenciée . . . . . . . . . . . . . . . . . . . . . 43
3.10 Comparaison des modèles candidats-P-valeurs du test Portmanteau sur les résidus,
AIC, BIC-série « consommation » . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.11 Tableau des estimateurs des paramètres du modèle final MA(2,3,8) pour la série « consom-
mation » transformée et différenciée . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.12 Matrice de corrélation des estimateurs pour le modèle final MA(2,3,8) pour la série
3.13 Test Portmanteau sur les résidus du modèle final MA(2,3,8) pour la série « consom-
pour la série « investissements privés » transformée et différenciée . . . . . . . . . . 48
3.15 Comparaison des modèles candidats sans constante-Test Portmanteau sur les résidus,
AIC, BIC-série « investissements privés » . . . . . . . . . . . . . . . . . . . . . . . 48
3.16 Tableau des estimateurs des paramètres du modèle candidat AR(12) sans constante
avec p=1,4,8,12 pour la série « investissements privés » transformée et différenciée . 49
3.17 Matrice de corrélation des estimateurs pour le modèle final SARIMA4 ((1, 1, 0)(3, 0, 0)) 49
3.18 Test Portmanteau sur les résidus du modèle final SARIMA4 ((1, 1, 0)(3, 0, 0))-série
« investissements privés » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
pour la série « investissements gouvernementaux » différenciée . . . . . . . . . . . 53
3.20 Tableau des estimateurs des paramètres du modèle final ARIMA(12,1,0) avec p=1,3,12
vi
3.21 Matrice de corrélation des estimateurs pour le modèle final ARIMA(12,1,0) avec co-
efficients non nuls à p=1,3,12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.22 Test Portmanteau sur les résidus du modèle final ARIMA(12,1,0) avec coefficients
non nuls à p=1,3,12-série « investissements gouvernementaux » . . . . . . . . . . . 54
5.1 Critère BIC de modèles concurrents selon l’ordre . . . . . . . . . . . . . . . . . . . 104

5.2 Représentation schématique de l’autorégression partielle . . . . . . . . . . . . . . . 104
5.3 Représentation schématique des paramètres estimés . . . . . . . . . . . . . . . . . . 105
5.4 Matrice des corrélations des innovations estimée . . . . . . . . . . . . . . . . . . . . 105
5.5 Représentation schématique des corrélations croisées des résidus . . . . . . . . . . . 106
5.6 Test du Portemanteau pour corrélations croisées des résidus . . . . . . . . . . . . . . 106
5.7 Test du bruit blanc du modèle à une variable . . . . . . . . . . . . . . . . . . . . . . 107
5.8 Diagnostics ANOVA du modèle à une variable . . . . . . . . . . . . . . . . . . . . . 107
5.9 Test de Wald de la causalité au sens de Granger . . . . . . . . . . . . . . . . . . . . 110
5.10 Tableau de comparaison des modèles univariés et multivarié pour chaque série selon la
valeur de l’erreur quadratique prévisionnelle aux 4, 8 et 12 dernières périodes tronquées 115
5.11 Test de causalité de Granger dans le cadre d’un test de Wald . . . . . . . . . . . . . 118
B.1 Tableau des estimateurs des paramètres du modèle de départ AR(1)avec constante
pour la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . . . . . . 126
B.2 Tableau des estimateurs des paramètres du modèle de départ AR(1)sans constante pour
la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . . . . . . . . 126
B.3 Tableau des estimateurs des paramètres du modèle candidat AR(4)sans constante avec
p=1,4 pour la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . . 126
p=1,8 pour la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . . 126
p=1,4,8 pour la série « taux de chômage » différenciée . . . . . . . . . . . . . . . . 127
B.6 Tableau des estimateurs des paramètres du modèle candidat AR(12)sans constante
avec p=1,4,8,12 pour la série « taux de chômage » différenciée . . . . . . . . . . . . 127
B.7 Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0) . 127
B.8 Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « taux
de chômage » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
B.9 Comparaison des modèles candidats sans constante-Test Portmanteau sur les rési-
dus,AIC, BIC-série « taux de chômage » . . . . . . . . . . . . . . . . . . . . . . . . 127
B.10 Tableau des estimateurs des paramètres du modèle MA(2)avec constante pour la série
« produit national brut » transformée et différenciée . . . . . . . . . . . . . . . . . . 128
B.11 Matrice de corrélation des estimateurs pour le modèle final MA(2) . . . . . . . . . . 128
B.12 Test Portmanteau sur les résidus du modèle final MA(2)-série « produit national brut » 128
B.13 Tableau des estimateurs des paramètres du modèle de départ MA(3) pour la série
B.14 Tableau des estimateurs des paramètres du modèle final MA(2,3,8)pour la série « consom-
B.15 Matrice de corrélation des estimateurs pour le modèle final MA(2,3,8)pour la série
B.16 Test Portmanteau sur les résidus du modèle final MA(2,3,8)pour la série « consomma-
tion » transformée et différenciée . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
vii
B.17 Comparaison des modèles candidats-Test Portmanteau sur les résidus,AIC, BIC-série
« consommation » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
pour la série « investissements privés » transformée et différenciée . . . . . . . . . . 130
B.19 Tableau des estimateurs des paramètres du modèle de départ AR(1)sans constante pour
la série « investissements privés » transformée et différenciée . . . . . . . . . . . . . 130
p=1,4 pour la série « investissements privés » transformée et différenciée . . . . . . 130
p=1,4,8 pour la série « investissements privés » transformée et différenciée . . . . . 130
B.22 Tableau des estimateurs des paramètres du modèle candidat AR(12)sans constante
avec p=1,4,8,12 pour la série « investissements privés » transformée et différenciée . 131
B.23 Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0) . 131
B.24 Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « inves-
tissements privés » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.25 Comparaison des modèles candidats sans constante-Test Portmanteau sur les rési-
dus,AIC, BIC-série « investissements privés » . . . . . . . . . . . . . . . . . . . . . 131
B.27 Tableau des estimateurs des paramètres du modèle AR(3) avec p=1,3 pour la série
« investissements gouvernementaux » différenciée . . . . . . . . . . . . . . . . . . 132
B.28 Tableau des estimateurs des paramètres du modèle final ARIMA(12,1,0) avec p=1,3,12
B.29 Matrice de corrélation des estimateurs pour le modèle final ARIMA(12,1,0) avec co-
efficients non nuls à p=1,3,12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
B.30 Test Portmanteau sur les résidus du modèle final ARIMA(12,1,0)avec coefficients non
nuls à p=1,3,12-série « investissements gouvernementaux » . . . . . . . . . . . . . . 133
B.31 Comparaison des modèles candidats-Test Portmanteau sur les résidus,AIC, BIC-série
« investissements gouvernementaux » . . . . . . . . . . . . . . . . . . . . . . . . . 133
B.32 Décomposition en proportions de la variance des erreurs de prévision associées à
l’ordre d’entrée y1 , y2 , y3 , y4 et y5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
B.33 Décomposition en proportions de la variance des erreurs de prévision associées à
l’ordre d’entrée y4 , y3 , y2 , y1 et y5 . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
B.34 Décomposition en proportions de la variance des erreurs de prévision . . . . . . . . 136
viii
Liste des figures
2.1 Exemples d’ACF et de PACF théoriques d’un AR(1) et d’un AR(2) . . . . . . . . . . 17

2.2 Exemples d’ACF et de PACF théoriques d’un MA(1) et d’un MA(2) . . . . . . . . . 19
2.3 Exemple d’ACF et de PACF théoriques d’un ARMA(1,1) . . . . . . . . . . . . . . . 22
2.4 Exemples d’ACF et de PACF d’un AR(2), d’un MA(1) et d’un ARMA(2,1) saisonniers 25
3.1 Graphiques des 5 séries (Taux de chômage,Produit national brut, Consommation, In-
vestissements privés, Investissements gouvernementaux) . . . . . . . . . . . . . . . 31
3.2 La série « taux de chômage » (à gauche) de 1948-II à 1988-II et autocorrélations
simples (à droite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Série « taux de chômage » différenciée et corrélogrammes . . . . . . . . . . . . . . 32
3.4 Autocorrélations simples (supérieur gauche) et autocorrélations partielles (supérieur
droit) estimées des résidus et probabilités de test de bruit blanc (inférieur droit) . . . 35
3.5 Comparaison des prévisions et valeurs réelles pour le modèle SARIMA4 ((1, 1, 0)(3, 0, 0))
appliqué à la série « taux de chômage différenciée » . . . . . . . . . . . . . . . . . . 36
3.6 Comparaison des prévisions et valeurs réelles : cas de l’exclusion des 4 dernières
valeurs de la série « chômage » . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.7 Produit national brut de 1948-II à 1988-II . . . . . . . . . . . . . . . . . . . . . . . 37
3.8 Série « produit national brut » transformée puis différenciée et corrélogrammes associés 38
3.10 Comparaison des prévisions et valeurs réelles du « Produit national brut » pour le
modèle MA(2) appliqué à la série « Produit national brut » transformée puis différenciée 40
valeurs de la série « produit national brut » . . . . . . . . . . . . . . . . . . . . . . 41
3.12 Série « consommation » de 1948-II à 1988-II . . . . . . . . . . . . . . . . . . . . . 41
3.13 Série « consommation » transformée et différenciée et corrélogrammes associés . . . 42
3.14 Graphiques des résidus du modèle de départ . . . . . . . . . . . . . . . . . . . . . . 42
3.16 Comparaison des prévisions et valeurs réelles pour le modèle MA(3) appliqué à la
série « consommation » transformée puis différenciée . . . . . . . . . . . . . . . . . 45
valeurs de la série « consommation » . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.18 La série « investissements privés en capitaux » (à gauche) de 1948-II à 1988-II et
autocorrélations simples (à droite) . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.19 Série « Investissements privés » transformée et différenciée . . . . . . . . . . . . . . 47
3.20 Série « Investissements privés » transformée et différenciée . . . . . . . . . . . . . . 48
ix
3.22 Comparaison des prévisions et valeurs réelles pour le modèle SARIMA4 ((1; 1; 0)(3; 0; 0))
appliqué à la série « Investissements privés » transformée puis différenciée . . . . . . 51
valeurs de la série « investissements privés » . . . . . . . . . . . . . . . . . . . . . 51
3.24 La série « investissements gouvernementaux » (à gauche) de 1948-II à 1988-II et au-
tocorrélations simples (à droite) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.25 Série différenciée d’un ordre et corrélogrammes . . . . . . . . . . . . . . . . . . . . 52
3.26 Autocorrélations simples (à gauche) et autocorrélations partielles (à droite) des résidus 53
3.27 Autocorrélations simples (à gauche) et autocorrélations partielles (à droite) des résidus 55
3.28 Comparaison des prévisions et valeurs réelles pour le modèle ARIMA(12, 1, 0) avec
p=1,3,12 appliqué à la série « investissements gouvernementaux » différenciée . . . . 56
valeurs de la série « investissements gouvernementaux » . . . . . . . . . . . . . . . 56
4.1 Réponses aux chocs unitaires de l’exemple ( 4.13) . . . . . . . . . . . . . . . . . . . 94

4.2 Réponses cumulatives aux chocs unitaires de l’exemple 4.15 . . . . . . . . . . . . . 96
4.3 Réponses aux chocs orthogonaux de l’exemple 4.16 . . . . . . . . . . . . . . . . . 99
5.1 Graphe des 5 séries transformées mais non différenciées . . . . . . . . . . . . . . . 103

5.2 Diagnostics graphiques de normalité des erreurs de prévision associées à la série "pro-
duit national brut" stationnarisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
5.3 Diagnostics graphiques de normalité des erreurs de prévision associées à la série "In-
vestissements privés" stationnarisée . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.4 Réponses à l’impact sur les erreurs orthogonalisées de la série "investissements gou-
vernementaux" stationnarisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.5 Réponses à l’impact sur les erreurs orthogonalisées de la série "investissements gou-
vernementaux" stationnarisée (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.6 Réponses à l’impact sur les erreurs orthogonalisées de la série " investissements gou-
vernementaux" stationnarisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
5.7 Réponses à l’impact sur les erreurs orthogonalisées de la série " investissements gou-
vernementaux" stationnarisée (suite) . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.8 Prévisions de la série "taux de chômage"-ligne et cercles rouges (tracé de la série)-
ligne et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié) . . . . . 115
5.9 Prévisions de la série "produit national brut"-ligne et cercles rouges (tracé de la série)-
ligne et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié) . . . . . 116
5.10 Prévisions de la série "consommation"-ligne et cercles rouges (tracé de la série)-ligne
et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié) . . . . . . . . 117
5.11 Prévisions de la série "investissements privés"-ligne et cercles rouges (tracé de la
série)-ligne et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié) . . 118
B.1 Prévisions de la série "produit national brut" . . . . . . . . . . . . . . . . . . . . . . 140

B.2 Prévisions de la série "investissements privés" . . . . . . . . . . . . . . . . . . . . . 141
x
À toi Dieu, mon Père
xi
Mieux vaut la fin d’une chose que
son commencement.
Ecclésiaste 7 :8
xii
Remerciements
Rendre à César ce qui est à César...
Il est primordial de savoir reconnaître à chacun sa contribution dans ce travail de longue haleine, non
sans difficultés, mais qui a pu voir le jour et prendre fin à ce jour. Je tiens à exprimer toute ma grati-
tude :
À celui qui a accepté de diriger mes travaux, pour ses remarques, corrections et suggestions per-
tinentes : mon Directeur, le Professeur Thierry Duchesne. Je vous remercie pour votre patience,
votre compréhension, votre accueil chaleureux dans votre bureau qui était toujours ouvert, même
sans rendez-vous. Je ne saurais sans doute oublier le financement de mes travaux de recherche.
À celui qui a su, par son expertise en la matière, me faire des commentaires pointus et à propos : mon
codirecteur, le Professeur Michel Carbon. Vous avez toujours été tel un père, prêt à me fournir toutes
les bonnes références afin de faire de ce mémoire un travail de qualité. Vos stylos, quelques furent
leurs couleurs ont laissé une marque indélébile sur ce mémoire.
À tout le département de Mathématiques et Statistique et tous les Professeurs, collègues et l’adminis-
tration qui le composent, particulièrement Messieurs Guenette, Rivest, Lakhal-Chaieb et Mesdames
Emmanuelle Reny-Nolin, Anne-Sophie Charest et Sylvie Drolet.
À Monsieur Jean-Claude Mirassou de la Présidence de la République de Côte d’Ivoire. Les années de
soutien financier sont innombrables.
À ma mère, la championne en chef, N’Da Amani pour qui j’ai toujours été une championne, mon papa
chéri Dibi Georges Emmanuel, à celui qui m’a donné la vie, Feu Chukunyère Patrick et à mes soeurs
Diane, Marlène, Phoebé, Ange, Claudia et Ruth et grands-frères. Merci Maman pour tes conseils, tes
prières.
À mes précieux Danielle et Emmanuel Akaffou, Rachelle et Angelin Kouadio, Alice et Yves Odia, à
Pasteur Benoît, Pasteurs Michel et Diane, à Eunice Nono Kamga, à mes colocataires Adèle, Elfried,
Chancelle, Mariam, Thomas, Dimitri, Edouard, Laurent et Rebecca, à Franck Mpodé, Bénédicte et
Jean-Paul, Sara, Nora, Aurore, Secondine, Jessy, Elodie, Anemone, à Bertha, Iris, Francia, Glein,
Christophe, Maman Joyce, Anita, Angela, Acsa, Hervé, Grace, Calixte, M. Bouda et toute ma famille
en Christ. Vous ne pouvez savoir à quel point votre présence m’a aidée à grandir. Nos larmes de cha-
grin se transformées en larmes d’allégresse.
Enfin, à Celui qui donne au-delà de mon entendement, celui qui a toujours pourvu à mes besoins, qui
m’a donné son Amour inconditionnel et qui m’a fait découvrir la vraie vie : mon Sauveur Jésus-Christ.
xiii
Merci car sans Toi, j’aurais décroché mais tu as placé sur mon chemin toutes ces personnes extraor-
dinaires qui ont su m’encourager et m’ont aidée dans bien de domaines. Je te remercie d’ores et déjà
pour cette nouvelle saison qui commence pour moi.
... et à Dieu ce qui est à Dieu.
xiv
Introduction
En économie, des modèles énoncés par les théoriciens ne sont pas souvent basés sur des hypothèses
statistiques, mais plutôt sur des a priori, des idées ou hypothèses "arrêtées" qui n’ont pas quelques fois
des preuves qui sont vérifiables. Cependant, Sims (1996) a affirmé :"Méfiez-vous des a priori
théoriques. Laissez parler les données" 1 . Les a priori sont certes importants car ils sont
une bonne base sur laquelle s’appuyer pour "débuter" une étude ou même avoir des connaissances
utiles sur les paramètres étudiés, mais il ne faudrait pas s’y limiter. Au contraire, il faut se servir
des données dont on dispose pour effectuer des tests et produire des résultats vérifiables et quanti-
fiables. Ces résultats nous permettent de parvenir à des conclusions sur les hypothèses énoncées : les
confirmer ou les infirmer. Les conclusions obtenues seront ainsi plus fiables et mèneront de ce fait à
des prises de décision sur des politiques plus appropriées. L’analyse des séries temporelles fait partie
des tâches auxquelles s’adonnent économètres et statisticiens, c’est-à-dire, se servir de leur expertise
afin d’obtenir des modèles qui s’ajusteraient au mieux aux données étudiées, ressortir "le meilleur"
de celles-ci et parvenir de ce fait à donner les informations pertinentes aux demandeurs, employeurs,
clients intéressés par leurs recherches mathématiques et statistiques sur ces données économiques.
Plusieurs approches de modélisation adaptées selon les séries étudiées, dont deux que nous présen-
tons, ont été utilisées pour faire de la modélisation des séries chronologiques. Une première est de
modéliser et prédire un ensemble de séries individuellement à partir de leur propre passé. Ainsi, dans
les années 70, Box et Jenkins proposent une approche univariée en s’inspirant des travaux introduits
par Yule (1926) (autorégressifs AR), Slutzky (1937) (moyenne mobile MA) et Wold (1938) (au-
torégressifs moyenne mobile ARMA) pour développer les modèles ARIMA (autorégressifs moyenne
mobile intégrés).
Différentes études 2 avaient montré à l’époque que ces modèles ARIMA pouvaient être meilleurs com-
parés aux modèles économétriques jugés lourds et complexes, du point de vue du nombre d’équations
et de la quantité de paramètres. Par ailleurs, les modèles économétriques des années 70, qui étaient
des modèles à équations simultanées, se sont avérés médiocres suite aux chocs de ces années-là parce
qu’ils ne parvenaient pas à produire de bonnes prévisions. Cette situation a favorisé l’utilisation ac-
crue de l’approche univariée qui est devenue populaire au détriment des modèles économétriques
1. (Gossé and Guillaumin, 2011, p. 3)
2. Voir Makridakis and Hibon (1997, p. 2)
1
keynesiens qui ont reçu beaucoup de critiques.
Une seconde approche multivariée permet de modéliser simultanément plusieurs séries, ce qui permet
en outre d’étudier les liens entre ces dernières. Christopher Sims (1980) , dans sa critique des modèles
macroéconométriques keynesiens, a proposé un type de modèle multivarié de séries temporelles ap-
pelé les vecteurs autorégressifs, ou VAR. Ces processus K-vectoriels (vecteur de K composantes) sont
représentés par K équations linéaires, chaque équation d’une série étant une combinaison linéaire des
valeurs passées de celle-ci et des valeurs passées des K-1 autres composantes. Selon Stock and Wat-
son (2001), cet outil statistique, facile à utiliser et à interpréter, s’avérait être une solution alternative
adéquate pour répondre aux quatre missions d’un macroéconomètre, soit la description des données,
la prévision, l’inférence structurelle et l’analyse des politiques. Les modèles VAR seraient donc la
voie afin de décéler les liens dynamiques entre les séries. Gossé and Guillaumin (2011) affirment que
les processus VAR produisent des prévisions qui sont meilleures que celles obtenues des modèles
macroéconométriques, ce que confirme Litterman (1986). À partir de ces modèles, on peut non seule-
ment améliorer la prévision mais aussi arriver à répondre à des questions d’ordre structurel. En effet,
l’on est capable de ressortir les relations de causalité notamment la notion d’exogénéité faible, forte
ou stricte des variables et mesurer l’impact des chocs subis par chacune des variables sur les autres.
L’objectif de ce mémoire est d’étudier cette modélisation multivariée à travers l’utilisation du proces-
sus VAR. Tout d’abord, nous allons le définir, présenter et interpréter ses composantes. Nous allons
aussi étudier les méthodes d’inférence sur les paramètres du modèle. Par ailleurs, nous allons ap-
prendre comment spécifier une structure adéquate du modèle mais aussi identifier les liens dynamiques
entre les séries et mesurer la force de ces liens par l’analyse structurelle. Cette analyse structurelle se
traduit par l’étude des liens de causalité entre les séries. Ne se limitant pas à observer des liens de cau-
salité, nous voudrions connaître le sens de cette causalité par la fonction de réponse impulsionnelle ou
impact d’une impulsion en faisant subir un choc à une série et en analysant les effets immédiats et/ou
temporels existants ou non de ce choc sur les autres composantes du processus. Par la décomposition
de la variance de l’erreur de prédiction, nous observerons la part attribuable à chaque composante
dans le calcul de l’erreur de prédiction. Enfin, nous allons analyser la valeur ajoutée de l’analyse mul-
tivariée par les processus VAR comparativement à l’analyse univariée grâce au calcul d’une mesure
d’erreur et à l’observation de graphiques de prévisions. Pour ce faire, nous allons essayer de prédire
un vecteur de cinq séries temporelles économiques trimestrielles dans un contexte multivarié et de
vérifier si leur prévision est meilleure que celle de la modélisation univariée.
Le mémoire se compose de cinq chapitres. Dans le premier, nous définissons les divers concepts et
outils statistiques qui seront fort utilisés dans les chapitres suivants. Le chapitre 2 présente les modèles
de Box et Jenkins et la méthodologie proposée pour l’analyse univariée des séries. Une application de
cette méthode à un jeu de données réelles composé de cinq séries est proposée dans le chapitre 3. Dans
le quatrième chapitre, nous abordons le sujet des modèles VAR(p). Au chapitre 5, nous appliquons
cette méthode au même jeu de données qu’au chapitre 3. Enfin, nous terminons ce mémoire par une
conclusion.
2
Chapitre 1
QUELQUES OUTILS ET
DÉFINITIONS STATISTIQUES
1.1 Processus stochastique

Le cours hebdomadaire d’une action, les précipitations journalières ou le taux d’inflation mensuel
sont des ensembles de suites de valeurs indexées par le temps appelées séries temporelles. Une série
temporelle est un processus, une suite d’opérations ou d’événements. Lorsque l’occurence de ces
événements n’est pas déterministe, on parle de processus stochastique. Dans cette section, il s’agira
de définir ce qu’est un processus stochastique, d’en énumérer quelques caractéristiques importantes
et d’étudier quelques classes de processus stochastiques qui nous seront plus utiles dans ce mémoire,
comme par exemple un processus du second ordre.
Définition 1.1 Un processus stochastique est une famille de variables aléatoires (X(t),t ∈ T ), toutes
définies sur l’espace de probabilité (Ω, A , P) et à valeurs dans un même espace mesurable (E, E ).
Souvent, E = R ou Rn et E est sa tribu borélienne. La loi du processus est l’image Px de P par X
(où X = (X(t),t ∈ T )). (E,E ) est appelé l’espace d’états du processus. Si E = R, alors le processus
est dit réel unidimensionnel (ou univarié). Si E = Rn , alors le processus est multidimensionnel de
dimension n. T est appelé aussi espace des temps. T est soit R (ou un intervalle de R) et dans ce cas,
le processus sera dit continu, soit Z (ou un sous-ensemble de Z comme {1,2, . . . ,n}) et le processus
sera dit discret.
Proposition 1.1 (Théorème de Kolmogorov) Soit µJ : B(R|J| ) → [0; 1] J ⊂ I une famille de mesures
de probabilité indexée par les parties finies J de I et vérifiant la condition suivante :
Pour toute partie J = {t1 , . . . ,tn } de I telle que t1 < t2 < · · · < tn et pour 1 ≤ i ≤ n et A1 , . . . ,An ∈ B(R),
µJ (A1 × · · · × An ) = µJ−ti (A1 × . . . Ai−1 × Ai+1 × · · · × An ) si At = R.
3
Alors, il existe un espace probabilisé (Ω, A , P) et un processus stochastique {Xt ;t ∈ I} tel que, pour
toute partie finie J ⊂ I, la loi image de P par (Xt1 , . . . ,Xtn ) coïncide avec µJ .
Dans la suite, notre étude portera sur des processus (X(t),t ∈ T ) à espace des temps discret. En
d’autres termes, T sera soit Z, soit un sous-ensemble de Z. Nous nous concentrerons sur les processus
du second ordre, qui sont définis comme suit.
Définition 1.2 Un processus stochastique X = (X(t),t ∈ T ) est dit du second ordre si et seulement si
E(Xt2 ) < ∞, ∀ t ∈ T , c’est-à-dire si son moment d’ordre deux existe.
Grâce à l’inégalité de Schwarz, pour les variables du processus du second ordre, la moyenne existe,
ainsi que les covariances γ(s,t) = Cov(Xs ,Xt ). On pourra noter L2 = L2 (Ω, A , P), l’ensemble des
variables aléatoires définies sur (Ω, A , P), de carré intégrable. Et on notera X ∈ L2 , le fait que X est
un processus du second ordre.
Tous les processus abordés dans la suite de ce mémoire seront considérés de second ordre.
1.2 Stationnarité
La modélisation du comportement aléatoire d’une série temporelle est beaucoup plus simple lorsque
certains aspects de la loi de (X(t),t ∈ Z) ne changent pas lorsque t varie. On parle alors de processus
ou de séries ayant certaines propriétés de stationnarité. Plus formellement, il existe deux types de
stationnarité : celle au sens strict, celle au sens faible.
Définition 1.3 Un processus (X(t),t ∈ Z) est dit stationnaire au sens strict si les lois des vecteurs
finis dimensionnels (Xt1 , Xt2 ,. . . , Xtk ) et (Xt1 +h , Xt2 +h ,. . . , Xtk +h ) coïncident ∀ k ∈ N∗ , ∀ t1 ,. . . ,tk ∈ Z et
∀ h ∈ N.
Définition 1.4 Un processus (X(t),t ∈ Z) est dit stationnaire au sens faible si et seulement si :
– Son espérance est constante au cours du temps, c’est-à-dire, E[Xt ] = µ, ∀ t ∈ Z ;
– Sa fonction d’autocovariance dépend seulement de l’écart de temps t2 −t1 , c’est-à-dire, Cov(Xt1 ,Xt2 ) =
Cov(Xt1 +c ,Xt2 +c ) = γ(t2 − t1 ) avec c, une constante quelconque. Dans ce cas, E(Xt2 ) = γ(0) + µ 2
est une constante,∀ t ∈ Z.
Pour la suite de cet ouvrage, (X(t),t ∈ Z) sera dit stationnaire s’il l’est au sens faible.
La stationnarité implique non seulement une absence de tendance, mais aussi une variance constante
ou homoscédasticité. La stationnarité au sens strict implique celle au sens faible. Ces deux notions
coïncident uniquement dans le cas d’un processus gaussien.
4
1.3 Bruit blanc
Définition 1.5 (Bruit blanc faible) Un bruit blanc faible est un processus (εt ,t ∈ Z) centré (E(εt ) =
0), dont les variables sont non corrélées, c’est-à-dire que Cov(εt1 , εt2 ) = 0 , ∀ t1 6= t2 .
Le bruit blanc est dit fort si ses variables sont indépendantes.
Dans ce mémoire, on fera toujours référence à la notion de bruit blanc faible lorsqu’on énoncera le
concept de bruit blanc.
Définition 1.6 (Bruit blanc gaussien) Un processus (εt ,t ∈ Z) est un bruit blanc gaussien s’il s’agit
d’un bruit blanc dont les variables sont indépendantes et identiquement distribuées de loi normale de
moyenne nulle.
1.4 Autocovariance et autocorrélation

Dans cette section, nous présentons les fonctions d’autocorrélation et d’autocovariance qui sont des
outils bien utiles à différentes étapes des études de séries temporelles.
Définition 1.7 La fonction d’autocovariance d’un processus (X(t),t ∈ Z), notée γ(.), est définie par :
∀ t1 ,t2 ∈ Z, γ(t1 ,t2 ) = Cov(Xt1 ,Xt2 ).
En supposant t2 = t1 + h, la fonction d’autocovariance d’un processus stationnaire est :
∀ h ∈ Z, γ(t1 ,t1 + h) = γ(h) = E[(Xt1 − µ)(Xt1 +h − µ)] = γ(−h),

où µ = E[Xt ] est l’espérance du processus.
Remarque : La fonction γ(.) est paire.
Pour t1 = t2 = t, on a en particulier pour un processus stationnaire :
γ(t,t) = Var(Xt ) = γ(0),
ce qui montre que la variance est bien constante dans le cas stationnaire.
Définition 1.8 La fonction d’autocorrélation d’un processus (X(t),t ∈ Z), notée ρ(.), est définie par :
γ(t1 ,t2 )
ρ(t1 ,t2 ) = p , ∀ (t1 ,t2 ) ∈ Z2
γ(t1 ,t1 ) · γ(t2 ,t2 )
5
La fonction d’autocorrélation simple (ACF) d’un processus stationnaire, notée ρ(h), est définie par :
γ(t1 ,t1 + h) γ(h)

ρ(h) = p = , ∀ h ∈ Z.
γ(t1 ,t1 )γ(t1 + h,t1 + h) γ(0)
Remarque : La fonction ρ(.) est paire.
Définition 1.9 La fonction d’autocorrélation partielle d’un processus (X(t),t ∈ Z), notée r(.), est
définie par
Cov(Xt1 − Xt∗1 ,Xt2 − Xt∗2 )
r(t1 ,t2 ) = p .
Var(Xt1 − Xt∗1 ) ·Var(Xt2 − Xt∗2 )
où Xt∗1 et Xt∗2 sont respectivement les meilleures estimations linéaires affines de Xt1 et Xt2 en fonction
des valeurs Xt1 +1 , . . . ,Xt2 −1 , t2 > t1 .
Lorsque t2 = t1 , r(t1 ,t2 ) = r(t1 ,t1 ) = r(t2 ,t2 ) = 1.
Et la fonction d’autocorrélation partielle (PACF) d’un processus stationnaire, notée r(h), est
Cov(Xt − Xt∗ ,Xt+h − Xt+h

∗ )
r(h) = q , ∀ h ∈ Z,
Var(Xt − Xt∗ )Var(Xt+h − Xt+h
∗ )
∗ est la meilleure estimation linéaire affine de X

où Xt+k t+k en fonction des valeurs Xt+1 , . . . ,Xt+k−1 ,
k 6 2. Dans ce cas, r(h) est le coefficient de corrélation entre Xt et Xt+k lorsqu’on ôte à Xt et Xt+k
toute l’information linéaire affine en termes de variables intermédiaires. Lorsque h = 0, r(0) = 1.
Remarque : La fonction r(.) est paire.
Remarque : On a que r(1) = ρ(1). Ceci s’explique bien par le fait qu’il n’existe aucune variable
intermédiaire entre deux variables consécutives.
Définition 1.10 (Définition équivalente de la fonction d’autocorrélation partielle) La fonction d’au-

tocorrélation partielle d’un processus stationnaire, notée r(h), peut être aussi définie comme le der-
nier coefficient φhh dans la projection linéaire de Xh+1 sur ses h dernières valeurs 1 . Cette projection
linéaire s’exprime par ∑hj=1 φh j Xh+1− j . Dans ce cas, r(h) = φhh est obtenue en résolvant le système
d’équations suivant :
1. Voir (Brockwell and Davis, 2009, p. 102)
6
    
ρ(0) ρ(1) . . . ρ(h − 2) ρ(h − 1) φh1 ρ(1)
    
 ρ(1)
 ρ(0) . . . ρ(h − 3) ρ(h − 2)   φh2

  ρ(2)
 


.. .. ..   .. ..
=
   
 . ... . ... .  . . 
    
 ρ(h − 2) ρ(h − 3) ... ρ(0) ρ(1)  φ   ρ(h − 1) 
   hh−1   
ρ(h − 1) ρ(h − 2) ... ρ(1) ρ(0) φhh ρ(h)
De la résolution de ce système d’équations, on obtient :
 
ρ(0) ρ(1) . . . ρ(h − 2) | ρ(1)
. . . ρ(h − 3) | ρ(2) 
 
 ρ(1) ρ(0)
 .. .. .. 
det  . ... . ... | . 
 
.. 
 
 ρ(h − 2) ρ(h − 3) ... |

ρ(0) . 
ρ(h − 1) ρ(h − 2) ... ρ(1) | ρ(h)
r(h) =   (1.1)
ρ(0) ρ(1) . . . ρ(h − 2) ρ(h − 1)
 
 ρ(1)
 ρ(0) . . . ρ(h − 3) ρ(h − 2) 

.. .. ..
det 
 
. ... . ... . 
 
 ρ(h − 2) ρ(h − 3) ... ρ(0) ρ(1) 
 
ρ(h − 1) ρ(h − 2) . . . ρ(1) ρ(0)
où det(M) est le déterminant de la matrice M.
Remarque : Cette propriété est la conséquence du théorème de Frisch and Waugh (1933).
1.5 Estimation de la moyenne et des fonctions d’autocovariance,

d’autocorrélation et d’autocorrélation partielle d’un processus
stationnaire
La plupart du temps, la vraie valeur des paramètres associés à une population n’est pas connue. Des
échantillons sont alors tirés en vue d’avoir une idée, la plus proche possible, de la réalité. Ces para-
mètres sont alors estimés. Dans cette partie, il s’agira de définir certains estimateurs, dont ceux des
fonctions présentées à la dernière section, et quelques unes de leurs propriétés.
Dans tout ce qui suit, on observe un échantillon X1 ,. . . , Xn de taille n d’un processus stationnaire
(X(t),t ∈ Z) dont µ est la moyenne, γ(.) sa fonction d’autocovariance, ρ(.) sa fonction d’autocorré-
lation et r(.) sa fonction d’aucorrélation partielle.
Définition 1.11 (Un estimateur de la moyenne) On estime la moyenne µ du processus (X(t),t ∈ Z)

par :
7
1 n
X̄ = ∑ Xt . (1.2)
n t=1
Proposition 1.2 (Convergence et loi asymptotique) X̄ converge en moyenne quadratique vers µ,

c’est-à-dire, lorsque n → ∞,
Var[X̄] = E[(X̄ − µ)2 ] → 0, si γ(n) → 0
et ∞ ∞
nVar[X̄] −→ ∑ γ(h), si ∑ |γ(h)| < ∞.
h=−∞ h=−∞
De plus, si Xt = µ + ∑∞j=−∞ ψ j Zt− j où {Zt } est une suite de variables indépendantes et identiquement
distribuées de moyenne 0 et de variance σ 2 , ∑∞j=−∞ |ψ j | < ∞ et ∑∞j=−∞ ψ j 6= 0 alors,
∑∞
h=−∞ γ(h)
X̄ est asymptotiquement normale de moyenne µ et de variance n = σ 2 (∑∞j=−∞ ψ j )2 .
Cette proposition est tirée des pages 218 et 219 de Brockwell and Davis (2009).
Définition 1.12 (Un estimateur de la fonction d’autocovariance) On estime la fonction d’autoco-

variance γ(h) de (X(t),t ∈ Z) par :
1 n−h
γ̂(h) = ∑ (Xt − X̄)(Xt+h − X̄), ∀ h = 0, . . . , n − 1, n ≥ 1.
n t=1
(1.3)
1 1
Cet estimateur est biaisé. Pour en obtenir un qui ne l’est pas, on remplacera n par n−h .
Proposition 1.3 (Loi asymptotique de la fonction d’autocovariance) Si Xt = µ + ∑∞j=−∞ ψ j Zt− j où

{Zt } est une suite de variables indépendantes et identiquement distribuées de moyenne 0 et de va-
riance σ 2 , ∑∞j=−∞ |ψ j | < ∞ et E[Z 4 ] = ησ 4 < ∞, alors même si γ̂(h) est biaisé, sa loi asymptotique est
de moyenne γ(h) sous certaines conditions de régularité (proposition 7.3.4, page 230 de Brockwell
and Davis (2009)).
Définition 1.13 (Un estimateur de la fonction d’autocorrélation et loi asymptotique) On estime la

fonction d’autocorrélation d’un processus stationnaire, notée ρ(h) par :
γ̂(h)
ρ̂(h) = , ∀ h = 0, . . . , n − 1. (1.4)
γ̂(0)
Si de plus, Xt = µ + ∑∞j=−∞ ψ j Zt− j , où {Zt } est une suite de variables indépendantes et identiquement
distribuées de moyenne 0 et de variance σ 2 , ∑∞j=−∞ |ψ j | < ∞ et ∑∞j=−∞ ψ 2j | j| < ∞, alors ∀ h ∈ {1,2,...},
8
le vecteur ρ̂(h) a une loi asymptotique normale de moyenne ρ(h) et de variance n−1 w avec
ρ̂(h) = [ρ̂(1), . . . ,ρ̂(h)] ,
ρ(h) = [ρ(1), . . . ,ρ(h)] ,
et w est la matrice de variances-covariances donnée par la formule de Bartlett mentionnée à la page

221 de Brockwell and Davis (2009)).
On peut aussi écrire :

Var[ρ̂(h)] ≈ n−1 , (h > q),
où les ACF des q premiers retards sont significativement non nuls.
Définition 1.14 (Un estimateur de la fonction d’autocorrélation partielle) On estime la fonction d’au-
tocorrélation partielle d’un processus stationnaire (X(t),t ∈ Z) en remplaçant toutes les autocorré-
lations ρ(.) par leurs estimateurs respectifs dans la formule ( 1.1). On a donc :
 
ρ̂(0) ρ̂(1) . . . ρ̂(h − 2) | ρ̂(1)
. . . ρ̂(h − 3) | ρ̂(2) 
 
 ρ̂(1) ρ̂(0)
 .. .. .. 
det  . ... . ... | . 
 
.. 
 
 ρ̂(h − 2) ρ̂(h − 3) . . . |

ρ̂(0) . 
ρ̂(h − 1) ρ̂(h − 2) . . . ρ̂(1) | ρ̂(h)
r̂(h) =   (1.5)
ρ̂(0) ρ̂(1) . . . ρ̂(h − 2) ρ̂(h − 1)
 
 ρ̂(1)
 ρ̂(0) . . . ρ̂(h − 3) ρ̂(h − 2) 

.. .. ..
det 
 
. ... . ... . 
 
 ρ̂(h − 2) ρ̂(h − 3) . . . ρ̂(0) ρ̂(1) 
 
ρ̂(h − 1) ρ̂(h − 2) . . . ρ̂(1) ρ̂(0)
Proposition 1.4 (Propriétés asymptotiques de la fonction d’autocorrélation partielle) Si {Xt } est

un bruit blanc (respectivement un processus autorégressif AR(p)), alors
ˆ ≈ n−1 , (h > p),

Var[r(h)]
où les PACF de retards 1 à p sont significativement non nulles.
La notion de processus autorégressif sera abordée dans le chapitre 2. Ces propriétés asymptotiques
nous permettront de définir des bandes de confiance pour les paramètres présentés dans la section
précédente.
9
1.6 Opérations sur les séries
Dans cette section, nous allons définir l’opérateur retard et l’opérateur différenciation. Ces opérateurs
seront très utiles car ils nous permettront de définir plusieurs types de modèles à l’aide d’une notation
compacte et efficace.
Définition 1.15 (Opérateur retard) Soit B, l’opérateur retard, (Xt ,t ∈ Z) , une série de valeurs et k,
l’ordre du retard. Alors
Bk Xt = Xt−k , ∀t ∈ Z, ∀k ∈ N.
L’opérateur B permet donc de reculer de k pas à partir d’une position t.
Bien entendu, si Xt = C, ∀t ∈ Z, alors
Bk Xt = BkC = C, ∀k ∈ N,
car, une constante ne peut varier.
L’observation des autocorrélations simples (ACF) et du graphique d’une série permet de détecter
la présence ou non de problèmes de stationnarité tels que la tendance. Celle-ci, lorsqu’elle existe,
démontre un lien plus ou moins important entre les réalisations de la série. Elle est détectée quand les
autocorrélations simples ne décroissent pas vers 0 exponentiellement (très rapidement). Par ailleurs,
elle peut être décélée lorsque le graphique de la série montre des valeurs qui suivent un certain schéma
(courbe, croissance ou décroissance, etc.) général d’évolution dans le temps. Dans le cas échéant,
il y a une forte autocorrélation alors qu’on désire travailler avec une série qui soit stationnaire. La
différenciation se veut une solution pour faire disparaître une tendance, et ainsi faire décroître les ACF
vers 0 exponentiellement. Une autre façon de vérifier la nécessité d’une différenciation est d’ajuster
la série à un processus autoregressif d’ordre 1 noté AR(1) (voir chapitre 2) et de vérifier si la valeur
absolue du coefficient associé au modèle trouvé est voisine de 1 mais est inférieure à 1.
Définition 1.16 (Différenciation) Soit ∇, l’opérateur différenciation, (X(t),t ∈ T ), une série de n

valeurs et d, l’ordre de différenciation.
On a
d
∇d Xt = ∑ (−1)kCkd Xt−k , ∀d ≥ 1, d ≤ n − 1.
k=0
Exemple 1.1 Pour des ordres de 1 et de 2, la définition 1.16 nous donne
∇Xt = Xt − Xt−1 ,
10
∇2 Xt = (Xt − Xt−1 ) − (Xt−1 − Xt−2 ) = Xt − 2Xt−1 + Xt−2 .
L’ordre d représente donc le nombre de différenciations appliquées à la série et le nombre de valeurs

de la série obtenue sera donc égal à n − d. Lorsqu’elle est d’ordre 1, la différenciation élimine une
tendance linéaire. Une différenciation d’ordre 2 peut être nécessaire dans le cas d’une tendance qua-
dratique. La différenciation est certes utile, cependant il faut éviter la surdifférenciation car elle crée
plus de problèmes qu’elle n’en règle. En effet, elle rajoute de la dépendance là où il n’en existe au-
cune, alors que l’objectif visé est d’obtenir une série stationnaire. Il faut donc s’assurer d’appliquer
le nombre adéquat de différenciations, d’avoir ainsi l’ordre optimal. Une manière d’identifier la sur-
différenciation d’une série est de vérifier si la valeur de l’estimateur ρ̂(1) avoisine -0.5 pendant que
celles des autres ρ̂(h) sont petites 2 .
En notant I, l’opérateur identité, on peut remarquer que ∇ = I − B car,
∇Xt = Xt − Xt−1 = Xt − BXt = (I − B)Xt .
Une autre forme de différenciation est avérée lorsqu’on observe une tendance saisonnière de la série,
c’est-à-dire, la présence, à des intervalles réguliers, de pics. Le caractère saisonnier peut être observé
grâce au graphique de la série et à l’autocorrélogramme simple. On remarquera pour ce dernier que
les ACF ne décroissent pas vers 0 très rapidement aux multiples de la saison. À titre d’exemple, les
températures sont saisonnières.
Définition 1.17 (Opérateur de différenciation saisonnière) L’opérateur ∇s est défini par
∇s Xt = Xt − Xt−s ,
où s est la saison.
En d’autres termes
∇s = I − Bs .
Et pour une différenciation saisonnière d’ordre D,
∇D s = (I − Bs )D .
Il faut différencier autant que nécessaire tout en évitant de surdifférencier. De plus, le nombre de
valeurs de la série différenciée sera réduit de l’ordre multiplié par la saison. Par exemple, si on observe
50 valeurs trimestrielles d’une série avec saisonnalité annuelle (s = 4), la série obtenue après une
différenciation saisonnière aura 46 valeurs. Il est possible d’observer plus d’une sorte de tendance.
Une ou des différenciation(s) saisonnière(s) et simple(s) s’avèreront alors nécessaires.
2. Voir (Vandaele, 1983, p. 67)
11
1.7 Transformation de Box et Cox
Dans bien des situations, il arrive que la variable dépendante étudiée présente des variations impor-
tantes et irrégulières dans ses valeurs. Sa variance n’est donc pas homogène : c’est l’hétéroscédasticité.
Afin de régler ce problème, il est proposé d’appliquer une transformation à notre variable. Dans les
prochaines lignes, nous allons discuter de la transformée de Box-Cox, laquelle a été proposée par Box
and Cox (1964).
Définition 1.18 La fonction g de la transformée de Box-Cox appliquée à une variable aléatoire posi-
tive Y est définie par
( λ
y −1
λ , si λ =6 0,
g(y; λ ) =
ln y, si λ = 0.
Le paramètre λ sera estimé par la méthode du maximum de vraisemblance en même temps que
d’autres paramètres. S’il est proche de 1, il n’y aura pas lieu d’appliquer une transformation de Box
et Cox sur les données initiales. S’il est proche de 0, la transformation logarithmique est conseillée.
Cette dernière est souvent utilisée à cause de sa tendance à supprimer ou réduire fortement les grandes
fluctuations.
1.8 Processus linéaire
Définition 1.19 (Xt ,t ∈ Z) est un processus linéaire s’il est une combinaison linéaire des variables
d’un bruit blanc (εt ,t ∈ Z). Il s’écrit :
∞ ∞
Xt = µ + ∑ ψk εt−k , ∑ ψk2 < ∞,
k=−∞ k=0
où µ = E[Xt ].
Cette définition nous permet d’introduire le théorème de la décomposition de Wold.
Définition 1.20 Tout processus (Xt ,t ∈ Z) stationnaire faible non déterministe de moyenne nulle peut
être décomposé en deux composantes mutuellement non corrélées. L’une est une combinaison linéaire
des variables d’un bruit blanc et l’autre est un processus déterministe, c’est-à-dire, qui peut être
exactement prédit par une fonction linéaire de ses observations passées. On écrit (Xt ,t ∈ Z) sous la
forme
∞
Xt = ∑ ψk εt−k + dt ,
k=0
où
1. ψ0 = 1 et ∑∞ 2
k=0 ψk < ∞ ;
12
2. {εt ,t ∈ Z} est un bruit blanc de variance σε2 ;
3. La suite de coefficients (ψk ) et la suite {εt , ∈ Z} sont uniques ;
4. Le processus {dt ,t ∈ Z} est déterministe ;
5. {εt } ∈ Mtx , Mnx étant l’ensemble de toutes les combinaisons linéaires des Xs , s 6 n ;
6. E[ds εt ] = 0, ∀ t, s.
Lorsque la composante déterministe est nulle, le processus est dit purement non déterministe.
Notons qu’on peut remplacer ∑∞ 2 ∞

k=0 ψk < ∞ par ∑k=0 |ψk | < ∞ parce que la seconde implique la pre-
mière. Par ailleurs, cette dernière fait appel à la condition d’absolue sommabilité d’une suite ψk qui
est satisfaite lorsqu’un processus Xt est stationnaire. Elle garantit aussi l’unicité du processus Xt .
Ce théorème implique qu’on peut représenter tout processus purement non déterministe sous la forme
d’un processus ARMA(p, q), lequel sera l’objet du prochain chapitre.
13
Chapitre 2
LES MODÈLES DE BOX ET JENKINS
Dans l’histoire des séries temporelles, des scientifiques ont introduit différentes manières d’aborder
le sujet de leur ajustement à des séries observées. Pour ne citer que ceux-ci, Yule (1926) est celui
qui, le premier, a introduit le concept des processus autorégressifs (AR(p)). Slutzky (1937) a, quant à
lui, en 1937, présenté les processus moyenne mobile (MA(q)). C’est enfin en 1938 que Wold (1938)
combina ces deux concepts et montra que les modèles autorégressifs moyenne mobile (ARMA(p, q))
pouvaient être utilisés pour modéliser les séries stationnaires. En 1970, Box and Jenkins (1970) ont
proposé une méthode en 3 étapes afin d’appliquer ces modèles à des séries réelles comme le cours
d’une action ou des données économiques. Ces étapes sont l’identification, l’estimation et les tests
d’adéquation. Par ailleurs, il arrive qu’une série ait une composante saisonnière et/ou non stationnaire.
Dans les prochaines lignes, nous allons non seulement décrire ces étapes qui s’appliquent tout aussi
bien aux processus non stationnaires que stationnaires, mais aussi donner de plus amples détails sur
ces modèles, plus commnunément connus sous le nom de modèles de Box et Jenkins.
2.1 Les modèles ARIMA(p, d, q)

2.1.1 Les processus autorégressifs d’ordre p (AR(p))
Soit Xt , un processus de moyenne µ. Nous pouvons définir X̃, la version centrée de Xt , en prenant
X̃t = Xt − µ.
Définition 2.1 Un processus X̃t = Xt − µ autorégressif d’ordre p, noté AR(p), s’écrit comme
Φ(B)X̃t = X̃t − ϕ1 X̃t−1 − ϕ2 X̃t−2 − · · · − ϕ p X̃t−p = εt , ϕ p 6= 0;
La valeur X̃t dépend des p dernières variables Xt−1 , · · · ,Xt−p et du bruit blanc εt .
Par exemple, dans un AR(3), X̃t est prédite par ses 3 valeurs précédentes. Sa formule est X̃t = ϕ1 X̃t−1 +
ϕ2 X̃t−2 + ϕ3 X̃t−3 + εt .
14
De par la définition d’un processus autorégressif, on s’attend logiquement à ce que le présent et le
futur soient prédits par le passé. En effet, puisque "l’on récolte ce que l’on sème", l’effet ne peut que
suivre sa cause et non l’inverse. La condition de causalité, qui induit des restrictions sur des paramètres
du modèle autorégressif, a été introduite afin de parer le problème des processus explosifs, c’est-à-
dire, ceux qui dépendent du futur. Prenons l’exemple d’un AR(1) explosif, qui dépend du futur, dont
|ϕ| > 1. L’objectif est de trouver une manière de l’exprimer mathématiquement afin de retrouver la
forme d’un processus causal, lequel sera présenté plus tard dans cette section.
En partant de l’écriture générale d’un processus AR(1), on a
X̃t = ϕ X̃t−1 + εt = ϕ(ϕ X̃t−2 + εt−1 ) + εt .
Par récursivité, on obtient :

∞
X̃t = ∑ ϕ k εt−k .
k=0
j−1 k
Cependant, puisque |ϕ| > 1, lorsque k → ∞, |ϕ|k aura tendance à augmenter au point où ∑k=0 ϕ εt−k
ne convergera pas en moyenne quadratique lorsque j → ∞.
En lieu et place de la forme usuelle, car on ne peut exprimer les processus explosifs selon la formule
obtenue précédemment, on va écrire le processus en fonction des valeurs futures :
X̃t = ϕ X̃t−1 + εt ⇐⇒ X̃t−1 = ϕ −1 X̃t − ϕ −1 εt .
On peut alors écrire :

X̃t = ϕ −1 X̃t+1 − ϕ −1 εt+1
X̃t+1 = ϕ −1 X̃t+2 − ϕ −1 εt+2
..
.
X̃t+k−1 = ϕ −1 X̃t+k − ϕ −1 εt+k .
Par récursivité, on obtient :

k
X̃t = ϕ −k X̃t+k − ∑ ϕ −i εt+i .
i=1
Par convergence, l’expression ci-dessus se réduit à

∞
X̃t = − ∑ ϕ −k εt+k
k=1
En effet, |ϕ −k | < 1, ∀ k ∈ N∗ et − ∑∞ −k
k=1 ϕ εt+k convergera en moyenne quadratique.
En généralisant au cas AR(p), on impose que les modules des racines du polynôme caractéristique
Φ(B) soient tous supérieurs à 1.
Nous allons maintenant définir ce qu’est un processus causal.
15
Définition 2.2 (Processus causal) Un processus AR(p), défini par Φ(B)X̃t = εt , est dit causal s’il
peut être exprimé sous forme d’un processus linéaire :
∞
X̃t = ∑ φk εt−k = ψ(B)εt ,
k=0
où {εt ,t ∈ Z} est un bruit blanc, ψ(B) = ∑∞ ∞

k=0 ψk Bk , et ∑k=0 |ψk | < ∞ ; on fixe ψ0 = 1.
Proposition 2.1 Un processus AR(p) est causal si et seulement si Φ(z) 6= 0 pour tout complexe z
dont le module est inférieur ou égal à 1. Les coefficients du processus linéaire lui correspondant sont
déterminés en résolvant l’équation :
∞
1
ψ(z) = ∑ ψk zk = Φ(z) , |z| ≤ 1.
k=0
Donc (X̃,t ∈ Z) est causal si et seulement si les racines du polynôme autorégressif sont hors du disque
unité.
1 1
Or Φ(z) = 1−ϕ1 z−ϕ2 z2 −···−ϕ p z p
. On en déduit que ψ0 = 1.
Les propriétés ci-dessous sont caractéristiques des processus AR(p).
Proposition 2.2 (Propriétés des processus AR(p)) Les autocorrélations simples (ACF) d’un proces-
sus AR(p) décroissent exponentiellement vers 0 alors que les autocorrélations partielles (PACF) s’an-
nulent à partir du rang p + 1.
Les modules des racines de l’équation caractéristique associée au polynôme Φ(B) doivent être situés
hors du disque unité, donc, supérieurs à 1. L’équation caractéristique associée à Φ(B) est
φ (z) = 1 − ϕ1 z − ϕ2 z2 − · · · − ϕ p z p = 0.
Les graphiques de la figure ( 2.1) sont un exemple d’illustration des propriétés des AR(p) énoncées
ci-dessus. Dans notre cas, nous avons deux processus AR(1) et AR(2). Les coefficients associés sont
donnés sur le graphique. Les PACF respectifs s’annulent précisement après les premier et second
rangs.
2.1.2 Les processus moyenne mobile d’ordre q (MA(q))
Définition 2.3 Un processus est dit moyenne mobile d’ordre q, noté MA(q), s’il s’écrit :
X̃t = Θ(B)εt = εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q .
X̃t est est une combinaison linéaire de ses q chocs aléatoires précédents et du choc aléatoire courant.
16
F IGURE 2.1: Exemples d’ACF et de PACF théoriques d’un AR(1) et d’un AR(2)
Par exemple, lorsque X̃t suit un processus MA(2), le choc aléatoire au temps t est déterminé par
ses 2 derniers chocs aléatoires et par la valeur du choc aléatoire au temps t. Sa formule est X̃t =
εt − θ1 εt−1 − θ2 εt−2 .
Il peut arriver que deux processus de même ordre aient les mêmes fonctions d’autocorrélation et
d’autocovariance. De ce fait, le choix du bon modèle basé sur le critère d’inversibilité, que nous allons
définir à la suite d’un exemple, se veut la solution adéquate à ce problème de non-unicité du modèle
candidat.
Exemple 2.1 : Pour un processus MA(1), l’autocorrélation est la même, qu’on ait comme coefficient
θ ou θ1 .
La formule de l’autocorrélation pour un processus MA(1) de coefficient α est



 1, si h = 0,
ρx (h) = α
1+α 2
, si h = 1,

0, si h > 1.

À partir de cette formule, on peut aisément prouver que les autocorrélations de deux processus MA(1),
θ
dont les coefficients sont des inverses, sont égales. Car, pour α = θ ,ρx (h) = 1+θ 2
lorsque h = 1, et
1
1 θ
pour α = θ, ρx (h) = θ
1+( θ1 )2
= 1+θ 2
17
Définition 2.4 (Processus inversible) Un processus MA(p,q) est dit inversible si on peut l’exprimer
par :
∞
π(B)X̃t = ∑ πk X̃t−k = εt ,
k=0
où {εt ,t ∈ Z} est un bruit blanc, π(B) = ∑∞

k=0 πk Bk , et ∑∞
k=0 |πk | < ∞ ; on fixe π0 = 1.
Proposition 2.3 Un processus (Xt ,t ∈ Z), MA(q) est inversible si et seulement si Θ(z) 6= 0 pour tout
complexe z dont le module est inférieur ou égal à 1. Les coefficients πk sont déterminés en résolvant
l’équation :
∞
1
π(z) = ∑ πk zk = Θ(z) , |z| ≤ 1.
k=0
Donc un processus MA(q) est inversible si et seulement si les racines du polynôme caractéristique
associées au polynôme Θ(B) sont situées hors du disque unité.
1 1
Or Θ(z) = 1+θ1 z+θ2 z2 +···+θq zq
. On en déduit que π0 = 1.
Remarque : Les propriétés ci-dessous sont caractéristiques des processus MA(q) réguliers.
Proposition 2.4 (Propriétés des processus MA(q)) Les autocorrélations partielles (PACF) décroissent
exponentiellement vers 0 alors que les autocorrélations simples (ACF) s’annulent à partir du rang
q + 1.
Les modules des racines de l’équation caractéristique associée au polynôme Θ(B) doivent être situés
hors du disque unité, donc, supérieurs à 1. L’équation caractéristique associée à Θ(B) est
θ (z) = 1 + θ1 z + θ2 z2 + · · · + θq zq = 0.
Les graphiques de la figure ( 2.2) sont un exemple d’illustration des propriétés des MA(q) énoncées
ci-dessus. Dans notre cas, nous avons deux processus MA(1) et MA(2). Les coefficients associés sont
donnés sur le graphique. Les ACF respectifs s’annulent précisement après les premier et second rangs.
2.1.3 Les processus ARMA(p,q)
Définition 2.5 Un processus ARMA(p,q) s’écrit :
Φ(B)X̃t = Θ(B)εt .
ou
X̃t = ϕ1 X̃t−1 + ϕ2 X̃t−2 + · · · + ϕ p X̃t−p + εt + θ1 εt−1 + θ2 εt−2 + · · · + θq εt−q , ϕ p 6= 0, θq 6= 0,
où {εt ,t ∈ Z} est un bruit blanc et les polynômes Φ(.) et Θ(.) n’ont pas de racines communes.
18
F IGURE 2.2: Exemples d’ACF et de PACF théoriques d’un MA(1) et d’un MA(2)
X̃t dépend directement, non seulement de ses p dernières valeurs et de son bruit blanc courant, mais
aussi des q chocs aléatoires précédents. Un processus ARMA(2,2) est donc un processus dont la va-
riable centrée est déterminée par ses 2 plus récentes valeurs et la réalisation courante ainsi que les deux
valeurs précédentes de son bruit blanc. Autrement dit, X̃t = ϕ1 X̃t−1 + ϕ2 X̃t−2 + εt − θ1 εt−1 − θ2 εt−2 .
Définition 2.6 (Processus causal) Un processus ARMA(p,q), défini par Φ(B)X̃t = Θ(B)εt , est dit
causal s’il peut être exprimé sous forme d’un processus linéaire :
∞
X̃t = ∑ ψk εt−k = ψ(B)εt ,
k=0
où {εt ,t ∈ Z} est un bruit blanc, ψ(B) = ∑∞ ∞

k=0 ψk Bk , et ∑k=0 |ψk | < ∞ ; on fixe ψ0 = 1.
Proposition 2.5 Soit (Xt ,t ∈ Z), un processus ARMA(p,q) dont les polynômes Φ(.) et Θ(.) n’ont
aucune racine commune. (Xt ,t ∈ Z) est causal si et seulement si Φ(z) 6= 0 pour tout complexe z
dont le module est inférieur ou égal à 1. Les coefficients du processus linéaire lui correspondant sont
déterminés en résolvant l’équation :
∞
Θ(z)
ψ(z) = ∑ ψk zk = Φ(z) , |z| ≤ 1.
k=0
19
Θ(z) 1+θ1 z+θ2 z2 +···+θq zq
Or Φ(z) = 1−ϕ1 z−ϕ2 z2 −···−ϕ p z p
. On en déduit que ψ0 = 1.
Définition 2.7 (Processus inversible) Un processus ARMA(p,q) est dit inversible s’il peut être ex-
primé comme :
∞
π(B)X̃t = ∑ πk X̃t−k = εt ,
k=0
où π(B) = ∑∞ ∞
k=0 πk Bk , et ∑k=0 |πk | < ∞ ; on fixe π0 = 1.
Proposition 2.6 Soit (Xt ,t ∈ Z), un processus ARMA(p,q) dont les polynômes Φ(.) et Θ(.) n’ont
aucune racine commune. (Xt ,t ∈ Z) est inversible si et seulement si Θ(z) 6= 0 pour tout complexe z
dont le module est inférieur ou égal à 1. Les coefficients πk sont déterminés en résolvant l’équation :
∞
Φ(z)
π(z) = ∑ πk zk = Θ(z) , |z| ≤ 1.
k=0
Φ(z) 1−ϕ1 z−ϕ2 z2 −···−ϕ p z p

Or Θ(z) = 1+θ1 z+θ2 z2 +···+θq zq
. On en déduit que π0 = 1.
Exemple 2.2 Observons un processus qui s’écrit :
X̃t = 0.3X̃t−1 + 0.01X̃t−2 + εt − εt−1 + 0.25εt−2 .
Sous cette forme, c’est un processus ARMA(2,2). En effectuant une factorisation, nous obtenons :
(1 − 0.3B − 0.01B2 )X̃t = (1 − B + 0.25B2 )εt .
On a donc :
Φ(z) = (1 − 0.3z − 0.01z2 ) = (1 + 0.2z)(1 − 0.5z) et Θ(z) = (1 − z + 0.25z2 ) = (1 − 0.5z)2 .
Les polynômes Φ(z) et Θ(z) ont une racine commune. C’est un cas de surparamétrisation. L’objec-
tif est d’obtenir un processus le plus parcimonieux possible sans redondance de racines, donc un
ARMA(p,q) minimal. Le bon modèle est un ARMA(1,1) qui s’écrit :
(1 + 0.2B)X̃t = (1 − 0.5B)εt .
Cet exemple 2.2 justifie bien le fait d’imposer des restrictions aux racines des polynômes caractéris-
tiques. En effet, il ne doit pas avoir de racines communes à ceux-ci.
Les exemples cités dans l’illustration des concepts de causalité, d’inversibilité et d’unicité des racines
des polynômes caractéristiques plus haut sont inspirés des pages 87, 91-93 et 95-96 de Shumway and
Stoffer (2011). Tous ces concepts ont été introduits car on veut conserver la propriété de stationnarité.
20
Proposition 2.7 [Propriétés des processus ARMA(p,q)]
Les autocorrélations simples (ACF) et les autocorrélations partielles (PACF) des résidus décroissent
exponentiellement vers 0 mais ne permettent pas de distinguer ce type de modèles mixtes, c’est-à-dire
qu’on ne peut trouver les ordres p et q à partir de ces fonctions.
Les modules des racines des équations caractéristiques associées aux polynômes Φ(B) et Θ(B) sont
tous supérieurs à 1. Par ailleurs, ces racines ne sont pas communes.
Il existe des méthodes, comme la méthode du coin 1 , pour identifier les ordres p et q simultanément.
1. Voir (Gourieroux and Monfort, 1990, pp. 232-235)
21
F IGURE 2.3: Exemple d’ACF et de PACF théoriques d’un ARMA(1,1)
Les graphiques de la figure ( 2.3) sont un exemple d’illustration des propriétés des ARMA(p,q) énon-
cées ci-dessus. Dans notre cas, nous avons un processus ARMA(1,1). Les coefficients associés sont
donnés sur le graphique. On remarque bien que les propriétés sont respectées, c’est-à-dire que les
PACF et ACF décroissent exponentiellement vers 0.
2.1.4 Les processus ARIMA(p,d,q)

Quand une série n’est pas stationnaire, on a recours à un ensemble de transformations pour la rendre
stationnaire. L’une de ces opérations est la différenciation. Un type de processus pour lesquels cette
technique est utilisée sont les processus ARIMA(p,d,q).
Définition 2.8 Un processus ARIMA(p, d, q) est obtenu en quatre étapes :

1. Le centrage X̃t = Xt − µ ;
2. La différenciation d’ordre d, ∇d ;
3. L’application de l’opérateur autorégressif d’ordre p à la série différenciée :
Φ(B) = I − ϕ1 B − ϕ2 B2 − · · · − ϕ p B p , ϕ p 6= 0;
22
4. L’application de l’opérateur moyenne mobile d’ordre q au bruit blanc εt :
Θ(B) = I + θ1 B + θ2 B2 + · · · + θq Bq , θq 6= 0.
Définition 2.9 Un processus centré X̃ dit ARIMA(p,d,q) s’écrit :
Φ(B)∇d X̃t = Θ(B)εt ,
avec,
Φ(z) = 1 − ϕ1 z − ϕ2 z2 − · · · − ϕ p z p ,
le polynôme autorégressif de degré p, et
Θ(z) = 1 + θ1 z + θ2 z2 + · · · + θq zq ,
le polynôme moyenne mobile de degré q. Les polynômes Φ(z) et Θ(z) n’ont pas de racines communes.
Par exemple, un processus ARIMA(3, 1, 2) est un processus qui a été centré et différencié une fois dont
la valeur à un certain moment t dépend de sa valeur précédente et de ses deux derniers bruits blancs.
Sa formule est ∇X̃t = ϕ1 ∇X̃t−1 + ϕ2 ∇X̃t−2 + ϕ3 ∇X̃t−3 + εt − θ1 εt−1 − θ2 εt−2 .
Proposition 2.8 Un processus centré X̃ est dit ARIMA(p,d,q) si ∇d X̃ est un processus ARMA(p,q).
Toutes les propriétés et définitions d’un processus ARMA(p,q) citées plus haut s’appliquent donc à
∇d X̃.
Cas particuliers
Lorsque d et q sont nuls, le processus est dit autorégressif d’ordre p et est noté AR(p).
Lorsque d et p sont nuls, il est dit moyenne mobile d’ordre q et est noté MA(q).
Lorsque d est nul, il est dit autorégressif moyenne mobile d’ordres p et q et est noté ARMA(p,q).
2.2 Les processus multiplicatifs saisonniers (SARIMA(P,D,Q)(p,d,q))

Dans la liste des processus non stationnaires, il en existe des saisonniers. La saisonnalité s’illustre par
la présence, sur le corrélogramme simple, de pics à des intervalles réguliers multiples de la saison de
la série. Par exemple, une série présentant la température quotidienne sur un horizon de 5 ans révèlera
des similitudes au niveau des valeurs de température par saison. Ce processus est dit saisonnier. Dans
cette section, nous allons présenter les processus saisonniers SARIMA(P,D,Q)(p,d,q).
23
Définition 2.10 Un processus X̃t , dit SARIMA(P,D,Q)(p,d,q), s’écrit :
Φ p (B)ΦP (Bs )∇d ∇D X̃t = Θq (B)ΘQ (Bs )εt ,
avec :
– D et d, respectivement les ordres de différenciation saisonnière et non saisonnière ;
– s, la saison ;
– Φ p (B) et ΦP (Bs ) sont les opérateurs autorégressifs non saisonnier et saisonnier d’ordres p et P ;
– Θq (B) et ΘQ (Bs ) sont les opérateurs moyenne mobile non saisonnier et saisonnier d’ordres q et Q,
et
– {εt ,t ∈ Z} est un bruit blanc.
Lorsqu’il est purement saisonnier, les valeurs d, p et q sont nulles et il s’exprime ainsi :
ΦP (Bs )∇D X̃t = ΘQ (Bs )εt .
Avec, ΦP (Bs ) = 1 − Φ1 Bs − Φ2 B2s − · · · − Φ p BPs et ΘQ (Bs ) = 1 + Θ1 Bs + Θ2 B2s + · · · + ΘQ BQs , les

opérateurs saisonniers autorégressif d’ordre P et moyenne mobile d’ordre Q.
Il faut noter que les conditions d’inversibilité et de causalité sont aussi appliquables dans le cas des
processus ARMA(P,Q) purement saisonniers. Les restrictions sont faites dans ce cas sur les modules
des racines des polynômes ΦP (zs ) et ΘQ (zs ) et ces modules doivent être situés hors du cercle unitaire
de façon équivalente aux processus non saisonniers. Il va sans dire que les processus saisonniers purs
présentent des propriétés similaires aux processus ARMA.
Proposition 2.9 (Propriétés des processus ARs (P), MAs (Q) et ARMAs (P,Q)) Les autocorrélations théo-
riques simples (ACF) aux temps ou retards multiples de la saison décroissent exponentiellement vers
0 lorsque le processus est autorégressif alors que les autocorrélations théoriques partielles (PACF)
multiples de la saison s’annulent à partir du rang P + 1.
Les autocorrélations théoriques partielles (PACF) aux temps ou retards multiples de la saison dé-
croissent exponentiellement vers 0 lorsque le processus est moyenne mobile alors que les autocorré-
lations théoriques simples (ACF) multiples de la saison s’annulent à partir du rang Q + 1.
Dans le cas d’un processus mixte saisonnier ARMA(P,Q), les autocorrélations théoriques simples
(ACF) aux temps ou retards multiples de la saison décroissent exponentiellement vers 0 pendant que
les autocorrélations théoriques partielles (PACF) aux temps ou retards multiples de la saison dé-
croissent exponentiellement vers 0.
Il ne faut pas oublier que les ACF et PACF aux temps autres que ceux multiples de la saison sont
toutes nulles car les réalisations ne sont corrélées qu’aux temps multiples de s.
24
F IGURE 2.4: Exemples d’ACF et de PACF d’un AR(2), d’un MA(1) et d’un ARMA(2,1) saisonniers
Grâce aux graphiques de la figure ( 2.4), on démontre aisément les propriétés énoncées ci-haut. Dans
le cas de notre exemple de début de section sur la température quotidienne, si la température est prédite
grâce à ses valeurs saisonnières des deux dernières années, le modèle approprié pour cette série est un
SAR4 (2) ou SARIMA(2,0,0)(0,0,0).
2.3 La méthode de Box et Jenkins : ses étapes

Cette méthode s’applique à un processus stationnaire ou non en vue de déterminer le modèle qui s’y
ajuste le mieux. Elle consiste en différentes étapes : l’identification, l’estimation et le diagnostic. Des
détails sur celles-ci seront donnés dans les prochaines lignes.
2.3.1 Identification
Comme son nom l’indique, cette étape consiste à identifier, de par leurs ordres, plusieurs modèles
susceptibles de bien s’ajuster à la série à l’étude. Il faudra tout d’abord s’assurer de sa stationnarité en
variance et en tendance. La première se détecte par l’analyse graphique des observations de la série
au cours du temps. Si elle présente des fluctuations importantes et/ou irrégulières, on peut conclure
à l’hétéroscédasticité de la série et régler ce problème à l’aide de la transformation de Box-Cox. La
tendance, elle, est présente lorsque le corrélogramme simple (ACF) montre que les autocorrélations
ne s’annulent pas très rapidement. On peut aussi observer constater la tendance par l’observation
25
graphique de la série. Par ailleurs, si, en ajustant les données de la série à un processus AR(1), la valeur
absolue du coefficient estimé est supérieure à 1, alors la série n’est pas stationnaire en tendance. Dans
ce cas, il faudra appliquer la différenciation, parfois même plusieurs fois, jusqu’à ce qu’on obtienne la
stationnarité en moyenne. Il faudra veiller à éviter de surdifférencier. Puis, en se servant des propriétés
des processus citées dans la section précédente, on sera en mesure de proposer des modèles candidats.
Par exemple, pour une série dont les autocorrélations simples décroissent exponentiellement vers 0 et
dont les autocorrélations partielles s’annulent à partir du rang p + 1, on pourra considérer un modèle
autorégressif d’ordre p (AR(p)).
Après avoir identifié un ou des modèle(s) candidat(s), il s’agira de choisir le meilleur modèle parmi
ceux proposés à la phase d’identification.
Les critères d’information
La sélection se fait à l’aide de critères d’information tels que le critère d’Akaike (AIC), le critère
Bayesien de Schwarz (BIC), le critère RMSE, le critère MAPE, lesquels sont à minimiser. Cette liste
de critères n’est pas exhaustive.
T 100
– L’écart absolu moyen en pourcentage (MAPE) ∑t=1 T|X̂t − Xt |
1 T 1
– La racine de l’erreur quadratique moyenne (RMSE) ( T ∑t=1 (X̂t − Xt )2 ) 2
– Le critère d’Akaike (AIC) log(σ̂ε2 ) + 2n
T
– Le critère bayesien de Schwarz (BIC) log(σ̂ε2 ) + n logT T ,
où T représente la taille de l’échantillon, X̂t , la prévision de Xt selon le modèle choisi (en fonction de
l’échantillon), n, le nombre de paramètres du modèle et σε2 , la variance de l’erreur associée au modèle.
Dans la suite, nous n’allons utiliser que le BIC et l’AIC. Le BIC a tendance à sélectionner des modèles
d’ordre inférieurs à ceux choisis par l’AIC. Pour l’application (au chapitre 3), le choix du modèle sera
basé sur un ensemble d’informations que sont les valeurs des critères d’information (principalement
l’AIC) mais aussi les statistiques obtenues à l’issue de certains des tests de diagnostic présentés à la
section 2.3.3 comme les tests du Portemanteau et sur les résidus.
2.3.2 Estimation
À cette étape, nous estimons les coefficients θk et/ou ϕk et la variance des bruits blancs, σε2 du modèle
choisi.
Les méthodes d’estimation
Le modèle choisi (ordre(s) choisi(s)), il s’agira d’estimer ses paramètres. Il existe différentes mé-
thodes d’estimation : la méthode des moments de laquelle découlent les équations de Yule-Walker, la
méthode du maximum de vraisemblance, la méthode des moindres carrés inconditionnels et la mé-
thode des moindres carrés conditionnels. Nous allons mettre l’emphase sur celles du maximum de
vraisemblance et des moindres carrés conditionnels.
26
La méthode du maximum de vraisemblance
Soit un processus ARMA(p,q) dont les bruits blancs sont gaussiens. Les estimateurs obtenus sont les
valeurs des paramètres qui maximisent la vraisemblance, c’est-à-dire, la fonction de densité conjointe
des valeurs observées de la série.
Définition 2.11 Soit un modèle ARMA(p,q), β = (µ, ϕ1 , . . . ,ϕ p ,θ1 , . . . ,θq ), le vecteur de ses para-
mètres et T , la taille de la série associée au modèle. La fonction de vraisemblance s’écrit :
T
L(β ,σε2 ) = f (X1 ) ∏ f (Xt |Xt−1 , . . . ,X1 ),
t=2
où Xt |Xt−1 , . . . ,X1 suit une loi gaussienne de moyenne Xtt−1 (X10 = µ et de variance Ptt−1 égale à :
" #" #
∞ t−1
Ptt−1 = σε2 ∑ ψ 2j ∏(1 − r( j)2 ) = σε2 rt .
j=0 j=1
Xtt−1 est le meilleur prédicteur linéaire de Xt sachant l’échantillon observé X1 , . . . ,Xt−1 . La fonction
de vraisemblance devient donc :

S(β )
L(β ,σε2 ) = (2πσε2 )−n/2 [r1 (β )r2 (β ) . . . rn (β )]−1/2 exp − 2 ,
2σε
où " #" #
∞ t−1
rt (β ) = ∑ ψ 2j ∏(1 − r( j))
j=0 j=1
et
n
(Xt − Xtt−1 (β ))2
S(β ) = ∑
t=1 rt (β )
et où r( j) est l’autocorrélation partielle à j retards.
L’estimateur du maximum de vraisemblance est le vecteur (β ,σε2 ) qui maximise la fonction de vrai-
semblance.
Cette définition est tirée des pages 127 et 128 de Shumway and Stoffer (2011).
La méthode des moindres carrés inconditionnels
En se basant sur la définition précédente, l’estimateur des moindres carrés inconditionnels est le vec-
teur (β , σε2 ) qui permet de minimiser S(β ). S(β ) est appelée la somme des carrés inconditionnels.
La méthode des moindres carrés conditionnels
L’estimateur des moindres carrés conditionnels est, quant à lui, le vecteur (β ,σε2 ) qui permet de mi-
nimiser S(β ), et les valeurs prédites ainsi que les erreurs de prédiction résultantes sont obtenues en
conditionnant sur les valeurs initiales de la série.
27
Du fait de la complexité des formules et de la difficulté à avoir des formules explicites en fonction
des paramètres pour les modèles ARMA(p,q), des méthodes numériques comme celle de Newton-
Raphson 2 sont souvent utilisées pour estimer les paramètres.
Après avoir choisi le bon modèle et estimé les paramètres qui lui sont associés, il convient d’effectuer
des tests pour vérifier si ce modèle respecte tous les postulats dont nous aurons les détails dans la
prochaine section.
2.3.3 Tests
Plusieurs tests doivent être effectués pour tester l’adéquation du modèle proposé. En effet, les coeffi-
cients estimés doivent être non nuls. Les valeurs absolues des statistiques de test de nullité des coeffi-
cients doivent être supérieures en valeur absolue au quantile (1 − α/2)100% d’une loi de Student. Si
la conclusion du test de Student est la nullité de l’un des coefficients, il faut enlever ce coefficient et
refaire le test jusqu’à ce que les conditions requises soient respectées. Les longueurs des séries étant
parfois grandes (supérieures à 30) 3 , le nombre de degrés de liberté associés aux statistiques de test est
élevé et la loi sous l’hypothèse nulle s’approxime bien par la loi normale. De ce fait, lorsque le seuil
α désiré est égal à 5%, nous comparons la valeur de statistiques de test à 1.96.
Par ailleurs, par l’analyse de la matrice des corrélations entre les estimateurs des coefficients, on peut
conclure à la robustesse des estimateurs. Un estimateur est dit robuste si sa valeur ne connait qu’une
légère modification lorsque le modèle ou les données connaissent un changement. En pratique, cette
condition est remplie lorsque les corrélations sont inférieures en valeur absolue à 0,9. Lorsque certains
estimateurs sont fortement corrélés et qu’au moins l’un d’entre eux est nul à l’issue des tests de nullité
de coefficients, il faudrait penser à simplifier le modèle. Si, dans le cas d’un processus AR(p), c’est le
coefficient associé à Xt−p qui est nul, on peut réévaluer le modèle en éliminant ce coefficient. Sinon,
on peut évaluer des modèles en omettant l’un et/ou l’autre (les autres) coefficient(s). L’idée est de
trouver le meilleur modèle qui soit et qui remplit toutes les exigences d’un bon modèle, celles que
nous citons dans cette section.
Il faut aussi s’assurer que les modules des racines des polynômes caractéristiques se situent hors du
cercle unité par leur calcul. Le cas contraire indique que ces polynômes ne sont pas causaux et/ ou
inversibles et un autre modèle qui respecte cette condition doit être choisi.
De plus, il faut effectuer des tests pour savoir si les résidus sont des bruits blancs. Leur moyenne
doit être nulle, leur variance, constante. Aussi, doivent-ils être non correlés. La vérification de la
nullité de la moyenne des résidus se fait à l’aide d’un test t et leur non-corrélation à l’aide de leur
autocorrélogramme simple qui doit, dans ce cas, montrer que les autocorrélations sont nulles, donc
à l’intérieur de la bande de confiance autour de 0. Dans le cas des grands échantillons,
r Box and
1
Pierce (1970) affirment que les autocorrélations résiduelles ont pour écart-type . Lorsque qu’il y
n
2. Voir les pages 127-128 de Shumway and Stoffer (2011) pour un exemple
3. Voir Hamisultane (2002, p.14)
28
a présence d’autocorrélation à un ou plusieurs retard(s) k, il faut l’éliminer. Pour ce faire, on rajoute
dans le modèle le ou les retard(s) k concerné(s) et un test de nullité du ou des coefficient(s) associé(s)
est effectué pour confirmer ou infirmer la pertinence de le(s) rajouter.
Une autre méthode, plus conservatrice, est celle du Portmanteau. Elle assume que les K premières
autocorrélations résiduelles simples sont nulles. L’adéquation du modèle sera questionnée si la statis-
tique utilisée, Q, donnée à l’équation (2.1), appelée statistique de Ljung et Box ou statistique modifiée
de Box et Pierce, est inférieure au quantile (1 − α)100% d’une distribution χ 2 à K − p − q degrés de
liberté, p + q étant le nombre de paramètres estimés du modèle. On a :
K
ρ̂k2 (ε̂)
Q = T (T + 2) ∑ , (2.1)
k=1 T − k
ρ̂k2 (ε̂) étant les autocorrélations estimées des résidus et T , le nombre d’observations après la différen-
ciation. Généralement, K est choisi entre 18 et 24.
Une autre façon de vérifier si les résidus sont des bruits blancs est de les différencier et de calculer
l’estimateur ρ̂(1) et de le comparer à -0,5. En effet, la différenciation d’un bruit blanc devrait produire
un processus MA(1) de coefficient égal à 1 donc de valeur ρ̂(1) égale à -0,5.
Un test dont la conclusion est le rejet de l’une des hypothèses nulles des tests effectués plus haut
renvoie aux étapes précédentes, ceci pour trouver le meilleur modèle, le plus parcimonieux possible,
qui respectera tous les postulats cités ci-dessus.
29
Chapitre 3
APPLICATION UNIVARIÉE
Dans cette partie, il s’agira de bâtir une modélisation de Box et Jenkins sur un jeu de données de
5 séries économiques 1 trimestrielles provenant des États-Unis. Ce sont en tout 161 mesures qui ont
été prises entre le deuxième trimestre de l’année 1948 et le deuxième trimestre de l’année 1988. Les
variables étudiées sont :
– Unemp - Le taux de chômage en pourcentage (%) ;

– Gnp - Le produit national brut en milliards de dollars ;
– Consum - La consommation en milliards de dollars ;
– Prinv - Les investissements privés en capitaux en milliards de dollars ;
– Govinv - Les investissements gouvernementaux en biens et services en milliards de dollars.
Cette analyse nous permettra de savoir quels modèles univariés sont appropriés pour chacune des
variables étudiées. Dans le chapitre 5, nous pourrons comparer les 5 modèles choisis de manière uni-
variée au modèle autorégressif vectoriel d’ordre p ou VAR(p) qui aura été bâti de manière multivariée.
Nous saurons si ce dernier est meilleur.
3.1 Analyse descriptive des séries

À la figure ( 3.1), on remarque que le taux de chômage et les investissements privés connaissent
beaucoup de fluctuations dans leurs valeurs et semblent même varier de manière analogue pendant
que le produit national brut, la consommation et les investissements gouvernementaux ne varient pas
beaucoup. Toutes nos variables à l’étude évoluent globalement selon une tendance linéaire, même si
certaines ont des pentes un peu plus faibles que les autres. Cette observation première laisse supposer
des liens entre nos différentes variables. Ci-dessous sont tracées les 5 séries brutes à la figure ( 3.1).
On remarque que "consum" et "gnp" suivent une tendance plus ou moins similaire. Aussi, on a l’im-
pression que le taux de chômage et les investissements privés sont négativement corrélés puisqu’une
1. Ce jeu de données, dont le nom est econ5, est intégré au package R astsa. Il a été utilisé par Young and Pedregal
(1999).
30
F IGURE 3.1: Graphiques des 5 séries (Taux de chômage,Produit national brut, Consommation, Inves-
tissements privés, Investissements gouvernementaux)
augmentation du taux de chômage a l’air de signifier une baisse des valeurs de l’autre variable. Aussi,
le taux de chômage connait-il beaucoup de fluctuations même s’il a l’air de graviter autour d’une
certaine moyenne. Enfin, on peut constater que les investissements gouvernementaux semblent peu
hétéroscédastiques même si on remarque deux pics. Cette affirmation concernant leur stationnarité en
variance sera bien-sûr vérifiée dans la suite de notre analyse.
3.2 La série « taux de chômage »

La figure ( 3.2) montre que le taux de chômage a une tendance globale linéaire croissante tout en
ayant une sorte de pseudo-saisonnalité. En effet, on a l’impression d’apercevoir une répétition d’un
schéma de valeurs. Par ailleurs, le corrélogramme révèle que les autocorrélations simples estimées
baissent très lentement et indiquent la présence d’une tendance. Dans le même sens, les p-valeurs de
test d’indépendance du bruit blanc sont tous inférieurs à 0.0001. Il appert clairement et sans ambages
que la série n’est pas stationnaire.
Après une différenciation d’ordre 1, la série résultante est stationnaire. En effet, à la figure ( 3.3), nous
observons que les valeurs de la série différenciée gravitent autour d’une tendance moyenne horizon-
31
F IGURE 3.2: La série « taux de chômage » (à gauche) de 1948-II à 1988-II et autocorrélations simples
(à droite)
tale.
F IGURE 3.3: Série « taux de chômage » différenciée et corrélogrammes
3.2.2 Estimation
La méthode d’estimation utilisée dans le cadre de cette analyse est la méthode des moindres carrés
conditionnels 2 . Il en sera ainsi pour les autres variables qui seront étudiées dans les sections suivantes.
2. C’est la méthode choisie par défaut par SAS que nous avons utilisée
32
Le modèle de départ identifié est un AR(1). La constante, dans ce modèle, n’est pas significative au
seuil de 5% car la statistique t du test est inférieure à 1.96 (voir tableau 3.1 ci-dessous).
Paramètre Valeur estimée Erreur-type Statistique t Valeur p du test

Constante 0.0009256 0.01379 0.07 0.9466
ϕ1 0.46429 0.07066 6.57 < 0.0001
TABLE 3.1: Tableau des estimateurs des paramètres du modèle de départ AR(1) avec constante pour
la série « taux de chômage » différenciée
La constante est donc ôtée. De plus, les valeurs absolues des autocorrélations partielles aux retards 4,
8 et 12 décroissent lentement vers 0. Il semble qu’il y a présence d’une saisonnalité annuelle car 4, 8
et 12 sont des multiples de 4 et nos données sont trimestrielles. On peut supposer que nous sommes
face à un processus saisonnier, laquelle hypothèse est à confirmer ou infirmer. Si cette supposition
s’avère vérifiée, les ordres du modèle SARIMA seront donnés.
L’ajout des coefficients associés à ces trois périodes a amélioré le modèle puisque le critère AIC
diminue en passant de -301.917 (modèle AR(1)) à -310.118 (p=1, 4 inclus) puis à -311.98 (p=1, 4 et
8 inclus) enfin à -315.293 (p=1,4,8 et 12 inclus).
Le modèle final est donc un SARIMA4 ((1,1,0)(3,0,0)) sans constante, écrit de la façon suivante :
∇Xt = εt + 0.42242∇Xt−1 − 0.28934∇Xt−4 − 0.18958∇Xt−8 − 0.16358∇Xt−12
Retard K 12 18 24 AIC BIC

Modèle 1 (p=1 sans constante ) 0.11 0.14 0.24 -301.917 -298.842
Modèle 2 (p=1,4 sans constante ) 0.24 0.32 0.43 -310.118 -303.968
p-valeur Modèle 3 (p=1,8 sans constante ) 0.02 0.03 0.07 -300.933 -294.782
Modèle 4 (p=1,4,8 sans constante ) 0.36 0.32 0.44 -311.98 -302.755
Modèle final (p=1,4,8,12 sans constante ) 0.58 0.54 0.54 -315.293 -302.993
TABLE 3.2: Comparaison des modèles candidats sans constante-Test Portmanteau sur les résidus,
AIC, BIC-série « taux de chômage »
Le tableau 3.2 présente une comparaison de modèles candidats au modèle final via leurs AIC, BIC
et seuils observés du test de Portmanteau. On constate que le modèle final est le meilleur de tous
(p-valeurs des tests Portmanteau les plus grandes et critère AIC minimal). Par ailleurs, les modules
des racines du polynôme autorégressif associé sont tous strictement supérieurs à 1. Le modèle trouvé
est donc causal. On trouvera en annexe des tableaux qui présentent les estimateurs des paramètres de
ces modèles, leurs écarts-types, statistiques de Student ainsi que les p-valeurs des tests de nullité de
ces coefficients-là. Dans la prochaine sous-section, nous nous intéresserons à l’adéquation du modèle
choisi.
33
3.2.3 Diagnostic
Tests sur les coefficients

ϕ1 0.42242 0.06772 6.24 < 0.0001
ϕ4 -0.28934 0.07092 -4.08 < 0.0001
ϕ8 -0.18958 0.07331 -2.58 0.0106
ϕ12 -0.16358 0.07127 -2.30 0.0231
TABLE 3.3: Tableau des estimateurs des paramètres du modèle candidat AR(12) sans constante avec
p=1,4,8,12 pour la série « taux de chômage » différenciée
Le tableau 3.3 montre que tous les coefficients sont significativement différents de 0 au seuil de 5%.
En effet, leurs statistiques de test t sont supérieures en valeur absolue à 1.96. De ce fait, les p-valeurs
sont inférieures au seuil de 5%.
Par ailleurs, au tableau ( 3.4),on remarque que la corrélation entre ces coefficients est inférieure en
valeur absolue à 0.9. On peut alors affirmer qu’ils sont robustes, c’est-à-dire que leurs valeurs sont
faiblement influencées par une petite modification dans les données. Le tableau 3.4, qui présente la
matrice des corrélations entre les estimateurs des coefficients montre bien que notre affirmation est
fondée.
Paramètre ϕ1 ϕ4 ϕ8 ϕ12
ϕ1 1.000 0.102 0.133 0.091
ϕ4 0.102 1.000 0.303 0.196
ϕ8 0.133 0.303 1.000 0.302
ϕ12 0.091 0.196 0.302 1.000
TABLE 3.4: Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0)
Tests sur les résidus
Dans cette sous-section, nous allons vérifier si les résidus sont des bruits blancs et ne sont pas corrélés.
La figure 3.4 montre que les autocorrélations simples estimées des résidus sont approximativement
nulles et qu’on ne peut pas rejeter l’hypothèse nulle selon laquelle ils sont des bruits blancs (valeurs
p supérieures à 5%). Il est à noter que nous n’allons pas nous attarder (et ce lors de l’étude des
autres séries) sur l’interprétation des graphiques IACF (autocorrélations simples inverses estimées)
puisqu’ils traduisent de façon analogue les mêmes concepts que les 2 autres graphiques (ACF et
PACF) présentent.
Par ailleurs, le test Portmanteau (cf. tableau 3.5) suggère qu’il n’y a pas d’autocorrélation globale. Les
valeurs p aux retards 12, 18 et 24 sont respectivement 0.5765 (Q=6.63), 0.5349 (Q=12.89) et 0.5400
(Q=18.72). Elles sont toutes supérieures au seuil 5%.
34
F IGURE 3.4: Autocorrélations simples (supérieur gauche) et autocorrélations partielles (supérieur
droit) estimées des résidus et probabilités de test de bruit blanc (inférieur droit)
Retard K 12 18 24
Statistique Q 6.63 12.89 18.72
Valeur p du test 0.5765 0.5349 0.5400
TABLE 3.5: Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « taux de
chômage »
3.2.4 Prévision
Un graphique de prévisions pour les 4 périodes suivantes est donné à la figure 3.5 3 .
Les valeurs estimées avec ce modèle sur une période de 5 ans entre avril 1983 et avril 1988 sont très
proches des valeurs observées. Nous pouvons conclure que notre modèle produit de bonnes estima-
tions retrospectives des vraies valeurs.
Une autre manière de vérifier la capacité de prévision du modèle consistera à ajuster le modèle trouvé
à notre jeu de données en ne tenant pas compte de ces 4 dernières valeurs. Ce procédé montre que
notre modèle est robuste. La comparaison de leurs prévisions obtenues d’avec celles-ci nous permet de
conclure qu’elles ne sont pas approximativement différentes même s’il est vrai qu’elles ont tendance
3. Même si nous ne l’avons pas montré dans ce chapitre, tous les résidus associés à chacune des 5 séries sont gaussiens.
Le lecteur pourra se référer au code informatique pour voir les histogrammes et graphiques QQ-plot associés aux résidus de
chacun des modèles trouvés dans le cadre de cette analyse.
35
F IGURE 3.5: Comparaison des prévisions et valeurs réelles pour le modèle SARIMA4 ((1,1,0)(3,0,0))
appliqué à la série « taux de chômage différenciée »
à s’éloigner les unes des autres aux deux derniers trimestres.
F IGURE 3.6: Comparaison des prévisions et valeurs réelles : cas de l’exclusion des 4 dernières valeurs
de la série « chômage »
36
3.3 La série « produit national brut »
F IGURE 3.7: Produit national brut de 1948-II à 1988-II
Le graphique montré à la figure 3.7 de la série « produit national brut » illustre la présence d’une
tendance linéaire globale à la hausse et une variance qui n’est pas constante.
Pour pallier au problème d’hétéroscédasticité, nous utiliserons la méthode de transformation de type

Box Cox, qui elle, nous suggère une puissance de 0,20. Par la suite, la série transformée est différen-
ciée d’ordre 1. Après ces deux démarches, on obtient la stationnarité (voir figure 3.8). Nous pouvons
maintenant chercher un ou des modèles candidats qui s’ajustent le mieux à la série stationnaire résul-
tante.
Les autocorrélations simples estimées de la série transformée puis différenciée s’annulent à partir de
l’ordre 3. Un processus « moyenne mobile » d’ordre 2 ou MA(2) nous servira donc de modèle de
départ. Le module des racines de son polynôme caractéristique Θ(B) est 2.002967, valeur strictement
supérieure à 1. Notre processus est donc inversible. On passe à la phase d’estimation.
3.3.2 Estimation
Le modèle de départ proposé est un MA(2). Il constituera aussi le modèle finalement choisi puisque
l’observation de la figure 3.9 nous fait remarquer que les autocorrélations simples et partielles esti-
mées des résidus sont toutes approximativement nulles.
Le processus obtenu s’écrit :
∇Xt0.2 = εt + 0.2963εt−1 + 0.24926εt−2 .
3.3.3 Diagnostic
Le processus final choisi, nous allons effectuer des tests pour vérifier s’il est adéquat.
37
F IGURE 3.8: Série « produit national brut » transformée puis différenciée et corrélogrammes associés

Constante 0.0074873 0.0011466 6.53 < 0.0001
θ1 -0.29630 0.07729 -3.83 0.0002
θ2 -0.24926 0.07733 -3.22 0.0015
TABLE 3.6: Tableau des estimateurs des paramètres du modèle MA(2) avec constante pour la série
« produit national brut » transformée et différenciée
Le tableau 3.6 montrent que les coefficients sont significativement non nuls au seuil de 5% car les
statistiques de test associées aux trois paramètres sont grandes en valeur absolue.
Aussi, les estimateurs des coefficients sont robustes puisque les corrélations entre ceux-ci sont infé-
rieures à 0.9.
Paramètre constante θ1 θ2
Constante 1.000 -0.001 0.000
θ1 -0.001 1.000 0.236
θ2 0.000 0.236 1.000
TABLE 3.7: Matrice de corrélation des estimateurs pour le modèle final MA(2)
38
nulles et qu’on ne peut pas rejeter l’hypothèse nulle selon laquelle ils sont des bruits blancs (valeurs p
supérieures à 5%).
Retard K 12 18 24
Statistique Q 10.34 13.61 15.19
Valeur p du test 0.4109 0.6279 0.8539
TABLE 3.8: Test Portmanteau sur les résidus du modèle final MA(2) - série « produit national brut »
Par ailleurs, le test Portmanteau (cf. tableau 3.8) ne détecte pas de corrélation significative entre
les résidus. Les valeurs p aux retards 12, 18 et 24 sont respectivement 0.4109 (Q=10.34), 0.6279
(Q=13.61) et 0.8539 (Q=15.19). Elles sont toutes supérieures au seuil 5%.
Le modèle s’ajuste bien puisque toutes les hypothèses sont respectées.
3.3.4 Prévision
39
F IGURE 3.10: Comparaison des prévisions et valeurs réelles du « Produit national brut » pour le mo-
dèle MA(2) appliqué à la série « Produit national brut » transformée puis différenciée
tions retrospectives des vraies valeurs.
40
de la série « produit national brut »
La figure 3.11 démontre la robustesse du modèle choisi car les valeurs prédites suite à l’exclusion des
quatre dernières valeurs de la série ne sont pas significativement différentes des vraies valeurs.
3.4 La série « consommation »

F IGURE 3.12: Série « consommation » de 1948-II à 1988-II
La série « consommation » connaît une tendance linéaire globale tout en étant hétéroscédastique. Elle
a augmenté avec le temps et a varié beaucoup à partir du milieu des années 70.
La stationnarité est atteinte quand la variable consommation est élevée à la puissance 1/3, valeur
suggérée par la méthode Box-Cox pour pallier le manque de constance de la variance et quand elle est
différenciée à l’ordre 1.
41
La figure 3.13 montre que la série transformée puis différenciée d’ordre 1 est raisonnablement sta-
tionnaire. On peut maintenant passer à la phase d’estimation.
F IGURE 3.13: Série « consommation » transformée et différenciée et corrélogrammes associés
3.4.2 Estimation
À la phase d’estimation, un processus MA(3) est le modèle de départ proposé par la minimisation du
critère d’information BIC.
F IGURE 3.14: Graphiques des résidus du modèle de départ
Successivement, les opérateurs de retards 8 et 1 sont ajoutés et retranchés à cause d’une forte autocor-
rélation au retard 8 d’une part (voir les graphiques 3.14), et de la nullité du coefficient θ1 d’autre part
(voir tableau 3.9).
Le modèle final obtenu est donc un MA(8) avec contraintes, c’est-à-dire :
θ1 = θ4 = θ5 = θ6 = θ7 = 0,
42
TABLE 3.9: Tableau des estimateurs des paramètres du modèle de départ MA(3) pour la série
« consommation » transformée et différenciée
Constante 0.03072 0.0031955 9.51 < 0.0001
θ1 -0.05433 0.07935 -0.68 0.4945
θ2 -0.23171 0.07738 -2.99 0.0032
θ3 -0.13484 0.08000 -1.69 0.0939
dont le polynôme caractéristique s’écrit comme suit :
Θ(B) = 1 + 0.27617B2 + 0.14514B3 + 0.31524B8 .
Le modèle final est donc :

1/3
∇Xt = εt + 0.27617εt−2 + 0.14514εt−3 + 0.31524εt−8 .
Le tableau 3.10 présente une comparaison des deux modèles candidats du point de vue des tests
Portmanteau, AIC et BIC. On constate que le modèle final est le meilleur. Ses critères AIC et BIC sont
les minimum. Les p-valeurs de son test Portmanteau sont nettement supérieures à celle du modèle de
départ. Enfin, lorsqu’ils sont calculés, les modules des racines du polynôme moyenne mobile associé
au modèle final sont tous strictement supérieurs à 1. Le modèle trouvé est donc inversible.
TABLE 3.10: Comparaison des modèles candidats-P-valeurs du test Portmanteau sur les résidus, AIC,
BIC-série « consommation »
Modèle 1 (q=3) 0.1704 0.1769 0.1223 -679.494 -667.194
p-valeur
Modèle final (q=2,3,8) 0.8921 0.7306 0.5369 -692.506 -680.206
Nous pouvons maintenant vérifier si le modèle final est adéquat.
3.4.3 Diagnostic
TABLE 3.11: Tableau des estimateurs des paramètres du modèle final MA(2,3,8) pour la série
Constante 0.03079 0.0024186 12.73 < 0.0001
θ2 -0.27617 0.07232 -3.82 0.0002
θ3 -0.14514 0.07115 -2.04 0.0430
θ8 -0.31524 0.07331 4.30 < 0.0001
43
Au tableau 3.11, on peut observer que tous les coefficients estimés sont significativement non nuls car
toutes les valeurs de p sont inférieures au seuil 5%. De plus, ils sont robustes, ce qu’illustre la matrice
de corrélation entre ceux-ci (tableau 3.12) puisque les corrélations sont nettement inférieures à 0.9.
TABLE 3.12: Matrice de corrélation des estimateurs pour le modèle final MA(2,3,8) pour la série
Paramètre Constante θ2 θ3 θ8
Constante 1.000 -0.004 0.004 -0.015
θ2 -0.004 1.000 -0.094 0.220
θ3 0.004 -0.094 1.000 -0.046
θ8 -0.015 0.220 -0.046 1.000

Par ailleurs, le test Portmanteau (cf. tableau 3.13) ne s’objecte pas à la non-corrélation entre les
résidus. Les valeurs p aux retards 12, 18 et 24 sont respectivement 0.8921 (Q=4.28), 0.7306 (Q=11.28)
et 0.5369 (Q=19.75). Elles sont toutes supérieures au seuil 5%.
44
TABLE 3.13: Test Portmanteau sur les résidus du modèle final MA(2,3,8) pour la série « consomma-
tion » transformée et différenciée
Retard K 12 18 24
Valeur p du test 0.8921 0.7306 0.5369
Le modèle s’ajuste bien puisque toutes les hypothèses sont respectées.
3.4.4 Prévision
proches des valeurs observées au point de se confondre presque. Nous pouvons conclure que notre
modèle produit de bonnes estimations rétrospectives des vraies valeurs.
En ne tenant pas compte des valeurs de la série sur la dernière année (4 derniers trimestres de la série),
on remarque que le modèle est malgré tout adéquat. Les prévisions sont toujours proches de la réalité.
Les prévisions aux 4 derniers trimestres suivent la même tendance que les vraies valeurs de la série
aux mêmes dates.
On conclut alors que notre modèle est assez robuste.
F IGURE 3.16: Comparaison des prévisions et valeurs réelles pour le modèle MA(3) appliqué à la série
« consommation » transformée puis différenciée
45
de la série « consommation »
46
3.5 La série « investissements privés en capitaux »
F IGURE 3.18: La série « investissements privés en capitaux » (à gauche) de 1948-II à 1988-II et auto-
corrélations simples (à droite)
Les investissements privés en capitaux, selon la figure 3.18, évoluent de façon croissante tout en ayant
un éventail de valeurs s’élargissant au fil du temps. Par ailleurs, la décroissance des autocorrélations
simples vers 0 est lente. Cette série est hétéroscédastique et présente une tendance marquée.
Après avoir transformé notre variable (Box-Cox suggère d’utiliser sa racine cinquième) et différencié
à l’ordre 1, nous semblons atteindre la stationnarité comme on peut le voir à la figure 3.19. Il faut
noter qu’il y a un nombre plutôt négligeable de valeurs aberrantes.
F IGURE 3.19: Série « Investissements privés » transformée et différenciée
3.5.2 Estimation
L’analyse initiale suggère un processus AR(1) comme modèle de départ.
Comme le montre le tableau 3.14, le test de Student sur la nullité de la constante conclut que celle-
ci n’est pas significative. On l’ôte du modèle. Par la suite, nous ajoutons le coefficient ϕ4 puisque
l’autocorrélation simple estimée résiduelle au retard 4 est non-nulle , ce qu’illustre le graphique 3.20.
47
la série « investissements privés » transformée et différenciée

Constante 0.0050405 0.0037388 1.35 0.1795
ϕ1 0.23594 0.07731 3.05 0.0027
Puis, nous introduisons ϕ8 et ϕ12 puisque les autocorrélations simples résiduelles sortent de la bande
de confiance.
F IGURE 3.20: Série « Investissements privés » transformée et différenciée
Cette approche améliore bien le modèle : l’AIC baisse. Il prend les valeurs -606.01 puis -614.263,
puis -615.795 puis -618.048 selon les modèles spécifiés.
En somme, le modèle final est un SARIMA4 ((1,1,0)(3,0,0)) sans constante qui s’écrit comme suit :
∇Xt0.2 = −0.24976∇Xt−1
0.2 0.2
+ 0.3031∇Xt−4 0.2
+ 0.18896∇Xt−8 0.2
+ 0.16086∇Xt−12 + εt
On remarque à la lumière du tableau 3.15, que le modèle final est le meilleur de tous ceux qui avaient
été choisis. Son AIC est le plus petit et ses valeurs p de test Portmanteau sont les plus élevées à chaque
valeur de K associée.
TABLE 3.15: Comparaison des modèles candidats sans constante-Test Portmanteau sur les résidus,
AIC, BIC-série « investissements privés »
p-valeur
48
TABLE 3.16: Tableau des estimateurs des paramètres du modèle candidat AR(12) sans constante avec
p=1,4,8,12 pour la série « investissements privés » transformée et différenciée

ϕ1 0.24976 0.07356 3.40 0.0009
ϕ4 -0.30310 0.07703 -3.93 0.0001
ϕ8 -0.18896 0.07948 -2.38 0.0187
ϕ12 -0.16086 0.07847 -2.05 0.0420
3.5.3 Diagnostic
Les statistiques de test de nullité des coefficients sont toutes grandes en valeur absolue à un seuil de
5%. Tous les coefficients sont donc significativement non-nuls. Par ailleurs, ils sont non corrélés car
le tableau 3.17 nous permet de constater que toutes les valeurs absolues des corrélations entre les
coefficients estimés sont inférieures à 0.9.
TABLE 3.17: Matrice de corrélation des estimateurs pour le modèle final SARIMA4 ((1,1,0)(3,0,0))
ϕ1 1.000 -0.002 0.056 -0.048
ϕ4 -0.002 1.000 0.268 0.167
ϕ8 0.056 0.268 1.000 0.272
ϕ12 -0.048 0.167 0.272 1.000
TABLE 3.18: Test Portmanteau sur les résidus du modèle final SARIMA4 ((1,1,0)(3,0,0))-série « in-
vestissements privés »
Retard K 12 18 24
Valeur p du test 0.4438 0.7337 0.7645
Les résidus sont non-corrélés. En effet, toutes les valeurs p du test Portmanteau aux valeurs K égales
à 12, 18 et 24 sont supérieures au seuil égal à 5%.
Comme toutes les postulats sont respectés, alors le modèle finalement choisi est adéquat.
49
3.5.4 Prévision
Les valeurs prédites à partir de ce modèle sur une période de 5 ans entre avril 1983 et avril 1988 sont
tions rétrospectives des vraies valeurs.
Le fait d’enlever les quatre dernières valeurs de la série a conduit à avoir un nouveau modèle moins
précis en général mais les prévisions sont près des valeurs observées.
50
F IGURE 3.22: Comparaison des prévisions et valeurs réelles pour le modèle
SARIMA4 ((1; 1; 0)(3; 0; 0)) appliqué à la série « Investissements privés » transformée puis dif-
férenciée
de la série « investissements privés »
51
3.6 La série « investissements gouvernementaux »
F IGURE 3.24: La série « investissements gouvernementaux » (à gauche) de 1948-II à 1988-II et auto-

corrélations simples (à droite)
Le graphique 3.24 présente une tendance linéaire croissante et connait des variations en certains
points. Cependant, une différenciation sera suffisante pour rendre notre série stationnaire même s’il y
a quelques chocs.
F IGURE 3.25: Série différenciée d’un ordre et corrélogrammes
52
la série « investissements gouvernementaux » différenciée

Constante 3.66224 1.11379 3.29 0.0012
ϕ1 0.45111 0.07111 6.34 < 0.0001
3.6.2 Estimation
L’analyse initiale suggère un processus AR(1) comme modèle de départ. En estimant les paramètres
associés à ce modèle, on réalise que tous les coefficients sont significatifs. On peut encore améliorer
ce modèle en ajoutant les opérateurs de retard 3 et 12 car les autocorrélations partielles résiduelles
associées sont significativement non-nulles (voir graphiques 3.26 ci-dessous).
F IGURE 3.26: Autocorrélations simples (à gauche) et autocorrélations partielles (à droite) des résidus
Ces ajouts nous permettent d’avoir notre modèle final. Notre modèle final est autorégressif d’ordre 12
sous contrainte ϕ2 = ϕ5 = ϕ6 = ϕ7 = ϕ8 = ϕ9 = ϕ10 = ϕ11 = 0.
L’équation du polynôme caractéristique dont les modules des racines sont supérieurs à 1 est :
Φ(B) = 1 − 0.39381B − 0.15991B3 + 0.16454B12 ,
et le modèle s’écrit :
∇Xt = 0.39381∇Xt−1 + 0.15991∇Xt−3 − 0.16454∇Xt−12 .
53
Les modules des racines du polynôme autorégressif sont tous supérieurs à 1.
3.6.3 Diagnostic
TABLE 3.20: Tableau des estimateurs des paramètres du modèle final ARIMA(12,1,0) avec p=1,3,12
pour la série « investissements gouvernementaux » différenciée

Constante 3.59217 0.99356 3.62 0.0004
ϕ1 0.39381 0.07239 5.44 <0.0001
ϕ3 0.15991 0.07219 2.22 0.0282
ϕ12 -0.16454 0.07450 -2.21 0.0287
Tous les coefficients estimés sont non-nuls selon les résultats du test de Student. Aussi, sont-ils très
faiblement corrélés deux à deux comme le montre le tableau 3.21.
TABLE 3.21: Matrice de corrélation des estimateurs pour le modèle final ARIMA(12,1,0) avec coef-
ficients non nuls à p=1,3,12
Paramètre Constante ϕ1 ϕ3 ϕ12

Constante 1.000 -0.010 -0.009 0.024
ϕ1 -0.010 1.000 0.262 0.110
ϕ3 -0.009 0.262 1.000 -0.039
ϕ12 0.024 0.110 -0.039 1.000
TABLE 3.22: Test Portmanteau sur les résidus du modèle final ARIMA(12,1,0) avec coefficients non
nuls à p=1,3,12-série « investissements gouvernementaux »
Retard K 12 18 24
Valeur p du test 0.5889 0.8401 0.9616
Les résidus sont non-corrélés comme le montre leur test Portmanteau. Les valeurs de p du test sont
très élevées lorsque K prend les valeurs 18 (p-valeur=0.8401) et 24 (p-valeur=0.9616).
On peut déduire de tous ces tests que le modèle final est adéquat.
54
F IGURE 3.27: Autocorrélations simples (à gauche) et autocorrélations partielles (à droite) des résidus
3.6.4 Prévision
Enfin, les prévisions comparées aux vraies valeurs sont bonnes (voir graphique 3.28). Par conséquent,
notre modèle s’ajuste correctement.
Le graphique 3.29 montre que le modèle choisi précédemment est très robuste. Les prédictions des
quatres derniers trimestres et les vraies valeurs sont proches les unes des autres.
3.7 Conclusion
Dans cette partie, l’on a été en mesure d’atteindre l’objectif de déterminer des modèles qui s’ajustent
le mieux à chacune de ces séries. On a constaté que les séries dont les tracés présentaient un schéma
similaire d’évolution des valeurs étaient ajustées par le même type de modèle (par exemple séries
« chômage » et « investissements privés », modèles autorégressifs saisonniers). Cette observation lais-
serait présupposer un lien entre ces séries. Devant non seulement les imperfections de modèle mais
le fait qu’il existerait fort probablement des liens entre les variables à l’étude, la question de trouver
un meilleur modèle se pose. Un modèle conjoint serait-il approprié et réduirait-il les imperfections ?
Ou devrait-on juste se limiter à prédire nos variables par leurs propres valeurs passées et / ou des
bruits blancs passés ? Dans les prochains chapitres, nous allons étudier de façon plus approfondie la
possibilité d’améliorer la prédiction et de trouver des liens intéressants grâce à un ajustement par un
modèle conjoint de type vecteur autorégressif (VAR).
55
F IGURE 3.28: Comparaison des prévisions et valeurs réelles pour le modèle ARIMA(12,1,0) avec
p=1,3,12 appliqué à la série « investissements gouvernementaux » différenciée
de la série « investissements gouvernementaux »
56
Chapitre 4
MODÈLES VAR(p)
Au chapitre 2, nous avons étudié le fait qu’une variable pouvait être prédite grâce à son passé. Cepen-
dant, dans bien des systèmes, par exemple dans le domaine économique, il est impossible de croire
qu’une variable "s’autoprédise" parfaitement. En effet, la plupart du temps, la prédiction est souvent
meilleure lorsqu’on inclut d’autres variables dans le modèle étudié. Ce chapitre présente les proces-
sus VAR (vecteurs autorégressifs) qui sont des modèles à plusieurs variables. Ces variables sont les
composantes d’un vecteur dont la longueur équivaut au nombre de variables étudiées. L’étude de ces
modèles répond à deux objectifs que sont la prédiction et l’analyse structurelle. L’analyse structu-
relle permet d’interpréter un modèle VAR. Dans ce chapitre, il s’agira non seulement de présenter ces
modèles mais aussi leurs différentes représentations. Ces formes seront utiles dans la définition de
certaines notions de ce chapitre et des calculs associés à celles-ci comme celui de la moyenne et des
fonctions d’autocovariance et d’autocorrélation. Les paramètres de ces modèles peuvent être estimés
par les méthodes des moindres carrés multivariée et du maximum de vraisemblance. Nous verrons
aussi comment choisir l’ordre du processus, valider le modèle choisi et faire des prévisions. Ensuite,
nous définirons divers concepts reliés aux relations dynamiques qui pourraient exister entre les va-
riables du système. Ces concepts, qui sont des éléments de l’analyse structurelle, sont entre autres
la causalité, l’impact d’une impulsion et la décomposition des covariances des erreurs de prédiction.
L’analyse de causalité, qui est un concept lié à la corrélation, permet de conclure si l’inclusion d’une
ou plusieurs variables dans l’analyse d’une série ou d’un vecteur de séries améliorera la prévision
de celle(s)-ci selon certains critères. Plusieurs définitions de ce concept existent mais nous n’en pré-
senterons que deux : la causalité au sens de Granger et la causalité instantanée. Nous verrons aussi
le test de Wald associé à la première. Par ailleurs, faire subir un choc exogène à une variable, tout
en gardant les autres composantes du système intactes et vérifier l’influence que ce choc aura sur les
autres à l’étude est la méthode appelée l’analyse de l’impact d’une impulsion. La décomposition des
covariances de l’erreur de prédiction permet de connaître la part jouée par chaque composante dans
le calcul de l’erreur de prédiction d’une composante en particulier. Enfin, nous faisons un résumé des
étapes de la construction d’un modèle VAR adéquat lorsqu’on doit en ajuster un à un jeu de données.
57
4.1 Stationnarité d’un processus K-vectoriel
On généralise la notion de stationnarité faible ou de second ordre vue au chapitre 1 au cas vectoriel.
Définition 4.1 (Stationnarité faible d’un processus K-vectoriel) Un processus K-vectoriel yt est dit
stationnaire si et seulement si :
E[yt ] = µ, ∀ t ∈ Z,
E[yt yt0 ] < ∞, ∀ t ∈ Z,
et
E[(yt − µ)(yt−h − µ)0 ] = Γy (h) = Γ0y (−h), ∀ t ∈ Z et h = 0,1, . . .
Comme mentionné dans le chapitre 1, c’est la définition de la stationnarité ci-dessus que nous utili-
serons lorsque nous ferons mention de cette notion. Γy (.) est la fonction matrice de covariances du
processus stationnaire yt .
Définition 4.2 (Définition de γi j (.)) 1 Soit un processus K-vectoriel yt . La fonction matrice de cova-
riances Γy (.) s’exprime sous la forme :
 
γ11 (h) γ12 (h) . . . γ1K (h)
... γ22 (h) . . . γ2K (h)
 
 
Γy (h) = [γi j (h)]i, j=1,...,K = .. .. .. .. 
. . . .
 
 
γK1 (h) ... . . . γKK (h)
L’élément γi j (.) présente :

– les variances des K composantes du processus yt : γii (0), ∀i = 1, . . . , K ;
– les liens instantanés entre yit et y jt : γi j (0) = Cov(yit ,y jt ), ∀i 6= j = 1, . . . , K ;
– la fonction d’autocovariance de chacune des K composantes du processus yt : γii (h) = Cov(yit ,yi,t−h ), ∀i =
1, . . . , K, ∀h 6= 0 ;
– la fonction de covariance croisée entre les composantes i et j du processus yt :γi j (h) = Cov(yit ,y j,t−h ), ∀i 6=
j = 1, . . . , K, ∀h 6= 0.
Proposition 4.1 La fonction d’autocovariance d’un processus K-vectoriel yt stationnaire notée Γ(.)
a les propriétés suivantes :
– Γ(h) = Γ(−h)0 , ∀ h = 0, 1 . . . ;
1
– |γi j (h)| ≤ [γii (0)γ j j (0)] 2 , ∀ h = 0, 1 . . . , ∀ i et j = 1, . . . , K ;
– γii (.) est la fonction d’autocovariance de la composante i, i = 1, . . . , K ;
1. Cette définition est inspirée de Lardic and Mignon (2002, pp. 62-63)
58
– γi j (h) est la fonction de covariance croisée entre les composantes yi,t et y j,t−h du processus yt , ∀ i et j =
1, . . . , K ;
– ∑nj=1 a0j Γ( j − k)ak ≥ 0, ∀ n ∈ N ∗ et a1 , . . . , an ∈ RK .
La stationnarité du processus K-dimensionnel implique la stationnarité de chacune des composantes

du processus K-vectoriel. En effet, le vecteur µ est composé de valeurs constantes qui représentent les
moyennes de chaque composante du processus. Par ailleurs, la fonction d’autocovariance (dont nous
définirons les propriétés plus bas) d’un processus K-vectoriel stationnaire à l’horizon h dépend uni-
quement de l’écart de temps h. Ceci entraine que chacun des éléments de la matrice d’autocovariance
dépend uniquement de h. La diagonale de cette matrice K × K comporte les fonctions d’autocova-
riance des K composantes du processus qui dépendent, donc elles-aussi, du retard h. Ainsi, on peut
conclure que la stationnarité d’un processus K-vectoriel implique la stationnarité de chacune de ses K
composantes. Par contre, la stationnarité marginale des K composantes n’entraine pas leur stationna-
rité conjointe. En voici un exemple illustratif :
Contre-exemple 4.1 2 Supposons deux processus stationnaires y1,t et y2,t et un processus bivarié
(
y1,t = ε1,t
yt = , ∀ t ∈ Z,
y2,t = ε2,t + (−1)t ε1,t
où ε1,t et ε2,t sont des bruits blancs faibles (voir définition 1.5 au chapitre 1) indépendants.
E[y1t ] = 0 et
Cov(y1,t+h , y1,t ) = E[y1,t+h y1,t ] = E[ε1,t+h ε1,t ] = γε1 (h)
donc y1t est stationnaire.

E[y2t ] = 0 et
Cov(y2,t+h , y2,t ) = E[y2,t+h y2,t ] = E[(ε2,t+h + (−1)t+h ε1,t+h )(ε2,t + (−1)t ε1,t )] = γε2 (h) + (−1)h γε1 (h)
car ε1t et ε2t sont indépendants. Par conséquent, y2t est stationnaire.
2. Exemple tiré des notes du Professeur Carbon (2017)
59
Le processus bivarié yt est-il stationnaire ?
E[(yt+h − µ)(yt − µ)0 ] = E[yt+h yt0 ]

" " # #
y1,t+h h i
=E y1,t y2,t
y2,t+h
" #
y1,t+h y1,t y1,t+h y2,t
=E
y2,t+h y1,t y2,t+h y2,t
" #
ε1,t+h ε1,t ε1,t+h (ε2,t + (−1)t ε1t )
=E
(ε2,t+h + (−1)t+h ε1,t+h )ε1,t (ε2,t+h + (−1)t+h ε1,t+h )(ε2,t + (−1)t ε1,t )
" #
γε1 (h) (−1)t γε1 (h)
=
(−1)t+h γε1 (h) γε2 (h) + (−1)h )γε1 (h)
Comme E[(yt+h − µ)(yt − µ)0 ] dépend de t, alors le processus bivarié yt n’est pas stationnaire.
Nous pouvons aussi définir la matrice d’autocorrélation d’un processus stationnaire yt .
Définition 4.3 La matrice d’autocorrélation d’un processus stationnaire yt est notée R(.) = [ρi j (.)]
et ρii (0) = 1. On a :
γi j (.)
ρi j (.) = 1 (4.1)
(γii (0)γ j j (0)) 2
Exemple 4.1 [Exemple d’application : fonctions d’autocovariance et d’autocorrélation] À partir de

cet exemple 3 , nous allons calculer les fonctions d’autocovariance et d’autocorrélation d’un proces-
sus. Soit un processus bivarié yt tel que :
(
y1t = ut
yt = , ∀ t ∈ Z,
y2t = ut + 43 ut−10
avec (ut ,t ∈ Z), un bruit blanc gaussien (voir définition 1.6 au chapitre 1) stationnaire de variance
égale à 1. Alors :
"" # #
0 ut h
0 0 0
i
Γy (h) = E[(yt − µ)(yt−h − µ) ] = E ut−h ut−h + 34 ut−h−10
ut + 34 ut−10
" #
γu (h) γu (h) + 43 γu (10 + h)
Γy (h) =
γu (h) + 34 γu (h − 10) (1 + 16
9
)γu (h) + 34 γu (10 + h) + 34 γu (h − 10)
3. Tiré de Brockwell and Davis (2009, pp. 403-404)
60
Pour h = 0, " # " #
γu (0) γu (0) 1 1
Γy (0) = 9
= ,
γu (0) (1 + 16 )γu (0) 1 1.5625
 
1 " #
1 1 1 0.8
Ry (0) =  1.5625 2 = ,
1 1.5625
1 1.5625 0.8 1
1.5625 2
pour h = 10, " #

0 0
Γy (10) = 3 3
,
4 4
" # " #
0 0 0 0
Ry (10) = 3 3 = ,
1 4∗1.5625 0.6 0.48
4∗1.5625 2
pour h = −10, " #

3
0 4
Γy (−10) = 3
,
0 4
et " #
0 0.6
Ry (−10) = Ry (10)0 = ,
0 0.48
et
Ry (h) = 0, ∀|h| 6= 0,10
Nous allons aussi définir la notion de bruit blanc vectoriel puisque nous l’utiliserons dans la définition
d’un processus VAR(p).
Définition 4.4 (Bruit blanc vectoriel) Soit ut , un processus K-dimensionnel qui s’écrit :
 
u1t
u2t
 
 
ut =  ..  , ∀ t ∈ Z.
.
 
 
uKt
Ce processus est appelé un bruit blanc K-vectoriel faible si
– E[ut ] = 0, ∀t ∈ Z ;
– E[ut u0s ] = 0, ∀ s 6= t ∈ Z ;
– E[ut ut0 ] = Σu , ∀t ∈ Z.
où Σu est la matrice de variances-covariances constantes des K composantes du processus ut .
61
Il faut noter que Σu n’est pas nécessairement diagonale. En effet, deux composantes uit et u jt du bruit
blanc vectoriel ut peuvent être linéairement dépendantes au même temps t. Cependant, il n’existe
pas de lien temporel entre ces composantes-là, c’est-à-dire, leur covariance est nulle lorsqu’il y a un
espace de temps entre ces deux composantes (par exemple uit et u j,t+h avec h non-nul).
4.2 Écriture moyenne mobile d’un processus K-vectoriel et

décomposition de Wold
Soit yt = (y1t , . . . ,yKt )0 . Sous l’hypothèse de stationnarité, on a E[yt ] = µ = (µ1 , . . . ,µK )0 et Σyt =
E[(yt − µ)(yt− j − µ)0 ], j ∈ N. On a que Σy0 est symétrique mais pas nécessairement Σyt . En effet, la
covariance entre y1,t et y2,t− j n’est pas obligatoirement égale à la covariance entre y2,t et y1,t− j . Mais,
on a tout de même Σy j = E[(yt − µ)(yt− j − µ)0 ] = E[(yt+ j − µ)(yt − µ)0 ] à cause de la stationnarité,
d’où, Σ0y j = E[(yt − µ)(yt+ j − µ)0 ] = Σy− j .
Il peut être utile d’introduire la notion de décomposition de Wold au cas multivarié sous la condition
de stationnarité.
Proposition 4.2 (Décomposition de Wold d’un processus multivarié stationnaire) Tout processus
K-vectoriel stationnaire yt non déterministe peut être décomposé en deux composantes mutuellement
non corrélées xt et zt , c’est-à-dire,
yt = xt + zt , t ∈ Z,
où xt est un processus déterministe, c’est-à-dire, qui peut être exactement prédit par une fonction
linéaire de ses observations passées et zt est un processus ayant une forme moyenne mobile infinie et
s’écrivant donc : ∞
zt = ∑ ψi ut−i = (I + ψ1 B + . . . )ut , t ∈ Z,
i=0
où ut est un bruit blanc vectoriel.
Dans notre contexte, si

∞
yt = µ + ∑ ψi ut−i , (4.2)
i=0
alors xt = µ est la composante déterministe puisque µ est un vecteur de valeurs constantes et (I +

ψ1 B + . . . )ut est la composante non déterministe.
4.2.1 V MA(q)
Il se peut que l’écriture moyenne mobile de yt soit finie, c’est-à-dire que ψi = 0 si i > q dans l’équation
( 4.2). On a alors un V MA(q) qui s’écrit
yt = µ + ψ1 ut−1 + · · · + ψq ut−q .
62
Dans ce cas, on a
Σy0 = Σu + ψ1 Σu ψ10 + · · · + ψq Σu ψq0
et

0 0
 ψ j Σu + ψ j+1 Σu ψ1 + · · · + ψq Σu ψq− j , ∀ j = 1, 2, . . . , q

Σy j = ψ− j Σu + ψ10 Σu ψ− j+1 + · · · + ψq+ j Σu ψq0 , ∀ j = −1, −2, . . . , −q

0, ∀ | j| > q.

Ainsi, tout V MA(q) est stationnaire car les 2 premiers moments ne dépendent pas de t.
Démonstration du calcul de Σy j
yt = µ + ψ1 ut−1 + · · · + ψq ut−q .
⇒
yt − µ = ψ1 ut−1 + · · · + ψq ut−q et yt−h − µ = ψ1 ut−h−1 + · · · + ψq ut−h−q .
Alors : Σy j = Γy ( j) = E [(yt − µ)(yt−h − µ)0 ]
h i
Σy j = E (∑qi=0 ψi ut−i )(∑qh=0 ut−
0 ψ
j−h h
0)
⇒ h i
Σy j = E ∑qi= j ψi ut−i ut−i
0 ψ0 0 0
i− j car E[ut us ] = 0, ∀t 6= s et puisque E[ut ut ] = Σu ,
Σy j = ∑qi= j ψi Σu ψi−
0 .
j
Ainsi :
pour j = 0,
Σy0 = ∑qi=0 ψi Σu ψi0 = Σu + ψ1 Σu ψ10 + · · · + ψq Σu ψq0 , avec ψ0 = IK
pour j = 1,2, . . . , q,
Σy j = ψ j Σu + ψ j+1 Σu ψ10 + · · · + ψq Σu ψq−
0
j
pour j = −1, − 2, . . . , −q,
Σy j = ψ− j Σu + ψ10 Σu ψ− j+1 + · · · + ψq+ j Σu ψq0 car Σy− j = Σ0y j
et pour | j| > q,
Σy j = 0.
4.2.2 V MA(∞)
Pour sa définition, une condition de convergence similaire au cas univarié et suffisante que l’on doit
imposer pour garantir l’existence des moments d’ordre 2 de y j est la sommabilité absolue de la suite
de matrices {ψy j }∞j=0 .
En effet,
∞
Σy j = ∑ ψ j+s Σu ψs0 , j ∈ N.
s=0
63
4.3 Les processus VAR(p)
Un processus vectoriel autorégressif d’ordre (p), dit VAR(p), est une généralisation des processus
AR(p) au cas multivarié. La dimension de ce processus représente le nombre de variables étudiées
qui composent ce processus vectoriel et pour lequel on cherche à établir des relations linéaires entre
les variables. Selon le besoin, on l’exprime sous une forme particulière. Nous allons présenter ces
diverses formes qui serviront à introduire et définir certaines propriétés de ce type de processus et
seront utiles à l’analyse du processus. Nous allons utiliser la notation de Lütkepohl (2006).
Exemple 4.2 Un exemple de VAR(2) bivarié serait :

" # " # " #" # " #" # " #
y1t 1 0.7 0.4 y1,t−1 0.1 0.87 y1,t−2 u1t
yt = = + + + , t ∈Z
y2t 5 1 0.2 y2,t−1 0.25 0.98 y2,t−2 u2t
On peut aussi écrire :

(
y1t = 1 + 0.7y1,t−1 + 0.4y2,t−1 + 0.1y1,t−2 + 0.87y2,t−2 + u1t
y2t = 5 + y1,t−1 + 0.2y2,t−1 + 0.25y1,t−2 + 0.98y2,t−2 + u2t
4.3.1 Formes d’un processus VAR(p)

Dans cette section, il s’agira de présenter différentes réprésentations toutes équivalentes d’un proces-
sus VAR(p).
Forme usuelle ou standard
Définition 4.5 Soit yt , un processus K-dimensionnel. yt est un processus VAR(p) s’il s’écrit sous la
forme
yt = ν + A1 yt−1 + A2 yt−2 + · · · + A p yt−p + ut , t ∈ Z (4.3)
où
– yt = (y1t ,y2t , · · · ,yKt ) est le vecteur de dimensions (K × 1) des variables à l’étude ;
– ν = (ν1 ,ν2 , · · · ,νK ) est un vecteur (K × 1) de constantes associées respectivement à chaque va-
riable ;
– Ai sont des matrices (K × K) de coefficients fixes, (i = 1,2, · · · ,p) ;
– ut = (u1t ,u2t , · · · ,uKt )0 est un vecteur (K × 1) de bruits blancs, ou bruit blanc vectoriel, appelé aussi
processus d’innovations K-dimensionnel avec E[ut ] = 0, E[ut us ] = 0 ∀ s 6= t et E[ut ut0 ] = Σu , Σu étant
la matrice non singulière de variances-covariances des innovations.
On a donc un processus dans lequel K variables sont chacune des fonctions de leurs propres valeurs
passées et des valeurs passées des K − 1 autres variables. Il peut être utile d’utiliser l’une ou l’autre
des formes suivantes.
64
Forme VAR(1) d’un processus VAR(p)
Dans cette sous-section, nous allons écrire un processus VAR(p) sous la forme d’un processus VAR(1).
Rappelons que, sous sa forme usuelle, un VAR(1) s’écrit :
yt = ν + A1 yt−1 + ut , t ∈ Z (4.4)
Proposition 4.3 [Forme VAR(1) d’un processus VAR(p)] Un processus VAR(p) yt peut s’écrire sous
la forme d’un VAR(1), qu’on notera Yt . Ainsi :
Yt = C + AYt−1 + Ut , t ∈ Z (4.5)
où  
yt
 yt−1 
 
Yt = 
 .. 
.

 
yt−p+1
 
ν
 0 
 
C= . 

 .. 

0
 
ut
 0 
 
Ut = 
 .. 

 . 
0
 
A1 A2 . . . A p−1 A p
IK 0 ... 0 0 
 

..
 
A= 0 IK . 0 0 
 
.. .. .. .. .. 
 
. . .

 . . 
0 0 ... IK 0
Yt , C et Ut sont des vecteurs de dimensions (K p × 1) et la matrice A de dimensions (K p × K p) est
appelée la matrice compagnon du processus VAR(p). IK est la matrice identité de dimensions (K ×K),
yt = JYt où J est la matrice de dimensions (K × K p) qui s’exprime de la façon suivante :

h i
J = IK : 0 : 0 : . . . 0
Remarque concernant les écritures yt et Yt : Yt est l’écriture du processus VAR(p) yt sous la forme
VAR(1). Il est donc nécessaire de distinguer ces deux formes. La plupart du temps, on utilisera la
réprésentation usuelle yt .
65
Exemple 4.3 Pour les objectifs de ce chapitre, nous allons choisir un processus bivarié VAR(2) qui
s’écrit :
yt = ν + A1 yt−1 + A2 yt−2 + ut , t ∈ Z
" # " # " # " #
y1t 0 0.6 0.2 −0.3 0
où yt = ,ν = , A1 = , A2 = , et
y2t 1 0.3 0.7 0.1 0.1
" # " # " #
σ12 σ12 E[u21t ] E[u1t u2t ] 0.25 0
Σu = = = .
σ12 σ22 E[u1t u2t ] E[u22t ] 0 0.09
Dans ce cas :  
0
 
 1 
Pour la forme VAR(1), C =  0  et

 
0
 
0.6 0.2 −0.3 0
 
 0.3 0.7 0.1 0.1 
A=  .
 1 0 0 0 

0 1 0 0
Donc :
        
y1t 0 0.6 0.2 −0.3 0 y1,t−1 u1t
        
 y2t   1   0.3 0.7 0.1 0.1 
  y2,t−1
   u2t 
Yt = C+AYt−1 +Ut =   =  + +  , t ∈ Z.
 y   0   1 0 0 0   y1,t−2
   u 
 1,t−1       1,t−1 
y2,t−1 0 0 1 0 0 y2,t−2 u2,t−1
Forme moyenne mobile d’un processus VAR(p) et décomposition de Wold
Considérons tout d’abord un VAR(1). Un processus K-dimensionnel VAR(1) est un vecteur de K

variables dont chacune est une fonction linéaire de sa dernière valeur passée et des valeurs passées et
courantes des K − 1 autres variables. Sous sa forme usuelle, il s’écrit
yt = ν + A1 yt−1 + ut , t ∈ Z. (4.6)
On a successivement (décomposition avant) :

y1 = ν + A1 y0 + u1
y2 = ν + A1 y1 + u2 = ν + A1 (ν + A1 y0 + u1 ) + u2 = (IK + A1 )ν + A21 y0 + A1 u1 + u2
..
.
yt = (IK + A1 + · · · + At−1 t t−1 i 0
1 )ν + A1 y0 + ∑i=0 A1 ut−i , où A1 = IK
On voit alors que yt dépend de y0 et des bruits blancs passés et courant.
Précédemment, on a supposé que le processus avait pour origine le temps 0. Nous allons généraliser
cette expression, c’est-à-dire, en supposant que t = 0, ± 1, ± 2, · · · . On a alors, en itérant vers le passé,
66
l’expression (décomposition arrière)
yt = ν + A1 yt−1 + ut
yt = ν + A1 (ν + A1 yt−2 + ut−1 ) + ut
yt = (IK + A1 )ν + A21 yt−2 + A1 ut−1 + ut
yt = (IK + A1 + A21 )ν + A31 yt−3 + A21 ut−2 + A1 ut−1 + ut
..
.
j
yt = (IK + A1 + · · · + A1j )ν + A1j+1 yt− j−1 + ∑ Ai1 ut−i , t ∈ Z. (4.7)
i=0
Si les modules de toutes les valeurs propres de la matrice A1 sont inférieurs à 1, alors la suite Ai1 est
absolument sommable et par conséquent A1j+1 converge vers 0 lorsque j → ∞,
(IK + A1 + · · · + A1j )ν −−−→ (IK − A1 )−1 ν,
j→∞
(IK − A1 )−1 ν = µ et ∑∞ i
i=0 A1 ut−i existe en moyenne quadratique.
L’expression ( 4.7) est donc réduite à

∞
yt = µ + ∑ Ai1 ut−i , t ∈ Z.
i=0
Cette expression est appelée la forme moyenne mobile infinie d’un processus VAR(1).
Proposition 4.4 (Moyenne mobile infinie d’un processus VAR(1)) Si les modules de toutes les va-
leurs propres de la matrice A1 d’un processus VAR(1) sont inférieurs à 1, alors on peut exprimer yt
sous la forme suivante :
∞
yt = µ + ∑ Ai1 ut−i , t ∈ Z (4.8)
i=0
où µ = (IK − A1 )−1 ν.
Exemple 4.4 Supposons le processus VAR(1) bivarié suivant :

" #
0.7 0.1
yt = yt−1 + ut , ∀ t ∈ Z.
0.6 0.25
Les modules des valeurs propres de la matrice A1 sont 0.8076 et 0.1424. Comme ces valeurs sont
inférieures à 1, alors le processus peut s’écrire sous la forme moyenne mobile infinie :
" #i
∞ ∞
0.7 0.1
yt = µ + ∑ Ai1 ut−i = ∑ ut−i .
i=0 i=0 0.6 0.25
67
" # " #
0.55 0.0950 0.4420 0.078750
Par exemple A01 = I2 , A21 = , et A31 = .
0.57 0.1225 0.4725 0.087625
" # " #
10 0.0989350 0.01774290 20 0.01167700 0.002094140
Aussi, A1 = et A1 = .
0.1064574 0.01909196 0.01256484 0.002253366
On peut noter que les éléments des matrices Ai1 diminuent et tendent vers 0, lorsque la valeur i aug-
mente.
En se servant de la forme VAR(1) d’un processus VAR(p) et en définissant certaines conditions, nous
allons généraliser l’expression ( 4.8) au cas VAR(p).
Proposition 4.5 (Représentation moyenne mobile infinie d’un processus VAR(p)) Si les modules
des valeurs propres de la matrice compagnon A sont tous inférieurs à 1, alors :
∞
Yt = µ + ∑ Ai Ut−i , t ∈ Z, (4.9)
i=0
où
µ = (IK p − A)−1 C,
et Yt , C et Ut sont des vecteurs de dimensions (K p × 1) et la matrice A de dimensions (K p × K p) est

appelée la matrice compagnon du processus VAR(p).
La contrainte sur les modules des valeurs propres de la matrice compagnon A dans le cas d’un proces-
sus VAR(p) est appelée la condition de stabilité. La stabilité est une généralisation au cas multivarié
de l’inversion possible d’opérateurs des processus MA(q) et ARMA(p,q).
Définition 4.6 (Stabilité d’un processus VAR(p)) Un processus VAR(p) yt est stable si les modules
de toutes les valeurs propres de la matrice compagnon A sont inférieurs à 1, c’est-à-dire
det(IK p − Az) 6= 0 ∀ |z| ≤ 1
ou de façon équivalente, si
det(IK − A1 z − A2 z2 − · · · − A p z p ) 6= 0, ∀ |z| ≤ 1;
où det(IK p ) est appelé le polynôme caractéristique inverse.
En effet,
det(IK p − Az) = det(IK − A1 z − A2 z2 − · · · − A p z p ).
68
Cette notion nous fait penser à celle de la stationnarité, laquelle a été maintes fois mentionnée au
chapitre 2 puisqu’étant une des conditions sine qua non à l’ajustement d’une série à l’un des mo-
dèles proposés par Box et Jenkins. La stabilité implique la stationnarité. Cependant, un processus
stationnaire n’est pas obligatoirement stable. Cette proposition sera prouvée lorsque nous définirons,
de manière explicite, la moyenne et la fonction d’autocovariance d’un processus VAR(p) stable.
Exemple 4.5 Toujours en se servant du même processus qu’à l’exemple 4.3, on va vérifier la stabilité
du processus et par ricochet, sa stationnarité.
 
0.6 0.2 −0.3 0
 
 0.3 0.7 0.1 0.1 
A=
 1

 0 0 0 
0 1 0 0
est la matrice compagnon de notre processus. Les valeurs propres de A sont 0.9319 et -0.1174834. Les
modules respectifs de ces valeurs propres sont 0.9319 et 0.1174834. Comme ils sont tous inférieurs à
1, alors ce processus VAR(2) est stable, donc stationnaire. Et pour vérification :
det(I4 − A ∗ 0.9319) = −2.165881 = det(I2 − A1 ∗ 0.9319 − A2 ∗ 0.93192 )
det(I4 − A ∗ (−0.1174834)) = 0.1490471 = det(I2 − A1 ∗ (−0.1174834) − A2 ∗ (−0.1174834)2 ).
Le théorème de décomposition de Wold s’applique aussi aux processus VAR(p) stables puisque la
stabilité implique la stationnarité. De plus, on voit bien que son écriture sous la forme moyenne mobile
infinie (expression ( 4.9)) représente bien un processus décomposé selon Wold. En effet, on est capable
d’identifier ses deux composantes. Sa partie déterministe est le vecteur moyenne et sa partie non
déterministe est la somme pondérée infinie de processus formant un bruit blanc vectoriel.
Rappelons que :
∞
Yt = µ + ∑ Ai Ut−i , avec t ∈ Z et µ = (IK p − A)−1 C,
i=0
yt = JYt et h i
J= IK : 0 : 0 : . . . 0 .
Dans ce contexte, µ représente la partie déterministe et ∑∞ i

i=0 A Ut−i constitue la partie non détermi-
niste.
Formes moyenne mobile canonique ou fondamentale et moyenne mobile orthogonale
Dans la section précédente, nous avons mentionné la représentation moyenne mobile d’un processus
Yt . Ici, nous allons en présenter deux formes issues de la première mais qui auront des utilités dif-
férentes dans les démonstrations liées aux concepts de l’analyse structurelle, à savoir la causalité au
69
sens de Granger, la causalité instantanée. La propriété de stabilité du processus est nécessaire avant
de les énoncer.
Définition 4.7 (Représentation moyenne mobile canonique ou fondamentale) La représentation moyenne

mobile fondamentale ou canonique d’un processus VAR(p) yt stable s’écrit
∞
yt = µ + ∑ Φi ut−i , t ∈ Z. (4.10)
i=0
Cette forme est obtenue en posant yt = JYt , µ = Jµ, Φi = JAi J 0 et ut−i = JUt−i avec
h i
J = IK : 0 : 0 : . . . 0
Yt , C et Ut étant des vecteurs de dimensions (K p × 1) et la matrice A, la matrice compagnon de

dimensions (K p × K p) définis à la proposition 4.3.
Définition 4.8 (Représentation moyenne mobile orthogonale) La représentation moyenne mobile

orthogonale d’un processus VAR(p) yt stable s’écrit
∞
yt = µ + ∑ Θi wt−i , t ∈ Z, (4.11)
i=0
où Θi = Φi P, wt−i = P−1 ut−i et P est une matrice triangulaire inférieure avec valeurs positives telle
que Σu = PP0 . P est obtenue à partir de la décomposition de Choleski.
Cette représentation est dite orthogonale car les vecteurs de bruits blancs wt sont orthogonaux. En
effet, leur matrice de variances-covariances Σw = P−1 Σu P0−1 = IK . Leurs composantes sont donc non
corrélées.
Exemple 4.6# : (suite)

" se servant du processus de l’exemple 4.3, on a Φ0 = I2 , Φ1 =
" Toujours en #
0.6 0.2 0.12 0.26
, Φ2 = ,
0.3 0.7 0.49 0.65
" #
−0.010 0.226
Φ3 = ,
0.469 0.623
" #
0.0518 0.1822
Φ4 = ,
0.3863 0.5949
" #
3.333333
µ= ,
11.66667
et
70
" # " # " # " #
3.333333 0.6 0.2 0.12 0.26 −0.010 0.226
yt = + ut + ut−1 + ut−2 + ut−3 +
11.66667 0.3 0.7 0.49 0.65 0.469 0.623
" #
0.0518 0.1822
ut−4 + . . .
0.3863 0.5949
" #
0.5 0
Θ0 = P = ,
0 0.3
" #
0.30 0.06
Θ1 = Φ1 P = ,
0.15 0.21
" #
0.060 0.078
Θ2 = Φ2 P = ,
0.245 0.195
" #
−0.0050 0.0678
Θ3 = Φ3 P = et
0.2345 0.1869
" #
0.02590 0.05466
Θ4 = Φ4 P = .
0.19315 0.17847
" # " # " #

3.333333 0.5 0 0.30 0.06
yt = + wt + wt−1 +
11.66667 0 0.3 0.15 0.21
" # " # " #
0.060 0.078 −0.0050 0.0678 0.02590 0.05466
wt−2 + wt−3 + wt−4 + . . .
0.245 0.195 0.2345 0.1869 0.19315 0.17847
4.3.2 Moyenne et fonctions d’autocovariance et d’autocorrélation d’un processus

VAR(p) stable
Comme dans le cas univarié, on peut définir la moyenne et les fonctions d’autocovariance et d’au-
tocorrélation d’un processus VAR(p) stable. La condition de stabilité est nécessaire pour obtenir les
résultats suivants.
Définition 4.9 (Moyenne d’un processus VAR(p) stable) La moyenne µ d’un processus VAR(p) stable
yt est l’espérance de ce processus. On a
µ = E[yt ] = (IK − A1 − · · · − A p )−1 ν, ∀ t ∈ Z (4.12)
où ν est tel que

yt = ν + A1 yt−1 + A2 yt−2 + · · · + A p yt−p + ut , t ∈ Z.
Preuve : On a, pour un processus VAR(p) stable yt :
yt = ν + A1 yt−1 + A2 yt−2 + · · · + A p yt−p + ut , t ∈ Z
71
yt = ν + (A1 B + A2 B2 + · · · + A p B p )yt + ut
yt = (IK − A1 B − A2 B2 + · · · − A p B p )−1 ν + (IK − A1 B − A2 B2 + · · · − A p B p )−1 ut
si et seulement si le polynôme (IK − A1 z − A2 z2 − · · · − A p z p ) est inversible. Or ce polynôme est

inversible ∀|z| ≤ 1, donc quand le processus yt est un VAR(p) stable.
Donc, en supposant que |z| ≤ 1, on peut écrire yt sous la forme fondamentale, c’est-à-dire :
∞ ∞
yt = µ + ∑ Φi ut−i = µ + ∑ Φi Bi ut , t ∈ Z.
i=0 i=0
Ainsi : ∞
∑ Φi Bi = (IK − A1 B − A2 B2 + · · · − A p B p )−1
i=0
∞
µ = ∑ Φi ν = (IK − A1 − A2 − · · · − A p )−1 ν
i=0
car ν est un vecteur de scalaires.
Exemple 4.7 (suite) Toujours en se servant du même processus de l’exemple 4.3, on a

" # " # " #!−1 " # " #
1 0 0.6 0.2 −0.3 0 0 3.333333
µ = (I2 −A1 −A2 )−1 ν = − − = .
0 1 0.3 0.7 0.1 0.1 1 11.66667
Définition 4.10 (Fonction d’autocovariance d’un processus VAR(p) stable) La fonction d’autoco-
variance Γy (h) d’un processus VAR(p) stable yt est :
E[(yt − µ)(yt−h − µ)0 ] = Γy (h).
Pour |h| < p, on obtient les Γy (h) à partir de vec(ΓY (0)) = (I(K p)2 − A ⊗ A)−1 vec(ΣU ) où Yt et Ut ,
étant les mêmes vecteurs définis sous la forme VAR(1) 4 , ΣU = E[Ut Ut0 ] et
 
Γy (0) Γy (1) . . . Γy (p − 1)
 Γy (p − 1) Γy (0) . . . Γy (p − 2)
 

ΓY (0) =  .. .. .. .. .
. . . .
 
 
Γy (−p + 1) Γy (−p + 2) . . . Γy (0)
Ici, la fonction vec transforme une matrice en un vecteur colonne selon la méthode de la définition
A.6 5 et ⊗ représente le produit de Kronecker 6 .
Pour h ≥ p
Γy (h) = A1 Γy (h − 1) + · · · + A p Γy (h − p). (4.13)
4. Voir proposition 4.3
5. Voir l’exemple A.2 pour une application
6. Voir la définition A.5 et l’exemple A.1
72
En particulier
Γy (0) = A1 Γ0y (1) + · · · + A p Γ0y (p) + Σu . (4.14)
Les deux dernières expressions ( 4.13) et ( 4.14) sont appelées les équations de Yule-Walker.
Démonstration du calcul de la fonction d’autocovariance dans le cas d’un VAR(1) stable :
E[(yt − µ)(yt−h − µ)0 ] = Γy (h)
Supposons le cas particulier d’un processus VAR(1) stable yt . On a, sous la forme usuelle,
yt = ν + A1 yt−1 + ut , t ∈ Z, ⇐⇒ yt − µ = A1 (yt−1 − µ) + ut t ∈ Z,
car ν = (IK − A1 )µ sous la propriété de stabilité et sous la forme fondamentale :

∞
yt = µ + ∑ Φi ut−i , t ∈ Z.
i=0
On a donc
∞
Γy (h) = E[(yt − µ)(yt−h − µ)0 ] = A1 E[(yt−1 − µ)(yt−h − µ)0 ]+E[ut (yt−h − µ)0 ] = A1 Γy (h−1)+ ∑ E[ut ut−h−i
0
]Φ0i .
i=0
Pour h = 0,
Γy (0) = A1 Γy (−1) + Σu
car E[ut ut0 ] = Σu et E[ut ut−i

0 ] = 0, i 6= 0 et Φ = I .
0 K
Alors
Γy (0) = A1 Γy (1)0 + Σu
et
Γy (h) = A1 Γy (h − 1).
On peut déduire que

Γy (0) = A1 Γy (0)A01 + Σu .
Pour obtenir Γy (0), on va utiliser la fonction vec et les règles (1) et (3) de Lütkepohl (2006, pp. 661-
662), c’est-à-dire :
vec(Γy (0)) = vec(A1 Γy (0)A01 ) + vec(Σu ) = (A1 ⊗ A1 )vec(Γy (0)) + vec(Σu ).
Ainsi
vec(Γy (0)) = (IK 2 − A1 ⊗ A1 )−1 vec(Σu ). (4.15)
73
Après avoir calculé vec(Γy (0)), on obtient Γy (0) en transformant le vecteur colonne en une matrice et
les Γy (h) sont calculés de façon récursive à partir de la formule Γy (h) = A1 Γy (h − 1).
En généralisant à un processus VAR(p) stable et en utilisant la forme VAR(1) de yt , on a

∞
Yt = µ + ∑ Ai Ut−i , ∀ t ∈ Z.
i=0
Ceci nous permet d’écrire de façon analogue :
ΓY (0) = AΓY (0)A0 + ΣU ,
et
ΓY (h) = AΓY (h − 1).
On utilise le même procédé que dans notre cas particulier (VAR(1), expression ( 4.15)), c’est-à-dire
vec(ΓY (0)) = (I(K p)2 − A ⊗ A)−1 vec(ΣU ).
On déduit ΓY (0) du calcul de vec(ΓY (0)), ce qui nous permet de trouver Γy (h) pour |h| ≤ p − 1. Pour
|h| ≥ p, les Γy (h) sont obtenus de façon récursive grâce à la formule ( 4.13), c’est-à-dire
Γy (h) = A1 Γy (h − 1) + · · · + A p Γy (h − p).
Exemple4.8 Toujours en se servant du même processus qu’à l’exemple

 4.3, on a
0.4032451 0.2471912 0.2241425 0.2154561
 
 0.2471912 0.8426578 0.3379673 0.7753495 
ΓY (0) = 
 ,
 0.2241425 0.3379673 0.4032451 0.2471912 

0.2154561 0.7753495 0.2471912 0.8426578
" #
0.4032451 0.2471912
Γy (0) = ,
0.2471912 0.8426578
" #
0.2241425 0.2154561
Γy (1) = ,
0.3379673 0.7753495
" #
0.08110544 0.2101862
Γy (2) = A1 Γy (1) + A2 Γy (0) = .
0.36886347 0.7163664
Preuve : Stabilité et stationnarité

Nous avions affirmé que la stabilité impliquait la stationnarité. Selon les expressions ( 4.12), ( 4.14)
et ( 4.13), la moyenne d’un processus VAR(p) stable est constante dans le temps et sa fonction d’au-
tocovariance dépend uniquement de l’écart de temps h. Rappelons que
74
µ = E[yt ] = (IK − A1 − · · · − A p )−1 ν, ∀ t ∈ Z,
Γy (h) = A1 Γy (h − 1) + · · · + A p Γy (h − p) et
Γy (0) = A1 Γ0y (1) + · · · + A p Γ0y (p) + Σu .
La réciproque n’est toutefois pas toujours vraie. Un contre-exemple serait de choisir un processus
VAR(p) stationnaire dont au moins l’un des modules des valeurs propres de sa matrice compagnon est
supérieur à 1. Le processus
" # bivarié stationnaire centré (de moyenne 0) tel que
VAR(1)
1.7 0.5
yt = A1 yt−1 + ut = yt−1 + ut
0.1 3
n’est pas stable puisque les modules des valeurs propres de la matrice A1 sont supérieurs à 1. Ils sont
égaux à 3.037386 et 1.662614.
Définition 4.11 (Fonction d’autocorrélation d’un processus VAR(p) stable) La fonction d’autocor-
rélation Ry (h) d’un processus VAR(p) stable yt est
Ry (h) = D−1 Γy (h)D−1 , (4.16)
où D est une matrice diagonale composée des racines carrées des éléments de la diagonale de Γy (0),
donc les écarts-types des K variables composant le processus vectoriel yt .
Toutes ces définitions sont des généralisations des cas univariés étudiés précédemment. Ici, nous
sommes au contexte multivarié.
Exemple 4.9 Toujours avec le processus de l’exemple 4.3, on obtient

" #
0.6350158 0
D= ,
0 0.917964
" #
1 0.4240556
Ry (0) = D−1 Γy (0)D−1 = ,
0.4240556 1
" #
−1 −1 0.5558469 0.3696142
Ry (1) = D Γy (1)D =
0.5797816 0.9201238
" #
0.2011319 0.3605737
et Ry (2) = D−1 Γy (2)D−1 =
0.6327840 0.8501273
75
4.4 Estimation d’un VAR(p)
Supposons, y1 , . . . ,yn , un échantillon de taille n, d’un processus K-vectoriel yt . Nous allons aussi sup-
poser que nous avons p valeurs initiales y−p+1 , . . . ,y0 . Nous supposons donc que l’ordre p de notre
processus est connu d’avance.
Mais en pratique, les paramètres d’un VAR(p) ne sont pas connus. Ces paramètres sont les coefficients
de régression, c’est-à-dire, le vecteur de constantes ν et les éléments des matrices A1 , . . . , A p . Il faut
donc les estimer. On peut être aussi intéressé à estimer la matrice des variances covariances des bruits
blancs vectoriels appelée Σu . Différentes méthodes existent. Celles que nous allons présenter sont la
méthode des moindres carrés et la méthode du maximum de vraisemblance.
4.4.1 La méthode des moindres carrés multivariée (GLS)

La méthode des moindres carrés généralisée permet d’estimer les paramètres du modèle étudié en
minimisant la somme pondérée des carrés résiduels. Pour définir cette méthode, nous allons utiliser
certaines notations. Soit Y = (y1 , . . . , yn ) de dimensions (K × n). Sur la k-ème ligne de cette matrice,
se trouvent les n observations de la k-ème composante du processus K-vectoriel. Une ligne de sa
transposée Y 0 est alors une observation de notre processus. En d’autres termes, on trouve la première
observation des K composantes sur la première ligne de cette matrice Y 0 , et ainsi de suite. Soit B =
(ν, A1 , . . . , A p ) de dimensions K × (K p + 1), la matrice des coefficients de régression,
 
1
yt
 
 
Zt =  .. 
.
 
 
yt−p+1
de dimensions (K p + 1) × 1, Z = (Z0 , . . . , Zn−1 ) de dimensions (K p + 1) × n. C’est l’ensemble des
p premières valeurs et de l’échantillon tiré. Soit U = (u1 , . . . ,un ), de dimensions (K × n), la matrice
des bruits blancs vectoriels associés à chaque observation de notre échantillon. On peut donc écrire le
processus sous la forme
Y = BZ +U. (4.17)
En appliquant la fonction vec et la règle 3 de Lütkepohl (2006, pp. 662-663), ( 4.17) devient
vec(Y ) = vec(BZ) + vec(U) = (Z 0 ⊗ IK )vec(B) + vec(U). (4.18)
L’expression ( 4.18) sera appelée la représentation " par observation" pendant que vec(Y 0 ) sera appelée
la représentation "par équation". De ces deux représentations, nous allons trouver des estimateurs
mutuellement équivalents puisque nous retrouvons les mêmes valeurs dans les deux vecteurs, mais
disposées différemment.
76
Si on note y = vec(Y ), β = vec(B), et u = vec(U) des matrices de dimensions (Kn × 1), ((K 2 p + K) ×
1) et ((K 2 p + K) × 1) respectivement, on peut écrire une formule équivalente à ( 4.18) qui est
y = (Z 0 ⊗ IK )β + u. (4.19)
L’estimateur du vecteur β par la méthode des moindres carrés généralisée est la valeur qui minimise
S(β ) donnée par
S(β ) = u0 (In ⊗ Σu )−1 u = tr[(Y − BZ)0 Σ−1

u (Y − BZ)],
où tr(M) représente la trace d’une matrice M. On peut montrer que (Lütkepohl, 2006, p. 71)
S(β ) = y0 (In ⊗ Σ−1 0 0 −1 0 −1

u )y + β (ZZ ⊗ Σu )β − 2β (Z ⊗ Σu )y.
Après avoir dérivé S(β ) par rapport à β , on a

∂ S(β )
= 2(ZZ 0 ⊗ Σ−1 −1
u )β − 2(Z ⊗ Σu )y.
∂β
En égalant cette dérivée à 0, on obtient l’estimateur des moindres carrés généralisés (GLS) de β qui
est
β̂ = vec(B̂) = ((ZZ 0 )−1 Z ⊗ IK )y = ((ZZ 0 )−1 Z ⊗ IK )vec(Y ). (4.20)
Comme la matrice hessienne de S(β ) qui est égale à 2(ZZ 0 ⊗ Σ−1

u ) est définie positive, alors l’estima-
teur obtenu est bel et bien un minimum. Il faut noter que ces résultats sont valides si la matrice ZZ 0
est non singulière. Sous cette forme, nous avons l’estimateur des GLS selon la représentation " par
observation".
On peut écrire de façon équivalente à ( 4.20), sans la fonction vec, que l’estimateur des GLS de B,
noté B̂, est
B̂ = Y Z 0 (ZZ 0 )−1 . (4.21)
Ou encore selon la représentation par "équation", nous avons :
b̂ = vec(B̂0 ) = (IK ⊗ (ZZ 0 )−1 Z)vec(Y 0 ). (4.22)
De cette dernière équation, on voit qu’il est facile de démontrer que chacun des éléments (lignes) du
système d’équations est l’estimateur des moindres carrés ordinaires de chacune des K composantes
de notre processus. En effet, l’estimateur des moindres carrés ordinaires (MCO) qui est obtenu en
minimisant
77
u0 u = [y − (Z 0 ⊗ IK )β )]0 [y − (Z 0 ⊗ IK )β )]
est égal à b̂ j = (ZZ 0 )−1 Zy( j) , pour la variable y( j) = (y j1 ,. . . y jn ) , j = 1 . . . , K.
Il faut noter que cela est vrai parce que les régresseurs de la méthode des moindres carrés généralisés
sont les mêmes que ceux de la méthode des moindres carrés ordinaires 7 .
Lardic and Mignon (2002) affirment qu’il faut que les séries soient stationnaires pour utiliser la mé-
thode des moindres carrés ordinaires.
1 n 1
Un estimateur des GLS de Σu = E[ut ut0 ] découlant de celui de B est Σ̃u = ∑ ût û0 = Y (In −
n t=1 t n
Z 0 (ZZ 0 )−1 Z)Y.
1
On peut aussi définir un autre estimateur non biaisé de Σu qui est Σ̂u = Y (In −Z 0 (ZZ 0 )−1 Z)Y.
n−Kp−1
4.4.2 Propriétés asymptotiques des estimateurs des GLS

Nous étudions les propriétés asymptotiques de l’estimateur des GLS de notre processus K-vectoriel
sous le postulat qu’il est stable. De plus, son bruit blanc vectoriel doit être indépendant et ses 4
premiers moments doivent exister et être bornés. Il faut noter que les bruits blancs vectoriels gaussiens
remplissent ces conditions.
Proposition 4.6 (Propriétés asymptotiques de B̂) Si yt est un processus stable et B̂ = Y Z 0 (ZZ 0 )−1
est l’estimateur des GLS de B,
ZZ 0 p
−→ Γ
n n→+∞
existe et est non singulière,
1 n 0 l
√ ∑ vec(ut Zt−1 ) −→ N (0,Γ ⊗ Σu )
n t=1 n→+∞
et sous les conditions énoncées sur les bruits blancs vectoriels de yt , on a :
p
B̂ −→ B.
n→+∞
De plus
√ l
n(β̂ − β ) −→ N (0, Γ−1 ⊗ Σu ),
n→+∞
et
7. On peut trouver une démonstration détaillée de cette affirmation de Neusser (2016, p. 228)
78
√ l
n(b̂ − b) −→ N (0, Σu ⊗ Γ−1 ).
n→+∞
Ces propriétés sont tirées de Lütkepohl (2006, pp. 73-74). Elles permettront de faire de l’inférence
sur le paramètre β comme calculer des intervalles de confiance pour β ou procéder à des tests d’hy-
pothèses comme les tests t et de Fisher.
Proposition 4.7 (Propriétés asymptotiques de Σ̂u et Σ̃u ) Si yt est un processus stable et B̂ = Y Z 0 (ZZ 0 )−1
est l’estimateur des GLS de B, et si
ZZ 0 p
−→ Γ
n n→+∞
existe et est non singulière,
1 n 0 l
√ ∑ vec(ut Zt−1 ) −→ N (0,Γ ⊗ Σu )
n i=1 n→+∞
et sous les conditions énoncées sur le bruit blanc vectoriel de yt , on a
p p
Σ̂u −→ Σu et Σ̃u −→ Σu .
n→+∞ n→+∞
4.4.3 La méthode du maximum de vraisemblance

Une condition nécessaire à l’estimation par la méthode du maximum de vraisemblance (MV) est que le
bruit blanc vectoriel soit gaussien, donc que le processus VAR(p) soit gaussien ; nous allons supposer
qu’elle est respectée. Considérons le cas centré.
Le bruit blanc vectoriel est gaussien donc u = vec(U) a comme fonction de densité

1 −1/2 1 0 −1
fu (u) = |In ⊗ Σu | exp − u (In ⊗ Σu )u ,
(2π)Kn/2 2
où |M| désigne la valeur absolue du déterminant d’une matrice M.
Soit y = vec(Y ), µK p = (µ 0 , . . . ,µ 0 ), un vecteur de K p lignes, α = vec(A) où A = (A1 , . . . , A p ) est la

matrice des coefficients de régression de dimensions (K × K p), Y0 = (y00 , . . . ,y−p+1 )0 , et en posant :
u = y − µKp − (X 0 ⊗ IK )α, où X = (Y00 , . . . ,Yn−1
0 ) est une matrice de dimensions (K p × n).
On obtient la fonction de densité de y, notée fy (y), qui est

1 −1/2 1 0 0 −1 0
fy (y) = |In ⊗ Σu | exp − y − µK p − (X ⊗ IK )α (In ⊗ Σu )y − µK p − (X ⊗ IK )α
(2π)Kn/2 2
(4.23)
79
On peut en déduire la fonction de logvraisemblance 8 qui est
Kn n 1
ln l(µ,α, Σu ) = ln( fy (y)) = − ln(2π) − ln|Σu | − tr[(Y 0 − AX)0 Σ−1 0
u (Y − AX).] (4.24)
2 2 2
Proposition 4.8 (Estimateurs du maximum de vraisemblance) Soit yt , un processus VAR(p) stable,

avec des bruits blancs vectoriels ut gaussiens. On a
Y 0 = AX +U,
où y0 = (X 0 ⊗ IK )α + u et U = (u1 , . . . ,un ).
Les estimateurs du maximum de vraisemblance de µ, α = vec(A) et Σu sont obtenus à partir des

équations suivantes et sont respectivement :
1
µMV = (IK − ∑ AMV )−1 ∑(yt − ∑ AMV yt−i ) (4.25)
n i t i
0
αMV = ((XMV XMV )−1 XMV ⊗ IK )(y − µKn ) (4.26)
1 0
ΣuMV = (YMV 0
− AMV XMV )(YMV − AMV XMV )0 (4.27)
n
avec µKn = (µ 0 , . . . ,µ 0 ) est un vecteur de Kn lignes, XMV est l’estimateur de X et YMV

0 , celui de Y 0 en
remplaçant µ par µMV dans X = (Y00 , . . . ,Yn−1

0 ) et dans Y 0 = Y − µ.
Proposition 4.9 (Propriétés asymptotiques des estimateurs du maximum de vraisemblance) Soit

yt , un processus VAR(p) stable gaussien. On a
Y 0 = AX +U,
où y0 = (X 0 ⊗ IK )α + u.
Soit les estimateurs du maximum de vraisemblance donnés par les expressions ( 4.25), ( 4.26) et
( 4.27), σMV = vechΣuMV . La fonction vech est expliquée à la définition A.7. Si ces estimateurs sont
asymptotiquement indépendants deux à deux, on a :
    
µMV − µ ΣµMV 0 0
√   l
n  αMV − α  −→ N 0,  0 0  , (4.28)
  
ΣαMV
n→+∞
σMV − σ 0 0 ΣσMV
où
ΣµMV = (IK − ∑ Ai )−1 Σu (IK − ∑ A0i )−1 ,
i i
8. Voir Lütkepohl (2006, pp. 88-89) pour les détails de calculs
80
ΣαMV = ΓY (0)−1 ⊗ Σu ,
ΣσMV = 2D+ +
K (Σu ⊗ Σu )DK ,
et D+ 9
K est appelée l’inverse généralisée de Moore-Penrose de la matrice "de duplication" DK de
dimensions K 2 × K(K + 1)/2. Ces matrices qui sont les matrices de covariance peuvent être estimées
si on remplace les inconnues dans leurs expressions par leurs estimateurs respectifs du maximum de
vraisemblance.
On remarque que les estimateurs du maximum de vraisemblance et des moindres carrés sont les
mêmes pour µ et α ou A.
L’on pourra se référer à Lütkepohl (2006, pp. 87-93) pour des détails sur les calculs des estimateurs.
4.5 Choix de l’ordre p

Différents tests sont proposés pour choisir le bon ordre du modèle.
4.5.1 La statistique du rapport de vraisemblance et tests séquentiels

L’objectif de ce test est de comparer deux modèles, l’un qui est dit contraint et l’autre qui est le modèle
complet.
Rappelons que la statistique du rapport de vraisemblance, notée λRV , est :
λRV = 2(ln l(δMV ) − ln l(δMV,c ))
où l(δMV ) représente la fonction de vraisemblance associée au modèle complet et l(δMV,c ), celle du

modèle contraint selon l’hypothèse nulle.
Dans notre contexte, on a :
H0 : Le modèle VAR(p − 1) est vrai ou A p = 0
H1 : Le modèle VAR(p) est vrai ou A p 6= 0
Par la suite, nous utiliserons cette statistique pour effectuer des tests séquentiels conditionnels jusqu’à
ce qu’on obtienne le bon ordre de modèle. Ils sont conditionnels parce qu’ils dépendent des résultats
des tests précédents. Le nombre de tests effectués au total sera donc fonction du nombre d’hypothèses
nulles non rejetées. On définit de ce fait, un ordre p maximal qu’on note Mmax . Les matrices Ai sont
les matrices de coefficients déjà définies dans les sections précédentes (définition 4.5) .
Le premier test effectué sera donc :
H01 : Le modèle VAR(Mmax − 1) est vrai ou AMmax = 0

9. Voir Définition A.1
81
H11 : Le modèle VAR(Mmax ) est vrai ou AMmax 6= 0.
Si l’hypothèse nulle n’est pas rejetée, on effectuera le test suivant :
H02 : Le modèle VAR(Mmax − 2) est vrai ou AMmax − 1 = 0
H12 : Le modèle VAR(Mmax − 1) est vrai ou AMmax − 1 6= 0|AMmax = 0,
et, ainsi de suite, jusqu’à ce qu’on trouve un ordre appelé m qui est tel que le résultat du test d’hypo-
thèses
H0 : Am+1 = 0
H1 : Am+1 6= 0|AMmax = 0, . . . ,Am+2 = 0
est que l’hypothèse nulle n’est pas rejetée, mais celui de
H0 : Am = 0
H1 : Am 6= 0|AMmax = 0, . . . ,Am+1 = 0
rejette l’hypothèse nulle ; notons que m est compris entre 0 et Mmax .
Dans le cas d’un VAR(p), la statistique du rapport de vraisemblance pour la i-ème hypothèse nulle est
notée λRV et est donnée par
λRV = n(ln |ΣµMV (Mmax − i)| − ln |ΣµMV (Mmax − i + 1)|), (4.29)
où ln |ΣµMV (Mmax − i)| est la log-vraisemblance associée à la variance de l’erreur de prévision d’un
modèle VAR(Mmax − i) estimée selon la méthode du maximum de vraisemblance. La statistique λRV
donnée par l’expression ( 4.29) suit une loi khi-carrée avec K 2 degrés de liberté lorsque H0 est vraie. En
effet, le nombre de contraintes équivaut au nombre d’éléments de la dernière matrice de coefficients,
c’est-à-dire K 2 car elle est une matrice carrée avec K lignes.
Les modèles choisis grâce à cette méthode ont tendance à être moins parcimonieux que ceux sélec-
tionnés par les critères d’information.
4.5.2 Les critères d’information

Dans le processus de sélection de modèle, diverses méthodes parmi lesquelles figurent les critères
d’information sont mises à la disposition de l’analyste. Il est important de tenir compte de l’objectif
que l’on cherche à atteindre lorsqu’on sélectionne l’ordre du modèle VAR(p). Nous allons présenter
4 critères qui sont à minimiser et les comparer en fonction des propriétés qu’ils possèdent. En effet,
l’ordre choisi pour un critère est celui du modèle VAR(p) qui a la plus petite valeur du critère parmi
les modèles candidats.
On définit Mmax , l’ordre maximum que notre modèle ajusté devrait avoir.
82
1. L’erreur finale de prédiction ou FPE : ce critère a été proposé par Akaike (1969, 1971). Il pro-
pose de baser le choix du modèle sur la minimisation de l’erreur quadratique moyenne prédite
à l’horizon 1. On a
n + Km + 1 K

n + Km + 1 T
FPE(m) =
Σµ (m) =
|ΣµMV (m)|
T n − Km − 1 MV n − Km − 1
où ΣµMV (m)) est l’estimateur du maximum de vraisemblance de Σu lorsqu’un ordre égal à m est
choisi, c’est-à-dire si on a ajusté un VAR(m). L’ordre p̂(FPE) est la valeur de l’ordre du modèle
dont le critère FPE est le plus petit parmi les candidats (m = 0,1, . . . , Mmax ) ;
2. Le critère d’information d’Akaike ou AIC. Il a été proposé par Akaike (1973, 1974) et
2mK 2
AIC(m) = ln |ΣµMV (m)| + ,
n
pour (m = 0,1, . . . , Mmax ). On choisit l’ordre p̂(AIC) du modèle dont le critère AIC est mini-
misé ;
3. Le critère d’information Bayesien ou BIC. Proposé par Schwarz et al. (1978), il est égal à
2mK 2 ln n
BIC = ln |ΣµMV (m)| + ,
n
pour (m = 0,1, . . . , Mmax ). On choisit l’ordre p̂(BIC) du modèle dont le critère BIC est mini-
misé ;
4. Le critère d’information de Hannan-Quinn ou HQ. Il a été proposé par Hannan and Quinn
(1979) . On a
2mK 2 ln ln n
HQ = ln |ΣµMV (m)| + ,
n
pour (m = 0,1, . . . , Mmax ). On choisit l’ordre p̂(HQC) du modèle dont le critère HQC est mini-
misé.
Ces critères peuvent être comparés selon différentes propriétés. En effet, la notion de performance
d’un critère dépend de la définition que l’on donne à cette performance ou optimalité. Tout d’abord,
lorsque l’objectif de l’analyse est la prédiction, on choisira le FPE ou l’AIC car ils préservent l’effica-
cité asymptotique, ce que BIC et HQ ne font pas. On a que ln FPE(m) = AIC(m) + 2K/n + O(n−2 ),
ce qui permet d’affirmer que ces deux critères ont tendance à sélectionner le même modèle pour des
échantillons plus ou moins larges puisque la valeur 2K/n ne dépend pas de l’ordre m.
Déterminer la consistance d’un estimateur revient à déterminer si les probabilités asymptotiques de

sous-estimer et de surparamétrer un modèle sont toutes les deux nulles. En d’autres termes, les esti-
mateurs des ordres donnés par un critère sont dits consistants si ce critère sélectionne la plupart du
temps le vrai modèle. En ce sens, les critères BIC et HQ sont fortement consistants contrairement à
l’AIC et le FPE. Le premier est convergent en probabilité et presque sûrement pendant que le second,
qui peut avoir une vitesse de convergence faible 10 , l’est en probabilité. Il serait un compromis 11 entre
10. Olivier et al. (1997)
11. Olivier et al. (1997)
83
l’AIC et le BIC. L’AIC et le FPE ont tendance à surestimer le vrai ordre du modèle. Cependant, des
études ont prouvé que lorsque le vrai ordre est infini, l’AIC semble plus performant lorsqu’on ajuste
un modèle d’ordre fini. Par exemple, Paulsen and Tjøstheim (1985, p. 224) affirment que le bon ordre
est choisi si le nombre de composantes est élevé (K ≥ 5). Mais, Galbraith and Zinde-Walsh (2004)
concluent, dans leur étude, que le BIC est de loin plus performant que l’AIC lorsque l’on choisit la
distance de Hilbert entre le vrai modèle et le modèle estimé comme condition de performance des
critères, et ce même si le vrai processus est d’ordre infini. Les critères FPE et HQ, quant à eux, sont
aussi performants mais moins bons que le BIC. En somme, l’AIC et le FPE font choisir des ordres
supérieurs à ceux du BIC et de HQ, mais on accordera une préférence à l’AIC et au FPE dans le cas
des échantillons de petite taille car le BIC choisit des modèles sousparamétrés et fortement biaisés.
Proposition 4.10 Soit un échantillon de taille n du processus K-vectoriel yt et y−M+1 , . . . ,y0 , un en-
semble de valeurs connues à l’avance. Si on ajuste des modèles VAR(m) d’ordres égaux à 1, . . . , M à
notre échantillon, alors :
p̂(SC) ≤ p̂(HQ) ≤ p̂(AIC)pour n ≥ 16;
p̂(HQ) ≤ p̂(AIC)pour 8 ≤ n ≤ 16 et
p̂(SC) ≤ p̂(HQ)pour n ≤ 7.
Toutes ces comparaisons nous conduisent à affirmer que le critère choisi pour la sélection de modèle
dépend de l’objectif de l’analyse et des informations dont on dispose sur les données. Ces informations
peuvent être la taille de l’échantillon, la complexité du modèle, les modèles candidats, la présence du
vrai modèle parmi ceux-ci, etc. Au lieu d’avoir une préférence pour un seul critère, il sera intéressant
de comparer les modèles selon différents critères et de choisir le modèle minimisant une majorité des
critères d’information.
4.6 Validation de modèle

Après avoir sélectionné le meilleur ordre de modèle et procédé à des estimations des paramètres
associés à celui-ci, nous allons le valider. Il faudrait qu’il respecte les hypothèses sous-jacentes au
modèle. Dans cette section, nous allons présenter les tests sur les résidus du modèle afin de vérifier
s’ils sont bel et bien des bruits blancs.
4.6.1 Les résidus sont-ils des bruits blancs ? Les tests Portmanteau
On veut vérifier si les erreurs de prévision ût résultant de l’estimation de notre modèle sont des réa-
lisations d’un bruit blanc vectoriel. Comme dans le cas univarié, des tests Portemanteau multivariés
existent. Nous allons présenter la statistique de test de Portmanteau modifiée proposée par Hosking
(1980).
84
Supposons que le modèle a été estimé par la méthode des moindres carrés et est stable 12 . L’hypothèse
nulle est l’absence d’autocorrélation jusqu’à un certain retard "h" des corrélations croisées. On teste :
H0 : Rh = (R1 , . . . ,Rh ) = 0 contre H1 : Rh = (R1 , . . . ,Rh ) 6= 0,
où Ri , i ∈ 0, . . . , h représente la matrice d’autocorrélation correspondant à la matrice d’autocovariance

Γi et Ru est la matrice de corrélation correspondant à la matrice de covariances Σu .
On a Ri = D−1Ci D−1 où D est la matrice diagonale composée des racines carrées des éléments de la
diagonale de Γy (0) selon l’expression ( 4.16) où Ĉi est l’estimateur de la matrice d’autocovariance
d’un processus VAR estimé au retard i et
1 T
Ĉi = ∑ ût û0 , i = 0, . . . , h.
T t=i+1 t
Définition 4.12 (Statistique de test de Portmanteau multivarié modifiée) La statistique de Portman-

teau modifiée, notée Q̄h , est définie par
T
Q̄h = T 2 ∑ (T − i)−1tr(Ĉi0Ĉ0−1ĈiĈ0−1 ). (4.30)
i=1
Si H0 est vraie,
Q̄h ≈ χ 2 (K 2 (h − p)). (4.31)
Cette statistique est une meilleure alternative à Qh = T ∑Ti=1 tr(Ĉi0Ĉ0−1ĈiĈ0−1 ) même si elles sont asymp-
totiquement équivalentes 13 parce que certains chercheurs ont constaté que la puissance du test relié à
Qh est faible dans le cas des petits échantillons.
4.6.2 Le test de normalité de Jarque-Bera

Il s’agit de tester l’hypothèse de normalité des résidus. Plus formellement, ce test est basé sur le coef-
ficient d’aplatissement (kurtosis, K) et le coefficient d’asymétrie (skewness, S). L’idée est de vérifier si
ces coefficients sont égaux à ceux d’une variable qui suit une loi normale, c’est-à-dire, respectivement
3 et 0. On a alors
12. Voir conditions énoncées à la proposition 4.5 de Lütkepohl (2006, p. 165)

13. Notons que T (T − i)−1 −→ 1
T →+∞
85
H(0) : S = 0 et K = 3 contre H(1) : S 6= 0 ou K 6= 3.
√ √
n(K̂ − 3) nŜ
Définition 4.13 (Test de Jarque-Bera) Sous l’hypothèse de normalité √ ∼ N (0,1), √ ∼
24 6
N (0,1) et Ŝ et K̂ sont indépendants, dont les formules se trouvent à l’annexe A.1 et A.2 et la statis-
tique de Jarque-Bera
n 2 (K̂ − 3)2

JB = Ŝ + ≈ χ22 , (4.32)
6 4
où n est la taille de l’échantillon.
On rejette l’hypothèse nulle pour des valeurs élevées de JB ou encore lorsque les valeurs p sont
inférieures au seuil de significativité du test.
Remarque : Nous pouvons aussi vérifier la normalité des résidus à l’aide de graphiques tels que les
histogrammes et les Q-Q plots.
4.7 Prévisions
L’un des objectifs de l’analyse VAR est la prévision. En effet, l’analyste peut être intéressé à une
certaine période de référence t à prédire à un horizon h les composantes de la série étudiée en se
basant sur les informations disponibles. Ces informations sont l’ensemble des valeurs jusqu’au temps
t. Nous définirons t comme étant le temps de référence ou l’origine de prévision et h est appelé
l’horizon de prévision. La détermination du meilleur prédicteur, ou prédicteur optimal, sera basée sur
la minimisation de l’erreur quadratique moyenne. On considère que les paramètres du processus dont
la moyenne µ sont connus.
Soit un processus VAR(p) stable dont les variables composant le bruit blanc vectoriel sont non corré-
lées dont les paramètres sont connus qui s’écrit sous sa forme moyenne mobile infinie fondamentale :
∞
yt = µ + ∑ Φi ut−i , t ∈ Z.
i=0
De cette formule, on déduit la valeur théorique yt+h de notre processus au temps t +h qui est inconnue :
∞
yt+h = µ + ∑ Φi ut+h−i .
i=0
On désire faire la prévision à l’horizon h à partir de l’origine de temps t, c’est-à-dire prédire yt+h .
86
En pratique, puisque nous ne disposons que d’une information limitée, c’est-à-dire, de l’ensemble des
valeurs du processus avant et au temps t (yi , i ≤ t), les bruits blancs vectoriels ut+1 , . . . , ut+h ne sont
pas connus.
Le meilleur prédicteur linéaire à l’horizon h que l’on puisse obtenir se définit en fonction des erreurs.
Définition 4.14 Soit yt , un processus VAR(p) stable dont les composantes du bruit blanc vectoriel ut
sont non corrélées tel que
∞
yt = µ + ∑ Φi ut−i , t ∈ Z.
i=0
Le meilleur prédicteur linéaire à l’horizon h est

∞
yt (h) = µ + ∑ Φi ut+h−i .
i=h
Proposition 4.11 (Erreur de prévision à l’horizon h) Soit yt , un processus VAR(p) stable dont les
composantes du bruit blanc vectoriel ut sont non corrélées.
L’erreur de prévision à l’horizon h est
h−1
yt+h − yt (h) = ∑ Φi ut+h−i , (4.33)
i=0
L’espérance de l’erreur de prévision à l’horizon h est nulle et l’erreur quadratique moyenne (MSE(yt (h)))
est l’erreur quadratique moyenne sans l’information connue, c’est-à-dire
h−1
0
MSE(yt (h)) = ∑ Φi Σu Φi .
i=0
L’espérance de l’erreur de prévision à l’horizon h est nulle car l’espérance du bruit blanc vectoriel est
nulle.
Il faut noter qu’à long terme, MSE(yt (h)) tend vers la variance de yt ou Γy (0) pendant que le meilleur
estimateur linéaire tend vers la moyenne µ lorsque celle-ci constitue l’unique composante déterministe
du modèle dans sa représentation moyenne mobile.
Dans le cas indépendant, l’espérance conditionnelle, qui est le prédicteur optimal, est non biaisée et
son erreur quadratique moyenne équivaut à l’erreur quadratique moyenne conditionnelle ou sachant
l’information disponible, ys |s ≤ t. Mathématiquement, elle équivaut à MSE[Et (yt+h )|yt , yt−1 , . . . ]. Dans
cette situation, nous pourrons prédire notre série en se servant de la représentation standard de notre
processus VAR(p), c’est-à-dire :
yt = ν + A1 yt−1 + · · · + yt−p + ut ,
87
Proposition 4.12 Soit yt , un processus VAR(p) stable de bruit blanc vectoriel ut indépendant tel que
yt = ν + A1 yt−1 + · · · + yt−p + ut .
Le prédicteur optimal à l’horizon h est obtenu de façon recursive :
Et [yt+h ] = ν + A1 Et [yt+h−1 ] + · · · + A p Et [yt+h−p ],
où Et [yt+i ] = yt+i , ∀i ≤ 0.
Si, de plus, les bruits blancs sont gaussiens, des intervalles de confiance pourront être obtenus.
Proposition 4.13 Soit yt , un processus VAR(p) stable de bruit blanc vectoriel ut gaussien.
i=0 Φi ut+h−i ∼ N (0,Σy (h)).

L’erreur de prévision à l’horizon h est yt+h − yt (h) = ∑h−1
Les erreurs de prévision de chacune des composantes peuvent être aussi calculées.
Proposition 4.14 Soit yt , un processus VAR(p) stable de bruit blanc vectoriel ut gaussien.
L’erreur de prévision à l’horizon h pour une composante yk (k = 1, . . . ,K)
yk,t+h − yk,t (h) ∼ N (0,σk (h)2 ),
où σh (h)2 représente le kème élément de la diagonale de la matrice Σy (h).
4.8 Analyse structurelle d’un processus VAR(p)

Lorsque nous tentons d’ajuster un processus K-dimensionnel VAR(p), on désire plus qu’évaluer les
paramètres de ce modèle. L’analyse VAR permet de déterminer les corrélations entre K variables. On
peut aussi se permettre de déduire des relations dynamiques entre les variables du système, entre autres
vérifier s’il existe des relations de cause à effet entre celles-ci. Nous ferons donc référence à l’analyse
structurelle qui décrit un ensemble de ces méthodes. Dans la suite, nous allons présenter les concepts
de causalité au sens de Granger et de causalité instantanée. Nous allons aussi présenter comment un
changement survenu sur une variable peut en influencer une autre ainsi que la décomposition des
covariances des erreurs de prédiction.
88
Considérons un processus K-dimensionnel VAR(p) noté yt . Pour les objectifs de cette partie, nous
allons partitionner le vecteur yt en deux sous-processus, respectivement M et M − K dimensionnels zt
et xt . On a alors
" #
zt
yt = , t ∈ Z.
xt
L’exemple 4.2 est un cas particulier de partitionnement de processus. En effet, xt et zt sont respecti-
vement représentés par y2t et y1t .
4.8.1 Causalité au sens de Granger

Au chapitre 2, dans le contexte univarié, nous avons évoqué la notion de processus autorégressif cau-
sal qui se voulait une contrainte imposée sur les paramètres du modèle. En effet, l’on désirait éviter un
modèle dit explosif, c’est-à-dire prédit par le futur car, dit-on, « la cause précède l’effet ». On voulait
plutôt que le futur soit prédit par le passé. On serait tenté de confondre causalité et corrélation qui
sont, pourtant, des concepts différents et ce, même s’ils ne sont pas étrangers l’un de l’autre. Dans
le cas bivarié, par exemple, constater une corrélation entre les deux variables ne fait pas nécessaire-
ment conclure une relation de causalité entre celles-ci même si l’inverse est vrai car il peut exister une
tierce variable, les influençant toutes les deux, et qui serait de ce fait le facteur de cette corrélation. Par
exemple, dans un jeu de billards 14 , le lancer de la boule peut conduire à la chute d’une ou plusieurs
quilles. Les chutes sont donc corrélées mais c’est la boule qui les entraîne. Il est donc intéressant, au
constat d’une corrélation, de vérifier la causalité et même le sens de celle-ci. Plusieurs ( philosophes
(Aristote), physiciens (Newton), sociologues, etc.) ont défini ce concept. Par ailleurs, dans le contexte
économique, Granger (1969) et Wiener (1956) l’ont introduit. Sims (1980) propose lui aussi sa défi-
nition. Dans les deux prochaines sous-sections, nous allons présenter les notions de causalité au sens
de Granger et instantanée dans un contexte multivarié.
Définition 4.15 (Causalité au sens de Granger) xt cause zt au sens de Granger à la date t si le fait
de tenir compte des informations passées de xt améliore la prévision de zt à tout horizon de temps
h ∈ N. Mathématiquement,
E[zt |zt−1 ,zt−2 , . . . ] 6= E[zt |zt−1 ,zt−2 , . . . , xt−1 ,xt−2 , . . . ], t ∈ Z.
Selon la représentation moyenne mobile canonique, on a

∞
yt = µ + ∑ Φi ut−i = µ + Φ(B)ut , t ∈ Z où Φ(0) = IK et B, est l’opérateur retard.
i=0
14. inspiré de l’exemple de Krikorian (1934, p. 319)
89
En partitionnant yt , on obtient
" # " # " #" #
zt µ1 Φ11 (L) Φ12 (L) u1t
yt = = + , t ∈ Z,
xt µ2 Φ21 (L) Φ22 (L) u2t
" #
Φ11 (L) Φ12 (L)
où µ1 = E[zt ], µ2 = E[xt ] et la matrice est la matrice Φ(L) partitionnée selon
Φ21 (L) Φ22 (L)
les sous-processus zt et xt et où u1t et u2t sont les vecteurs de bruits blancs correspondant aux sous-
processus zt et xt .
Proposition 4.15 (Identification de la non-causalité au sens de Granger) Si le processus yt est un

VAR(p) stable, la variable xt ne cause pas zt au sens de Granger si et seulement si
Φ12,i = 0, ∀ i = 1, 2, . . . ⇐⇒ A12,i = 0, ∀ i = 1, 2, . . . ,p.
En effet, pour que xt ne cause pas zt , il faut que tous les paramètres associés à ce processus ne soient
pas inclus dans la prévision de zt . Or, zt = µ1 + Φ11 (L)u1t + Φ12 (L)u2t = µ1 + ∑∞
i=0 Φ11,i u1,t−i +
∑∞i=0 Φ12,i u2,t−i , ce qui implique que tous les coefficients Φ12,i doivent être nuls, d’où la proposition
précédente.
De plus, cette proposition montre que l’observation des matrices de coefficients Ai d’un processus
VAR(p) stable est suffisante pour prouver qu’il existe un lien de causalité au sens de Granger entre
deux partitions de ce processus. Ainsi, si on peut vérifier si xt ne cause pas zt , alors on peut aussi
vérifier si zt ne cause pas xt . Dans ce cas, on s’attend à ce que
Φ21,i = 0, ∀i = 1, 2, . . . ⇐⇒ A21,i = 0, ∀ i = 1, 2, . . . ,p
pour un processus VAR(p) stable.
Un système dans lequel les variables se causent mutuellement au sens de Granger est appelé un sys-
tème de rétroaction. Le type de système dans lequel aucune des variables ne cause l’autre sera donc
présenté
" comme
# " suit :# " #" #
zt µ1 Φ11 (L) 0 u1t
yt = = +
xt µ2 0 Φ (L) u2t
" # " # " 22 # " #" # " #
ν1 A11,1 0 zt−1 A11,p 0 zt−p u1t
= + + ... + +
ν2 0 A22,1 xt−1 0 A22,p xt−p u2t
Exemple
" 4.10 (Suite
# de l’exemple
" 4.2) Comme
#
0.6 0.2 −0.3 0
A1 = et A2 = , alors
0.3 0.7 0.1 0.1
A12,1 = 0.2 6= 0, A21,1 = 0.3 6= 0 et A21,2 = 0.1 6= 0. On en déduit que y1t cause y2t au sens de Granger
car A12,1 6= 0. y2t cause y1t au sens de Granger car A21,i 6= 0 ∀ i = 1,2.
90
4.8.2 Causalité instantanée
Définition 4.16 (Causalité instantanée) xt cause zt instantanément à la date t si et seulement si

E[zt |zt−1 ,zt−2 , . . . ,xt ,xt−1 , . . . ] 6= E[zt |zt−1 ,zt−2 , . . . , xt−1 ,xt−2 , . . . ], t ∈ Z.
Autrement dit, inclure l’information contenue dans xt au système déjà composé du passé de xt et zt
améliore la prédiction de zt . La causalité instantanée est symétrique. En effet, si xt cause instantané-
ment zt , alors zt cause instantanément xt .
Proposition 4.16 (Identification de la non-causalité instantanée) Une variable xt ne cause pas ins-
tantanément zt si et seulement si
E[u1t u02t ] = 0, t ∈ Z.
Ceci signifie qu’il n’existe pas de corrélation entre les vecteurs de bruits blancs u1t et u2t associés aux
sous-processus dont on cherche à évaluer la causalité.
Preuve : Pour ce faire, nous allons utiliser la représentation moyenne mobile orthogonale (expression
( 4.11)). On a
∞
yt = µ + ∑ Θi wt−i , t ∈ Z.
i=0
On sait que les bruits blancs wt sont non correlés. On obtient alors
" # " # " #" # " #" #

zt µ1 Θ11,0 0 w1,t Θ11,1 Θ12,1 w1,t−1
yt = = + + +...
xt µ2 Θ21,0 Θ22,0 w2,t Θ21,1 Θ22,1 w2,t−1
Il n’existe pas de causalité instantanée entre xt et zt à condition que Θ21,0 = 0,
xt = µ2 + Θ21,0 w1,t + Θ22,0 w2,t + . . . .
Ce qui conduit à affirmer que la matrice triangulaire inférieure P est une matrice bloc-diagonale car
Θ0 = Φ0 P = IK P = P avec deux blocs de 0 de dimensions ((K − M) × M) et (M × (K − M)), respecti-
vement aux coins gauche inférieur et droit supérieur de celle-ci. La matrice des variances-covariances
Σu sera donc elle aussi bloc-diagonale avec les mêmes caractéristiques que P. Il n’existera donc pas
de corrélation entre u1t et u2t .
L’analyse de la matrice des variances-covariances Σu , si elle est connue, suffira donc à confirmer ou
non l’existence d’un lien de causalité instantanée entre les deux sous-processus xt et zt .
Exemple 4.11 (Suite de l’exemple 4.2) Toujours en se servant du processus de l’exemple 4.2, on
peut déduire
" que y1t#ne cause pas instantanément y2t car E[u1t u02t ] = 0, t ∈ Z, selon la matrice
0.25 0
Σu = .
0 0.09
91
4.8.3 Tests de causalité
Dans le contexte d’un modèle VAR(p) estimé, on peut conduire des tests de causalité en remplaçant
les paramètres testés par leurs estimateurs des moindres carrés ou du maximum de vraisemblance.
Pour identifier l’absence de causalité au sens de Granger (instantanée), il faut vérifier la nullité de
certaines valeurs (ou blocs de valeurs) des matrices A1 , . . . , A p . Un test que nous choisissons pour ce
faire est le test de Wald.
On veut tester :
H0 : Cβ = c contre H1 : Cβ 6= c,
où C est une matrice de dimensions (N × (K 2 p + K)) et de rang N et c est un vecteur de dimensions
(N × 1). N est le nombre de contraintes à tester.
Proposition 4.17 (Test de Wald-Causalité au sens de Granger) 15 Soit β , le vecteur de coefficients

√ l
à estimer et β̂ , un estimateur de β et supposons T (β̂ − β ) −→ N (0,Γ−1 ⊗ Σu ). Si les ma-
T →+∞
trices ZZ 0 /T et Σˆu convergent en probabilité respectivement vers Γ et Σu et sont non singulières et
si H0 : Cβ = c est vraie, où C est une matrice de dimensions (N × (K 2 p+ K)) et de rang N, alors
l
λW = T (Cβ̂ − c)0 [C(Γ−1 ⊗ Σu )C0 ]−1 (Cβ̂ − c)) −→ χ 2 (N), (4.34)
T →+∞
où λW est appelée la statistique de Wald.
√
Le fait que cette statistique soit distribuée selon une loi khi-carrée découle du fait que T (β̂ −
l √ l
β ) −→ N (0,Γ−1 ⊗ Σu ) implique T (Cβ̂ − Cβ ) −→ N (0,C(Γ−1 ⊗ Σu )C0 ). On en déduit ainsi
T →+∞ T →+∞
l’expression ( 4.34).
Si on tient compte du fait que les matrices Γ−1 et Σu sont estimées, on peut ajuster la statistique de
Wald et une nouvelle statistique λF = λW /N est créée. Cette statistique suit une loi de Fisher à N et
KT − K 2 p − K degrés de liberté 16 .
On comparera donc ces statistiques à leurs valeurs critiques afin de rejeter ou non l’hypothèse nulle
de non-causalité au sens de Granger qui est testée.
Un test similaire de Wald est proposé pour tester la causalité instantanée. Rappelons que la non-
causalité instantanée est caractérisée par une absence de corrélation entre les composantes du bruit
blanc concernées par le test. Nous référons le lecteur à Lütkepohl (2006, pp. 104-105) pour plus de
détails.
15. Inspirée de la proposition 3.5 de Lütkepohl (2006, p. 103)
16. On peut aussi utiliser T − K p − 1, voir Lütkepohl (2006, p. 103)
92
4.8.4 Impact d’une impulsion
Prouver qu’une variable (vecteur d’une certaine dimension) ne cause pas une autre variable du système
ne signifie pas qu’il n’existe aucun lien de cause à effet entre celles-ci. Prouver le contraire ne permet
pas non plus de situer l’origine de ce lien et ce que produit cette cause. Que se passerait-il si un
choc exogène était induit à une variable du système ? Les autres variables réagiront-elles et comment
cela se fera-t-il ? Dans cette section, nous allons présenter l’impact d’une impulsion, une méthode de
l’analyse structurelle d’un processus VAR(p) stable. Deux types de chocs exogènes seront utilisés :
un choc unitaire sur les erreurs de prévision ut et un choc sur les erreurs orthogonales wt .
Choc unitaire sur les erreurs de prévision ut
Exemple 4.12 Pour illustrer cette partie, nous allons nous baser sur un exemple. Nous utiliserons le
processus VAR(1) bivarié stable de l’exemple 4.3 qui est
" # " #
y1,t 0.7 0.1
yt = = yt−1 + ut , ∀ t ∈ Z.
y2,t 0.6 0.25
" # " #
0 0
On impose que yt = µ, t < 0. Comme ν = , alors µ = , u1,0 = 1, c’est-à-dire on impose
0 0
un choc unitaire à l’erreur associée à y1,t , u2,0 = 0 et ut = 0, ∀ t 6= 0.
On a alors " #" # " # " #

0.7 0.1 0 1 1
y0 = A1 y−1 + u0 = + =
0.6 0.25 0 0 0
" #" # " #

0.7 0.1 1 0.7
y1 = A1 y0 + u1 = A1 y0 = = = première colonne de A1
0.6 0.25 0 0.6
" #" # " #

0.55 0.0950 1 0.55
y2 = A1 y1 + u2 = A1 y1 = A21 y0 = = = première colonne de A21
0.57 0.1225 0 0.57
..
.
On constate que la réponse au choc unitaire imposé à l’erreur de prédiction u1,t , après i périodes,
correspond à la première colonne de la matrice Ai1 = Φi .
Si, plutôt, on choisissait d’imposer le choc unitaire à u2,t , l’impact de cette impulsion, après i périodes,
serait la deuxième colonne de la matrice Ai1 = Φi . La matrice Φi comporte donc les impacts des
impulsions sur les erreurs de prédiction après i périodes, chacune de ces colonnes correspondant à
respectivement chacune des K (dans notre exemple ( 4.12)) variables du processus yt dans le même
ordre que le vecteur yt .
93
Maintenant, nous allons généraliser ce concept au cas où l’ordre de notre processus VAR(p) stable est
supérieur à 1 en utilisant les conclusions de notre exemple ( 4.12) et sa représentation VAR(1).
h i
Rappelons J = IK : 0 : 0 : . . . 0 .
Proposition 4.18 (Impact d’un choc unitaire) Si yt est un processus K-vectoriel VAR(p) stable alors
la matrice Φi = JAi J comprend les impacts des impulsions de chacune des K variables de yt , après i
périodes, chacune de ses colonnes correspondant respectivement aux K composantes de yt . A est la
matrice compagnon. L’élément φ jk,i de Φi représente la réaction de la j-ème variable du système au
choc unitaire subi par la variable k, après i période(s).
" #
0.12 0.26
Exemple 4.13 (Suite de l’exemple 4.2) Φ2 = comprend les impacts des impulsions
0.49 0.65
de y1,t et y2,t après 2 périodes et 0.49 est la réaction de y2,t au choc unitaire sur y1,t au temps 0 après
2 périodes.
Les impacts des impulsions peuvent être observés graphiquement.

Graphiques Les 4 graphiques de la figure ( 4.1) représentent les impacts des impulsions de l’exemple
F IGURE 4.1: Réponses aux chocs unitaires de l’exemple ( 4.13)
( 4.13). Par exemple, la réaction de y1 suite à un choc unitaire sur l’erreur u2 n’est pas immédiate,
c’est-à-dire, qu’au temps 0, la valeur de y1 reste la même. À partir de la première période après le
moment du choc, on constate une augmentation de la valeur de y1 . Celle-ci commence à baisser après
la deuxième période et semble se stabiliser à partir de la cinquième période.
Proposition 4.19 (Identification de la non-existence d’un impact à l’impulsion) Si yt est un pro-

cessus K-vectoriel VAR(p) stable alors pour j 6= k
φ jk,i = 0, ∀ i = 1, 2, . . . ⇐⇒ φ jk,i = 0, ∀ i = 1, 2, . . . ,p(K − 1).
94
Cette proposition nous fait comprendre qu’il suffit d’observer s’il n’existe aucun impact sur la variable
j après une impulsion sur la variable k sur les p(K − 1) premières périodes pour conclure que le fait
d’imposer un choc à la première n’aura aucun effet sur la seconde au fil du temps.
Remarque : Lorsque les composantes du processus yt ont des échelles différentes, il est recommandé
d’observer des chocs d’un multiple (le plus souvent une fois) de l’écart-type des erreurs. Les réponses
seront comprises dans une matrice (que nous appellerons ΦΣuk ,i ) dont l’élément φΣuk , jk,i est obtenu en
multipliant l’élément φ jk,i par l’écart-type des erreurs correspondant à la composante k.
Exemple 4.14 (choc d’un écart-type) En se servant de l’exemple illustratif du début de cette section
(exemple 4.12) et en supposant que x est l’écart-type de u1,t , on a
" #" # " # " #
0.7 0.1 0 x x
y0 = A1 y−1 + u0 = + =
0.6 0.25 0 0 0
" #" # " #

0.7 0.1 x 0.7x
y1 = A1 y0 + u1 = A1 y0 = = = x × première colonne de A1
0.6 0.25 0 0.6x
" #" # " #

0.55 0.0950 x 0.55x
y2 = A1 y1 +u2 = A1 y1 = A21 y0 = = = x× première colonne de A21
0.57 0.1225 0 0.57x
..
.
Il peut arriver qu’on cherche à observer l’effet cumulatif du choc après n périodes. Nous allons main-
tenant définir ce que nous appelons l’impact cumulatif ou les réponses cumulatives à l’impulsion.
Nous restons toujours dans le contexte d’un choc unitaire sur les erreurs de prédiction.
Proposition 4.20 Si yt est un processus K-vectoriel VAR(p) stable alors la matrice Ψn = ∑ni=0 Φi
comprend les impacts cumulatifs des impulsions de chacune des K variables de yt , après n périodes,
chacune de ses colonnes correspondant respectivement aux K composantes de yt .
L’élément ψn, jk de Ψn représente la réponse cumulative de la j-ième variable du système au choc

unitaire subi par la variable k après n période(s).
n
ψn, jk = ∑ φ jk,i .
i=0
La matrice Ψ∞ = ∑∞
i=0 Φi est appelée la matrice d’effets à long terme et
Ψ∞ = (IK − A1 − · · · − A p )−1 .
95
[ ψn, jk et Ψ∞ ]
n
ψn, jk = ∑ φ jk,i
i=0
car la somme de deux matrices de mêmes dimensions produit une matrice dont le ( j,k)-ème élément
est la somme des ( j,k)-ème éléments respectifs des deux matrices. De l’expression ( 4.12), on peut
prouver la formule de la matrice des effets à long terme. En effet, µ = ∑∞
i=0 Φi ν = (IK − A1 − A2 −
· · · − A p )−1 ν ←→ ∑i=0 Φi = (IK − A1 − A2 − · · · − A p ).
∞
Exemple 4.15 (Suite

" de l’exemple
# " 4.2) Ψ#0 ="Φ0 = I2 #
1 0 0.6 0.2 1.6 0.2
Ψ1 = Φ0 + Φ1 = + =
0 1 0.3 0.7 0.3 1.7
" # " # " #
1.6 0.2 0.12 0.26 1.72 0.46
Ψ2 = Φ0 + Φ1 + Φ2 = Ψ1 + Φ2 = + =
0.3 1.7 0.49 0.65 0.79 2.35
Graphiques cumulatifs
Les impacts cumulatifs des impulsions peuvent être observés graphiquement. Les quatre graphiques
de la figure ( 4.2) représentent les effets à long terme des chocs unitaires sur chacune des variables.
Par exemple, suite au choc unitaire sur l’erreur de y1 , la valeur de y1 augmente instantanement (au
temps 0) d’une unité comme prévu, continue d’augmenter dans le temps, semble se stabiliser entre
les temps 1 et 4 puis augmente à nouveau. Après 8 périodes, comme le montre le graphique ( 4.2), la
valeur de y1 continue d’augmenter. Il semble que ce choc a non seulement un impact instantané mais
aussi un effet de long terme sur y1 si l’on considère 8 périodes comme du long terme.
F IGURE 4.2: Réponses cumulatives aux chocs unitaires de l’exemple 4.15
Choc unitaire sur les erreurs orthogonales wt
Dans la section sur les chocs unitaires sur les erreurs de prévision, nous avons supposé qu’une seule
des variables subit un choc. Pour ce faire, nous devons croire que les chocs subis par les variables sont
96
indépendants.
Mais, la plupart du temps, il existe une probabilité non nulle qu’il y ait un lien entre les variables
étudiées. Il est donc impensable d’imposer une valeur nulle aux autres erreurs au temps 0 car cela
pourrait conduire à des conclusions « erronées » sur les vraies relations dynamiques entre les variables.
En pratique, ces variables ont quelque chose de commun qui ne peut être attribué à uniquement l’une
d’entre elles. Une façon de procéder serait d’associer toute cette composante commune à la pre-
mière variable selon l’ordre défini par le modèle VAR. Ainsi, l’innovation de la première englobe
toute la composante et l’(les) autre(s) est(sont) transformée(s) de telle sorte qu’elle(s) est(sont) « dé-
pouillée(s) » de cette composante-là. L’idée serait d’ordonner les variables de la plus exogène à la plus
endogène. On pourrait se référer à Gourieroux and Monfort (1995) pour un test sur l’exogénéité.
Il faut tenir compte de l’ordre « causal » des variables lorsqu’on définit le vecteur de bruits blancs.
En effet, celle qu’on définit comme étant la première est celle qui a le plus grand effet immédiat sur
les autres et la seconde est celle qui devrait avoir le deuxième plus grand impact instantané sur les
suivantes, mais pas sur la première, et ainsi de suite. Le modèle ordonné selon ce raisonnement est
dit "récursif" (Theil (1971)) dans le domaine de l’économétrie. Cette manière d’ordonner peut être
appelée l’ordonnancement causal de Wold. Certaines connaissances théoriques pourraient aussi être
utiles pour ordonner les variables.
Après avoir défini le bon vecteur ut , c’est-à-dire, ordonné selon les critères d’exogénéité ou d’ordre de
causalité de Wold, on utilisera la décomposition de Choleski de la matrice des variances covariances
Σu = PP0 . De cette décomposition, on parvient à la forme « orthogonale » d’un VAR(p) stable qui est :
∞
yt = µ + ∑ Θi wt−i , t ∈ Z.
i=0
De façon analogue, ce sont les éléments des matrices Θi ( i = 0, . . . ,) qui représentent les réponses aux
impulsions aux innovations. La matrice Θ0 = P montre l’ensemble des effets instantanés. L’élément
θ jk,i de Θi représente donc la réaction de la j-ième variable du système au choc d’innovation subi par
la variable k, après i période(s) (i = 0, . . . ,).
Il faut mentionner que la forme triangulaire de la matrice Θ0 = P explique les raisons pour lesquelles
il faut prendre le temps nécessaire pour bien ordonner les composantes du processus étudié. En effet,
si ces composantes sont bien ordonnées, on remarquera que les valeurs à l’extérieur de la diagonale de
cette matrice les plus élevées se trouvent sur la première ligne, puis sur la deuxième ligne, et ainsi de
suite. L’interprétation des fonctions de réponses résultantes s’en verra influencée et sera bien meilleure
si l’ordre est bien établi.
Proposition 4.21 (Identification de la non-existence d’un impact à l’impulsion orthogonale) Si yt

est un processus K-vectoriel VAR(p) stable, alors, pour j 6= k
97
θ jk,i = 0, ∀ i = 0, 1, 2, . . . ⇐⇒ θ jk,i = 0, ∀ i = 0, 1, 2, . . . ,p(K − 1).
En d’autres termes, il suffit d’observer la réponse immédiate et l’impact sur les p(K − 1) premières
réponses pour conclure l’absence totale de réponse sur les erreurs orthogonales.
Exemple 4.16 (Suite de l’exemple 4.3) Supposons le processus VAR(1) stable yt bivarié tel que
" # " #
y1,t 0.7 0.1
yt = = yt−1 + ut , ∀ t ∈ Z.
y2,t 0.6 0.25
On suppose que " #

0.49 0.21
Σu = .
0.21 0.25
La matrice P, obtenue par la décomposition de Choleski, est

" #
0.7 0
P=
0.3 0.4
et représente l’ensemble des effets immédiats au temps 0. Selon la propriété ( 4.21), nous avons juste
besoin de connaître les p(K − 1) premières réponses afin de conclure l’absence de réponse impulsion-
nelle orthogonale. Ainsi, nous observerons juste la matrice Θ1 = P en sus de la matrice Θ0 = P.
Φi = Ai et Θi = Φi P.
Donc l’impact d’un choc unitaire sur les y2,t au temps 0 après une période est
" #
0.52 0.04
Θ1 = Φ1 P =
0.495 0.1
et est la réaction de y2,t au choc orthogonal sur y1,t au temps 0 après une période.
Selon cet exemple, il y a présence de réponse impulsionnelle. On peut observer graphiquement ces
fonctions à la figure ( 4.3) :
98
F IGURE 4.3: Réponses aux chocs orthogonaux de l’exemple 4.16
Limites de la méthode
Il existe des limites à cette méthode de l’impulsion. En effet, la plupart du temps, toutes les variables
du système ne sont pas incluses dans le modèle. Le modèle VAR à l’étude serait donc une résul-
tante du choix du nombre de composantes et peut s’avérer incomplet parce que certaines variables
importantes pourraient avoir été omises. Le fait d’omettre d’importantes variables peut influencer les
réponses impulsionnelles de façon considérable et rendre les interprétations structurelles inutilisables.
Cependant, on peut toujours faire de la prévision. L’interprétation peut être aussi rendue ardue à cause
des problèmes d’échelle, le type de séries utilisées (ajustement, désaisonnalisation, agrégation, etc.)
4.8.5 Décomposition des covariances des erreurs de prédiction

Dans cette section, nous allons présenter un autre outil qui permet d’interpréter les modèles VAR. En
effet, si on est capable de ressortir les éléments d’erreurs qui influencent le système, on peut utiliser
un outil qui est la décomposition des covariances des erreurs de prédiction.
Pour ce faire, nous allons nous servir de la forme moyenne mobile orthogonale d’un processus VAR(p)
qui s’écrit yt = µ + ∑∞
i=0 Θi wt−i , t ∈ Z. Il faut rappeler que sous cette forme, les erreurs ne sont pas
corrélées et leur matrice de variances covariances est la matrice identité IK .
Sous cette forme (orthogonale) 17 , l’erreur associée au meilleur prédicteur de y à l’horizon h à partir
de l’origine t est
h−1
yt+h − yt (h) = ∑ Θi wt+h−i .
i=0
L’erreur associée au meilleur prédicteur de yk,t , où y j,t est la j-ème composante du processus K-
17. Voir l’expression ( 4.33) pour une formule équivalente d’erreur de prévision
99
vectoriel, est
h−1 K
yk,t+h − yk,t (h) = ∑ (θ j1,i w1,t+h−i + · · · + θkK,i wK,t+h−i ) = ∑ (θ jk,0 w1,t+h + · · · + θ jk,h−1 wK,t+1 ),
i=0 k=1
où θ jk,i est jk-ème élément de la matrice Θi .
L’erreur quadratique moyenne de cette composante est égale à
K K h−1
MSE(y j,t (h)) = 2
∑ (θ jk,0 2
+ · · · + θ jk,h−1 ) = ∑ ∑ (e0j Θi ek )2 , (4.35)
k=1 k=1 i=0
car les erreurs wt sont non corrélées, ont une moyenne nulle et leur matrice de variances-covariances
est la matrice identité IK . Le vecteur e0j est la j-ème colonne de cette matrice.
Cette expression ( 4.35) est vue comme la participation (contribution) à la variance des erreurs de
prévision de la variable y j des erreurs wk,t associées à la composante yk .
En termes de proportions, on obtient

0
∑h−1
i=0 (e j Θi ek )
2
ω jk,h = . (4.36)
MSE(y j,t (h))
Chacune des proportions ω jk,h est interprétée comme la portion de la variance des erreurs de prédiction
de y j qui est influencée par la variance des erreurs de yk .
Proposition 4.22 (Décomposition des covariances des erreurs de prédiction) Soit yt , un processus
K-vectoriel stable qui s’écrit yt = µ + ∑∞
i=0 Θi wt−i , t ∈ Z. La participation ou contribution à la va-
riance des erreurs de prévision de la variable y j des erreurs wk,t associées à la composante yk est
K K h−1
MSE(y j,t (h)) = 2
∑ (θ jk,0 2
+ · · · + θ jk,h−1 )= ∑ ∑ (e0j Θi ek )2 , (4.37)
k=1 k=1 i=0
et, en termes de proportions, est
0
∑h−1
i=0 (e j Θi ek )
2
ω jk,h = . (4.38)
MSE(y j,t (h))
Interprétation : Ici, on veut mesurer l’influence que chaque variable a sur l’autre dans sa prévision. Plus
grande sera la proportion, plus grand sera considéré son impact. Selon Stock and Watson (2001), cette
proportion ressemble à une sorte de coefficient de détermination partiel pour l’erreur de prévision.
4.9 Construction d’un modèle VAR

Dans cette section, nous faisons un récapitulatif des étapes de la modélisation VAR. Bâtir un modèle
VAR répond à deux objectifs principaux que sont la prévision et l’analyse structurelle. Tout d’abord,
100
l’analyste doit trouver, à l’aide de méthodes telles que les critères de sélection et les matrices de cor-
rélation, le bon ordre du VAR. Par la suite, on estime la ou les matrices de coefficients ainsi que
le vecteur de constantes s’il y a lieu. On peut même estimer la matrice des covariances des innova-
tions. Après la phase d’estimation, vient l’étape de l’adéquation du modèle. À cette étape, on vérifie
si les résidus du modèle sont des bruits blancs. On veut savoir si la moyenne est nulle, la variance
est constante. On peut aussi vérifier l’autocorrélation en faisant un test de Portmanteau. La norma-
lité n’étant pas "obligatoire", le fait que les résidus soient des bruits blancs vectoriels n’étant pas une
condition nécessaire, nous n’allons pas être rigoureux si ces postulats ne sont pas respectés. On peut
aussi vérifier la stabilité du modèle en analysant les modules des valeurs propres de la matrice compa-
gnon. Une fois le modèle adéquat, nous procédons aux phases de prévision et d’analyse structurelle.
L’analyse structurelle consiste en l’analyse des liens dynamiques entre les variables du modèle en fai-
sant les tests de causalité au sens de Granger et instantanée, les fonctions de réponse impulsionnelles
et la décomposition des covariances des erreurs de prédiction.
101
Chapitre 5
RETOUR À L’APPLICATION :
ANALYSE MULTIVARIÉE
Au chapitre 3, nous avons analysé cinq séries à l’aide de la méthode univariée de Box et Jenkins.
Dans ce chapitre, nous allons essayer d’ajuster un modèle de type VAR au processus vectoriel dont
les composantes sont les cinq variables étudiées au chapitre 3. Après avoir validé le modèle obtenu
à l’aide des méthodes décrites au chapitre 4, nous allons évaluer les liens entre les 5 séries à l’aide
de l’analyse structurelle qui regroupe les méthodes de causalité au sens de Granger, de réponse à
l’impulsion et de décomposition de la variance des erreurs de prédiction. Par ailleurs, tout en vérifiant
si le modèle final obtenu produit de bonnes prévisions, nous allons le comparer à chacun des modèles
univariés obtenus au chapitre 3 et conclure si le fait d’utiliser les modèles VAR(p) apporte une valeur
ajoutée à la prévision. Pour ce faire, nous allons utiliser des méthodes d’observations de graphiques de
prévisions et de calcul de mesure d’erreurs à minimiser. L’analyse de la causalité au sens de Granger
nous permettra de vérifier s’il existe des liens de cause à effet entre les variables (ou vecteurs de
variables) à l’étude. Dans la partie sur l’impact de l’impulsion, nous allons mesurer l’effet d’un choc
subi par les investissements gouvernementaux sur les autres variables. Les décisions d’investissements
gouvernementales influencent-elles les variables reliées au taux de chômage, au produit national brut,
aux consommations, aux investissements privés et aux investissements gouvernementaux ? Ces effets
sont-ils à court terme ? à long terme ? inexistants ? Les objectifs de ce chapitre comportent donc deux
volets principaux : l’analyse structurelle (décrite plus haut) et la comparaison des modèles univariés et
multivarié via les prévisions, laquelle conduira en la conclusion de la valeur ajoutée de la modélisation
VAR par rapport à la modélisation de Box et Jenkins.
5.1 Observation graphique des cinq séries transformées

Avant de commencer notre analyse, il est important de s’assurer que les séries utilisées sont toutes
stationnaires. Du chapitre 3 sur l’analyse univariée, nous utilisons les séries transformées ou non
selon la méthode de Box-Cox. Nous voulons être comparer les modèles univariés du chapitre 3 à celui
102
F IGURE 5.1: Graphe des 5 séries transformées mais non différenciées
de ce chapitre en appliquant la modélisation VAR au même vecteur de variables, d’où l’utilisation des
mêmes séries stationnaires.
Nous observons, sur ce graphique 5.1, les variables transformées mais non encore différenciées
√
taux de chômage, produit national brut0.2 , consommation1/3 , investissements privés0.2 et investisse-
ments gouvernementaux/100. Nous avons changé l’échelle de la dernière variable (celle des inves-
tissements gouvernementaux) pour le but de la représentation graphique. Cependant, dans l’analyse,
nous utiliserons la variable investissements gouvernementaux telle quelle car c’est la variable utilisée
dans le chapitre 3. Par ailleurs, nous allons différencier ces séries transformées comme au chapitre
3 pour obtenir la stationnarité. Il faut signifier que seule la série "investissements gouvernementaux"
n’est pas transformée, c’est-à-dire qu’on ne lui applique pas de transformée de Box-Cox, comme au
chapitre 3.
5.2 Analyse multivariée : 5 variables

Soit yt , le processus faisant l’objet de l’analyse. yt représente l’ensemble des 5 composantes sta-
√
tionnaires y1,t , y2,t , y3,t , y4,t et y5,t . Elles sont respectivement les séries taux de chômage diffé-
renciée, produit national brut0.2 différenciée, consommation1/3 différenciée, investissements privés0.2
différenciée et investissements gouvernementaux différenciée.
103
5.2.1 Choix de l’ordre et estimation
Nous choisirons le modèle à l’aide des critères d’information vus à la section 4.5.2. Le tableau 5.1
nous permet de choisir un VAR(1).
TABLE 5.1: Critère BIC de modèles concurrents selon l’ordre

Décalage MA(0) MA(1) MA(2)
AR(0) -24.79735 -24.51729 -23.82163
AR(1) -25.26752 -25.00627 -24.51367
AR(2) -24.71623 -24.52099 -24.01617
Nous constatons que le critère BIC du modèle VAR(1) sélectionné est le minimum de toutes les valeurs
présentées dans le tableau. Pour confirmer ce choix ou l’infirmer, nous allons le comparer au modèle
VAR(4), qui, lui, a été proposé par la représentation schématique de l’autorégression partielle (tableau
5.2). L’écriture du signe + ( respectivement -) signifie que le coefficient est > (respectivement < - )
2* erreur-type, . signifie qu’il est compris entre -2* erreur-type et 2* erreur-type. On remarque que
l’autorégression partielle est non significative à partir du retard 5, d’où le choix du VAR(4). En effet,
nous n’avons que des "points" à partir du retard 5.
TABLE 5.2: Représentation schématique de l’autorégression partielle

Variable/Retard 1 2 3 4 5 6
y1 ..-.. .-... ..... ..-.+ ..... .....
y2 ..+.. +.... ..... ..... ..... .....
y3 ...+. ..... ..+.. ..... ..... .....
y4 ..++. +.... +.... +.+.. ..... .....
y5 ....+ ..... .+–+ .+–. ..... .....
Nous poursuivrons l’analyse avec un VAR(1) car, non seulement certains de ses critères d’informa-
tion sont plus petits que ceux du VAR(4) (BIC=-3146.5 1 et HQC= -3228.52 pour le VAR(1) contre
BIC=-2959.73 et HQC=-3177.06) mais aussi il est beaucoup plus parcimonieux. Nous aurons donc
30 valeurs à estimer, c’est-à-dire, la matrice des coefficients (25 valeurs) ainsi que le vecteur des
constantes (5 valeurs) au lieu de 105 valeurs pour un VAR(4). Nous pourrons aussi estimer la matrice
des covariances des innovations.
Nous obtenons le système d’équations suivant :

1. Dans SAS, Proc VARMAX utilise deux formules de calculs des critères d’information. Une valeur est calcu-
lée pour la détermination de l’ordre (OPTION=MINIC, voir http://support.sas.com/documentation/cdl/en/
etsug/68148/HTML/default/viewer.htm#etsug_varmax_details17.htm) et l’autre est utilisée pour les comparai-
sons de modèles (voir http://support.sas.com/documentation/cdl/en/etsug/68148/HTML/default/viewer.
htm#etsug_varmax_details40.htm#etsug.varmax.varmmdc). Cette valeur ainsi que celles des autres critères présen-
tés sont donc les résultats des calculs de la deuxième méthode.
104
   
0.04994 0.17311 −2.06806 −0.91612 −0.50244 −0.00042
 0.00357   −0.00475 0.12653 0.07930 0.03055 −0.00010 
   
   
 0.02872  +  0.01576 −0.52652
yt =  0.09073 0.34211 0.00042  yt−1 +ut ,
 
 −0.01219   0.04083 −0.79804 0.68561 0.34137 0.00006 
   
2.02665 0.65153 129.82695 −22.60118 −44.70421 0.44250

(5.1)
où le processus yt représente l’ensemble des 5 composantes stationnaires y1,t , y2,t , y3,t , y4,t et y5,t . Elles
√
sont respectivement les séries taux de chômage différenciée, produit national brut0.2 différenciée,
consommation1/3 différenciée, investissements privés0.2 différenciée et investissements gouvernemen-
taux différenciée. Cette équation nous permet par la même occasion d’observer les valeurs de la ma-
trice compagnon de dimensions (5 × 5). La matrice compagnon est tout simplement la matrice des
coefficients puisque nous avons un VAR(1). Les modules des racines du polynôme caractéristique
associé à cette matrice sont tous inférieurs à 1. Ils sont égaux à 0.5068, 0.5148, 0.5148, 0.0359 et
0.2865. On peut conclure que le processus obtenu est stable.
On constate dans le tableau 5.3 que seulement quelques uns des coefficients sont significatifs. Par
exemple, pour y1,t (la variable reliée au taux de chômage), on constate que la constante et les coeffi-
cients associés à y1,t−1 et y3,t−1 sont significatifs, donc non nuls.
TABLE 5.3: Représentation schématique des paramètres estimés

Variable/Retard Constante AR1
y1 + +.-..
y2 + ..+..
y3 + ...+.
y4 - ..++.
y5 . ....+
Un modèle réduit obtenu à partir de l’omission de certains coefficients dont les valeurs p des tests de
nullité sont supérieures au seuil de 5% pourrait s’avérer meilleur. Pour l’instant, nous allons analyser
le modèle obtenu et vérifier s’il est adéquat.
TABLE 5.4: Matrice des corrélations des innovations estimée

Variable u1 u2 u3 u4 u5
u1 1.00000000 -0.5398246 -0.24001330 -0.4542489 0.07266148
u2 -0.53982456 1.0000000 0.48448140 0.7844645 -0.10814709
u3 -0.24001330 0.4844814 1.00000000 0.1754116 0.05247045
u4 -0.45424890 0.7844645 0.17541160 1.0000000 -0.13200471
u5 0.07266148 -0.1081471 0.05247045 -0.1320047 1.00000000
On donne la matrice de corrélations des innovations au tableau 5.4. On constate que les innovations
sont toutes corrélées entre elles avec des valeurs faibles pour les corrélations entre les innovations de
105
la variable y5 et celles des autres composantes. Par ailleurs, u2 est assez fortement corrélée avec trois
des quatres autres innovations de variables. Nous avons des valeurs assez importantes pour u2 avec
des valeurs qui sont supérieures à 0.1 en valeur absolue, la plupart d’entre elles (3 plus précisément)
étant supérieures à 0.48. u3 est la plus fortement corrélée à u2 (valeur de 0.4845). Les coefficients de
corrélation croisée entre les innovations de y4 et celles de y1 et y2 sont assez élevées. Nous vérifierons
aux sections sur l’analyse structurelle notamment aux sections 5.2.3, 5.3.3 et 5.3.4 si ces liens sont
assez importants pour influencer les résultats des analyses que nous faisons.
5.2.2 Validation du modèle

Des tests sur les résidus nous permettront de valider si ce modèle est satisfaisant. En effet, on veut
vérifier s’ils forment un bruit blanc vectoriel.
Selon le tableau 5.5, la plupart des corrélations croisées sont significatives entre les résidus aux retards
2 et 4. On constate que û5,t est seulement corrélé à û1,t−3 . Par ailleurs, les valeurs de la statistique
Portemanteau de Hosking de test de nullité des corrélations jusqu’à l’ordre i, i = 2, . . . , 5 ont été
repertoriées dans le tableau 5.6. À un seuil de 5%, l’hypothèse nulle d’absence de corrélation entre
les résidus est rejetée. On conclut qu’il existe des liens entre les séries à l’étude.
TABLE 5.5: Représentation schématique des corrélations croisées des résidus

Variable/Retard 0 1 2 3 4 5
y1 +—. ..... ....- ..... ...+. .....
y2 -+++. ..... -.... ..... ....+ .....
y3 -+++. ..... ..... ..... ..... +....
y4 -+++. ..... -...+ ..... ...-. .....
y5 ....+ ..... ..... -.... ..... .....
TABLE 5.6: Test du Portemanteau pour corrélations croisées des résidus

Jusqu’au retard DDL Statistique khi-2 p-valeur
2 25 42.40 0.0163
3 50 75.54 0.0113
4 75 167.47 <0.001
5 100 191.56 <0.0001
On a aussi effectué des tests de normalité de Jarque-Bera et ARCH sur les résidus. Du tableau 5.7, on
déduit que seulement û2,t et û4,t sont gaussiens. Cette normalité est confirmée à l’aide des graphiques
5.2 et 5.3. Les histogrammes et QQ-plots montrent bien qu’une loi normale de moyenne nulle s’ajuste
bien aux erreurs de prévision û2,t et û4,t . Le manque de normalité empêche la construction d’intervalles
de prévision pour les variables dont les résidus ne sont pas gaussiens. Une méthode, celle du bootstrap
est une solution pour construire des intervalles non-paramétriques. On peut se référer à Hyndman and
Athanasopoulos (2018), Bühlmann (1997), Vogel and Shallcross (1996), Politis and Romano (1994)
pour diverses approches de cette méthode. Par ailleurs, il n’y a pas de variance hétéroscédastique
106
selon le test ARCH. Les p-valeurs des tests ARCH sur chacun des résidus des 5 variables ne sont pas
significatives. En effet, elles sont toutes supérieures au seuil de 5%.
TABLE 5.7: Test du bruit blanc du modèle à une variable

Variable Statistique khi-2 (Normalité) p-valeur Statistique F (test ARCH) p-valeur
y1 61.79 <0.0001 1.00 0.3199
y2 0.77 0.6791 0.53 0.4690
y3 33.52 <0.0001 1.10 0.2967
y4 2.55 0.2794 0.24 0.6243
y5 26.62 <0.0001 3.12 0.0794
F IGURE 5.2: Diagnostics graphiques de normalité des erreurs de prévision associées à la série "produit
national brut" stationnarisée
Enfin, l’analyse de la variance de chacun des modèles univariés estimés (tableau 5.8) permet de
conclure qu’ils sont tous adéquats car les statistiques F sont toutes significatives. On a voulu tester
si chacun des modèles représentés par chacune des équations du système d’équations 5.1de notre
processus yt est adéquat. En effet, les p-valeurs sont significatives.
TABLE 5.8: Diagnostics ANOVA du modèle à une variable

Variable R-carré Écart-type Valeur F p-valeur
y1 0.3936 0.08395 19.87 <0.0001
y2 0.1720 0.00942 6.36 <0.0001
y3 0.1024 0.02826 3.49 0.0051
y4 0.2752 0.03224 11.62 <0.0001
y5 0.2182 7.83646 8.54 <0.0001
Les tests effectués montrent que les résidus ne forment pas un bruit blanc vectoriel. (Lütkepohl, 2006,
p. 157) affirme que l’on ne doit pas être rigoureux par rapport au fait que les résidus ne forment pas
107
F IGURE 5.3: Diagnostics graphiques de normalité des erreurs de prévision associées à la série "Inves-
tissements privés" stationnarisée
un bruit blanc vectoriel si l’objectif de l’analyste est la prévision et tant que le modèle obtenu produit
de bonnes prévisions.
108
5.2.3 Causalité au sens de Granger et impact d’une impulsion
Nous avions remarqué que les tests sur les résidus montraient qu’ils étaient corrélés. Nous allons donc
nous attarder sur les impacts orthogonaux de l’ordre de deux écarts-types et leurs réponses. L’ordre
dans lequel se trouvent les variables a été déterminé tout d’abord de façon arbitraire puis en se ba-
sant sur les équations du modèle obtenu et la plupart des coefficients significatifs car peu importe
l’ordre des variables, les équations demeurent les mêmes . Nous avons relevé, pour chaque équation,
les variables qui influençaient significativement la variable dépendante et essayé de les ordonner se-
lon "leurs forces d’impact". Nous allons tout d’abord procéder dans l’ordre suivant : dunempmod 2 ,
dgnpmod 3 , dconsummod 4 , dprinvmod 5 et dgovinvmod 6 . Puis nous allons utiliser l’ordre dprinvmod,
dconsummod, dgnpmod, dunempmod et dgovinvmod. Il devrait peut-être y avoir une différence mais
nous allons nous en assurer en procédant à des vérifications.
Dans cette section, nous allons seulement nous focaliser sur l’analyse de l’impact des décisions d’in-
vestissements gouvernementaux sur les composantes de notre système. Nous avions remarqué que
dans le modèle obtenu, les coefficients associés à la variable "investissements gouvernementaux"
n’étaient pas significatifs. Il semble donc qu’elle n’a pas d’influence mais cette affirmation sera véri-
fiée à travers les tests. Pour connaître l’impact des autres composantes, le lecteur pourra se référer au
code informatique présent à l’annexe pour observer et constater les résultats obtenus. Mais avant cela,
nous allons tester la causalité au sens de Granger.
Causalité au sens de Granger
Pour confirmer les suppositions faites sur la variable "investissements gouvernementaux", nous avons
testé deux hypothèses nulles qui sont :
1. Le vecteur constitué des variables associées au taux de chômage (y1,t ), au produit national brut
(y2,t ), aux consommations (y3,t ) et aux investissements privés (y4,t ) ne cause pas le vecteur
constitué de la variable associée aux investissements gouvernementaux (y5,t ).
2. Le vecteur constitué de la variable associée aux investissements gouvernementaux (y5,t ) ne
cause pas le vecteur constitué des variables associées au taux de chômage (y1,t ), au produit
national brut (y2,t ), aux consommations (y3,t ) et aux investissements privés (y4,t ).
Les résultats du test de causalité présents dans le tableau 5.9 montrent qu’il n’y a pas de lien de cause
à effet entre les sous-vecteurs sus-mentionnés.
p
2. (1 − B) (unemp)
3. (1 − B)gnp0.2
4. (1 − B)consum1/3
5. (1 − B)prinv0.2
6. (1 − B)govinv
109
TABLE 5.9: Test de Wald de la causalité au sens de Granger
Test DDL Statistique khi-2 p-valeur
1 4 2.96 0.5649
2 4 3.20 0.5253
Impact sur l’erreur orthogonalisée associée à la série "investissements gouvernementaux"
Les graphiques 5.4 et 5.5 montrent les réponses de chacune des composantes à un choc de deux
erreurs-types sur les erreurs orthogonalisées w5,t sur un espace de temps de 12 retards lorsque nous
avons cet ordre : taux de chômage, produit national brut, consommations, investissements privés,
investissements gouvernementaux. Nous changerons l’ordonnancement des composantes tout en gar-
dant notre variable d’intérêt en cinquième position. Cette méthode nous permettra de démontrer que
l’ordre dans lequel les variables sont placées a une importance.
F IGURE 5.4: Réponses à l’impact sur les erreurs orthogonalisées de la série "investissements gouver-
nementaux" stationnarisée
À cause de l’ordre, les impacts instantanés sont nuls sur les 4 premières composantes. Par ailleurs,
on remarque même qu’aucun effet sur celles-ci n’est significatif par la suite. Par ailleurs, on constate
que les réactions de la variable associée au taux de chômage sont positives et le demeurent tout en
diminuant et convergeant vers l’équilibre de 0. Elles sont significatives aux périodes 0, 1 et 2.
Les graphiques 5.6 et 5.7 montrent les réponses de chacune des composantes à un choc de deux
erreurs-types sur les erreurs orthogonalisées w1,t sur un espace de temps de 12 retards dans le second
cas.
110
F IGURE 5.5: Réponses à l’impact sur les erreurs orthogonalisées de la série "investissements gouver-
nementaux" stationnarisée (suite)
F IGURE 5.6: Réponses à l’impact sur les erreurs orthogonalisées de la série " investissements gouver-
nementaux" stationnarisée
À cause de l’ordre, les impacts instantanés des 4 premières composantes sont nuls. Par ailleurs, on
remarque même qu’aucun effet sur celles-ci n’est significatif.
111
F IGURE 5.7: Réponses à l’impact sur les erreurs orthogonalisées de la série " investissements gouver-
nementaux" stationnarisée (suite)
On constate que nous avons la même courbe de fonction de réponse impulsionnelle qu’au cas 1 pour la
variable y5,t . Comme l’a montré l’équation univariée associée à y5,t dans le modèle final, cette compo-
sante n’est influencée que par elle-même et n’influence aucune autre composante du modèle et ce, peu
importe l’ordre dans lequel les autres composantes sont placées. L’augmentation de deux erreurs-types
des erreurs de prévision entraîne des réactions qui ne sont significatives que sur 2 périodes.
5.2.4 Décomposition de la variance de l’erreur de prédiction

L’analyse de la décomposition de la variance des erreurs de prédiction 7 a permis de constater que
y5 demeure isolée quelque soit l’ordre. En observant le tableau B.32, on peut conclure que y1 9 a un
8
impact sur y1 , y2 10 , y3 11 et y4 12 . y2 est causal pour y1 , y2 , y3 et y4 . y3 a une influence considérable

sur y3 et y4 . Enfin, y4 a un effet important sur y4 et a beaucoup moins d’impact sur y3 avec une part
maximale égale à 4.573%. y5 n’influence pas et n’est pas influencée. Du tableau B.33, nous constatons
le rôle prépondérant de y4 mais aussi celui de y3 dans la participation à la variance des innovations des
cinq composantes. y2 et y1 n’influencent qu’elles-mêmes mais y1 a un impact faible sur y3 .
7. Voir tableaux B.32 et B.33 en annexe
8. La variable associée aux investissements gouvernementaux ou dgovinvmod
9. La variable associée au taux de chômage ou dunempmod
10. La variable associée au produit national brut ou dgnpmod
11. La variable associée aux consommations ou dconsummod
12. La variable associée aux investissements privés ou dprinvmod
112
5.2.5 Conclusion
En somme, on constate que la composante « investissements gouvernementaux » n’impacte pas les
autres composantes. Ceci confirme bien les raisons pour lesquelles cette variable n’est prédite que par
elle-même dans le système d’équations du modèle final car tous les coefficients du modèle associés
aux autres variables ne sont pas significatifs. Elle ne s’influence qu’elle-même. Les résultats du test
de causalité au sens de Granger le confirment bien aussi. On conclut alors qu’il faudrait l’étudier
séparement (étude faite au chapitre 3) et procéder à une analyse conjointe des 4 autres composantes.
5.3 Analyse multivariée : Modèle à 4 variables

5.3.1 Choix de l’ordre, estimation et validation du modèle
En suivant les mêmes méthodes que précédemment, nous avons ajusté un VAR(1) 13 .
   
0.04869 −2.06470 0.17115 −0.92894 −0.49089
   
 0.00386   0.12575 −0.00429 0.08227 0.02788 
yt = 
 +
  −0.52992 0.01775
 yt−1 + ut , (5.2)
 0.02999   0.10372 0.33041 

−0.01201 −0.79853 0.04112 0.68750 0.33967
où le processus yt représente l’ensemble des 4 composantes stationnaires y1,t , y2,t , y3,t et y4,t . Elles
√
sont respectivement les séries taux de chômage différenciée, produit national brut0.2 différenciée,
consommation1/3 différenciée, et investissements privés0.2 différenciée.
Les tests de validation ont conduit aux mêmes conclusions qu’à la section sur le modèle à 5 va-
riables 14 .
5.3.2 Prévisions
Sur les graphiques 5.8, 5.9, 5.10 et 5.11, on observe que le modèle produit de bonnes prévisions. Par
ailleurs, en comparant les prévisions des modèles obtenus selon la méthode de Box et Jenkins (ligne
et cercles verts) au chapitre 3 à notre modèle VAR(1) (ligne et cercles bleus), nous constatons que ce
dernier est, de façon générale, meilleur. Les ligne et cercles rouges de chaque graphique représentent
le tracé de la série correspondant à l’énoncé. Les bandes de confiance sont celles obtenues à partir du
modèle VAR qui semblent moins larges que celles des modèles univariés 15 . Il faut noter que, selon les
tests de validation, seuls les résidus des variables "produit national brut" et "investissements privés"
sont gaussiens. Nous traçons donc uniquement les bandes de confiance de ces variables. La plupart du
temps, les prédictions de celui-ci sont plus proches des observations que celles des modèles univariés
13. Le lecteur pourra se référer au code SAS pour plus de détails sur l’analyse et les résultats obtenus
14. Pour plus de détails, voir le code informatique
15. Voir graphiques en annexe
113
de Box et Jenkins. Il est possible d’obtenir des intervalles de prévision pour les résidus non gaussiens
grâce à des méthodes non paramétriques comme le bootstrap.
114
F IGURE 5.8: Prévisions de la série "taux de chômage"-ligne et cercles rouges (tracé de la série)-ligne
et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié)
Nous calculons l’écart quadratique prévisionnel entre les prévisions et les valeurs réelles correspon-
dantes. Nous avons tronqué les séries originales de 4, 8 et 12 dernières périodes et nous comparons
les modèles univariés et multivarié dans chaque cas. Ces valeurs sont résumées dans le tableau 5.10.
TABLE 5.10: Tableau de comparaison des modèles univariés et multivarié pour chaque série selon la
valeur de l’erreur quadratique prévisionnelle aux 4, 8 et 12 dernières périodes tronquées
Univarié Var(1)
Longueur de troncature 4 8 12 4 8 12
Taux de chômage 0.4679 4.0829 3.6931 0.1262 2.2431 1.4024
Produit national brut 2763.56 4462.88 1930.38 2122.99 3149.09 1653.32
Consommations 281.41 469.54 1701.71 105.09 186.49 1135.82
Investissements privés 1726.75 5512.43 5423.99 753.40 613.14 1871.82
L’erreur quadratique prévisionnelle 16 de notre méthode multivariée est toujours inférieure à celle de
chacun des modèles univariés. Nous pouvons conclure, au vu des graphiques de prévisions et du calcul
de la mesure d’erreur que le modèle VAR(1) a amélioré la prévision de nos séries comparativement
aux modèles univariés du chapitre 3.
Il serait possible d’effectuer une comparaison de ces modèles basée sur l’erreur moyenne de prévi-
1
16. Elle est égale à ∑ (yi,t − ŷi,t )2 , où T est la taille de la série tronquée
cardT t∈T
115
F IGURE 5.9: Prévisions de la série "produit national brut"-ligne et cercles rouges (tracé de la série)-
ligne et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié)
sion 17 qui, elle, implique de calculer des intervalles de confiance. Les résidus obtenus du modèle
VAR(1) de deux de nos séries n’étant pas gaussiens, les intervalles de confiance calculés n’ont aucune
interprétabilité et ne sont donc pas valides. Par contre, il est possible d’employer une technique de
rééchantillonnage, celle du bootstrap afin de calculer des intervalles de confiance. Le lecteur intéressé
pourra notamment se référer à Hyndman and Athanasopoulos (2018), Bühlmann (1997), Vogel and
Shallcross (1996), Politis and Romano (1994) pour une connaissance plus approfondie de diverses
approches de cette méthode dont le "moving block bootstrap", le "sieve bootstrap" et le "stationary
bootstrap".
5.3.3 Causalité au sens de Granger

Nous avons effectué des tests de causalité au sens de Granger. Sachant que dans un modèle théorique
VAR(1), l’absence de causalité est traduite par la nullité de certains coefficients ou sous-matrices de
la matrice compagnon, nous nous sommes quelque peu basés sur la représentation schématique des
paramètres estimés de la table 5.3 selon la significativité afin de déterminer la subdivision du vecteur
yt en sous-vecteurs xt et zt .
Nous avons donc testé quelques hypothèses nulles qui sont :

1
17. Elle est égale à ∑ q̂i,t , où q̂i,t est la demi-longueur de l’intervalle de prévision pour chaque t ∈ T
cardT t∈T
116
F IGURE 5.10: Prévisions de la série "consommation"-ligne et cercles rouges (tracé de la série)-ligne
et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié)
1. Le vecteur constitué de la variable associée au produit national brut (y2,t ) ne cause pas le vecteur
constitué des variables associées au taux de chômage (y1,t ), aux consommations (y3,t ) et aux
investissements privés (y4,t ) ;
2. Le vecteur constitué des variables associées au taux de chômage (y1,t ), aux consommations (y3,t )
et aux investissements privés (y4,t ) ne cause pas le vecteur constitué de la variable associée au
produit national brut (y2,t ) ;
3. Le vecteur constitué des variables associées au taux de chômage (y1,t ) et au produit national
brut (y2,t ) ne cause pas le vecteur constitué des variables associées aux consommations (y3,t ) et
aux investissements privés (y4,t ) ;
4. Le vecteur constitué des variables associées aux consommations (y3,t ) et aux investissements
privés (y4,t ) ne cause pas le vecteur constitué des variables associées au taux de chômage (y1,t )
et au produit national brut (y2,t ) ;
5. Le vecteur constitué de la variable associée au taux de chômage (y1,t ) ne cause pas le vecteur
constitué de la variable associée au produit national brut (y2,t ) ;
6. Le vecteur constitué de la variable associée au produit national brut (y2,t ) ne cause pas le vecteur
constitué de la variable associée au taux de chômage (y1,t ) ;
7. Le vecteur constitué de la variable associée aux consommations (y3,t ) ne cause pas le vecteur
constitué de la variable associée aux investissements privés (y4,t ) ;
117
8. Le vecteur constitué de la variable associée aux investissements privés (y4,t ) ne cause pas le
vecteur constitué de la variable associée aux consommations (y3,t ).
Les résultats du test de causalité sont présents dans le tableau 5.11 ci-dessous.
TABLE 5.11: Test de causalité de Granger dans le cadre d’un test de Wald
Test DDL Statistique khi-2 p-valeur
1 3 10.22 0.0168
2 3 7.07 0.0697
3 4 7.93 0.0940
4 4 12.63 0.0132
5 1 0.13 0.7181
6 1 31.44 <.0001
7 1 38.99 <0.0001
8 1 10.54 0.0012
On remarque que les tests 1 et 2 ont des conclusions contraires. En effet, alors qu’on rejette l’hypothèse
nulle selon laquelle y2,t ne cause pas le vecteur constitué de y1,t , y3,t et de y4,t , celle du test 2 n’est pas
rejetée. En effet, le vecteur constitué de y1,t , y3,t et de y4,t ne cause pas y2,t . Le vecteur constitué des
variables associées au taux de chômage (y1,t ) et au produit national brut (y2,t ) ne cause pas le vecteur
constitué des variables associées aux consommations (y3,t ) et aux investissements privés (y4,t ) mais
F IGURE 5.11: Prévisions de la série "investissements privés"-ligne et cercles rouges (tracé de la série)-
ligne et cercles bleus (modèle VAR)-ligne et cercles verts(modèle univarié)
118
l’inverse est vrai. y1,t ne cause pas y2,t mais y2,t cause y1,t . Les tests 7 et 8 montrent que y3,t et y4,t se
causent mutuellement. Nous avons un effet de rétroaction.
Les conclusions de ces tests nous conduisent à penser que les ordres d’ordonnancement des variables
que sont (y3,t , y4,t ,y2,t ,y1,t ) et (y4,t , y3,t ,y2,t ,y1,t ) que nous appellerons respectivement l’ordre 3421 et
l’ordre 4321 seraient les meilleurs. Les deux ordres retenus nous font croire que y3 et y4 causent y2
qui cause à son tour y1 . Cette supposition reste à être confirmée ou infirmée lorsque nous analyserons
les tableaux de décomposition de la variance des erreurs de prédiction.
5.3.4 Décomposition de la covariance de l’erreur de prédiction

Dans cette section, nous analyserons les 24 permutations d’ordre des variables et feront des conclu-
sions à l’issue de l’observation des résultats obtenus. Nous verrons que l’ordre est important. Quatre
tableaux ( B.34, B.35, B.36 et B.37) présentent les parts attribuables à chaque composante dans
les variances des erreurs de prédiction des quatre composantes. Aux variables associées au taux de
chômage, au produit national brut, aux consommations et aux investissements privés correspondent
respectivement les numéros 1, 2, 3 et 4.
On a remarqué que y3 semble être la variable qui est la moins influencée par les autres variables, la
plupart du temps. Par ailleurs, c’est cette composante qui a de l’effet sur toutes les composantes de
notre système. Il faut aussi noter que y2 et y4 ont l’air d’exercer un effet tel qu’elles "absorbent" les
effets que y1 pourrait avoir sur les autres lorsque y2 et y4 sont placées avant y1 et même lorsqu’elle
n’est pas en dernière position. En d’autres termes, y1 n’a plus d’effet sur les autres composantes. On
constate aussi ce même événement "d’aspiration" des causes de y4 sur y2 , quand y4 est mis avant y2 .
y1 cause rarement y3 . y2 et y4 influent quelques fois sur y3 .
En somme, l’ordre d’ordonnancement des variables est d’une grande importance. Ainsi, l’ordre que
nous préconisons est 3421. Cela signifie que la variable associée aux consommations cause la variable
associée aux investissements privés qui cause à son tour la variable associée au produit national brut.
En somme, la variable associée au taux de chômage qui se trouve en dernière position, est donc causée
par celle associée au produit national brut et par les deux autres.
5.3.5 Conclusion
À l’issue de cette modélisation, nous constatons que la série investissements gouvernementaux ne se
prédit que par elle-même et nous remarquons que les autres variables se prédisent bien mutuellement.
Nous n’avons pas d’équation "complète", c’est-à-dire une équation composée des cinq variables. Il se
peut qu’il existe dans notre système d’équations des variables redondantes et que d’autres du système
économique américain aient été omises. On sait que le fait d’omettre certaines variables importantes
peut affecter les résultats de l’analyse et donc les prévisions obtenues. On serait de ce fait tentés d’en-
lever la variable investissements gouvernementaux du système d’équations afin d’essayer de trouver
un meilleur modèle. Les analyses conduites à l’aide de 4 variables ont l’air de produire un meilleur
119
modèle du point de vue des critères d’information 18 . Nous avons aussi remarqué qu’il existe des liens
intéressants entre nos cinq composantes. En effet, l’analyse de l’impact des impulsions a permis de
conclure que l’effet est la plupart du temps instantané ou nul. Il est de courte durée pour la compo-
sante "taux de chômage", soit deux à trois périodes. On a aussi été capable de constater que le fait
de changer l’ordre des composantes du vecteur à l’étude a conduit à des résultats différents. On a pu
voir que pour l’ordre par défaut, y1 et y2 jouaient des rôles importants alors que pour l’ordre 2, c’est
plutôt y4 mais aussi y3 qui exercent une plus grande influence. Le rôle joué par y5 ne change pas et ce,
quelque soit l’ordonnancement des variables. Les décisions d’investissements gouvernementaux n’ont
donc aucune influence sur les autres composantes à part le taux de chômage. Ceci est aussi confirmé
par l’analyse de la décomposition des covariances des erreurs de prédiction. Par ailleurs, lorsque nous
effectuons l’analyse du modèle à 4 variables, nous constatons les rôles prépondérants de y4 et y3 et
l’influence que y2 et/ou y4 exercent sur y1 . L’analyse de la causalité au sens de Granger et de la décom-
positon de la variance de l’erreur de prédiction ont montré que le meilleur ordre d’ordonnancement
des variables est 3421. Cela signifie que, dans l’ordre, la variable y3 cause y4 qui influence à son tour
y2 et y2 a de l’impact uniquement sur y1 . 19 L’ajustement d’un modèle VAR(1) à notre vecteur de 4
séries a permis d’améliorer la prévision de ces séries comparativement aux modèles univariés trouvés
au chapitre 3 du point de vue de l’erreur quadratique prévisionnelle. Le fait que les résidus de deux
des quatres composantes ne soient pas gaussiens ne permet pas de calculer des intervalles de confiance
pour ces séries. Une solution serait d’utiliser la technique de rééchantillonnage du bootstrap afin de
les obtenir.
18. Même si nous ne l’avons pas montré dans ce chapitre, les valeurs associées au modèle à 4 variables sont inférieures à
celles du modèle à 5 variables. Nous référons le lecteur au code informatique pour plus de détails
19. L’analyse de l’impact sur l’erreur orthogonale de y3 aurait, fort probablement, été un élément complémentaire pour
confirmer l’ordre de causalité que nous préconisons (voir code informatique)
120
Conclusion
Dans ce mémoire, nous avons vu que le modèle VAR est un excellent outil de modélisation de séries
multivariées lorsque les variables à l’étude sont toutes pertinentes. La pertinence se mesure aux liens
dynamiques existant ou non entre elles. Nous l’avons évaluée à l’aide de l’analyse structurelle. Celle-
ci est constituée d’un ensemble de méthodes et concepts que sont la causalité au sens de Granger
et la causalité instantanée ainsi que l’impact des impulsions et la décomposition de la variance des
erreurs de prédiction. Nous avons, à l’aide de ces méthodes, ressorti des relations entre les variables.
Par contre, les résultats des tests sur les résidus des composantes du modèle ont permis de conclure
que ceux-ci étaient individuellement des bruits blancs. Cependant, l’existence de la corrélation croisée
entre ces résidus nous conduit à affirmer qu’ils ne forment pas un bruit blanc vectoriel faible. Cepen-
dant, l’on n’est pas rigoureux sur ce fait car l’un de nos objectifs est la prévision et on peut obtenir des
prédictions bonnes sans toutefois respecter ce postulat. Par ailleurs, nous avons remarqué que l’une
des variables aurait pu être ôtée de notre jeu de données afin d’obtenir un modèle à 4 variables et
des prévisions meilleures. Cette démarche a été fructueuse puisque les critères d’information de ce
dernier ont été minimisés. Nous avons voulu comparer les modèles univariés du chapitre 3 au modèle
multivarié du chapitre 5. En se basant sur une observation graphique des prévisions, on peut conclure
que le modèle VAR(p) est meilleur que les modèles univariés obtenus au chapitre 3. Nous avons aussi
comparé ces types de modèles par le calcul de l’erreur quadratique prévisionnelle et constaté que les
déductions faites plus tôt n’étaient pas erronées. En effet, cette mesure d’erreur est plus petite dans
le cas multivarié comparativement au cas univarié. Certains des résidus n’étant pas gaussiens, nous
n’avons pu calculer d’intervalles de confiance pour toutes les composantes du modèle, ce qui nous
aurait permis de calculer l’erreur moyenne de prévision et de certainement confirmer la supériorité du
modèle VAR par rapport aux modèles de Box et Jenkins.
En somme, les modèles VAR ont été utiles parce qu’ils ont permis de conclure que quatre des cinq
variables de notre modèle de départ à cinq variables pouvaient être mieux prédites. Ce type de modèle
est donc beaucoup plus approprié que les modèles de Box et Jenkins dans le cadre de la modélisation
de séries économiques. Il est impossible de croire qu’une variable est "autosuffisante" et la détermi-
nation d’un système composé de variables pertinentes conduira donc à des interprétations appropriées
et sensées. Nous avons pu décéler des relations de causalité qui ont été confirmées par l’analyse des
chocs et de la décomposition des variances des erreurs de prédiction. Cependant, le fait que les tests
de diagnostic aient donné des résultats qui permettaient de rejeter certaines des hypothèses nulles,
121
notamment celle de normalité, n’a pas permis de calculer des intervalles de confiance pour toutes
les variables. Cette insuffisance suggère qu’il pourrait être intéressant de considérer la technique non
paramétrique du bootstrap pour pallier ce problème.
À l’issue de cette analyse, nous proposons des avenues à explorer. Étant donné qu’il s’agit de variables
économiques, dans l’éventualité où il existerait des théories ou hypothèses quant aux liens entre celles-
ci, un VAR structurel serait de mise pour mieux les interpréter. Selon Stock and Watson (2001), les
VAR structurels se servent de raisonnements économiques afin de décéler les relations de causalité
entre les variables.
Par ailleurs, les caractéristiques des variables utilisées et les opérations effectuées sur elles dont la dif-
férenciation, suggèrent l’utilisation de modèle de vecteur à correction d’erreur (VECM) dans l’éven-
tualité où les séries sont cointégrées. Il en ressortirait, probablement, un meilleur modèle.
122
Annexe A
Algèbre vectorielle et notion statistique
A.1 Algèbre vectorielle

A.1.1 Matrice inverse généralisée de Moore-Penrose
Définition A.1 (Matrice inverse généralisée de Moore-Penrose) Une matrice M de dimensions ( j ×

i) est appelée la matrice inverse généralisée de Moore-Penrose d’une matrice A de dimensions (i × j)
si toutes les conditions suivantes sont respectées :
– AMA = A ;
– MAM = M ;
– (AM)0 = AM ;
– (MA)0 = MA.
Il n’existe qu’une seule matrice inverse généralisée de Moore-Penrose associée à une matrice quel-
conque A de dimensions (i × j) et elle est notée A+ .
Définition A.2 (Matrice définie positive (négative)) Une matrice M symétrique de dimensions (m ×
m) est définie positive(négative) si pour tout vecteur v 6= 0 de m lignes v0 Mv > 0 (v0 Mv < 0). v0 Mv est
appelée la forme quadratique en v.
Remarque : Une matrice qui est soit définie positive soit définie négative est non singulière.
Définition A.3 (Matrice non singulière) Une matrice M symétrique de dimensions (m × m) est dite
non singulière ou inversible si et seulement si son déterminant est non-nul.
Définition A.4 (Suite absolument sommable) Une suite Ai , i = 0, ±1, ±2, ±3, . . . , est absolument
sommable si
lim ∑ = lim ∑ < ∞
i=−n
123
Définition A.5 (Produit de Kronecker) M1 ⊗ M2 est le produit de Kronecker de 2 matrices " M1 et M2 #
m11 m12
de dimensions respectives (d11 ×d12 ) et (d21 ×d22 )qui donne le résultat suivant : Si M1 =
m13 m14
" # " #
m21 m22 m11 M2 m12 M2
et M2 = , alors M1 ⊗ M2 = où m1i M2 est une matrice obtenue à
m23 m24 m13 M2 m14 M2
partir du produit entre m1i et chacun des éléments de M2 . Les dimensions de la matrice obtenue sont
((d11 × d21 ) × (d12 × d22 )).
Exemple A.1 Soit les deux matrices A1 et A2 de l’exemple 4.3, on a :
 
−0.18 0 −0.06 0
 
 0.06 0.06 0.02 0.02 
A1 ⊗ A2 = 
 −0.09
.
 0 −0.21 0 

0.03 0.03 0.07 0.07
Définition A.6 (Fonction vec) La fonction vec transforme une matrice en un vecteur colonne.
 
" # 1
 
1 2  3 
Exemple A.2 : Soit une matrice M = , alors vec(M) = 
 2 .

3 4  
4
Définition A.7 (Fonction vech) La fonction vech transforme une matrice carrée non singulière M en
un vecteur colonne en ne sélectionnant que les éléments de sa diagonale et ceux en dessous, colonne
par colonne.
Le vecteur résultant de cette transformation n’est composé que de m(m + 1)/2 éléments, m étant le
nombre de lignes et de colonnes de la matrice M.
 
1
 
   4 
1 2 3  
 7 
Exemple A.3 Soit une matrice M =  4 5 6  , alors vech(M) =  .
   
 5 
7 8 9  

 8 

9
Proposition A.1 (Lien entre vec et vech et matrice de duplication) Soit une matrice carrée non sin-
gulière M de dimensions (m × m).
vec(M) = Dm vech(M),
124
et Dm est appelée la matrice de duplication. Cette matrice est de dimensions m2 × m(m + 1)/2.
A.2 Les coefficients d’aplatissement et d’asymétrie
Définition A.8 (Le coefficient d’asymétrie) Le coefficient d’asymétrie estimé noté Ŝ s’écrit
√ ∑ni=1 (Xi − X̄)3

Ŝ = n n (A.1)
∑i=1 (Xi − X̄)2
Sous l’hypothèse de normalité, S = 0.
Définition A.9 (Le coefficient d’aplatissement) Le coefficient d’aplatissement estimé noté K̂ s’écrit
∑ni=1 (Xi − X̄)4

K̂ = n (A.2)
∑ni=1 (Xi − X̄)2
Sous l’hypothèse de normalité, K = 3.
125
Annexe B
Tableaux et graphiques
B.1 Tableaux section taux de chômage

TABLE B.1: Tableau des estimateurs des paramètres du modèle de départ AR(1)avec constante pour

Constante 0.0009256 0.01379 0.07 0.9466
ϕ1 0.46429 0.07066 6.57 < 0.0001
TABLE B.2: Tableau des estimateurs des paramètres du modèle de départ AR(1)sans constante pour

ϕ1 0.46449 0.07041 6.60 <0.0001
TABLE B.3: Tableau des estimateurs des paramètres du modèle candidat AR(4)sans constante avec
p=1,4 pour la série « taux de chômage » différenciée

ϕ1 0.45142 0.06854 6.59 <0.0001
ϕ4 -0.22137 0.06864 -3.23 0.0015
p=1,8 pour la série « taux de chômage » différenciée

ϕ1 0.45792 0.07071 6.48 <0.0001
ϕ8 -0.07119 0.07099 -1.00 0.3174
126
p=1,4,8 pour la série « taux de chômage » différenciée

ϕ1 0.43650 0.06836 6.39 < 0.0001
ϕ4 -0.25740 0.07048 -3.65 0.0004
ϕ8 -0.13871 0.07082 -1.96 0.0519
p=1,4,8,12 pour la série « taux de chômage » différenciée

ϕ1 0.42242 0.06772 6.24 < 0.0001
ϕ4 -0.28934 0.07092 -4.08 < 0.0001
ϕ8 -0.18958 0.07331 -2.58 0.0106
ϕ12 -0.16358 0.07127 -2.30 0.0231
TABLE B.7: Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0)
ϕ1 1.000 0.102 0.133 0.091
ϕ4 0.102 1.000 0.303 0.196
ϕ8 0.133 0.303 1.000 0.302
ϕ12 0.091 0.196 0.302 1.000
TABLE B.8: Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « taux de
chômage »
Retard K 12 18 24
Valeur p du test 0.5765 0.5349 0.5400
TABLE B.9: Comparaison des modèles candidats sans constante-Test Portmanteau sur les rési-
dus,AIC, BIC-série « taux de chômage »
p-valeur Modèle 3 (p=1,8 sans constante ) 0.0241 0.0293 0.0706 -300.933 -294.782
127
B.2 Tableaux section produit national brut
TABLE B.10: Tableau des estimateurs des paramètres du modèle MA(2)avec constante pour la série
« produit national brut » transformée et différenciée

Constante 0.0074873 0.0011466 6.53 < 0.0001
θ1 -0.29630 0.07729 -3.83 0.0002
θ2 -0.24926 0.07733 -3.22 0.0015
TABLE B.11: Matrice de corrélation des estimateurs pour le modèle final MA(2)
Paramètre constante θ1 θ2
Constante 1.000 -0.001 0.000
θ1 -0.001 1.000 0.236
θ2 0.000 0.236 1.000
TABLE B.12: Test Portmanteau sur les résidus du modèle final MA(2)-série « produit national brut »
Retard K 12 18 24
Statistique Q 10.34 13.61 15.19
Valeur p du test 0.4109 0.6279 0.8539
B.3 Tableaux section consommation

TABLE B.13: Tableau des estimateurs des paramètres du modèle de départ MA(3) pour la série
Constante 0.03072 0.0031955 9.51 < 0.0001
θ1 -0.05433 0.07935 -0.68 0.4945
θ2 -0.23171 0.07738 -2.99 0.0032
θ3 -0.13484 0.08000 -1.69 0.0939
128
TABLE B.14: Tableau des estimateurs des paramètres du modèle final MA(2,3,8)pour la série
Constante 0.03079 0.0024186 12.73 < 0.0001
θ2 -0.27617 0.07232 -3.82 0.0002
θ3 -0.14514 0.07115 -2.04 0.0430
θ8 -0.31524 0.07331 4.30 < 0.0001
TABLE B.15: Matrice de corrélation des estimateurs pour le modèle final MA(2,3,8)pour la série
Paramètre Constante θ2 θ3 θ8
Constante 1.000 -0.004 0.004 -0.015
θ2 -0.004 1.000 -0.094 0.220
θ3 0.004 -0.094 1.000 -0.046
θ8 -0.015 0.220 -0.046 1.000
TABLE B.16: Test Portmanteau sur les résidus du modèle final MA(2,3,8)pour la série « consomma-
tion » transformée et différenciée
Retard K 12 18 24
Valeur p du test 0.8921 0.7306 0.5369
TABLE B.17: Comparaison des modèles candidats-Test Portmanteau sur les résidus,AIC, BIC-série
« consommation »
Modèle 1 (q=3) 0.1704 0.1769 0.1223 -679.494 -667.194
p-valeur
Modèle final (q=2,3,8) 0.8921 0.7306 0.5369 -692.506 -680.206
129
B.4 Tableaux section investissements privés

Constante 0.0050405 0.0037388 1.35 0.1795
ϕ1 0.23594 0.07731 3.05 0.0027
TABLE B.19: Tableau des estimateurs des paramètres du modèle de départ AR(1)sans constante pour

ϕ1 0.24978 0.07680 3.25 0.0014
p=1,4 pour la série « investissements privés » transformée et différenciée

ϕ1 0.25251 0.07462 3.38 0.0009
ϕ4 -0.24307 0.07517 -3.23 0.0015
p=1,4,8 pour la série « investissements privés » transformée et différenciée

ϕ1 0.24255 0.07422 3.27 0.0013
ϕ4 -0.27678 0.07672 -3.61 0.0004
ϕ8 -0.14462 0.07726 -1.87 0.0631
130
p=1,4,8,12 pour la série « investissements privés » transformée et différenciée

ϕ1 0.24976 0.07356 3.40 0.0009
ϕ4 -0.30310 0.07703 -3.93 0.0001
ϕ8 -0.18896 0.07948 -2.38 0.0187
ϕ12 -0.16086 0.07847 -2.05 0.0420
TABLE B.23: Matrice de corrélation des estimateurs pour le modèle final SARIMA(1,1,0)(3,0,0)
ϕ1 1.000 -0.002 0.056 -0.048
ϕ4 -0.002 1.000 0.268 0.167
ϕ8 0.056 0.268 1.000 0.272
ϕ12 -0.048 0.167 0.272 1.000
TABLE B.24: Test Portmanteau sur les résidus du modèle final SARIMA(1,1,0)(3,0,0)-série « inves-
tissements privés »
Retard K 12 18 24
Valeur p du test 0.4438 0.7337 0.7645
TABLE B.25: Comparaison des modèles candidats sans constante-Test Portmanteau sur les rési-
dus,AIC, BIC-série « investissements privés »
p-valeur
131
B.5 Tableaux section investissements gouvernementaux
la série « investissements gouvernementaux » différenciée

Constante 3.66224 1.11379 3.29 0.0012
ϕ1 0.45111 0.07111 6.34 < 0.0001
TABLE B.27: Tableau des estimateurs des paramètres du modèle AR(3) avec p=1,3 pour la série
« investissements gouvernementaux » différenciée

Constante 3.61449 1.37529 2.63 0.0094
ϕ1 0.41144 0.07284 5.65 <0.0001
ϕ3 0.15364 0.07302 2.10 0.0370
TABLE B.28: Tableau des estimateurs des paramètres du modèle final ARIMA(12,1,0) avec p=1,3,12
pour la série « investissements gouvernementaux » différenciée

Constante 3.59217 0.99356 3.62 0.0004
ϕ1 0.39381 0.07239 5.44 <0.0001
ϕ3 0.15991 0.07219 2.22 0.0282
ϕ12 -0.16454 0.07450 -2.21 0.0287
TABLE B.29: Matrice de corrélation des estimateurs pour le modèle final ARIMA(12,1,0) avec coef-
ficients non nuls à p=1,3,12
Paramètre Constante ϕ1 ϕ3 ϕ12

Constante 1.000 -0.010 -0.009 0.024
ϕ1 -0.010 1.000 0.262 0.110
ϕ3 -0.009 0.262 1.000 -0.039
ϕ12 0.024 0.110 -0.039 1.000
B.6 Tableaux de décomposition de la variance des erreurs de

prédiction
B.6.1 Pour le modèle à 5 variables
Aux variables associées au taux de chômage, au produit national brut, aux consommations, aux inves-
tissements privés et aux investissements gouvernementaux correspondent respectivement les numéros
1, 2, 3, 4 et 5.
132
TABLE B.30: Test Portmanteau sur les résidus du modèle final ARIMA(12,1,0)avec coefficients non
nuls à p=1,3,12-série « investissements gouvernementaux »
Retard K 12 18 24
Valeur p du test 0.5889 0.8401 0.9616
TABLE B.31: Comparaison des modèles candidats-Test Portmanteau sur les résidus,AIC, BIC-série
« investissements gouvernementaux »
Modèle 1 (p=1) 0.2458 0.4568 0.7569 1112.908 1119.058
p-valeur Modèle 2 (p=1,3) 0.4745 0.6345 0.8752 1110.46 1119.686
Modèle final (p=1,3,12) 0.5889 0.8401 0.9616 1107.531 1119.832
B.6.2 Pour le modèle à 4 variables

Aux variables associées au taux de chômage, au produit national brut, aux consommations et aux
investissements privés correspondent respectivement les numéros 1, 2, 3 et 4.
133
TABLE B.32: Décomposition en proportions de la variance des erreurs de prévision associées à l’ordre
d’entrée y1 , y2 , y3 , y4 et y5
Variable Horizon y1 y2 y3 y4 y5
y1 1 1.00000 0.00000 0.00000 0.00000 0.00000
2 0.81947 0.13841 0.03361 0.00751 0.00101
3 0.76764 0.16222 0.04800 0.01715 0.00500
4 0.75321 0.16446 0.05327 0.02146 0.00761
5 0.75028 0.16407 0.05435 0.02269 0.00861
y2 1 0.29830 0.70170 0.00000 0.00000 0.00000
2 0.29449 0.66659 0.03082 0.00265 0.00545
3 0.28923 0.65837 0.03530 0.00697 0.01014
4 0.28728 0.65519 0.03739 0.00823 0.01191
5 0.28705 0.65429 0.03765 0.00854 0.01246
y3 1 0.05872 0.19168 0.74960 0.00000 0.00000
2 0.05647 0.19514 0.69422 0.04166 0.01250
3 0.05621 0.19253 0.69223 0.04440 0.01463
4 0.05747 0.19174 0.68952 0.04571 0.01557
5 0.05817 0.19168 0.68874 0.04573 0.01568
y4 1 0.20514 0.42687 0.06433 0.30365 0.00000
2 0.15947 0.38888 0.19343 0.25805 0.00017
3 0.15598 0.37981 0.19160 0.26990 0.00270
4 0.15776 0.37594 0.19297 0.27009 0.00324
5 0.15910 0.37524 0.19248 0.26984 0.00335
y5 1 0.00528 0.00684 0.01509 0.00064 0.97215
2 0.00704 0.00879 0.01322 0.01099 0.95996
3 0.00686 0.01063 0.01385 0.01751 0.95115
4 0.00697 0.01098 0.01444 0.02083 0.94679
5 0.00733 0.01097 0.01469 0.02196 0.94505
134
TABLE B.33: Décomposition en proportions de la variance des erreurs de prévision associées à l’ordre
d’entrée y4 , y3 , y2 , y1 et y5
Variable Horizon y4 y3 y2 y1 y5
y4 1 1.00000 0.00000 0.00000 0.00000 0.00000
2 0.79561 0.18288 0.01530 0.00605 0.00017
3 0.77647 0.18060 0.02987 0.01036 0.00270
4 0.76868 0.18026 0.03527 0.01255 0.00324
5 0.76694 0.17981 0.03675 0.01315 0.01568
y3 1 0.03105 0.96895 0.00000 0.00000 0.00000
2 0.07776 0.89799 0.01023 0.00151 0.01250
3 0.07617 0.88966 0.01557 0.00396 0.01463
4 0.07586 0.88590 0.01784 0.00484 0.01557
5 0.07612 0.88478 0.01834 0.00508 0.01246
y2 1 0.63150 0.13306 0.23543 0.00000 0.00000
2 0.59889 0.18842 0.20621 0.00103 0.00545
3 0.59410 0.19387 0.20082 0.00107 0.01014
4 0.59104 0.19533 0.20031 0.00140 0.01191
5 0.59022 0.19526 0.20047 0.00159 0.01246
y1 1 0.20514 0.02726 0.06745 0.70015 0.00000
2 0.31139 0.13771 0.06190 0.48798 0.00101
3 0.32601 0.16355 0.05703 0.44841 0.00500
4 0.32502 0.16898 0.05792 0.44047 0.00761
5 0.32385 0.16935 0.05906 0.43913 0.00861
y5 1 0.01743 0.00593 0.00438 0.00010 0.97215
2 0.02964 0.00497 0.00526 0.00017 0.95996
3 0.03371 0.00639 0.00828 0.00047 0.95115
4 0.03452 0.00690 0.01081 0.00098 0.94679
5 0.03450 0.00700 0.01212 0.00134 0.94505
135
TABLE B.34: Décomposition en proportions de la variance des erreurs de prévision
Ordre 1234 1243 1324 1342 1423 1432
Horizon 1 5 1 5 1 5 1 5 1 5 1 5
y1 7−→ y1 1.00000 0.75332 1.00000 0.75332 1.00000 0.75332 1.00000 0.75332 1.00000 0.75332 1.00000 0.75332
y1 7−→ y2 0.29961 0.29089 0.29961 0.29089 0.29961 0.29089 0.29961 0.29089 0.29961 0.29089 0.29961 0.29089
y1 7−→ y3 0.06037 0.06033 0.06037 0.06033 0.06037 0.06033 0.06037 0.06033 0.06037 0.06033 0.06037 0.06033
y1 7−→ y4 0.20536 0.15937 0.20536 0.15937 0.20536 0.15937 0.20536 0.15937 0.20536 0.15937 0.20536 0.15937
y2 7−→ y1 0.00000 0.16893 0.00000 0.16893 0.00000 0.06979 0.00000 0.00966 0.00000 0.07017 0.00000 0.00966
y2 7−→ y2 0.70039 0.66188 0.70039 0.66188 0.55467 0.48900 0.21372 0.18285 0.32686 0.31306 0.21372 0.18285
y2 7−→ y3 0.19550 0.19971 0.19550 0.19971 0.00000 0.01569 0.00000 0.01216 0.32339 0.29844 0.00000 0.01216
y2 7−→ y4 0.42380 0.37518 0.42380 0.37518 0.48566 0.35762 0.00000 0.02233 0.00000 0.03473 0.00000 0.02233
y3 7−→ y1 0.00000 0.05327 0.00000 0.07434 0.00000 0.15241 0.00000 0.15241 0.00000 0.07434 0.00000 0.13485
y3 7−→ y2 0.00000 0.03690 0.00000 0.04421 0.14572 0.20977 0.14572 0.20977 0.00000 0.04421 0.11315 0.17441
y3 7−→ y3 0.74413 0.69322 0.61084 0.58356 0.93963 0.87724 0.93963 0.87724 0.61084 0.58356 0.93423 0.86983
y3 7−→ y4 0.06643 0.19418 0.00000 0.18397 0.00457 0.21174 0.00457 0.21174 0.00000 0.18397 0.00000 0.19637
y4 7−→ y1 0.00000 0.02449 0.00000 0.00341 0.00000 0.02449 0.00000 0.08461 0.00000 0.10217 0.00000 0.10217
136
y4 7−→ y2 0.00000 0.01034 0.00000 0.00303 0.00000 0.01034 0.34096 0.31649 0.37353 0.35184 0.37353 0.35184
y4 7−→ y3 0.00000 0.04675 0.13329 0.15641 0.00000 0.04675 0.00000 0.05027 0.00540 0.05768 0.00540 0.05768
y4 7−→ y4 0.30442 0.27127 0.37085 0.28147 0.30442 0.27127 0.79008 0.60655 0.79464 0.62192 0.79464 0.62192
Ordre 2134 2143 2314 2341 2413 2431
Horizon 1 5 1 5 1 5 1 5 1 5 1 5
y1 7−→ y1 0.70039 0.43897 0.70039 0.43897 0.69915 0.43957 0.69882 0.43908 0.69940 0.43848 0.69882 0.43908
y1 7−→ y2 0.00000 0.00132 0.00000 0.00132 0.00000 0.00155 0.00000 0.00157 0.00000 0.00146 0.00000 0.00157
y1 7−→ y3 0.00132 0.00665 0.00132 0.00665 0.00000 0.00492 0.00000 0.00549 0.00051 0.00663 0.00000 0.00549
y1 7−→ y4 0.00053 0.01590 0.00053 0.01590 0.00014 0.01247 0.00000 0.01344 0.00000 0.01610 0.00000 0.01344
y2 7−→ y1 0.29961 0.48328 0.29961 0.48328 0.29961 0.48328 0.29961 0.48328 0.29961 0.48328 0.29961 0.48328
y2 7−→ y2 1.00000 0.95145 1.00000 0.95145 1.00000 0.95145 1.00000 0.95145 1.00000 0.95145 1.00000 0.95145
y2 7−→ y3 0.25455 0.25338 0.25455 0.25338 0.25455 0.25338 0.25455 0.25338 0.25455 0.25338 0.25455 0.25338
y2 7−→ y4 0.62863 0.51865 0.62863 0.51865 0.62863 0.51865 0.62863 0.51865 0.62863 0.51865 0.62863 0.51865
y3 7−→ y1 0.00000 0.05327 0.00000 0.07434 0.00124 0.05267 0.00124 0.05267 0.00000 0.07434 0.00059 0.07374
y3 7−→ y2 0.00000 0.03690 0.00000 0.04421 0.00000 0.03666 0.00000 0.03666 0.00000 0.04421 0.00000 0.04409
y3 7−→ y3 0.74413 0.69322 0.61084 0.58356 0.74545 0.69496 0.74545 0.69496 0.61084 0.58356 0.61135 0.58470
y3 7−→ y4 0.06643 0.19418 0.00000 0.18397 0.06681 0.19762 0.06681 0.19762 0.00000 0.18397 0.00000 0.18663
y4 7−→ y1 0.00000 0.02449 0.00000 0.00341 0.00000 0.02449 0.00033 0.02497 0.00099 0.00390 0.00099 0.00390
137
y4 7−→ y2 0.00000 0.01034 0.00000 0.00303 0.00000 0.01034 0.00000 0.01032 0.00000 0.00289 0.00000 0.00289
y4 7−→ y3 0.00000 0.04675 0.13329 0.15641 0.00000 0.04675 0.00000 0.04618 0.13411 0.15643 0.13411 0.15643
y4 7−→ y4 0.30442 0.27127 0.37085 0.28147 0.30442 0.27127 0.30456 0.27030 0.37137 0.28128 0.37137 0.28128
Ordre 3124 3142 3214 3241 3412 3421
Horizon 1 5 1 5 1 5 1 5 1 5 1 5
y1 7−→ y1 0.93963 0.65065 0.93963 0.65065 0.69915 0.43957 0.69882 0.43908 0.76635 0.48969 0.69882 0.43908
y1 7−→ y2 0.19078 0.17531 0.19078 0.17531 0.00000 0.00155 0.00000 0.00157 0.02065 0.02107 0.00000 0.00157
y1 7−→ y3 0.00000 0.00687 0.00000 0.00687 0.00000 0.00492 0.00000 0.00549 0.00000 0.01242 0.00000 0.00549
y1 7−→ y4 0.17865 0.14261 0.17865 0.14261 0.00014 0.01247 0.00000 0.01344 0.00000 0.02815 0.00000 0.01344
y2 7−→ y1 0.00000 0.06979 0.00000 0.00966 0.24048 0.28087 0.24048 0.28087 0.00000 0.00966 0.06753 0.06027
y2 7−→ y2 0.55467 0.48900 0.21372 0.18285 0.74545 0.66276 0.74545 0.66276 0.21372 0.18285 0.23437 0.20235
y2 7−→ y3 0.00000 0.01569 0.00000 0.01216 0.00000 0.01764 0.00000 0.01764 0.00000 0.01216 0.00000 0.01910
y2 7−→ y4 0.48566 0.35762 0.00000 0.02233 0.66416 0.48776 0.66416 0.48776 0.00000 0.02233 0.00000 0.03705
y3 7−→ y1 0.06037 0.25508 0.06037 0.25508 0.06037 0.25508 0.06037 0.25508 0.06037 0.25508 0.06037 0.25508
y3 7−→ y2 0.25455 0.32535 0.25455 0.32535 0.25455 0.32535 0.25455 0.32535 0.25455 0.32535 0.25455 0.32535
y3 7−→ y3 1.00000 0.93070 1.00000 0.93070 1.00000 0.93070 1.00000 0.93070 1.00000 0.93070 1.00000 0.93070
y3 7−→ y4 0.03128 0.22850 0.03128 0.22850 0.03128 0.22850 0.03128 0.22850 0.03128 0.22850 0.03128 0.22850
y4 7−→ y1 0.00000 0.02449 0.00000 0.08461 0.00000 0.02449 0.00033 0.02497 0.17328 0.24557 0.17328 0.24557
138
y4 7−→ y2 0.00000 0.01034 0.34096 0.31649 0.00000 0.01034 0.00000 0.01032 0.51109 0.47072 0.51109 0.47072
y4 7−→ y3 0.00000 0.04675 0.00000 0.05027 0.00000 0.04675 0.00000 0.04618 0.00000 0.04471 0.00000 0.04471
y4 7−→ y4 0.30442 0.27127 0.79008 0.60655 0.30442 0.27127 0.30456 0.27030 0.96872 0.72101 0.96872 0.72101
Ordre 4123 4132 4213 4231 4312 4321
Horizon 1 5 1 5 1 5 1 5 1 5 1 5
y1 7−→ y1 0.79464 0.52726 0.79464 0.52726 0.69940 0.43848 0.69882 0.43908 0.76635 0.48969 0.69882 0.43908
y1 7−→ y2 0.04451 0.04744 0.04451 0.04744 0.00000 0.00146 0.00000 0.00157 0.02065 0.02107 0.00000 0.00157
y1 7−→ y3 0.03450 0.04035 0.03450 0.04035 0.00051 0.00663 0.00000 0.00549 0.00000 0.01242 0.00000 0.00549
y1 7−→ y4 0.00000 0.01366 0.00000 0.01366 0.00000 0.01610 0.00000 0.01344 0.00000 0.02815 0.00000 0.01344
y2 7−→ y1 0.00000 0.07017 0.00000 0.00966 0.09524 0.15896 0.09524 0.15896 0.00000 0.00966 0.06753 0.06027
y2 7−→ y2 0.32686 0.31306 0.21372 0.18285 0.37137 0.35904 0.37137 0.35904 0.21372 0.18285 0.23437 0.20235
y2 7−→ y3 0.32339 0.29844 0.00000 0.01216 0.35738 0.33216 0.35738 0.33216 0.00000 0.01216 0.00000 0.01910
y2 7−→ y4 0.00000 0.03473 0.00000 0.02233 0.00000 0.03229 0.00000 0.03229 0.00000 0.02233 0.00000 0.03705
y3 7−→ y1 0.00000 0.07434 0.00000 0.13485 0.00000 0.07434 0.00059 0.07374 0.02830 0.17243 0.02830 0.17243
y3 7−→ y2 0.00000 0.04421 0.11315 0.17441 0.00000 0.04421 0.00000 0.04409 0.13700 0.20077 0.13700 0.20077
y3 7−→ y3 0.61084 0.58356 0.93423 0.86983 0.61084 0.58356 0.61135 0.58470 0.96872 0.89776 0.96872 0.89776
y3 7−→ y4 0.00000 0.18397 0.00000 0.19637 0.00000 0.18397 0.00000 0.18663 0.00000 0.18188 0.00000 0.18188
y4 7−→ y1 0.20536 0.32822 0.20536 0.32822 0.20536 0.32822 0.20536 0.32822 0.20536 0.32822 0.20536 0.32822
139
y4 7−→ y2 0.62863 0.59530 0.62863 0.59530 0.62863 0.59530 0.62863 0.59530 0.62863 0.59530 0.62863 0.59530
y4 7−→ y3 0.03128 0.07765 0.03128 0.07765 0.03128 0.07765 0.03128 0.07765 0.03128 0.07765 0.03128 0.07765
y4 7−→ y4 1.00000 0.76764 1.00000 0.76764 1.00000 0.76764 1.00000 0.76764 1.00000 0.76764 1.00000 0.76764
B.7 Graphiques de prévisions du chapitre 5
Ces graphiques présentent les prévisions des séries "produit national brut" et "investissements privés"
lorsque les bandes de confiance sont celles des modèles univariés.
F IGURE B.1: Prévisions de la série "produit national brut"
140
F IGURE B.2: Prévisions de la série "investissements privés"
141
Annexe C
Code informatique
C.1 Code SAS

C.1.1 Analyse univariée
data Useconomic2 ; infile "E :
USeconomic.txt" firstobs=2 expandtabs ; input no unemp gnp consum govinv prinv ; retain date ’30jun48’d ;
date=intnx(’qtr’,date,1) ; format date yyqc7. ; run ; /* Tracé de la série chômage :unemp */ proc sgplot
data=Useconomic2 ; series x=date y=unemp /markers markerattrs=(symbol=circle color=blue) ; run ;
/* Essai d’identification pour la série chômage */ proc arima data=USeconomic2 ; identify var=unemp ;
run ; /*Différenciation car problème de tendance selon le correlogramme*/
proc arima data=USeconomic2 ; identify var=unemp(1)minic ; run ;
/* Après avoir utilisé boxcox, nous allons utiliser la racine carrée de unemp*/
data Useconomic205 ; set Useconomic2 ; unemp1=unemp**0.5 ; run ;
proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; run ;
/* Un AR(1) est proposé*/ proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; estimate

p=1 ; run ;
/* La constante est nulle*/
proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; estimate p=1 noint ; run ;
/* L’autocorrelation à k=4 sort de la bande de confiance*/ proc arima data=USeconomic205 ; identify

var=unemp1(1)minic ; estimate p=(1,4) noint ; run ;
proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; estimate p=(1,8) noint ; run ;
/* L’autocorrelation à k=8 sort de la bande de confiance*/ proc arima data=USeconomic205 ; identify
142
var=unemp1(1)minic ; estimate p=(1,4,8) noint ; run ;
/* Essayons avec p=1,4,8,12*/
proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; estimate p=(1,4,8,12) noint ; run ;
/*Le modèle final est un SARIMA[(1,1,0),(3,0,0)], meilleur au précédent. Son AIC est meilleur.*/
proc arima data=USeconomic205 ; identify var=unemp1(1)minic ; estimate p=(1,4,8,12) noint ; fore-

cast out= b lead=4 interval=quarter id=date ; run ;
data b1 ; set b ; unemp = unemp1**2 ; forecast = forecast**2 + std**2 ; l95 = l95**2 ; u95 = u95**2 ;
run ; /* Prévisions et valeurs observées*/
proc sgplot data=b1 ; where date >= ’30jun83’d ; band Upper=u95 Lower=l95 x=date / Legend-
Label="95series x=date y=unemp /markers markerattrs=(symbol=circle color=red) ; series x=date
y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul88’d /axis=x ; run ;
proc print data=b1 ; run ;
/* Tracé de la série Produit national brut : gnp*/ proc sgplot data=Useconomic2 ; series x=date y=gnp
/markers markerattrs=(symbol=circle color=blue) ; run ;
/* Essai d’identification pour la série gnp */ proc arima data=USeconomic2 ; identify var=gnp ; run ;
/*Différenciation car problème de tendance selon le correlogramme*/
proc arima data=USeconomic2 ; identify var=gnp(1)minic ; run ;
/*La variance augmente vers les dernières périodes nous allons essayer BOXCOX .*/
run ;
/* Avec lambda=0.2, la logvraisemblance est la deuxième plus grande valeur et les critères SBC et
RMSE sont minimisés. Le critère AIC est le deuxième plus petit(différence de 0.01).*/ data Usecono-
mic3 ; set Useconomic2 ; gnp1=gnp**0.2 ; run ;
/* Identification à nouveau*/ proc arima data=USeconomic3 ; identify var=gnp1 ; run ;
proc arima data=USeconomic3 ; identify var=gnp1(1)minic ; run ;
/*Nous avons un modèle MA(2)*/
/* On passe à la phase d’estimation */
proc arima data=USeconomic3 ; identify var=gnp1(1) ; estimate q=2 ; forecast out= c1 lead=4 inter-
val=quarter id=date ; run ;
143
/*Le modèle MA(2) est approprié. Rien à ajouter pour améliorer le modèle*/ data c ; set c1 ; gnp =
gnp1**5 ; forecast = 15*forecast*std**4 +10*(forecast**3)*std**2 + forecast**5 ; l95 = l95**5 ; u95
= u95**5 ; run ; /* Un graphique...*/ proc sgplot data=c ; where date >= ’30jun83’d ; band Upper=u95
Lower=l95 x=date / LegendLabel="95series x=date y=gnp /markers markerattrs=(symbol=circle co-
lor=red) ; series x=date y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul88’d
/axis=x ; run ; /* Tracé de la série consommation : consum*/ proc sgplot data=Useconomic2 ; series
x=date y=consum /markers markerattrs=(symbol=circle color=blue) ; run ; /* Essai d’identification
pour la série consum */ proc arima data=USeconomic2 ; identify var=consum ; run ;
proc arima data=USeconomic2 ; identify var=consum(1)minic ; run ;
/*problème de variance selon le correlogramme*/ run ;
/* Avec lambda=0.375, la logvraisemblance est maximisée et les critères AIC et SBC sont minimisés.
Cependant,pour des raisons pratiques, nous allons choisir une valeur de lambda de 0.33*/
data Useconomic4 ; set Useconomic2 ; consum1=consum**(1/3) ; run ;
/* Identification à nouveau*/ proc arima data=USeconomic4 ; identify var=consum1 ; run ;
proc arima data=USeconomic4 ; identify var=consum1(1)minic ; run ;
/*Nous avons un modèle MA(3)*/
/* On passe à la phase d’estimation */
proc arima data=USeconomic4 ; identify var=consum1(1) ; estimate q=3 ; run ;
/* Il y a présence d’autocorrelation à k=8*/ proc arima data=USeconomic4 ; identify var=consum1(1) ;

estimate q=(2,3,8) ; run ;
/* Il semble qu’à k=1, le coefficient soit testé nul. Enlevons-le.*/ proc arima data=USeconomic4 ;
identify var=consum1(1) ; estimate q=(2,3,8) ; run ;
/*Le modèle retenu est un MA(2,3,8)*/ proc arima data=USeconomic4 ; identify var=consum1(1) ;
estimate q=(2,3,8) ; forecast out= d1 lead=4 interval=quarter id=date ; run ; data d ; set d1 ; consum =
consum1**3 ; forecast = 3*forecast*std**2 + forecast**3 ; l95 = l95**3 ; u95 = u95**3 ; run ;
/*Le graphique*/ proc sgplot data=d ; where date >= ’30jun85’d ; band Upper=u95 Lower=l95 x=date
/ LegendLabel="95series x=date y=consum /markers markerattrs=(symbol=circle color=red) ; series
x=date y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul88’d /axis=x ; run ;
/* Tracé de la série prinv*/ proc sgplot data=Useconomic2 ; series x=date y=prinv /markers markerat-
trs=(symbol=circle color=blue) ; run ;
144
/* Essai d’identification pour la série prinv */ proc arima data=USeconomic2 ; identify var=prinv ;
run ;
/*Il semble avoir un problème de variance. Trouvons le lambda avec BOXCOX*/ run ;
/* Avec lambda=0.2, la logvraisemblance est maximisée et les critères AIC et SBC sont minimisés.
Ce qui n’est pas le cas pour le RMSE*/ data Useconomic5 ; set Useconomic2 ; prinv1=prinv**0.2 ;
run ;
/* Réidentification */ proc arima data=USeconomic5 ; identify var=prinv1 ; run ;
/* Différentiation */ proc arima data=USeconomic5 ; identify var=prinv1(1)minic ; run ;
/*Nous avons un modèle AR(1)*/ /* On passe à la phase d’estimation */
proc arima data=USeconomic5 ; identify var=prinv1(1) ; estimate p=1 ; run ;
/*Sans mu, le modèle sera meilleur*/ proc arima data=USeconomic5 ; identify var=prinv1(1) ; esti-
mate p=1 noint ; run ;
/* à k=4 il y a autocorrelation*/ proc arima data=USeconomic5 ; identify var=prinv1(1) ; estimate

p=(1,4) noint ; run ; /* à k=8 il y a autocorrelation*/ proc arima data=USeconomic5 ; identify var=prinv1(1) ;
estimate p=(1,4,8) noint ; run ; /* à k=12 il y a autocorrelation*/ proc arima data=USeconomic5 ; iden-
tify var=prinv1(1) ; estimate p=(1,4,8,12) noint ; run ;
/* Nous terminons avec un modèle SARIMA((1,1,0),(3,0,0)).*/ proc arima data=USeconomic5 ; iden-

tify var=prinv1(1) ; estimate p=(1,4,8,12) noint ; forecast out= e1 lead=4 interval=quarter id=date ;
run ;
data e ; set e1 ; prinv = prinv1**5 ; forecast = 15*forecast*std**4 +10*(forecast**3)*std**2 + fore-

cast**5 ; l95 = l95**5 ; u95 = u95**5 ; run ; /*Le graphique*/ proc sgplot data=e ; where date >=
’30jun85’d ; band Upper=u95 Lower=l95 x=date / LegendLabel="95series x=date y=prinv /markers
markerattrs=(symbol=circle color=red) ; series x=date y=forecast /markers markerattrs=(symbol=circle
color=blue) ; refline ’1jul88’d /axis=x ; run ;
/* Tracé de la série govinv*/ proc sgplot data=Useconomic2 ; series x=date y=govinv /markers mar-
kerattrs=(symbol=circle color=blue) ; run ;
/* Essai d’identification pour la série govinv */ proc arima data=USeconomic2 ; identify var=govinv ;
run ;
/*Il semble avoir un problème de variance a certains points. Trouvons le lambda avec BOXCOX*/
run ;
/* Nous n’allons pas transformer la variable mais plutôt la différencier car présence d’une tendance*/
proc arima data=USeconomic2 ; identify var=govinv(1)minic ; run ;
145
/*Nous avons un modèle AR(1)*/ /* On passe à la phase d’estimation */
proc arima data=USeconomic2 ; identify var=govinv(1) ; estimate p=1 ; run ;
/* Un meilleur modèle */
proc arima data=USeconomic2 ; identify var=govinv(1) ; estimate p=(1,3) ; run ;
proc arima data=USeconomic2 ; identify var=govinv(1) ; estimate p=(1,12) ; run ;
proc arima data=USeconomic2 ; identify var=govinv(1) ; estimate p=(3,12) ; run ; /* Un meilleur mo-
dèle */ proc arima data=USeconomic2 ; identify var=govinv(1) ; estimate p=(1,3,12) ; run ; /* Ce mo-
dèle est meilleur. le critère AIC est le plus petit.*/ proc arima data=USeconomic2 ; identify var=govinv(1) ;
estimate p=(1,3,12) ; forecast out= f lead=4 interval=quarter id=date ; run ; /*Le graphique*/ proc sg-
plot data=f ; where date >= ’30jun83’d ; band Upper=u95 Lower=l95 x=date / LegendLabel="95series
x=date y=govinv /markers markerattrs=(symbol=circle color=red) ; series x=date y=forecast /markers
markerattrs=(symbol=circle color=blue) ; refline ’1jul88’d /axis=x ; run ;
data Useconomic3 ; infile "E :

USecom4.txt" firstobs=2 expandtabs ; input no unemp gnp consum govinv prinv ; retain date ’30jun48’d ;
date=intnx(’qtr’,date,1) ; format date yyqc7. ; run ;
* Vérification de la robustesse des modèles ajustés aux 5 séries ;
* Série chômage ; data Useconomic3205 ; set USeconomic3 ; unemp1 = unemp**0.5 ; run ;
proc arima data=USeconomic3205 ; identify var=unemp1(1) ; estimate p=(1,4,8,12) noint ; forecast

out= b lead=4 interval=quarter id=date ; run ;
data b1 ; set b ; unemp = unemp1**2 ; forecast = forecast**2 + std**2 ; l95 = l95**2 ; u95 = u95**2 ;
run ;
Data bb ; merge b Useconomic2 ; by date ; run ; proc sgplot data=bb ; where date >= ’30jun83’d ;
band Upper=u95 Lower=l95 x=date / LegendLabel="95series x=date y=unemp /markers markerat-
trs=(symbol=circle color=red) ; series x=date y=forecast /markers markerattrs=(symbol=circle co-
lor=blue) ; refline ’1jul87’d /axis=x ; run ;
* Le modèle est approprié. Aucun coefficient n’est testé nul. Les données prédites des quatres der-
nières observations ne sont pas significativement différentes. Cependant, on voit bien que les prévi-
sions ont tendance à diminuer pendant que les vraies valeurs augmentent. ;
* Série Produit national brut ;
data Useconomic4 ; set Useconomic3 ; gnp1=gnp**0.2 ; run ; proc arima data=USeconomic4 ; identify
var=gnp1(1) ; estimate q=2 ; forecast out= c1 lead=4 interval=quarter id=date ; run ;
data c ; set c1 ; gnp = gnp1**5 ; forecast = 15*forecast*std**4 +10*(forecast**3)*std**2 + fore-
146
cast**5 ; l95 = l95**5 ; u95 = u95**5 ; run ;
Data cc ; merge c Useconomic2 ; by date ; run ; /* Un graphique...*/ proc sgplot data=cc ; where date
>= ’30jun83’d ; band Upper=u95 Lower=l95 x=date / LegendLabel="95series x=date y=gnp /markers
markerattrs=(symbol=circle color=red) ; series x=date y=forecast /markers markerattrs=(symbol=circle
color=blue) ; refline ’1jul87’d /axis=x ; run ;
* Le modèle est approprié. ;
* Série consommation ; data Useconomic5 ; set Useconomic3 ; consum1=consum**(1/3) ; run ;
proc arima data=USeconomic5 ; identify var=consum1(1) ; estimate q=(2,3,8) ; forecast out= d1 lead=4
interval=quarter id=date ; run ; data d ; set d1 ; consum = consum1**3 ; forecast = 3*forecast*std**2 +
forecast**3 ; l95 = l95**3 ; u95 = u95**3 ; run ; Data dd ; merge d Useconomic2 ; by date ; run ; /*Le
graphique*/ proc sgplot data=dd ; where date >= ’30jun83’d ; band Upper=u95 Lower=l95 x=date
/ LegendLabel="95series x=date y=consum /markers markerattrs=(symbol=circle color=red) ; series
x=date y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul87’d /axis=x ; run ;
* Le modèle est approprié mais l’un des coefficients est testé significativement nul. Les prévisions
sont assez rapprochées des vraies valeurs. ;
* Série investissements privés ; data Useconomic6 ; set Useconomic3 ; prinv1=prinv**0.2 ; run ; proc
arima data=USeconomic6 ; identify var=prinv1(1) ; estimate p=(1,4,8,12) noint ; forecast out= e1 lead=4
interval=quarter id=date ; run ;
data e ; set e1 ; prinv = prinv1**5 ; forecast = 15*forecast*std**4 +10*(forecast**3)*std**2 + fo-

recast**5 ; l95 = l95**5 ; u95 = u95**5 ; run ; Data ee ; merge e Useconomic2 ; by date ; run ; /*Le
graphique*/ proc sgplot data=ee ; where date >= ’30jun85’d ; band Upper=u95 Lower=l95 x=date / Le-
gendLabel="95series x=date y=prinv /markers markerattrs=(symbol=circle color=red) ; series x=date
y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul87’d /axis=x ; run ; * Tous
les coefficients sont testés significativement non-nuls et les prévisions sont bonnes.
* Série investissements gouvernementaux ; proc arima data=USeconomic3 ; identify var=govinv(1) ;

estimate p=(1,3,12) ; forecast out= f lead=4 interval=quarter id=date ; run ; Data ff ; merge f Useco-
nomic2 ; by date ; run ; /*Le graphique*/ proc sgplot data=ff ; where date >= ’30jun83’d ; band Up-
per=u95 Lower=l95 x=date / LegendLabel="95series x=date y=govinv /markers markerattrs=(symbol=circle
color=red) ; series x=date y=forecast /markers markerattrs=(symbol=circle color=blue) ; refline ’1jul87’d
/axis=x ; run ;
* Un seul coefficient est testé nul. La valeur du test est assez proche de 1.96. De plus les prévisions
sont très proches des vraies valeurs. ;
147
C.1.2 Analyse multivariée
data Useconomic2 ; infile "C :
Users
Ty-Ann Esther
Desktop
DOCS MEMOIRE
CODES 27-10
CODES
USeconomic.txt" firstobs=2 expandtabs ; input no unemp gnp consum govinv prinv ; retain date ’30jun48’d ;
data Useconomic3 ; infile "C :

Users
Ty-Ann Esther
Desktop
DOCS MEMOIRE
CODES 27-10
CODES
USecom4.txt" firstobs=2 expandtabs ; input no unemp gnp consum govinv prinv ; retain date ’30jun48’d ;
data USeconomic4 ; set USeconomic3 ; unemp1=unemp**0.5 ; gnp1=gnp**0.2 ; consum1=consum**(1/3) ;

prinv1=prinv**0.2 ; run ;
data USeconomic5 ; set USeconomic2 ; unemp1=unemp**0.5 ; gnp1=gnp**0.2 ; consum1=consum**(1/3) ;

prinv1=prinv**0.2 ; run ; /* Modèle à 5 variables */ proc varmax data=USeconomic5 ; model unemp1
gnp1 consum1 prinv1 govinv / minic=(type=SBC) dif=(unemp1(1) gnp1(1) consum1(1) prinv1(1) go-
vinv(1)) print=(parcoef pcorr pcancorr corry) ; run ;
/* Etude de la causalité - préparation des données */ data USeconomic6 ; set USeconomic2 ; du-
nempmod=dif(unemp**0.5) ; dgnpmod=dif(gnp**0.2) ; dconsummod=dif(consum**(1/3)) ; dprinv-
mod=dif(prinv**0.2) ; dgovinv=dif(govinv) ; run ;
/* Etude de la causalité de Granger : Modèle à 5 variables */ proc varmax data=USeconomic6 ;

model dunempmod dgnpmod dconsummod dprinvmod dgovinv / p=1 ; causal group1=(dprinvmod
dconsummod) group2=(dunempmod dgnpmod dgovinv) ; causal group1=(dunempmod dgnpmod dgo-
vinv)group2=(dprinvmod dconsummod) ; causal group1=(dgovinv) group2=(dunempmod dgnpmod
dconsummod dprinvmod) ; causal group1=(dunempmod dgnpmod dconsummod dprinvmod) group2=(dgovinv) ;
run ;
/* Etude de l’impact d’une impulsion */
148
/*Modèle à 5 variables*/ proc varmax data=USeconomic6 plot=impulse ; model dunempmod dgnp-
mod dconsummod dprinvmod dgovinv / p=1 print=(impulse=(all)) ; run ;
proc varmax data=USeconomic6 plot=impulse ; model dprinvmod dconsummod dgnpmod dunemp-

mod dgovinv / p=1 print=(impulse=(all)) ; run ;
/* Etude de la causalité de Granger : Modèle à 4 variables */
proc varmax data=USeconomic6 ; id date interval=quarter ; model unemp1 gnp1 consum1 prinv1 /
p=1 lagmax=5 dif=(unemp1(1) gnp1(1) consum1(1) prinv1(1)) ; output out=for1 lead=4 ; run ;
/* Etude de la causalité de Granger : Modèle à 4 variables */ proc varmax data=USeconomic6 ; model

dunempmod dgnpmod dconsummod dprinvmod / p=1 ; causal group1=(dgnpmod) group2=(dunempmod
dconsummod dprinvmod) ; causal group1=(dunempmod dconsummod dprinvmod) group2=(dgnpmod) ;
causal group1=(dunempmod ) group2=( dgnpmod dconsummod dprinvmod) ; causal group1=(dgnpmod
dconsummod dprinvmod) group2=(dunempmod) ; causal group1=(dconsummod ) group2=(dunempmod
dgnpmod dprinvmod) ; causal group1=(dunempmod dgnpmod dprinvmod) group2=(dconsummod) ;
causal group1=(dprinvmod) group2=(dunempmod dconsummod dgnpmod) ; causal group1=(dunempmod
dconsummod dgnpmod) group2=(dprinvmod) ;
causal group1=(dgnpmod dunempmod) group2=( dconsummod dprinvmod) ; causal group1=(dconsummod

dprinvmod) group2=(dgnpmod dunempmod) ; causal group1=(dunempmod dconsummod) group2=(
dgnpmod dprinvmod) ; causal group1=(dgnpmod dprinvmod) group2=(dunempmod dconsummod) ;
causal group1=( dunempmod dprinvmod) group2=( dgnpmod dconsummod ) ; causal group1=(dgnpmod
dconsummod ) group2=(dunempmod dprinvmod) ;
causal group1=(dgnpmod)group2=(dunempmod) ; causal group1=(dunempmod) group2=(dgnpmod) ;

causal group1=(dprinvmod)group2=(dunempmod) ; causal group1=(dunempmod) group2=(dprinvmod) ;
causal group1=(dconsummod)group2=(dunempmod) ; causal group1=(dunempmod) group2=(dconsummod) ;
causal group1=(dgnpmod) group2=(dconsummod) ; causal group1=(dconsummod) group2=(dgnpmod) ;

causal group1=(dgnpmod) group2=(dprinvmod) ; causal group1=(dprinvmod) group2=(dgnpmod) ;
causal group1=(dconsummod) group2=(dprinvmod) ; causal group1=(dprinvmod) group2=(dconsummod) ;
causal group1=(dgnpmod dconsummod) group2=(dunempmod) ; causal group1=(dprinvmod) group2=(dconsummod

dunempmod) ;
run ;
/* Etude de l’impact d’une impulsion */
/*Modèle à 4 variables. Essayer les 24 permutations : 1234, 1243, 1324, 1342, 1423, 1432, 2134,
2143, 2314, 2413, 2431, 3124, 3142, 3214, 3241, 3412, 3421, 4123, 4132, 4213, 4231, 4312, 4321 */
*1234 ; proc varmax data=USeconomic6 plot=impulse ; model dunempmod dgnpmod dconsummod
149
dprinvmod / p=1 print=(impulse=(orth)) ; run ;
/* Décomposition des covariances de l’erreur de prédiction*/
/*Modèle à 4 variables : essayer les 24 permutations : 1234, 1243, 1324, 1342, 1423, 1432, 2134,
2143, 2314, 2413, 2431, 3124, 3142, 3214, 3241, 3412, 3421, 4123, 4132, 4213, 4231, 4312, 4321 */
*1234 ; proc varmax data=USeconomic6 ; model dunempmod dgnpmod dconsummod dprinvmod /

p=1 print=(decompose(5)) ; run ;
/* Prévisions : modèle à 4 variables*/ /* Sans les 4 dernières observations*/
/* On va dessiner sur un même graphique les prévisions des modèles univariés et multivarié. On
compare les prévisions */
/* LE MODÈLE VAR*/
proc varmax data=USeconomic4 ; id date interval=quarter ; model unemp1 gnp1 consum1 prinv1 /
p=1 lagmax=5 dif=(unemp1(1) gnp1(1) consum1(1) prinv1(1)) ; output out=for1 lead=4 ; run ;
/*Taux de chômage*/ proc arima data=USeconomic4 ; identify var=unemp1(1)minic ; estimate p=(1,4,8,12)

noint ; forecast out= b1 lead=4 interval=quarter id=date ; run ;
data b ; set b1 ; unemp = unemp1**2 ; forecastu = forecast**2 + std**2 ; l95u = l95**2 ; u95u =
u95**2 ; run ;
data h ; set for1 ; unemp = unemp1**2 ; forecastv = for1**2 + std1**2 ; l95v = lci1**2 ; u95v =
uci1**2 ; run ;
/* Graphiques ensemble*/
Data uv1 ; merge b h USeconomic2 ; by date ; run ;
/* Prévisions sans la bande de confiance*/
proc sgplot data=uv1 ; title ’Série Taux de chômage’ ; where date >= ’30jun83’d ; /*band Upper=u95v
Lower=l95v x=date / LegendLabel="95series x=date y=unemp /markers markerattrs=(symbol=circle
color=red) ; series x=date y=forecastv /markers markerattrs=(symbol=circle color=blue) ; series x=date
y=forecastu /markers markerattrs=(symbol=circle color=green) ; refline ’1jul87’d / axis=x ; run ;
/*gnp*/
proc arima data=USeconomic4 ; identify var=gnp1(1) ; estimate q=2 ; forecast out= c1 lead=4 inter-
val=quarter id=date ; run ;
data c ; set c1 ; gnp = gnp1**5 ; forecastu = 15*forecast*std**4 +10*(forecast**3)*std**2 + fore-

cast**5 ; l95u = l95**5 ; u95u = u95**5 ; run ;
150
data i ; set for1 ; gnp = gnp1**5 ; forecastv = 15*for2*std2**4 +10*(for2**3)*std2**2 + for2**5 ;
l95v = lci2**5 ; u95v = uci2**5 ; run ;
Data uv2 ; merge c i USeconomic2 ; by date ; run ; /* Avec la bande de confiance du modèle univarié*/
proc sgplot data=uv2 ; title ’Série Produit national brut’ ; where date >= ’30jun83’d ; band Upper=u95u
Lower=l95u x=date / LegendLabel="95series x=date y=gnp /markers markerattrs=(symbol=circle co-
lor=red) ; series x=date y=forecastv /markers markerattrs=(symbol=circle color=blue) ; series x=date
y=forecastu /markers markerattrs=(symbol=circle color=green) ; refline ’1jul87’d / axis=x ; run ;
/* Avec la bande de confiance du modèle VAR*/ proc sgplot data=uv2 ; title ’Série Produit national
brut’ ; where date >= ’30jun83’d ; band Upper=u95v Lower=l95v x=date / LegendLabel="95series
x=date y=gnp /markers markerattrs=(symbol=circle color=red) ; series x=date y=forecastv /markers
markerattrs=(symbol=circle color=blue) ; series x=date y=forecastu /markers markerattrs=(symbol=circle
color=green) ; refline ’1jul87’d / axis=x ; run ;
/*consum*/
/*Le modèle retenu est un MA(2,3,8)*/ proc arima data=USeconomic4 ; identify var=consum1(1) ;
estimate q=(2,3,8) ; forecast out= d1 lead=4 interval=quarter id=date ; run ; data d ; set d1 ; consum =
consum1**3 ; forecastu = 3*forecast*std**2 + forecast**3 ; l95u = l95**3 ; u95u = u95**3 ; run ;
/* Prévisions et valeurs observées : univarié*/
data j ; set for1 ; consum = consum1**3 ; forecastv = 3*for3*std3**2 + for3**3 ; l95v = lci3**3 ; u95v
= uci3**3 ; run ;
/* Prévisions et valeurs observées : multivarié*/ /*proc print data=j ; run ;*/
Data uv3 ; merge d j USeconomic2 ; by date ; run ;
/* Prévisions sans la bande de confiance*/
proc sgplot data=uv3 ; title ’Série Consommation’ ; where date >= ’30jun83’d ; series x=date y=consum
/markers markerattrs=(symbol=circle color=red) ; series x=date y=forecastv /markers markerattrs=(symbol=circle
color=blue) ; series x=date y=forecastu /markers markerattrs=(symbol=circle color=green) ; refline
’1jul87’d / axis=x ; run ;
/*prinv*/
/* Nous avons un modèle SARIMA((1,1,0),(3,0,0)).*/ proc arima data=USeconomic4 ; identify var=prinv1(1) ;

estimate p=(1,4,8,12) noint ; forecast out= e1 lead=4 interval=quarter id=date ; run ;
151
data e ; set e1 ; prinv = prinv1**5 ; forecastu = 15*forecast*std**4 +10*(forecast**3)*std**2 + fore-
cast**5 ; l95u = l95**5 ; u95u = u95**5 ; run ;
/* Prévisions et valeurs observées : univarié*/
data k ; set for1 ; prinv = prinv1**5 ; forecastv = 15*for4*std4**4 +10*(for4**3)*std4**2 + for4**5 ;

l95v = lci4**5 ; u95v = uci4**5 ; run ;
/* Prévisions et valeurs observées : multivarié*/
Data uv4 ; merge e k USeconomic2 ; by date ; run ;
/* Avec la bande de confiance du modèle univarié*/
proc sgplot data=uv4 ; title ’Série Investissements privés’ ; where date >= ’30jun83’d ; band Up-
per=u95u Lower=l95u x=date / LegendLabel="95series x=date y=prinv /markers markerattrs=(symbol=circle
y=forecastu /markers markerattrs=(symbol=circle color=green) ; refline ’1jul87’d /axis=x ; run ;
/* Avec la bande de confiance du modèle VAR*/
proc sgplot data=uv4 ; title ’Série Investissements privés’ ; where date >= ’30jun83’d ; band Up-
per=u95v Lower=l95v x=date / LegendLabel="95series x=date y=prinv /markers markerattrs=(symbol=circle
y=forecastu /markers markerattrs=(symbol=circle color=green) ; refline ’1jul87’d /axis=x ; run ;
/* Calcul de l’erreur quadratique prévisionnelle. Exemple de la série tronquée de 4 périodes*/
/*Série Taux de chômage*/ data uv1 ; set uv1 ; eqpu=(unemp-forecastu)**2 ; eqpv=(unemp-forecastv)**2 ;

run ;
proc sql ; create table eqp1 as select no, sum(eqpu)/4 as eqpu4, sum(eqpv)/4 as eqpv4 from uv1
WHERE no>=158 ; quit ;
/*Série Produit national brut*/
data uv2 ; set uv2 ; eqpu=(forecastu-gnp)**2 ; eqpv=(forecastv-gnp)**2 ; run ; proc sql ; create table
eqp2 as select no, sum(eqpu)/4 as eqpu4, sum(eqpv)/4 as eqpv4 from uv2 WHERE no>=158 ; quit ;
/*Série Consommation*/ data uv3 ; set uv3 ; eqpu=(forecastu-consum)**2 ; eqpv=(forecastv-consum)**2 ;

run ;
proc sql ; create table eqp3 as select no, sum(eqpu)/4 as eqpu4, sum(eqpv)/4 as eqpv4 from uv3
WHERE no>=158 ; quit ;
/*Série Investissements privés*/ data uv4 ; set uv4 ; eqpu=(forecastu-prinv)**2 ; eqpv=(forecastv-
152
prinv)**2 ; run ; proc sql ; create table eqp4 as select no, sum(eqpu)/4 as eqpu4, sum(eqpv)/4 as eqpv4
from uv4 WHERE no>=158 ; quit ;
C.2 Code R
C.2.1 Chapitre 2
Graphiques pour représenter les ACF et PACF d’un AR(p) et d’un MA(q)
Un AR(1) avec coefficient 0.9
ACF<-ARMAacf(ar=0.9,ma=0,30)[-1]
PACF<-ARMAacf(ar=0.9,ma=0,30,pacf=TRUE)
par(mfrow=c(2,2))
plot(ACF,type="h", xlab="lag",ylim=c(-0.8,1),main="ACF d’un AR(1) avec coefficient 0.9") ;abline(h=0)

plot(PACF,type="h", xlab="lag",ylim=c(-0.8,1),main="PACF d’un AR(1) avec coefficient 0.9") ;abline(h=0)
Un AR(2) avec coefficients 0.2 et -0.5
ACF<-ARMAacf(ar=c(0.2,-0.5),ma=0,30)[-1]
PACF<-ARMAacf(ar=c(0.2,-0.5),ma=0,30,pacf=TRUE)
plot(ACF,type="h", xlab="lag",ylim=c(-0.8,1), main="ACF d’un AR(2) avec coefficients 0.2 et -0.5") ;abline(h=0)
plot(PACF,type="h", xlab="lag",ylim=c(-0.8,1),main="PACF d’un AR(2) avec coefficients 0.2 et -

0.5") ;abline(h=0)
Un AR(3) avec coefficients
Un MA(1) avec coefficient 0.5
153
ACF<-ARMAacf(ar=0,ma=0.5,30)[-1]
PACF<-ARMAacf(ar=0,ma=0.5,30,pacf=TRUE)
par(mfrow=c(2,2))
plot(ACF,type="h", xlab="lag",ylim=c(-0.8,1),main="ACF d’un MA(1) avec coefficient 0.5") ;abline(h=0)
plot(PACF,type="h", xlab="lag",ylim=c(-0.8,1),main="PACF d’un MA(1) avec coefficient 0.5") ;abline(h=0)
Un MA(2) avec coefficients 0.6 et 0.3
ACF<-ARMAacf(ar=0,ma=c(0.6,0.3),30)[-1]
PACF<-ARMAacf(ar=0,ma=c(0.6,0.3),30,pacf=TRUE)
plot(ACF,type="h", xlab="lag",ylim=c(-0.8,1),main="ACF d’un MA(2) avec coefficients 0.6 et 0.3") ;abline(h=0)
plot(PACF,type="h", xlab="lag",ylim=c(-0.8,1),main="PACF d’un MA(2) avec coefficients 0.6 et 0.3") ;abline(h=0)
Un ARMA(1,1) avec coefficients 0.2 et -0.5
ACF<-ARMAacf(ar=0.2, ma=-0.5,30)[-1]
PACF<-ARMAacf(ar=0.2, ma=-0.5,30,pacf=TRUE)
par(mfrow=c(1,2))
plot(ACF,type="h", xlab="lag",ylim=c(-0.8,1), main="ACF d’un ARMA(1,1) avec coefficients 0.2 et

-0.5") ;abline(h=0)
154
plot(PACF,type="h", xlab="lag",ylim=c(-0.8,1),main="PACF d’un ARMA(1,1) avec coefficients 0.2
et -0.5") ;abline(h=0)
Illustrer les propriétés des AR, MA et ARMA saisonniers
Un AR(2) saisonnier avec s=4 de coefficients 0.2 et 0.1
autocor1<-ARMAacf(ar=c(0,0,0,0.2,0,0,0,0.1),ma=0,30)[-1]
pautocor1<-ARMAacf(ar=c(0,0,0,0.2,0,0,0.1),ma=0,30,pacf=TRUE)
Un MA(1) saisonnier avec s=4 de coefficient 0.3

ma<-rep(0,3)
ma<-c(ma,0.3)
autocorm<-ARMAacf(ma=ma,ar=0,30)[-1]
pautocorm<-ARMAacf(ma=ma,ar=0,30,pacf=TRUE)
Un ARMA saisonnier avec s=4
ar<-c(0,0,0,0.2,0,0,0,0.1)
autocoram<-ARMAacf(ma=ma,ar=ar,30)[-1]
pautocoram<-ARMAacf(ma=ma,ar=ar,30,pacf=TRUE)
C.2.2 Analyse univariée

library(car)
eco<-read.table("C :/Users/Ty-Ann Esther/Desktop/Statistiques/MEMOIRE/Bon code/USeconomic.txt",

sep="", header=TRUE)
155
install.packages("astsa") library(astsa)
econ5
par(mfrow=c(5,1))
Série chômage
unemp<-ts(econ5$unemp,start=1948.25, frequency=4)
plot(unemp, col="blue", xlab="Date", main="Taux de chômage") points(unemp, col="blue")
Série gnp
(gnp<-ts(econ5$gnp,start=1948.25, frequency=4))
plot(gnp, col="blue", xlab="Date", main="Produit national brut") points(gnp, col="blue")
Série consum
(consum<-ts(econ5$consum,start=1948.25, frequency=4))
plot(consum, col="blue", xlab="Date", main="Consommation") points(consum, col="blue")
Série prinv
prinv<-ts(econ5$prinv,start=1948.25, frequency=4)
plot(prinv, col="blue", xlab="Date", main="Investissements privés") points(prinv, col="blue")
Série govinv
(govinv<-ts(econ5$govinv,start=1948.25, frequency=4))
156
plot(govinv, col="blue", xlab="Date", main="Dépenses gouvernementales") points(govinv, col="blue")
par()
C.2.3 Chapitre 4 :exemples

Exemple de VAR(1) bivarié
var1<-matrix(c(0.7,0.1,0.6,0.25),byrow=T,nrow=2)
abs(eigen(var1)$values)
var1%*%var1
var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*
%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1
Non stabilité d’un processus stationnaire
ma<-matrix(c(1.7,0.5,0.1,3),byrow=T,nrow=2)
abs(eigen(ma)$values))
EXEMPLE 1 avec un VAR(2) bi-dimensionnel
Les matrices A1 et A2 du processus
mat1
(mat1<-matrix(ncol=2,nrow=2, byrow=TRUE,c(0.6,0.2,0.3,0.7)))
mat2
157
(mat2<-matrix(ncol=2,nrow=2, byrow=TRUE,c(-0.3,0,0.1,0.1)))
La matrice compagnon
(mat<-matrix(nrow=4,ncol=4,byrow=TRUE,c(0.6,0.2,-0.3,0,0.3,0.7,0.1,0.1,1,0,0,0,0,1,0,0)))
Valeurs propres de la matrice compagnon
eigen(mat)
Modules des valeurs propres de la matrice compagnon
abs(eigen(mat)$values)
(val<-eigen(mat)$values)
val[1]
Re(val[1])
Démonstration de la stabilité par le calcul du déterminant de Ikp-la matrice compagnon
determinant(diag(1,4)-Re(val[1])*mat)
determinant(diag(1,2)-Re(val[1])*mat1-(Re(val[1])2̂)*mat2)
determinant(diag(1,4)-val[2]*mat) valeur complexe
determinant(diag(1,4)-val[3]*mat) valeur complexe
determinant(diag(1,4)-Re(val[4])*mat)
158
determinant(diag(1,2)-Re(val[4])*mat1-(Re(val[4])2̂)*mat2)
polyroot(c(1, -1.3,0.56,-0.17,0.04)) Les racines
abs(polyroot(c(1, -1.3,0.56,-0.17,0.04)))
Les modules sont égaux à 1.292023 2.930777 2.930777 et 2.252704. Les modules sont tous supérieurs
à 1.
Calcul de µ
ident<-matrix(ncol=2,nrow=2, byrow=TRUE,c(1,0,0,1))
ident-mat1-mat2
invverse<-solve(ident-mat1-mat2)
invverse%*%c(0,1)
Soit sigmau<-matrix(c(0.25,0,0,0.09),nrow=2)
(sigmau<-matrix(c(0.25,0,0,0.09),nrow=2))
Calcul d’autocovariance
(Sigmau<-rbind(cbind(sigmau,matrix(rep(0,4),ncol=2)),matrix(rep(0,8),nrow=2)))
c(Sigmau) Transformer en vecteur
GammaY0vec<-solve(diag(1,16)- (mat %x% mat))%*%c(Sigmau)
(GammaY0<-matrix(GammaY0vec, ncol=4, byrow=F))
159
(Gammay0<-matrix(c(GammaY0[1,1],GammaY0[1,2],GammaY0[2,1],GammaY0[2,2]),nrow=2,byrow=T))
h=0
(Gammay1<-matrix(c(GammaY0[1,3],GammaY0[1,4],GammaY0[2,3],GammaY0[2,4]),nrow=2,byrow=T))
h=1
(Gammay2<-mat1%*%Gammay1+mat2%*%Gammay0) h=2
Calcul d’autocorrélation
(matD<-diag(sqrt(diag(Gammay0)))) matrice D
(Ry0<-solve(matD)%*%Gammay0%*%t(solve(matD))) matrice autocorr0
(Ry1<-solve(matD)%*%Gammay1%*%t(solve(matD))) matrice autocorr1
(Ry2<-solve(matD)%*%Gammay2%*%t(solve(matD))) matrice autocorr2(h=2)
Soit sigmau<-matrix(c(0.25,0,0,0.09),nrow=2)
sigmau<-matrix(c(0.25,0,0,0.09),nrow=2)
(matriceP<-chol(sigmau)) matrice P pour vérifier l’affirmation (preuve proposition 4.2)
Soit J(2x4), la matrice J(I2 :0)
matJ<-matrix(c(1,0,0,0,0,1,0,0),byrow=TRUE,nrow=2)
Calcul de forme canonique fondamentale
(phi1<-matJ%*%mat%*%t(matJ))
(phi2<-matJ%*%(mat%*%mat)%*%t(matJ))
160
(phi3<-matJ%*%(mat%*%mat%*%mat)%*%t(matJ))
(phi4<-matJ%*%(mat%*%mat%*%mat%*%mat)%*%t(matJ))
Calcul de forme orthogonale
(theta1<-phi1%*%matriceP)
Trouver une matrice Sigmau et faire la décomposition de Choleski pour obtenir P
sigmau<-matrix(c(0.25,0,0,0.09),nrow=2)
matriceP<-t(chol(sigmau))
(theta0<-matriceP) Il n’existe pas de causalité instantanée.
Fonction vec()
c(mat1)
Produit de Kronecker
mat1%x%mat2
161
Processus stationnaire mais non stable
Exemple de processus VAR(1) stable

var1<-matrix(c(0.7,0.1,0.6,0.25),byrow=T,nrow=2)
Choc unitaire sur les erreurs de prédiction
(phi0<-diag(2))
(phi1<-matJ%*%mat%*%t(matJ))
(phi2<-matJ%*%(mat%*%mat)%*%t(matJ))
(phi3<-matJ%*%(mat%*%mat%*%mat)%*%t(matJ))
(phi4<-matJ%*%(mat%*%mat%*%mat %*%mat)%*%t(matJ))
(phi5<-matJ%*%(mat%*%mat%*%mat%*%mat%*%mat)%*%t(matJ))
(phi6<-matJ%*%(mat%*%mat%*%mat%*%mat%*%mat%*%mat)%*%t(matJ))
(phi7<-matJ%*%(mat%*%mat%*%mat%*%mat%*%mat%*%mat%*%mat)%*%t(matJ))
(phi8<-matJ%*%(mat%*%mat%*%mat%*%mat%*%mat%*%mat%*%mat%*%mat)%*%t(matJ))
Graphiques choc erreurs de prédiction

par(mfrow=c(2,2))
plot(x=(0 :8), y=c(phi0[1],phi1[1],phi2[1],phi3[1],phi4[1], phi5[1], phi6[1], phi7[1], phi8[1]), type="b",
xlab="périodes",ylab="réponses de y1", main="Choc sur y1")
plot(x=(0 :8), y=c(phi0[1,2], phi1[1,2], phi2[1,2], phi3[1,2], phi4[1,2], phi5[1,2], phi6[1,2], phi7[1,2],
phi8[1,2]), type="b", xlab="périodes",ylab="réponses de y1", main="Choc sur y2")
plot(x=(0 :8), y=c(phi0[2,1],phi1[2,1],phi2[2,1],phi3[2,1],phi4[2,1], phi5[2,1], phi6[2,1], phi7[2,1],
plot(x=(0 :8), y=c(phi0[2,2],phi1[2,2],phi2[2,2],phi3[2,2],phi4[2,2], phi5[2,2], phi6[2,2], phi7[2,2],
dev.off
Graphiques cumulatifs choc erreurs de prédiction

par(mfrow=c(2,2))
plot(x=(0 :8), y=cumsum(c(phi0[1],phi1[1],phi2[1],phi3[1],phi4[1], phi5[1], phi6[1], phi7[1], phi8[1])),
type="b", xlab="périodes",ylab="réponses cumulatives de y1", main="Choc sur y1")
plot(x=(0 :8), y=cumsum(c(phi0[1,2], phi1[1,2], phi2[1,2], phi3[1,2], phi4[1,2], phi5[1,2], phi6[1,2],
phi7[1,2], phi8[1,2])), type="b", xlab="périodes",ylab="réponses cumulatives de y1", main="Choc
162
sur y2")
plot(x=(0 :8), y=cumsum(c(phi0[2,1],phi1[2,1],phi2[2,1],phi3[2,1],phi4[2,1], phi5[2,1], phi6[2,1], phi7[2,1],
phi8[2,1])), type="b", xlab="périodes",ylab="réponses cumulatives de y2", main="Choc sur y1")
plot(x=(0 :8), y=cumsum(c(phi0[2,2],phi1[2,2],phi2[2,2],phi3[2,2],phi4[2,2], phi5[2,2], phi6[2,2], phi7[2,2],
phi8[2,2])), type="b", xlab="périodes",ylab="réponses cumulatives de y2", main="Choc sur y2")
dev.off
Chocs erreurs wt
sigmau1<-matrix(c(0.49,0.21,0.21,0.25),nrow=2)
matriceP1<-t(chol(sigmau1))
(phi11<-var1)
(phi21<-var1%*%var1)
(phi31<-var1%*%var1%*%var1)
(phi41<-var1%*%var1%*%var1%*%var1)
(phi51<-var1%*%var1%*%var1%*%var1%*%var1)
(phi61<-var1%*%var1%*%var1%*%var1%*%var1%*%var1)
(phi71<-var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1)
(phi81<-var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1%*%var1)
(theta0<-matriceP1)
(theta1<-phi11%*%matriceP1)
Graphiques choc erreurs wt

par(mfrow=c(2,2))
plot(x=(0 :8), y=c(theta0[1],theta1[1],theta2[1],theta3[1],theta4[1], theta5[1], phi6[1], phi7[1], theta8[1]),
type="b", xlab="périodes",ylab="réponses de y1", main="Choc sur y1")
163
plot(x=(0 :8), y=c(theta0[1,2], theta1[1,2], theta2[1,2], theta3[1,2], theta4[1,2], phi5[1,2], theta6[1,2],
theta7[1,2], theta8[1,2]), type="b", xlab="périodes",ylab="réponses de y1", main="Choc sur y2")
plot(x=(0 :8), y=c(theta0[2,1],theta1[2,1],theta2[2,1],theta3[2,1],theta4[2,1], theta5[2,1], theta6[2,1],
plot(x=(0 :8), y=c(theta0[2,2],theta1[2,2],theta2[2,2],theta3[2,2],theta4[2,2], theta5[2,2], theta6[2,2],
dev.off
Graphiques cumulatifs erreurs wt
par(mfrow=c(2,2))
plot(x=(0 :8), y=cumsum(c(theta0[1],theta1[1],theta2[1],theta3[1],theta4[1], theta5[1], phi6[1], phi7[1],
theta8[1])), type="b", xlab="périodes",ylab="réponses de y1", main="Choc sur y1")
plot(x=(0 :8), y=cumsum(c(theta0[1,2], theta1[1,2], theta2[1,2], theta3[1,2], theta4[1,2], phi5[1,2],
theta6[1,2], theta7[1,2], theta8[1,2])), type="b", xlab="périodes",ylab="réponses de y1", main="Choc
sur y2")
plot(x=(0 :8), y=cumsum(c(theta0[2,1],theta1[2,1],theta2[2,1],theta3[2,1],theta4[2,1], theta5[2,1], theta6[2,1],
theta7[2,1], theta8[2,1])), type="b", xlab="périodes",ylab="réponses de y2", main="Choc sur y1")
plot(x=(0 :8), y=cumsum(c(theta0[2,2],theta1[2,2],theta2[2,2],theta3[2,2],theta4[2,2], theta5[2,2], theta6[2,2],
theta7[2,2], theta8[2,2])), type="b", xlab="périodes",ylab="réponses de y2", main="Choc sur y2")
dev.off
164
Bibliographie
Hirotugu Akaike. Fitting autoregressive models for prediction. Annals of the Institute of Statistical
Mathematics, 21(1) :243–247, 1969.
Hirotugu Akaike. Autoregressive model fitting for control. Annals of the Institute of Statistical Ma-
thematics, 23(1) :163–180, 1971.
Hirotugu Akaike. Information theory and an extension of the maximum likelihood principle. In Proc.
2nd International Symposium on Information Theory, pages 267–281, 1973.
Hirotugu Akaike. A new look at the statistical model identification. IEEE Transactions on Automatic
Control, 19(6) :716–723, 1974.
Peter Bühlmann. Sieve bootstrap for time series. Bernoulli, 3(2) :123–148, 06 1997.
Abraham Bovas and Johannes Ledolter. Statistical Methods for Forecasting. John Wiley & Sons, New
York, 1re edition, 1983.
George EP Box and David R Cox. An analysis of transformations. Journal of the Royal Statistical
Society. Series B (Methodological), 26(2) :211–252, 1964.
George EP Box and Gwilym M Jenkins. Time series analysis forecasting and control. Technical
report, Wisconsin Univ Madison Dept Of Statistics, 1970.
George EP Box and David A Pierce. Distribution of residual autocorrelations in autoregressive-

integrated moving average time series models. Journal of the American statistical Association,
65(332) :1509–1526, 1970.
Peter J Brockwell and Richard A Davis. Time Series : Theory and Methods. Springer-Verlag New
York, 2e edition, 2009.
Michel Carbon. personal communication, March 2017.
Lawrence J Christiano. Christopher a. sims and vector autoregressions. The Scandinavian Journal of
Economics, 114(4) :1082–1104, 2012.
165
Gilbert Colletaz. Les critères de sélection. Cours, Université d’Orléans, Master ESA, 2007. URL
https://www.univ-orleans.fr/deg/masters/ESA/GC/sources/CritSel.pdf.
Gilbert Colletaz. Les processus var. Cours, Université d’Orléans, Master ESA, 2018. URL https:
//www.univ-orleans.fr/deg/masters/ESA/GC/sources/VAR.pdf.
Ragnar Frisch and Frederick V Waugh. Partial time regressions as compared with individual trends.
Econometrica : Journal of the Econometric Society, 1(4) :387–401, 1933.
John Galbraith and Victoria Zinde-Walsh. Évaluation de critères d’information pour les modèles de
séries chronologiques. L’Actualité économique, 80(2-3) :207–227, 2004.
Jean-Baptiste Gossé and Cyriac Guillaumin. Christopher a. sims et la représentation var. Technical
report, HAL, 2011.
John M. Gottman. TIME-SERIES ANALYSIS : A Comprehensive Introduction for Social Scientists.

Cambridge University Press, Cambridge, 1re edition, 2009.
Christian Gourieroux and Alain Monfort. Series Temporelles et Modèles Dynamiques. Economica,
Paris, 1re edition, 1990.
Christian Gourieroux and Alain Monfort. Series Temporelles et Modeles Dynamiques. Economica,
Paris, 2e edition, 1995.
Clive WJ Granger. Investigating causal relations by econometric models and cross-spectral methods.
Econometrica : Journal of the Econometric Society, 37(3) :424–438, 1969.
Hélène Hamisultane. Econometrie des series temporelles. Lecture, 2002.
Edward J Hannan and Barry G Quinn. The determination of the order of an autoregression. Journal
of the Royal Statistical Society. Series B (Methodological), 41 :190–195, 1979.
Jonathan RM Hosking. The multivariate portmanteau statistic. Journal of the American Statistical
Association, 75(371) :602–608, 1980.
R.J. Hyndman and G. Athanasopoulos. Forecasting : principles and practice, 2018. URL OTexts.
com/fpp2. Accessed : Feb. 21, 2019.
Rob J Hyndman. Arima processes. Datajobs : Data science knowledge, 2001a.
Rob J Hyndman. Box-jenkins modelling. In Regional Symposium on Environment and Natural

http ://www. itl. nist. gov/div898/handbook/pmc/secti Resources, Apr, pages 10–11, 2001b.
Yervant H Krikorian. Causality. Philosophy, 9(35) :319–327, 1934.
Sandrine Lardic and Valérie Mignon. Econométrie des Séries Temporelles Macroénonomiques et
Financières. Economica, Paris, 1re edition, 2002.
166
Emilie Lebarbier and Tristan Mary-Huard. Le critère BIC : fondements théoriques et interprétation.
PhD thesis, INRIA, 2004.
Robert B Litterman. Forecasting with bayesian vector autoregressions—five years of experience.

Journal of Business & Economic Statistics, 4(1) :25–38, 1986.
Helmut Lütkepohl. New Introduction To Multiple Time Series Analysis. Springer-Verlag Berlin, 2e
edition, 2006.
Mélina Mailhot. Puissances asymptotiques et à tailles finies de tests de normalité sous des alternatives
locales. PhD thesis, Université du Québec à Trois-Rivières, 2009.
Spyros Makridakis. A survey of time series. International Statistical Review / Revue Internationale
de Statistique, 44(1) :29–70, 1976.
Spyros Makridakis and Michele Hibon. Arma models and the box–jenkins methodology. Journal of
Forecasting, 16(3) :147–163, 1997.
Alexandre Mathis, Georges Fiori, and Claude Deniau. Sélection du nombre de retards dans un modèle
var : conséquences éventuelles du choix des critères. Économie & prévision, 106(5) :61–69, 1992.
Klaus Neusser. Time Series Econometrics. Springer International Publishing AG, Switzerland, Cham,
1re edition, 2016.
Christian Olivier, Frédéric Jouzel, Abdelaziz El Matouat, and Pierre Courtellemont. Un nouveau
critère pour la sélection de l’ordre d’un modèle. In 16° Colloque sur le traitement du signal et des
images, FRA, 1997. GRETSI, Groupe d’Etudes du Traitement du Signal et des Images, 1997.
Jostein Paulsen and Dag Tjøstheim. On the estimation of residual variance and order in autoregressive
time series. Journal of the Royal Statistical Society. Series B (Methodological), 47(2) :216–228,
1985.
Dimitris N Politis and Joseph P Romano. The stationary bootstrap. Journal of the American Statistical
association, 89(428) :1303–1313, 1994.
Gideon Schwarz et al. Estimating the dimension of a model. The annals of statistics, 6(2) :461–464,
1978.
Robert H. Shumway and David S. Stoffer. Time Series Analysis and Its Applications : With R
Examples. Springer New York, 3e edition, 2011.
Christopher A Sims. Macroeconomics and reality. Econometrica : Journal of the Econometric Society,
48(1) :1–48, 1980.
Christopher A. Sims. Macroeconomics and methodology. Journal of Economic Perspectives, 10(1) :

105–120, 1996.
167
Eugen Slutzky. The summation of random causes as the source of cyclic processes. Econometrica :
Journal of the Econometric Society, 5 :105–146, 1937.
James H Stock and Mark W Watson. Vector autoregressions. Journal of Economic Perspectives, 15
(4) :101–115, 2001.
Henri Theil. Principles of econometrics. Hoboken, NJ : John Wiley and Sons, 1971.
Ruey S. Tsay. Analysis of Financial Time Series. John Wiley & Sons, Inc., Cambridge, Mass, 3e
edition, 2010.
Walter Vandaele. Applied Time Series and Box-Jenkins Models. Academic Press, New York, 1983.
Richard M Vogel and Amy L Shallcross. The moving blocks bootstrap versus parametric time series
models. WATER RESOURCES RESEARCH, 32(6) :1875–1882, 1996.
Norbert Wiener. The theory of prediction. Modern mathematics for engineers, 1956.
Herman Wold. A study in the analysis of stationary time series. PhD thesis, Almqvist & Wiksell,
1938.
Peter C Young and Diego J Pedregal. Macro-economic relativity : government spending, private
investment and unemployment in the usa 1948–1998. Structural Change and Economic Dynamics,
10(3-4) :359–380, 1999.
G. Udny Yule. Why do we sometimes get nonsense-correlations between time-series ?–a study in
sampling and the nature of time-series. Journal of the Royal Statistical Society, 89(1) :1–63, 1926.
168

Les Modèles VAR (P) : Mémoire

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Les Modèles VAR (P) : Mémoire

Transféré par

Droits d'auteur :

Formats disponibles

Les modèles VAR(p)

Amenan Christiane Chukunyere

Maîtrise en statistique - avec mémoire

© Amenan Christiane Chukunyere, 2019

Table des matières iv

Liste des tableaux vi

Liste des figures ix

1 QUELQUES OUTILS ET DÉFINITIONS STATISTIQUES 3

2 LES MODÈLES DE BOX ET JENKINS 14

5 RETOUR À L’APPLICATION : ANALYSE MULTIVARIÉE 102

A Algèbre vectorielle et notion statistique 123

B Tableaux et graphiques 126

C Code informatique 142

5.1 Critère BIC de modèles concurrents selon l’ordre . . . . . . . . . . . . . . . . . . . 104

2.1 Exemples d’ACF et de PACF théoriques d’un AR(1) et d’un AR(2) . . . . . . . . . . 17

4.1 Réponses aux chocs unitaires de l’exemple ( 4.13) . . . . . . . . . . . . . . . . . . . 94

5.1 Graphe des 5 séries transformées mais non différenciées . . . . . . . . . . . . . . . 103

B.1 Prévisions de la série "produit national brut" . . . . . . . . . . . . . . . . . . . . . . 140

Rendre à César ce qui est à César...

1.1 Processus stochastique

µJ (A1 × · · · × An ) = µJ−ti (A1 × . . . Ai−1 × Ai+1 × · · · × An ) si At = R.

Le bruit blanc est dit fort si ses variables sont indépendantes.

1.4 Autocovariance et autocorrélation

∀ t1 ,t2 ∈ Z, γ(t1 ,t2 ) = Cov(Xt1 ,Xt2 ).

En supposant t2 = t1 + h, la fonction d’autocovariance d’un processus stationnaire est :

∀ h ∈ Z, γ(t1 ,t1 + h) = γ(h) = E[(Xt1 − µ)(Xt1 +h − µ)] = γ(−h),

Remarque : La fonction γ(.) est paire.

Pour t1 = t2 = t, on a en particulier pour un processus stationnaire :

γ(t,t) = Var(Xt ) = γ(0),

γ(t1 ,t1 + h) γ(h)

Remarque : La fonction ρ(.) est paire.

Lorsque t2 = t1 , r(t1 ,t2 ) = r(t1 ,t1 ) = r(t2 ,t2 ) = 1.

Cov(Xt − Xt∗ ,Xt+h − Xt+h

∗ est la meilleure estimation linéaire affine de X

Remarque : La fonction r(.) est paire.

Définition 1.10 (Définition équivalente de la fonction d’autocorrélation partielle) La fonction d’au-

1. Voir (Brockwell and Davis, 2009, p. 102)

De la résolution de ce système d’équations, on obtient :

où det(M) est le déterminant de la matrice M.

1.5 Estimation de la moyenne et des fonctions d’autocovariance,

Définition 1.11 (Un estimateur de la moyenne) On estime la moyenne µ du processus (X(t),t ∈ Z)

Proposition 1.2 (Convergence et loi asymptotique) X̄ converge en moyenne quadratique vers µ,

Var[X̄] = E[(X̄ − µ)2 ] → 0, si γ(n) → 0

Définition 1.12 (Un estimateur de la fonction d’autocovariance) On estime la fonction d’autoco-

Proposition 1.3 (Loi asymptotique de la fonction d’autocovariance) Si Xt = µ + ∑∞j=−∞ ψ j Zt− j où

Définition 1.13 (Un estimateur de la fonction d’autocorrélation et loi asymptotique) On estime la

ρ̂(h) = [ρ̂(1), . . . ,ρ̂(h)] ,

ρ(h) = [ρ(1), . . . ,ρ(h)] ,

et w est la matrice de variances-covariances donnée par la formule de Bartlett mentionnée à la page

On peut aussi écrire :

où les ACF des q premiers retards sont significativement non nuls.

Proposition 1.4 (Propriétés asymptotiques de la fonction d’autocorrélation partielle) Si {Xt } est

ˆ ≈ n−1 , (h > p),

où les PACF de retards 1 à p sont significativement non nulles.

L’opérateur B permet donc de reculer de k pas à partir d’une position t.

Bien entendu, si Xt = C, ∀t ∈ Z, alors

car, une constante ne peut varier.

Définition 1.16 (Différenciation) Soit ∇, l’opérateur différenciation, (X(t),t ∈ T ), une série de n

Exemple 1.1 Pour des ordres de 1 et de 2, la définition 1.16 nous donne

L’ordre d représente donc le nombre de différenciations appliquées à la série et le nombre de valeurs

En notant I, l’opérateur identité, on peut remarquer que ∇ = I − B car,

∇Xt = Xt − Xt−1 = Xt − BXt = (I − B)Xt .

Définition 1.17 (Opérateur de différenciation saisonnière) L’opérateur ∇s est défini par