Vous êtes sur la page 1sur 64

Guide Pratique d’Econométrie des

Séries Temporelles sur EViews

Rappels de cours et Illustrations pratiques

Prof. Yaya KEHO

Enseignant à l’ENSEA d’Abidjan, Côte d’Ivoire

Août 2014
Introduction

L'économétrie désigne un ensemble de méthodes statistiques et mathématiques dont l’objectif


est de quantifier les phénomènes économiques. Elle est pour ses utilisateurs un outil précieux
d'analyse et d'aide à la décision. Aujourd’hui, avec le développement de l’informatique et des
logiciels statistiques, l’économétrie appliquée connaît un essor spectaculaire. De plus en plus,
les mémoires et thèses en sciences économiques en font un usage intensif. L’économie se
quantitativise.

Ce support se veut un guide pratique d’économétrie, ce qui justifie l’absence de théories trop
formalisées. L’ensemble du cours est accessible au lecteur ayant des connaissances de base en
économie et en statistique mathématique. Il ne requiert pas un niveau mathématique
particulièrement élevé, d’autant qu’il n’y a pas de grandes démonstrations des formules
présentées. Ce parti pris constitue, en quelque sorte, mon défi : essayer de faire comprendre et
appliquer avec succès des éléments d’une discipline qui peut atteindre un niveau
mathématique d’une très grande complexité. Cependant, si l'orientation "appliquée" est
privilégiée, elle suppose d’abord quelques connaissances théoriques minimales en statistique
et en économie.

Avant d’aborder comment, de manière pratique, les différentes méthodes sont mises en
œuvre, le cours fait des rappels sur quelques éléments théoriques nécessaires à la
compréhension et à l’interprétation des résultats. Les exposés théoriques font l’objet de
renvois à des ouvrages académiques spécialisés. Les modèles théoriques énoncés sont illustrés
par des exercices pratiques commentés. Les applications seront faites essentiellement sur le
logiciel Eviews.
Chapitre 1 : Le Modèle Linéaire de Régression Multiple

L’analyse économique est basée sur la représentation théorique des comportements des agents
économiques. Elle repose sur des hypothèses plus ou moins réalistes et conduit à des
conclusions dont la portée peut être positive ou normative. Les théories économiques
influencent le réel dans la mesure où elles guident certaines décisions de politique
économique. Compte tenu de cette influence, les théories économiques doivent être
confrontées à la réalité afin d’évaluer leur pertinence empirique : les agents économiques se
comportent-ils conformément à la théorie ?

L’économétrie est une « approche scientifique visant à la compréhension des aspects


économiques de la conduite humaine » (Hendy, 1995). Elle procède à la mise en épreuve des
théories économiques par l’application de méthodes statistiques aux données empiriques.
Cette confrontation pour être réalisée doit suivre un certain nombre d’étapes: la spécification
du modèle, le recueil de données, l'estimation des paramètres du modèle, les tests de
spécification et, éventuellement, la re-spécification.

Section 1 : Spécification et hypothèses de base du modèle linéaire

1.1 Spécification d’un modèle économétrique linéaire

Pour étudier un phénomène économique, on essaie de représenter celui-ci par le


comportement d’une variable. Cette variable économique dépend elle-même d’autres
variables que l’on relie entre elles par une relation mathématique. Cette relation définit ce
qu’on appelle un modèle. Par exemple, si on se propose d’étudier la consommation (C) d’un
certain bien, la théorique économique postule que :

C  f (R) (11.1)

où R représente le revenu. Pour spécifier le modèle empirique, on doit postuler une forme
pour les fonctions intervenant dans le modèle. Bien entendu ces fonctions mathématiques
doivent rester compatibles avec les hypothèses a priori du modèle théorique. En général, la
théorie économique se contente d’indiquer les variables économiques qui interviennent dans
le modèle et suggère le signe probable des dérivées partielles. Par exemple, pour la fonction
de consommation précédente, on a f ' R  0 . Cependant, la théorie économique ne renseigne
pas sur un certain nombre de choses dont la forme exacte des fonctions mathématiques, la
définition et la mesure des variables qui interviennent dans le modèle. Faut-il retenir une
spécification linéaire ? Faut-il raisonner en termes réels ou courants ? Faut-il considérer les
taux de croissance ou les niveaux des variables ? Faut-il appliquer une transformation
logarithmique à certaines variables ? Faut-il corriger les variables des variations saisonnières
ou non ? Ce sont là des questions pratiques importantes dont dépend l’issue de l’évaluation
empirique des modèles économiques.

En générale, on retient une spécification linéaire de la forme :

Ct  a0  a1 Rt  et (11.2)

1
Il est évident que le revenu (R) n’est pas le seul déterminant de la consommation. La théorie
économique suggère que les prix et les dépenses publiques peuvent également expliquer la
consommation. Dans ces conditions, le modèle précédent dévient un modèle multiple c’est-à-
dire un modèle linéaire avec plusieurs variables explicatives:

Ct  a0  a1 Rt  a 2 Pt  a3Gt  et (11.3)

Dans cette spécification, la consommation (C) est la variable dépendante ou endogène, R, P et


G sont les variables explicatives, indépendantes ou encore exogènes.

e t est un terme d’erreur qui capte l’ensemble d’autres variables explicatives pertinentes non
prises en compte dans la spécification, mais aussi d’autres types d’erreurs de spécification
telles que la forme de la relation mathématique, l’erreur d’échantillonnage et les erreurs de
mesure sur les variables. Ce terme est supposé aléatoire, ce qui permet de rendre le modèle
non déterministe : les valeurs observées de la consommation peuvent ainsi s’écarter des
valeurs théoriques issues de l’équation. Toutefois, pour que l’ajustement soit satisfaisant, les
valeurs de e t ne doivent pas être trop « grandes », sinon le modèle n’expliquerait pas grande
chose des variations de la consommation.

1.2 Hypothèses de base du modèle

Pour « gérer » les termes d’erreurs e t ainsi que les propriétés des coefficients estimés du
modèle, on pose les hypothèses suivantes:

- Les erreurs e t sont de moyenne nulle : les erreurs se compensent sur toute la période;
- La variance des erreurs e t est constante (hypothèse d’homoscédascticité) ;
- Les erreurs e t sont indépendantes (l’erreur au temps t n’est pas influencée par l’erreur
aux temps t-1, t-2, ou plus généralement la corrélation entre deux observations
distinctes est nulle) ;
- Les erreurs e t suivent une distribution normale.

On résume ces quatre premières hypothèses en posant que les termes d’erreurs sont
normalement identiquement et indépendamment distribuées et on note e t ~ iid 0,  2  . La
pertinence des tests que nous allons faire sur le modèle dépendra de la validité de ces
hypothèses. L’hypothèse de normalité n’est pas indispensable pour garantir l’absence de biais
dans l’estimation des coefficients, mais elle s’avère cruciale pour réaliser les tests statistiques
sur le modèle.

En plus des hypothèses précédentes sur les termes d’erreurs, on pose également un certain
nombre d’hypothèses sur les variables explicatives. Ainsi une des hypothèses importantes
dans les modèles structurels est l’exogénéïté des variables explicatives. Cette hypothèse
signifie que les variables explicatives ne sont pas corrélées avec le terme d’erreur e t
( cov( xt , et )  0) . La violation de cette hypothèse implique un traitement économétrique
approprié. On suppose d’une part que le nombre d’observations excède le nombre de
paramètres à estimer et, d’autre part, qu’il n’existe pas de multicolinéarité parfaite entre les
variables explicatives. La première condition est une condition nécessaire pour vérifier la
deuxième. L’absence d’une multicolinéarité parfaite signifie qu’il n’y a pas de redondance des

2
différentes variables explicatives dans la détermination de la variable expliquée. Cette
hypothèse conditionne la possibilité d’estimer les paramètres du modèle.

L’ensemble de ces hypothèses confère à l’estimateur des moindres carrés la propriété de


meilleur estimateur linéaire sans biais. De plus, il est convergent, c’est-à-dire sa précision
s’améliore lorsque le nombre d’observations augmente. De plus, l’estimateur suit
asymptotiquement une loi normale.

Section 2 : Estimation pratique d’un modèle linéaire multiple

Une fois le modèle spécifié, il faut fournir des estimations des paramètres structurels a0 , a1 ,
a2 et a 3 à partir d’un échantillon d’observations. Ces coefficients sont importants pour
l’analyse économique étant donnée leur signification économique. Par exemple, le
coefficient a1 représente l’élasticité de la consommation par rapport au revenu ; il indique de
combien varie la consommation lorsque le revenu augmente de 1%. De même, le coefficient
a2 évalue l’élasticité de la consommation privée par rapport au niveau général des prix. Ces
paramètres structurels sont importants pour la simulation des politiques macroéconomiques.

La méthode d’estimation utilisée pour estimer ces paramètres est la méthode des moindres
carrés ordinaires. Cette méthode consiste à minimiser la somme des distances entre les
valeurs observées de la variable endogène (ici la consommation) et ses valeurs ajustées. Il
existe une méthode alternative connue sous le nom de maximum de vraisemblance qui vise à
maximiser la fonction de vraisemblance du modèle. On peut cependant retenir que dans les
hypothèses de base du modèle linéaire les deux méthodes d’estimation donnent des
estimateurs équivalents.

Dans le logiciel Eviews, pour estimer l’équation (11.3), on procède de la façon suivante. Dans
le menu principal, on clique sur Quick/Estimate Equation…. Dans la fenêtre qui s’affiche,
on tape l’équation en commençant par la variable endogène suivie d’une constante et des
variables explicatives. Cliquez sur OK pour valider. On obtient le tableau de résultats suivant.

Tableau 1.1 : Coefficients de régression de la fonction de consommation (11.3)

Dependent Variable: LOG(CONS)


Method: Least Squares
Sample: 1965 2002
Included observations: 38
Variable Coefficient Std. Error t-Statistic Prob.
C -0.34244 0.37381 -0.91609 0.3661
LOG(PIBR) 0.94053 0.06066 15.50491 0.0000
LOG(IPC) 0.06559 0.02327 2.81880 0.0080
LOG(GT) 0.02665 0.03661 0.72789 0.4717
R-squared 0.98837 Mean dependent var 8.00335
Adjusted R-squared 0.98734 S.D. dependent var 0.39718
S.E. of regression 0.04467 Akaike info criterion -3.27955
Sum squared resid 0.06785 Schwarz criterion -3.10717
Log likelihood 66.31146 F-statistic 963.5803

3
Durbin-Watson stat 1.30263 Prob(F-statistic) 0.00000

Ce tableau présente les principales valeurs caractéristiques d’une régression. La colonne


variable indique les variables explicatives du modèle. La colonne suivante donne les valeurs
numériques estimées des coefficients associés à chaque variable. La troisième colonne
indique les écart-types des coefficients estimés. Le rapport entre le coefficient estimé et son
écart-type donne le ratio de Student appelé plus couramment le t de Student. Cette statistique
est donnée dans la quatrième colonne du tableau. Enfin, la dernière colonne indique les
probabilités attachées aux différentes valeurs de la statistique de Student. Nous reviendrons
sur l’interprétation de ces probabilités lors des tests de significativité des coefficients.

Section 3 : Evaluation des modèles

Dans cette étape, on se pose les questions suivantes. La méthode d’estimation des coefficients
est-elle appropriée ? Les coefficients sont-ils significatifs ? Ont-ils le signe attendu ? Le
modèle théorique est-il validé ? Cette étape est très importante. Elle doit permettre d’évaluer
la robustesse du modèle sur le plan statistique et la pertinence des théories économiques qui
leur ont donné naissance. Lorsque la spécification retenue n’est pas satisfaisante, elle doit être
modifiée puis re-estimer à nouveau avant de conclure quant à la validité ou non de la théorie.

On commence par vérifier les hypothèses sur les termes d’erreurs et ensuite les restrictions sur
les coefficients. Avant de présenter ces tests, il nous faut préciser ce qu’est un test
d’hypothèse. Un test d’hypothèse consiste à tester une hypothèse nulle notée le plus
souvent H 0 contre une hypothèse alternative notée H 1 . Il ne s’agit pas d’une démonstration à
proprement dite. Conformément à une démarche d’infirmation, ne pas rejeter H 0 ne signifie
pas obligatoirement que celle-ci est vraie, mais seulement que les données disponibles ne sont
pas en contradiction avec cette hypothèse et que l’on n’a pas de raison suffisante de lui
préférer l’hypothèse alternative compte tenu des résultats obtenus sur l’échantillon. Rejeter
H 0 n’entraîne nullement l’acceptation de H 1 . En effet, l’issu du test d’une hypothèse dépend
de l’hypothèse alternative à laquelle on la confronte.

Par nature, le jugement sur échantillon ne permet pas de décider avec certitude. Nous ne
pouvons pas être sûr que l’hypothèse examinée est juste ou fausse. Il nous faudrait pour cela
examiner la population dans sa totalité, ce qui est impossible, voire parfois sans intérêt. C’est
pour cela, pour effectuer un test d'hypothèses, on se fixe une probabilité d’erreur a priori
notée  , appélée encore erreur de première espèce ou seuil de signification: c’est la
probabilité de rejeter l’hypothèse nulle sachant qu’elle est vraie. On choisit, dans la pratique,
un  faible :1%, 5% ou 10%. Les logiciels statistiques calculent un niveau de probabilité
qu’on appelle la p-value qui réprésente le seuil d’erreur minimal pour lequel la statistique de
test rejette l'hypothèse nulle. La p-value a l’avantage d’être directement interprétable : on
rejette l’hypothèse nulle lorsque la p-value est inférieure à  .

3.1 Tests de diagnostic sur les résidus

 Test de normalité

4
Pour réaliser le test de normalité, sélectionnez View/Residual Tests/Histogram-Normality
Test. On obtient le graphique suivant:

Figure 1.1 : Histogramme de la série des résidus de l’équation (11.3)


10
Series: Residuals
Sample 1965 2002
8 Observations 38

Mean 1.97E-15
6 Median -0.009997
Maximum 0.114133
Minimum -0.072786
4 Std. Dev. 0.042825
Skewness 0.687528
Kurtosis 3.013218
2
Jarque-Bera 2.994007
Probability 0.223800
0
-0.05 0.00 0.05 0.10

Ce graphique présente la distribution de fréquence de la série des résidus dans un


histogramme. La distribution normale est caractérisée graphiquement par:
 une symétrie des observations autour de la moyenne: on observe autant
d'observations en-deçà de la moyenne que d'observations au-délà de la
moyenne;
 une forte concentration des observations autour de la moyenne;
 le nombre d'observations diminue rapidement lorsque l'on s'écarte de la
moyenne. On dit que les queues de distribution sont peu épaisses ou que la
distribution est mesokurtique.

Cependant, un certain nombre d’ambiguités compliquent l'interprétation « visuelle » de


l’histogramme. Tout d'abord, l'histogramme ne donne une répresentation fidèle de la vraie
densité que si le nombre d'observations est suffisamment important. Si le nombre
d'observations est "faible", la forme de l'histogramme sera moins suggestive. Ensuite, des lois
de probabilités différentes voient les réprésentations graphiques de leurs fonctions de densité
être semblables de sorte qu'il n'est pas toujours possible que l'on puisse distinguer le processus
générateur des séries issus de ces lois à partir de l'étude des seuls histogrammes. Par exemple
les distributions de probabilités de la loi normale et de la loi de Student sont pratiquement
indiscernables.

A droite de l’histogramme se trouvent un ensemble de statistiques descriptives portant sur la


série des résidus : la moyenne, la médiane, le maximum, le minimum et l’écart-type. En plus
de ces statistiques, EViews reporte des indicateurs de forme qui permettent d’apprécier la
normalité de la série. Le Skewness mesure l’asymétrie de la distribution autour de sa
moyenne. Le Skewness d’une distribution symétrique, comme la distribution normale, est
nulle. Ainsi un Skewness positif signifie que la distribution est décalée vers la droite et une
valeur négative signifie que la distribution a une longue queue vers la gauche. Dans notre cas,
le Skewness n’est pas trop éloigné de zéro.

Le Kurtosis mesure le degré d’aplatissement de la distribution. Le Kurtosis d’une


distribution normale est égal à 3. Si le Kurtosis reporte une valeur supérieure à 3 alors la
distribution est plus pointue par rapport à la normale (elle est dite leptokurtique) ; si la valeur

5
du Kurtosis est inférieure à 3, la distribution est plus aplatie que la normale (elle est dite
platikurtique). Dans notre cas, le Kurtosis approche la valeur 3.

La statistique de Jarque-Bera propose un test de normalité qui tienne compte du Skewness et


du Kurtosis. Elle est définie par:

T k  2 ( K  3) 2 
JB   S   (11.4)
6  4 

où k est le nombre de coefficients utilisés pour générer la série, K le Kurtosis et S le


Skewness.

Sous l’hypothèse de normalité, la statistique de Jarque-Bera est distribuée suivant une loi du
 2 à 2 degrés de liberté. La probabilité reportée représente la probabilité que  2 excède la
valeur calculée. Une probabilité inférieure à 0,05 conduit à rejeter l’hypothèse nulle d’une
distribution normale au seuil de 5%. Dans notre cas, la statistique de Jarque-Bera reporte une
valeur de 2,99 et une probabilité de commettre une erreur de première espèce de 0,22.
Autrement dit, si on rejette l’hypothèse de normalité des résidus, il y a 22% de chances de
prendre une mauvaise décision. Cette probabilité étant bien supérieure à 5%, on ne peut donc
rejeter l’hypothèse de normalité des résidus au seuil de 5%. Nous sommes donc amenés à
accepter l’hypothèse que les termes d’erreur suivent une distribution normale.

En plus du test de Jarque-Bera, EViews permet de faire d’autres tests de normalité comme
par exemple le test de Kolmogorov-Smirnov, le test de Lilliefors, le test de Cramer-von
Mises, le test d’Anderson-Darling et le test de Watson. Ces tests sont basés sur la
comparaison de la distribution empirique et une distribution théorique spécifiée.
Pour réaliser ces tests, double-cliquez sur la série des résidus RES, et sélectionnez
View/Distribution/Empirical Distribution Tests.

La distribution théorique est la distribution normale. Cette distribution est caractérisée par sa
moyenne et son écart-type. En ne renseignant pas ces paramètres, EViews les estime par la
méthode du maximum de vraisemblance sous l’hypothèse de normalité. Cliquez alors sur OK
pour obtenir les résultats.

Le tableau des résultats (cf. Tableau 11.2) comporte deux parties. La première partie
(PARTIE I) présente les statistiques de tests et les probabilités critiques correspondantes. La
colonne « Value » donne les valeurs asymptotiques des statistiques de tests et la colonne
« Adj.Value » corrige ces valeurs pour tenir compte à la fois de la taille finie de l’échantillon
et de l’incertitude sur les estimations des paramètres de la distribution théorique. La dernière
colonne indique les probabilités des valeurs ajustées.

Les statistiques de Lilliefors, de Cramer-von Mises, de Watson et d’Anderson-Darling


conduisent toutes à accepter l’hypothèse de normalité de la série des residus.

Tableau 1.2 : Statistiques du test de normalité des résidus de l’équation (11.3)

PARTIE I
Method Value Adj. Value Probability
Lilliefors (D) 0.12966 NA > 0.1

6
Cramer-von Mises (W2) 0.09795 0.09924 0.1152
Watson (U2) 0.08284 0.08393 0.1557
Anderson-Darling (A2) 0.57622 0.58849 0.1251
PARTIE II
Method: Maximum Likelihood - d.f. corrected (Exact Solution)
Parameter Value Std. Error z-Statistic Prob.
MU 1.97E-15 0.00694 2.83E-13 1.0000
SIGMA 0.04282 0.00497 8.60232 0.0000
Log likelihood 66.30476 Mean dependent var. 1.97E-15
No. of Coefficients 2 S.D. dependent var. 0.04282

La seconde partie du tableau (PARTIE II) indique les valeurs des paramètres utilisées pour
calculer la fonction de densité théorique. La moyenne de la série résiduelle RES est estimée à
1.97x10-15 avec une probabilité égale à 1, indiquant que les erreurs ont une moyenne qui n’est
pas significativement différente de zéro. L’écart-type est estimé à 0.04282 avec une
probabilité qui indique que ce paramètre est significativement différent de zéro. On
remarquera que ces valeurs sont les mêmes que celles reportées dans l’histogramme des
résidus. Dans la partie inférieure du tableau on peut lire la valeur de la fonction de
vraisemblance ainsi que le nombre de paramètres estimés (moyenne et écart-type). Pour
revenir au tableau des estimations, cliquez sur l’onglet Stats.

 Test d’hétéroscédasticité

L’hétéroscédasticité qualifie des données qui n’ont pas une variance constante. Le problème
de l’hétéroscédasticité se rencontre plus fréquemment sur des données en coupe instantanée
ou bien sur des données groupées. Elle prend souvent une forme particulière sur des données
temporelles. Néanmoins, il est important dans tous les cas de savoir la détecter et la corriger.
Plusieurs tests existent pour détecter l’hétéroscédasticité. Il s’agit en particulier des tests
suivants :
 Test de Goldfeld et Quandt (1965)
 Test de Breusch et Pagan (1979)
 Test de Glesjer (1969)
 Test de White (1980)
L’idée générale de ces tests est de vérifier si le carré des résidus peut être expliqué par les
variables du modèle. Si c’est le cas, il y a hétéroscédasticité. Dans le contexte du test
d’hétéroscédasticité de White, l’hypothèse nulle est que tous les coefficients de la régression
des carrés des résidus sont nuls, c’est-à-dire les variables du modèle n’expliquent pas la
variance des termes d’erreurs. Dans les tests de Goldfeld et Quandt et de Breusch et Pagan,
les variables responsables de l’hétéroscédasticité peuvent être des variables extérieures au
modèle, c’est-à-dire des variables qui ne font pas partie des variables exogènes. Il est clair
qu’en pratique trouver de telles variables n’est pas toujours une tâche aisée. Ces deux derniers
tests ne sont pas encore disponibles en mode interactif sous EViews. Toutefois, ils peuvent
être programmés sous grande difficulté1.

1
Pour une présentation théorique de ces tests, voir Dormon (1999, pp. 299-306).

7
Nous allons tester l’hypothèse d’hétéroscédacticité à l’aide du test de White. Nous
l’appliquons ici dans sa forme complète, c’est-à-dire en introduisant dans l’équation non
seulement les variables explicatives et leurs carrés mais également les doubles produits. Pour
ce faire, sélectionnez View/Residual Tests/White Heteroskedasticity (cross terms). Le
tableau qui s’affiche donne la régression de White. Les statistiques sur lesquelles est basé le
test de White figurent dans le haut du tableau. Il s’agit des tests de Fisher (F-statistic) et du
Chi-deux. La statistique du test de White est égale au produit du nombre d’observations et du
coefficient de détermination de la régression de test (Obs*R-squared). Le résultat du test
figure dans le tableau suivant:

Tableau 1.3 : Statistiques du test d’hétéroscédasticité de White

White Heteroskedasticity Test:


F-statistic 0.636302 Probability 0.756550
Obs*R-squared 6.452314 Probability 0.693933

A chaque statistique de test est associée une probabilité. L’hypothèse d’homoscédasticité ne


peut être rejetée au seuil de 5% car la probabilité de se tromper en rejetant cette hypothèse est
de 69%.

Remarque : Lorsque le test conclue à l’existence d’une hétéroscédasticité, on peut chercher à


en détecter la source et proposer une méthode de correction. Le principe de la correction
consiste à modifier l’écriture de l’équation afin de rendre les erreurs homoscédastiques. On
peut par exemple représenter graphiquement le nuage de points entre la série des résidus et
chacune des variables explicatives. La présence d’une hétéroscédasticité implique une
variation systématique de la variance des résidus en fonction de la variable causale. Pour
corrige ce problème, on applique la méthode des moindres carrés pondérés qui consiste à
multiplier les variables initiales par l’inverse de la variable causale. On peut aussi utiliser les
procédures de correction proposées par White (1980) et Newey et West (1978), disponibles en
options dans la fenêtre de spécification. Ces procédures apportent une correction seulement au
niveau de l’estimation des écart-types des coefficients. La procédure de White propose une
correction sans préciser la forme de l’hétéroscédasticité. Elle utilise les estimateurs sans biais
des coefficients obtenus par les moindres carrés ordinaires, et estime ensuite la matrice de
variance-covariance de façon convergente. La procédure de Newey et West estime cette
matrice sous l’hypothèse d’une hétéroscédasticité et d’une autocorrélation de formes
inconnues.

 Test d’autocorrélation

L’autocorrélation des erreurs signifie que le terme d’erreur correspondant à une période est
corrélé avec le terme d’erreur d’une autre période. Si cette corrélation joue entre deux termes
consécutifs ( e t et et 1 ), on parle d’autocorrélation d’ordre un. La plupart des applications sur
des données annuelles impliquent des autocorrélations d’ordre un. Dans les séries temporelles,
l’autocorrélation des erreurs peut avoir plusieurs origines. Elle peut provenir de phénomènes
de mémoire ou d’inertie dans la fonction de comportement des agents. Elle peut également
être liée à une erreur de spécification de la forme fonctionnelle ou à une erreur de mesure ou
encore à l’omission d’une variable explicative pertinente corrélée dans le temps. Dans le cas
des données transversales, il est possible d’observer une autocorrélation spatiale si les
observations ont été préalablement rangées selon un certain ordre, par exemple géographique.

8
Il existe plusieurs tests de l’autocorrélation des erreurs. Les plus couramment utilisés sont :

 le test de Durbin et Watson (1950 et 1951)


 le test de Ljung et Box (1979)
 le test de Breusch et Godfrey (1978)

 Test de Durbin et Watson

Les conditions d’application du test de Durbin et Watson supposent que les variables
explicatives ne sont pas aléatoires, ce qui implique que la variable endogène retardée ne figure
pas parmi les variables explicatives (sinon elle serait corrélée avec les termes erreurs en cas
d’autocorreléation). De plus, le modèle doit être spécifié avec une constante parmi les
explicatives et les erreurs doivent suivre une loi normale. Ce test ne s’applique que sur des
données temporelles. Le modèle (11.3) remplit bien toutes ces conditions.

Le test de Durbin et Watson cherche à detecter seulement une autocorrélation d’ordre un de la


forme et  et 1   t . Il teste l’hypothèse H 0 :   0 contre H1 :   0 . La statistique de
Durbin-Watson se lit directement dans le tableau des estimations. Elle est liée au coefficient
d’autocorrélation des erreurs par la formule :

DW  2(1  ˆ ) (11.5)

Cette formule s’avère utile en pratique car elle permet dans certains cas d’avoir très
rapidement une idée sur l’autocorrélation des erreurs. La valeur calculée de DW est comprise
entre 0 et 4. Une valeur proche de 2 indique une absence d’autocorrélation des erreurs tandis
qu’une valeur proche de zéro ou de 4 est révélatrice d’une autocorrélation des erreurs
(autocorrélation positive ou négative). Pour des valeurs qui s’éloignent de ces deux valeurs, il
faut consulter les valeurs critiques tabulées par Durbin et Watson pour pouvoir décider en
toute assurance.

Dans notre cas, la statistique de Durbin-Watson reporte une valeur de 1,302 qui n’est ni
proche de zéro ni proche de 2. Le recours à la table de Durbin et Watson est donc nécessaire
pour conclure. On lit dans la table de Durbin et Watson2 pour n  38 et k  3 , d1  1.32
et d 2  1.66 . La valeur de la statistique DW se situe à droite de d1 , nous pouvons conclure à
une autocorrélation positive des résidus, donc à une présomption de dépendance des erreurs.

 Analyse du corrélogramme et test de Ljung et Box

Le corrélogramme d’une série est la représentation graphique des coefficients de corrélation


de la série avec elle-même décalée de k périodes. Le corrélogramme permet une interprétation
instantanée de la significativité des coefficients d’autocorrélation. Pour obtenir le
corrélogramme de la série des résidus, sélectionnez View/Residual Tests/ Correlogram- Q-
statistics…

2
Voir Bourbonnais (1998), Table de Durbin-Watson, page 297.

9
Figure 1.2 : Corrélogramme de la série des résidus de l’équation (11.3)

La colonne AC indique les autocorélations et la colonne PAC indique les autocorrélations


partielles. La statistique du test de Ljung-Box est donnée par la Q-Stat avec sa probabilité
critique dans les deux dernières colonnes. Cette statistique teste la significativité globale de
plusieurs coefficients d’autocorrélation.

Le corrélogramme permet d’identifier rapidement les termes significatifs des fonctions


d’autocorrélation simples et partielles. Les bornes de l’intervalle de confiance sont stylisées
par les pointillés horizontaux ; chaque terme qui sort de cet intervalle est
significativement différent de zéro au seuil de 5%. S’il n’y a pas d’autocorrélation, tous les
coefficients AC et PAC devraient être proches de zéro, et toutes les Q-statistiques seraient non
significatives avec des probabilités élevées. Si les coefficients AC sont décroissants
géométriquement et les PAC non significatifs à partir d’un retard d’ordre p, alors la série obéit
à un processus autorégressif d’ordre p (AR(p)). En revanche, si les AC sont non significatifs à
partir d’un ordre q et les PAC décroissant géométriquement, alors la série suit un processus
moyenne mobile d’ordre q (MA(q)).

On observe ici que seul le premier terme du corrélogramme sort de l’intervalle de confiance.
En effet, la Q-stat de Ljung-Box reporte une valeur de 3.883 avec une probabilité de 0.049
inférieure à 0.05. Nous rejetons donc l’hypothèse de nullité du premier coefficient
d’autocorrélation.

 Test de Breusch et Godfrey

Contrairement au test de Durbin et Watson, le test de Breusch et Godfrey permet de tester une
autocorrélation d’ordre supérieur à 1 et reste valable en présence de la variable endogène
retardée parmi les variables explicatives. Pour réaliser ce test, sélectionnez View/Residual
Tests/ Serial Correlation LM Test…. Précisez l’ordre de l’autocorrélation et cliquez sur
OK. Pour un nombre de retards égal à un, on obtient le tableau suivant:

Tableau 1.4 : Statistiques du test d’autocorrélation de Breusch-Godfrey

10
Breusch-Godfrey Serial Correlation LM Test:
F-statistic 4.036988 Probability 0.052750
Obs*R-squared 4.141955 Probability 0.041833

La statistique de test de Breusch-Godfrey reporte une valeur de 4.141 et une probabilité de


0.041. Ces valeurs nous amènent à rejeter l’hypothèse nulle d’absence d’autocorrélation
d’ordre un des erreurs.

On retient finalement l’hypothèse d’une autocorrélation des erreurs à l’ordre un. L’équation
de consommation doit donc être re-spécifiée et re-estimée avant d’être utilisée pour la
prévision ou la prise de décision. A cet égard, plusieurs techniques ont été proposées: la
méthode itérative de Cochrane-Orcutt, la procédure de Prais-Winsten, la méthode du balayage
de Hildreth-Lu, la méthode du maximum de vraisemblance et la méthode des variables
instrumentales.

Nous allons re-estimer le modèle en retenant une autocorrélation d’ordre 1. Pour cela, cliquez
sur Estimate dans le menu de l’équation pour retourner à la spécification de l’équation, et
ajoutez un terme AR(1) à la fin de l’équation. Cliquez sur OK pour valider. Vous obtenez le
tableau de résultats suivant:

Tableau 1.5 : Coefficients de régression en présence d’erreurs AR(1)

Dependent Variable: LOG(CONS)


Method: Least Squares
Sample(adjusted): 1966 2002
Included observations: 37 after adjusting endpoints
Convergence achieved after 22 iterations
Variable Coefficient Std. Error t-Statistic Prob.
C -0.23425 0.64174 -0.36503 0.7175
LOG(PIBR) 0.92329 0.09614 9.60344 0.0000
LOG(IPC) 0.07050 0.03498 2.01536 0.0523
LOG(GT) 0.02933 0.04697 0.62450 0.5367
AR(1) 0.34409 0.18185 1.89217 0.0675
R-squared 0.98770 Mean dependent var 8.02888
Adjusted R-squared 0.98617 S.D. dependent var 0.36970
S.E. of regression 0.04347 Akaike info criterion -3.30800
Sum squared resid 0.06049 Schwarz criterion -3.09031
Log likelihood 66.19811 F-statistic 642.7463
Durbin-Watson stat 1.58816 Prob(F-statistic) 0.00000

Les coefficients estimés, les écart-types et les statistiques s’interprètent de la façon habituelle.
Le coefficient estimé du terme AR(1) est le coefficient de l’autocorrélation sérielle des résidus
inconditionnels. On constate que ce coefficient est significatif au seuil de 10% et est inférieur
à l’unité. Rappelez-vous que plusieurs raisons peuvent être à l’origine de l’autocorrélation des
erreurs, dont l’omission de variables explicatives pertinentes. Aussi, est-il possible de corriger
l’autocorrélation des erreurs en introduisant des retards de la variable endogène parmi les

11
variables explicatives. Nous reviendrons sur ce point lorsque nous aborderons les modèles à
décalages temporels.

3.2 Tests de restrictions linéaires sur les coefficients

Les tests de restrictions linéaires sur les coefficients sont de trois types : le test de
significativité globale des coefficients, le test de significativité individuelle des coefficients et
le test de stabilité.

 Test de significativité globale des coefficients : le test de Fisher

Le test de significativité globale des coefficients cherche à savoir s’il existe au moins un
coefficient parmi tous les coefficients, à l’exception de la constante, qui soit significativement
différent de zéro, c’est-à-dire une variable explicative qui influence significativement la
variable endogène. On teste donc l’hypothèse nulle selon laquelle tous les coefficients du
modèle, à l’exception de la constante, sont égaux à zéro, contre l’hypothèse alternative selon
laquelle il existe au moins un coefficient différent de zéro.

H 0 : a1  a 2  a3  0 contre H 1 : i ai  0

Ce test est réalisé à partir de la statistique de Fisher. Celle-ci figure directement dans le
tableau des résultats. Si l’hypothèse nulle est acceptée, cela signifie qu’il n’existe aucune
relation linéaire significative entre la variable endogène et les variables explicatives retenues.
Il faudrait alors rechercher une spécification plus adéquate de la dynamique de la variable
endogène.

La valeur de la statistique de Ficher reporte ici une valeur de 642,746 avec une probabilité
presque nulle. Manifestement les coefficients sont globalement significatifs, ce qui signifie
que, prises ensemble, les trois variables explicatives influencent de façon significative les
variations de la consommation.

Le coefficient de détermination et le test de Fisher

Le coefficient de détermination R 2 est un indicateur statistique qui permet d’évaluer le


pouvoir explicatif global du modèle puisqu’il fournit la part de la variance expliquée par le
modèle. Il permet de juger de la qualité de l’ajustement. On s’aperçoit que la valeur du
coefficient de détermination est très élevée: 98% des variations de la consommation (en log)
est expliquée par le modèle, ce qui est très satisfaisant.
Il existe une relation entre la statistique de Fisher et le R 2 :

R2 T  k  1
F (11.6)
1  R2 k

où T est le nombre d’observations et k le nombre de variables explicatives véritables, c’est-à-


dire sans la constante. La statistique de Fisher croît avec le R 2 : à des valeurs élevées
du R 2 correspondent des valeurs élevées de F. Ainsi, au lieu de tester, grâce à la statistique F,
la significativité globale des variables explicatives, il est approximativement équivalent de

12
tester la significativité de R 2 . Si l’hypothèse alternative est acceptée, on doit s’attendre à ce
que R 2 et F prennent une valeur élevée.

Si le coefficient de détermination R 2 est une statistique très facile à comprendre, il faut


cependant se garder d’y attacher trop d’importance, car il présente un défaut gênant. En effet,
le R 2 augmente de façon mécanique avec le nombre de variables explicatives, même si celles-
ci n’ont aucun rapport avec la variable endogène. A la limite, quand le nombre de variables
explicatives est égal au nombre d’observations, on obtient un R 2 égal à 1 et la variable
endogène est expliquée à 100%, quelle que soit la pertinence économique des variables
explicatives retenues, pourvu que l’hypothèse d’indépendance linéaire soit respectée. On
comprend alors pourquoi le R 2 n’est pas pertinent pour comparer le pouvoir explicatif de
plusieurs modèles ne comportant pas le même nombre de degrés de liberté. Il convient de
calculer une version pénalisée du R 2 par les degrés de liberté, appelée R 2 -ajusté (Adjusted R-
squared). Le coefficient de détermination ajusté R 2 se calcule à partir de l’expression
suivante :

Il est important de noter que le coefficient de détermination n’est interprétable que si


l’équation estimée comporte une constante. En effet, lorsque le modèle ne comporte pas de
terme constant, l’équation de décomposition de la variance de la variable expliquée n’est plus
vérifiée. Dans ce cas, le R 2 peut donner une valeur négative.

 Test de significativité individuelle des coefficients : le test de Student

Dire qu’un coefficient est significatif signifie que la variable explicative correspondante
contribue de façon significative à l’explication de la variable endogène. La significativité d’un
coefficient est testée à partir du t de Student. On teste l’hypothèse d’un coefficient nul contre
l’hypothèse alternative d’un coefficient différent de zéro (positif ou négatif, le test étant
bilatéral).

H 0 : ai  0 contre H 1 : i ai  0

Un coefficient sera significatif si la probabilité est inférieure au seuil de 5%. Cette probabilité
apparaît dans la dernière colonne du tableau des estimations (cf. tableau 11.5). Rappelons que
cette probabilité est calculée sur la base de l’hypothèse de normalité des termes d’erreurs.
Pour la variable LPIBR, la probabilité est presque nulle. Par conséquent, quel que soit le seuil
retenu, cette variable contribue significativement à expliquer le niveau de la consommation.
L’élasticité-revenu de la consommation est égale à 0,92, ce qui signifie que, toutes choses
égales par ailleurs, une augmentation du revenu de 10% entraîne un accroissement de la
consommation de 9,2%. On constate également que le coefficient de la variable de prix est
significatif au seuil de 5%. En revanche, l’utilisation des probabilités permet de rejeter, sans
ambiguïté, le caractère significatif des dépenses publiques. En effet, le rejet de l’hypothèse
nulle entraîne une probabilité d’erreur de 54%. On peut cependant continuer à interpréter les
résultats de l’estimation dans la mesure où le maintien d’une variable explicative non
significative ne biaise pas les estimations sous les hypothèses habituelles. Toutefois, si le
modèle doit être utilisé à des fins de prévision, on peut être amené à éliminer cette variable
conformément au principe de parcimonie.

13
La non significativité de la variable LGT peut apparaître surprenante dans la mesure où cette
variable présente une très forte corrélation avec la consommation. En fait, il existe une très
forte corrélation entre les trois variables explicatives, qui fait peser un risque de
multicolinéarité. Or la multicolinéarité entre les variables explicatives d’un modèle linéaire
conduit à des écarts-types des coefficients élevés, donc à des statistiques de Student faibles,
conduisant à la non significativité des coefficients alors que le coefficient de détermination R 2
reporte une valeur élevée. En outre, en présence de multicolinéarité approchée, il est difficile,
sinon impossible, d’isoler l’effet intrinsèque de chacune des variables explicatives sur
l’endogène (il y a confusion des effets), car toute variation de l’une des variables explicatives
implique une variation des autres variables. En supprimant tour à tour chacune des variables,
on constate que les autres variables présentent des coefficients significatifs. Mais la forte
colinéarité entre les variables génère un coefficient non significatif pour la dernière variable.
On rencontre très souvent ce genre de problème d’adéquation entre la théorie économique et
la pratique économétrique : en théorie on peut supposer que des variables sont orthogonales
mais lors de la modélisation on se rend compte qu’elles sont liées entre elles. On peut obtenir
des coefficients non significatifs ou affectés d’un signe erroné.

En réalité, le coefficient de corrélation simple n’est pas trop révélateur du degré de liaison
réelle entre deux variables. Il est d’une utilité limitée lorsqu’on travaille avec plusieurs
variables. On préfère dans ces conditions utiliser le coefficient de corrélation partielle qui
mesure la liaison ou corrélation nette entre deux variables lorsque l’influence d’une tierce
variable est retirée. Le coefficient de corrélation partielle permet de mieux juger de la
pertinence d’inclure une variable explicative dans un modèle. Ainsi plus le coefficient de
corrélation partielle d’une variable est élevé, plus sa contribution est importante à
l’explication des variations de la variable endogène. Dans notre exemple, le coefficient de
corrélation partielle entre la consommation et les dépenses publiques est égal à 0,124 avec une
probabilité de 0.472. Ainsi, lorsqu’on contrôle par le revenu et les prix, l’influence des
dépenses publiques sur la consommation devient non significative.

Il existe plusieurs techniques pour détecter la multicolinéarité entre les variables explicatives,
dont le test de Klein et le test de Farrar-Glauber3. La procédure du test de Klein (1962)
consiste à comparer le coefficient de détermination R 2 du modèle et les coefficients de
détermination entre les variables explicatives considérées deux à deux Rij2 . Il y a présomption
de multicolinéarité lorsque la plupart des Rij2 sont supérieurs au R 2 . La faiblesse de cette
méthode vient de ce que la colinéarité peut impliquer plus de deux variables explicatives. On
peut alors préférer régresser chaque variable explicative sur toutes les autres variables
explicatives. Si les coefficients de détermination R 2j sont élevés, alors il y a présomption de
multicolinéarité.

Il existe différentes techniques pour surmonter ou du moins réduire l’inconvénient de la


multicolinéarité. La parade la plus souvent utilisée consiste à éliminer certaines variables
explicatives. La pertinence de cette méthode peut toutefois être questionnée. D’une part,
l’élimination d’une variable peut entraîner une erreur de spécification si la théorie
économique postule précisément que cette variable doit être inclue dans le modèle. D’autre
part, l’élimination d’une variable explicative significative corrélée avec les autres variables
explicatives peut entraîner le rejet de l’hypothèse d’exogénéïté de ces dernières et être à
l’origine d’un biais d’estimation.

3
Une présentation théorique et une application de ces tests sont faites dans Bourbonnais (1998) pages 100-103.

14
Une deuxième approche consiste à remplacer les variables explicatives par un nombre plus
faible de combinaisons linéaires. A cet égard, les méthodes d’analyse factorielle telles que
l’Analyse en Composantes Principales (ACP) et l’Analyse des Correspondances Multiples
(ACM) peuvent s’avérer utiles, surtout si le nombre de variables explicatives est important4.
L’avantage d’utiliser des combinaisons linéaires issues d’une analyse factorielle réside dans
l’orthogonalité de ces combinaisons. Il faut cependant noter que l’utilisation des composantes
principales n’a pas de justification théorique. De plus, il est souvent difficile de donner une
signification précise à ces composantes principales, ce qui vient compliquer l’interprétation
des coefficients du modèle.

Il existe d’autres méthodes pour corriger les effets d’une forte multicolinéarité. On peut
chercher à augmenter le nombre des observations ou bien transformer la relation fonctionnelle
qui lie les variables explicatives à la variable endogène.

 Test de stabilité des coefficients : les tests de Chow et de CUSUM

La prévision à partir d’un modèle économétrique repose sur l’hypothèse de constance dans le
temps et dans l’espace des coefficients du modèle. Cette hypothèse signifie que sur la période
d’estimation le comportement des agents n’a pas connu de changement structurel important.
Cette constance des paramètres de comportement est à la base des simulations qui vont être
faites pour évaluer l’impact de différentes politiques économiques. Des ruptures structurelles
dans la valeur des coefficients peuvent évoquer un problème de spécification du modèle. On
se souvient de la critique de Lucas selon laquelle l’utilisation des modèles économétriques
traditionnelles, pour simuler les effets des changements de politique économique, est
incorrecte dans la mesure où des agents dotés d’anticipations rationnelles vont modifier leur
comportement en réaction à des changements dans les règles du jeu. Il en résulte une
instabilité des paramètres du modèle.

Il est donc important de compléter la série des tests économétriques par des tests de stabilité.
Ces tests s’intéressent plus généralement à des questions du genre : peut-on considérer qu’il y
a eu un changement dans le comportement de consommation des ménages après une date
donnée? La propension marginale à consommer est-elle restée constante sur toute la période
d’estimation? Le comportement de consommation des hommes ou des ivoiriens est-il
identique à celui des femmes ou des Maliens? Lorsqu’on travaille sur des données
temporelles, les tests de stabilité prennent la forme de tests de stabilité temporelle ou
structurelle. Sur des données en coupe instantanée, il s’agit de tests d’homogénéité de
comportements (hommes/femmes ; riches/pauvres etc.).

Il existe plusieurs tests de stabilité dont les plus utilisés sont le test de Chow et les tests
CUSUM et CUSUMQ de Brown, Durbin et Evans (1975).

 Le test de Chow

Le test de Chow effectue un test de Fisher en comparant les estimations des coefficients sur
deux ou plusieurs sous périodes. Il nécessite d’indiquer une ou plusieurs dates de rupture dans
les séries, ce qui requiert une analyse exploratoire plus précise des séries.
4
Les aspects techniques et pratiques de ces méthodes sont développés dans Lebart L., Morineau A. et Piron, M.
(1995), Statistique exploratoire multidimensionnelle, Dunod, Paris. Jambu M. (1999), Méthodes de base de
l’analyse des données, Dunod, Paris.

15
Nous allons réaliser le test de Chow en considérant les deux sous périodes 1965-1993 et 1994-
2002. A partir du menu de l’équation, sélectionnez View/Stability Tests/Chow Breakpoint
Test… et entrez 1994 dans la boîte de dialogue qui apparaît. Cette date correspond à la date
supposée de rupture. Cliquez sur OK pour obtenir le tableau suivant :

Tableau 1.6 : Résultat du test de stabilité de Chow

Chow Breakpoint Test: 1994


F-statistic 0.87937 Probability 0.48795
Log likelihood ratio 4.21306 Probability 0.37793

La statistique de Fisher reporte une probabilité supérieure à 5% : on ne peut donc pas rejeter
au seuil de 5% l’hypothèse de stabilité des coefficients. En d’autres termes, l’année 1994
n’introduit pas un changement structurel significatif dans le comportement de consommation
des ménages. Notons que le test de Chow n’est pas pertinent si la date choisie ne correspond
pas à la véritable date de rupture.

- Les tests CUSUM et CUSUMQ

Les tests CUSUM et CUSUMQ dispensent de la connaissance préalable de la date de rupture.


Ces tests sont basés sur les résidus récursifs. Le CUSUM utilise la somme cumulée des
résidus récursifs tandis que le CUSUMSQ utilise le carré des résidus récursifs.

Pour mettre en œuvre ces tests, sélectionnez, à partir du menu de l’équation, View/Stability
Tests/Recursive Estimates… Il suffit de cocher la case correspondante au test que l’on veut
faire (CUSUM ou CUSUMQ). Les résultats pour les tests CUSUM et CUSUMQ sont
représentés dans les graphiques suivants :

Figure 11.3a: Test CUSUM Figure 11.3b: Test CUSUMQ

20 1.6

15
1.2
10

5
0.8
0

-5 0.4

-10
0.0
-15

-20 -0.4
1970 1975 1980 1985 1990 1995 2000 1970 1975 1980 1985 1990 1995 2000

CUSUM 5% Significance CUSUM of Squares 5% Significance

Si les courbes sortent du corridor stylisé par les droites en pointillés, on conclut qu’il y a
instabilité du modèle. Sinon, le modèle peut être considéré comme stable sur toute la période.
Ici, aucune des statistiques CUSUM et CUSUMQ ne franchit les droites: nous pouvons donc

16
conclure que le comportement de consommation des ménages est resté stable sur toute la
période d’étude.

Section 4 : Prévisions
Nous avons estimé une équation de consommation sur la période 1965-2002. Nous allons
maintenant utiliser cette équation pour réaliser des prévisions sur la période 2003-2015. Il
s’agira de déterminer les valeurs de la consommation pour des valeurs attribuées au revenu et
au prix. La variable LGT sera éliminée parmi les variables explicatives. Avant de se livrer à
cet exercice, nous allons évaluer la capacité prédictive du modèle en réalisant une simulation
historique.

4.1 Simulation historique et évaluation du pouvoir prédictif du modèle

La simulation historique consiste à appliquer le modèle pour générer les valeurs passées de la
consommation sur la période d’estimation. Cette simulation par resubstitution permet
d’évaluer la capacité prédictive du modèle, c’est-à-dire son aptitude à reproduire le passé.
Pour réaliser la simulation, sélectionnez Procs/Forecast ou cliquez simplement sur le bouton
Forecast dans la barre de menu de la fenêtre des estimations. Dans le champ Forecast
sample, indiquez la période de prévision et cliquez sur OK pour valider. Vous obtenez le
graphique donnant l’évolution de la variable CONSF sur toute la période historique 1965-
2002. Les courbes en pointillés matérialisent les bornes inférieure et supérieure de l’intervalle
de confiance à 5% des valeurs prévisionnelles. Une bonne adéquation se traduit par un
resserrement de ces deux courbes.

Figure 1.4 : Evolution de la série prévisionnelle CONSF

6000
Forecast: CONSF
Actual: CONS
5000
Forecast sample: 1965 2002
Included observations: 38
4000
Root Mean Squared Error 158.1191
Mean Absolute Error 114.9630
3000
Mean Abs. Percent Error 3.378645
Theil Inequality Coefficient 0.023481
2000 Bias Proportion 0.000559
Variance Proportion 0.011606
1000 Covariance Proportion 0.987835

0
1965 1970 1975 1980 1985 1990 1995 2000

CONSF

On peut représenter simultanément les évolutions des séries CONS et CONSF afin d’évaluer
graphiquement l’écart entre les valeurs réelles et les valeurs simulées. On constate (cf. figure
11.5) que globalement les simulations historiques ne s’écartent pas trop des valeurs réelles.

Figure 1.5 : Evolution des séries CONS et CONSF

17
6000

5000

4000

3000

2000

1000
1965 1970 1975 1980 1985 1990 1995 2000

CONS CONSF

Les statistiques figurant à droite du graphique de CONSF (cf. figure 11.4) permettent de
procéder à une évaluation statistique de la qualité prédictive du modèle. Root Mean Squared
Error et Mean Absolute Error sont des statistiques qui dépendent de l’échelle de mesure de
la variable endogène. Elles permettent de comparer les prévisions d’une même endogène pour
différents modèles. Mean Absolute Percentage Error (MAPE) et Theil Inequality
Coefficient sont indépendantes de l’échelle de mesure de la variable endogène. Le coefficient
d’inégalité de Theil est compris en 0 et 1, une valeur proche de zéro indiquant une bonne
adéquation. La moyenne des carrés des erreurs de prévision (Mean Squared Error) est
décomposée suivant trois types de proportions. Bias Proportion indique combien la moyenne
des prévisions s’écarte de la moyenne des valeurs actuelles de la série. Variance Proportion
indique combien la variation des valeurs prévisionnelles s’écarte de celle des valeurs
actuelles. Covariance Proportion mesure les erreurs de prévision non systématiques. Pour
une bonne prévision, les deux premières proportions devraient fournir des valeurs faibles.

Notons que EViews n’affiche ces différentes statistiques que lorsque les valeurs de la variable
endogène sont renseignées sur la période de simulation. Il s’agit en effet de comparer les
valeurs prédites avec les valeurs réellement observées de la variable endogène. En pratique,
on utilise ces statistiques pour évaluer l’adéquation des prévisions avec les réalisations. Si
cette adéquation est bonne alors on peut procéder à la prévision proprement dite de la variable
endogène. Dans notre exemple, MAPE= 3,378% et Theil=0,023. La performance
prévisionnelle du modèle est donc bonne.

Cette méthode d’évaluation présente cependant un biais : elle fournit le plus souvent une
mesure optimiste de la capacité prédictive du modèle car elle applique le modèle à des
données qui ont servi à le construire. Une autre façon d’apprécier plus objectivement la
capacité prédictive d’un modèle consiste à utiliser le modèle pour prédire les valeurs de la
variable endogène pour une période non comprise dans l’échantillon d’estimation et à vérifier
si les valeurs prédites sont suffisamment proches des valeurs effectivement observées durant
cette période. Cette approche repose sur l’hypothèse de stabilité structurelle du modèle.

4.2 Prévision sur l’horizon 2003-2015

Nous allons maintenant procéder à la prévision de la consommation sur la période 2003-2015.


Pour obtenir les prévisions nous devons d’abord étendre la taille du workfile (Range) et celle

18
de l’échantillon (Sample). Ensuite, nous devons renseigner les valeurs futures du revenu et du
prix. De façon pratique, voici les étapes à suivre:

 Sélectionnez, à partir du menu du workfile, Procs/Change Workfile Range. Changez


la date de fin en 2015. On peut aussi double-cliquer sur Range.
 Augmentez le nombre d’observations de l’échantillon en sélectionnant Procs/Sample
ou en double-cliquant sur l’onglet Sample de la barre de menu du workfile. Changez
la date de fin en 2015 et cliquez sur OK. On peut constater visiblement ces
changements dans le workfile ;
 Ouvrez la série PIBR. Les valeurs pour 2003-2015 sont marquées par « NA ». Entrez
les valeurs pour la période 2003-2015. Nous allons générer ces valeurs en supposant
une augmentation des revenus de 10% par an de 2003 à 2015. Sous cette hypothèse,
les valeurs du revenu réel et du prix sont données dans le tableau suivant:

Tableau 1.7 : Valeurs de PIBR et IPC de 2003 à 2010

Année PIBR (x 109) IPC


2003 7383.92236 130.580
2004 8122.314596 137.501
2005 8934.546055 144.685
2006 9828.000661 152.139
2007 10810.80072 159.867
2008 11891.88080 167.873
2009 13081.06888 176.163
2010 14389.17576 184.739

 Retournez à l’équation et cliquez sur Forecast. Précisez la période de prévision qui est
2003-2015.

Les prévisions de consommation sont données dans le tableau suivant:

Tableau 1.8: Consommation prévisionnelle de 2003 à 2015

Année CONS (x 109)


2003 5021.0238
2004 5608.9072
2005 6198.3274
2006 6823.6568
2007 7501.8256
2008 8243.1766
2009 9055.8617
2010 9947.5928

Quatre types d’erreurs entachent la qualité des prévisions : l’incertitude sur l’évolution future
des termes d’erreur; l’incertitude sur les coefficients structurels; l’incertitude sur les valeurs
futures des variables explicatives et l’erreur sur la spécification du modèle. L’incertitude sur
les termes d’erreur provient du fait que ces termes ne sont pas connus sur la période de
prévision, ils sont remplacés par leur valeur moyenne (ici zéro). Or si cette moyenne est nulle
sur une période, les valeurs individuelles peuvent cependant être non nulles. Plus l’erreur

19
individuelle sera importante, plus l’erreur de la prévision sera grande. L’erreur-type fournit
une mesure statistique de la variation des erreurs individuelles.

L’incertitude sur les coefficients structurels provient du fait que ces derniers sont estimés. Il
se peut donc que ces estimations dévient des valeurs vraies des coefficients. Les écart-types
des coefficients donnent une idée sur la précision avec laquelle ces coefficients sont estimés.
L’effet de ces incertitudes sur la prévision dépend de la trajectoire prévisionnelle des variables
exogènes. Plus ces variables dévieront fortement de leurs tendances moyennes, plus grande
sera l’imprécision des prévisions. La connaissance imprécise des valeurs futures des variables
exogènes introduit un élément supplémentaire d’incertitude dans la prévision de la variable
endogène. La qualité des prévisions dépend également du choix de la spécification du modèle.
Par exemple, si l’on adopte une spécification linéaire de façon « mécanique » alors qu’en
réalité la relation véritable est non linéaire, les prévisions seront mauvaises. C’est pour ces
diverses raisons que la prévision conditionnelle ne doit pas être utilisée sur un horizon
temporel assez long. Les techniques de prévision utilisant la méthodologie de Box et Jenkins
s’avèrent moins exigeantes en conjectures dans la mesure où elles utilisent seulement
l’information contenue dans la mémoire des séries pour former les prévisions.

Section 5 : Les modèles à décalages temporels


Les modèles à décalages temporels autorisent les variables retardées à figurer parmi les
variables explicatives. Ces modèles se justifient par le fait que les variables économiques ne
réagissent pas le plus souvent de façon instantanée aux chocs, elles réagissent avec un certain
délai.

5.1 Spécification et estimation d’un modèle à décalages temporels

Dans la spécification d’un modèle à décalages temporels, les retards peuvent porter sur
l’endogène et/ou sur les variables exogènes. Lorsque l’endogène retardée apparaît en
explicative, le modèle est dit autorégressif. Lorsque les décalages portent seulement sur les
exogènes, on parle de modèles à retards échelonnés. La combinaison de ces deux types de
modèles conduit aux modèles autorégressifs à retards échelonnés (ADL : Autorégressive
Distributed Lags).

Reconsidérons le modèle de consommation sous la forme autorégressive suivante :

Ct  a0  a1 Rt  a 2 Pt  a3 Rt 1  a 4 Pt 1  a5 Ct 1  et (11.7)

Il s’agit bien d’un modèle autorégressif à retards échelonnés. Pour assurer la stabilité du
modèle on pose que a 5  1 . Si les termes d’erreurs e t respectent les hypothèses habituelles, on
peut utiliser la méthode des moindres carrés ordinaires pour estimer cette équation.

Pour estimer le modèle (11.7), sélectionnez, dans la barre de menu principal, Quick/Estimate
Equation et entrez les variables comme suit :

Cons c PIBR IPC PIBR(-1) IPC(-1) Cons(-1)

20
En cliquant sur OK, on obtient le tableau de résultats suivant:

Tableau 1.9 : Coefficients de régression de l’équation de consommation (11.7)

Dependent Variable: LCONS


Method: Least Squares
Sample(adjusted): 1966 2002
Included observations: 37 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C -0.13064 0.39741 -0.32873 0.7446
LPIBR 0.54009 0.16442 3.28476 0.0025
LIPC 0.25066 0.12717 1.97111 0.0577
LPIBR(-1) 0.12925 0.23560 0.54860 0.5872
LIPC(-1) -0.20610 0.11864 -1.73724 0.0923
LCONS(-1) 0.29085 0.15806 1.84003 0.0754
R-squared 0.99048 Mean dependent var 8.02888
Adjusted R-squared 0.98894 S.D. dependent var 0.36970
S.E. of regression 0.03886 Akaike info criterion -3.50994
Sum squared resid 0.04683 Schwarz criterion -3.24871
Log likelihood 70.93391 F-statistic 645.260
Durbin-Watson stat 1.27711 Prob(F-statistic) 0.00000

Nous allons procéder aux différents tests de spécification sur ce modèle.

5.2 Tests d’hypothèses


On peut effectuer sur le modèle les mêmes tests effectués sur l’équation de consommation
estimée dans la section 3 (test de normalité, test d’autocorrélation, test d’hétéroscédasticité,
test de significativité, test de stabilité) de même que des prévisions.
Cependant du fait de la présence de l’endogène retardée parmi les explicatives, le test de
Durbin-Watson a une puissance limitée et est biaisé en faveur de l’absence d'autocorrélation.
C’est pourquoi il est conseillé d’utiliser le test du h de Durbin ou le test de Breusch et
Godfrey. La statistique du « h » de Durbin est définie par :

n
h  ˆ (11.8)
1  nˆ 2 ( aˆ 5 )

avec ˆ  1  DW / 2 ( DW est la statistique de Durbin-Watson calculée sur le modèle


autorégressif), ˆ 2 ( aˆ 5 ) la variance estimée du coefficient a5 de l’endogène retardée, et n le
nombre d’observations utilisées pour l’estimation du modèle.

On voit qu’il y a équivalence entre la nullité de ̂ et celle de h . Sous l’hypothèse nulle, la


statistique h suit asymptotiquement une loi normale centrée et réduite. La procédure du test
« h » consiste à comparer la valeur absolue de h à 1,96 (valeur critique issue de la loi
normale pour un test bilatéral à 5%). Dans notre exemple, nous avons:

DW  1.2771 ; ˆ (aˆ5 )  0.1580 ; n  T  1  37

21
La statistique de Durbin-Watson ne nous permet pas de conclure car la valeur de DW se situe
dans la zone de doute ( d1  DW  d 2 ). La statistique du « h » de Durbin laisse augurer d’une
d’autocorrélation des erreurs:

h  7.957 , h  1,96

On rejette l’hypothèse d’indépendance des erreurs.

L’analyse du corrélogramme et la statistique de Ljung-Box (cf. figure 11.6) suggèrent que les
erreurs ne sont pas autocorrélées à l’ordre un.

Figure 1.6 : Corrélogramme de la série des résidus de l’équation (11.7)

Le test de Breusch-Godfrey conduit à un résultat contraire (cf. tableau 11.10).

Tableau 1.10 : Statistiques du test d’autocorrélation de Breusch-Godfrey


des résidus de l’équation (11.7)

Breusch-Godfrey Serial Correlation LM Test:


F-statistic 11.25264 Probability 0.00216
Obs*R-squared 10.09263 Probability 0.00148

En définitive, nous retenons que les termes d’erreurs du modèle sont autocorrélés à l’ordre un.
Les résultats du test de White sont reportés dans le tableau suivant :

Tableau 1.11 : Statistiques du test d’ hétéroscédasticité de White


des résidus de l’équation (11.7)

White Heteroskedasticity Test:


F-statistic 1.99921 Probability 0.07600
Obs*R-squared 16.0833 Probability 0.09727

22
Au seuil de 5%, l’hypothèse nulle d’homoscédasticité ne peut être rejetée.

5.3 Détermination du nombre de retards

Lorsqu’on utilise un modèle à décalages temporels, on est confronté au problème du choix du


nombre de retards à considérer. Par exemple, combien de décalages faut-il considérer pour
capter l’effet des revenus passés sur la consommation présente? L’estimation des modèles à
décalages temporels pose un dilemme. D’une part, si le nombre de décalages est « trop »
élevé, les tests sont très approximatifs, car le nombre de données disponibles pour l’estimation
du modèle se réduit. Dans la pratique, il faut conserver au moins 15 observations. De plus, les
problèmes de multicolinéarité entre les explicatives apparaissent, qui interdisent pratiquement
d’utiliser les MCO. D’autre part, si le nombre de retards est sous-estimé, on risque d’oublier
des retards explicatifs significatifs et on connaît les conséquences de l’oubli de variables
explicatives sur la qualité des estimateurs.

Plusieurs artifices sont proposés pour déterminer le nombre de retards dans les modèles à
retards échelonnés. Il s’agit des critères d’utiliser les critères d’information de Akaike (AIC)
et de Schwarz (SC). Ces critères fournissent en effet une mesure de la quantité d’information
contenue dans un modèle et donnent une idée de l’adéquation du modèle estimé au « vrai »
modèle. On préferera le modèle qui fournit une valeur du critère minimale. EViews calcule
directement ces critères qui apparaissent dans la partie inférieure à droite du tableau des
résultats des estimations.

Revenons au modèle et recherchons le nombre de décalages annuels qui sont susceptibles


d’avoir un effet sur la consommation courante. Pour cela, nous allons estimer l’équation et
calculer les critères AIC et SC pour des retards allant de 0 à 3. Les résultats sont synthétisés
dans le tableau suivant :

Tableau 1.12 : Critères d’information pour la sélection du nombre de retards

Décalage AIC SC
0 -3.31671 -3.18743
1 -3.50994 -3.24871
2 -3.76892 -3.37304*
3 -3.77639* -3.24313

Le nombre de décalages correspond à la valeur minimale du critère. Les deux critères ne sont
pas concordants: le critère AIC suggère 3 décalages alors que le critère SC indique 2 retards.
Nous constatons cependant que la valeur de AIC pour 3 retards est très proche de celle avec 2
retards. De plus, lorsque nous estimons l’équation avec 3 retards, les coefficients associés aux
variables retardées de trois périodes ne sont pas significatifs. Ainsi, la spécification appropriée
est un modèle autorégressif à deux retards. L’estimation de ce modèle donne les résultats
reportés dans le tableau suivant :

23
Tableau 1.13 : Estimation de la fonction de consommation autorégressive avec deux retards

Dependent Variable: LCONS


Method: Least Squares
Sample(adjusted): 1967 2002
Included observations: 36 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C -0.05401 0.40053 -0.13486 0.8937
LPIBR 0.36511 0.15866 2.30124 0.0293
LIPC 0.23407 0.11762 1.99003 0.0568
LPIBR(-1) 0.25611 0.24966 1.02584 0.3141
LPIBR(-2) 0.17719 0.20546 0.86240 0.3961
LIPC(-1) -0.27818 0.19378 -1.43555 0.1626
LIPC(-2) 0.11027 0.11817 0.93313 0.3590
LCONS(-1) 0.69301 0.17492 3.96188 0.0005
LCONS(-2) -0.55778 0.16027 -3.48030 0.0017
R-squared 0.99278 Mean dependent var 8.05389
Adjusted R-squared 0.99064 S.D. dependent var 0.34173
S.E. of regression 0.03305 Akaike info criterion -3.76892
Sum squared resid 0.02950 Schwarz criterion -3.37304
Log likelihood 76.84062 F-statistic 464.2109
Durbin-Watson stat 2.10471 Prob(F-statistic) 0.00000

On peut appliquer tous les tests sur les termes d’erreur de cette équation.

Section 6 : Travaux pratiques


Nous allons reproduire les résultats de ce chapitre en TP. Le logiciel utilisé est Eviews. Un
support d’exercices pratiques présente de façon détaillée l’utilisation de ce logiciel
économétrique spécialisé dans l’analyse des séries temporelles.

24
Chapitre 2 : Modèle à équations simultanées

Dans la réalité économique il est rare de modéliser un phénomène par une seule équation de
comportement. En fait, les phénomènes macroéconomiques de quelque complexité sont
décrits par un ensemble de variables qui interagissent les unes avec les autres de sorte que
certaines variables explicatives d’une équation structurelle sont elles-mêmes expliquées dans
d’autres équations. On parle de modèles à équations simultanées. A chaque variable endogène
d’un modèle à équations simultanées est associée une équation structurelle.

Section 1 : Spécification d’un modèle d’équations simultanées

Considérons le modèle constitué des équations suivantes :

Ct  a0  a1 Pibt  a 2 Ct 1  e1t

I t  b0  b1 Pibt  b2 Gt  b3 I t 1  b4 rt  e2t (12.1)

Pibt  Ct  I t  Gt

avec :
Ct : la consommation privée;
It : l’investissement privé;
Pibt : le PIB;
rt : le taux d’intérêt réel ;
Gt : les dépenses publiques;

Cette spécification, dont les équations traduisent les idées économiques qui les inspirent, est
appelée la forme structurelle du modèle. Les coefficients que l’on souhaite pouvoir estimer
ont généralement une signification économique.

Dans ce modèle la variable Pibt apparaît comme variable explicative dans l’équation de la
consommation ( Ct ) et dans celle de l’investissement ( I t ). Elle intervient en tant que variable
endogène lorsqu’on considère la dernière équation. De même, la variable Ct intervient dans la
détermination de Pibt . Ce double statut crée un problème d’endogénéïté qui biaise
l’estimation du modèle par la méthode des moindres carrés ordinaires.

L’estimation des modèles à équations simultanées passe d’abord par l’identification des
variables exogènes et prédéterminées et des variables endogènes. Ensuite, il faut examiner la
possibilité de pouvoir estimer les paramètres du modèle. C’est la phase d’identification du
modèle. Une fois ces deux étapes réalisées, on estime, si cela est possible, les équations
structurelles du modèle par la méthode adéquate.

25
Section 2 : Conditions d’identification et méthodes d’estimation

2.1 Conditions d’identification

L’identification d’un modèle à équations simultanées désigne la possibilité d’estimer les


paramètres structurels des différentes équations en partant des coefficients de la forme réduite.
La forme réduite s’obtient en exprimant chaque variable endogène en fonction des seules
variables exogènes et pré-determinées. Chaque équation de la forme réduite vérifiant les
hypothèses d’un modèle linéaire ordinaire peut être estimée par la méthode des moindres
carrés. Les estimateurs des coefficients de la forme réduite sont alors sans biais et
convergents. La difficulté est de pouvoir déterminer les coefficients structurels à partir des
coefficients de la forme réduite ainsi que leurs écart-types respectifs. Il s’agit de résoudre un
système d’équations non linéaires, qui peut ne pas avoir de solution ou, au contraire, avoir
plusieurs solutions. Or, ce sont justement les coefficients structurels qui nous intéressent pour
l’analyse des politiques économiques.

Pour qu’une équation structurelle d’un modèle à équations simultanées soit identifiable, il faut
que le nombre de restrictions a priori sur cette équation soit supérieur ou égal au nombre
d’équations, moins 1. Lorsque les restrictions ne sont que des restrictions d’exclusion, cette
condition d’identification indique qu’il faut que le nombre de variables exclues de l’équation
soit supérieur ou égal au nombre d’équations moins 1. Bien que cette condition soit
nécessaire mais non suffisante, elle fournit le plus souvent la réponse correcte 5. En cas
d’égalité, l’équation est dite exactement ou juste identifiée. Dans ce cas, il existe une solution
unique pour les coefficients structurels à partir des coefficients de la forme réduite. Lorsque le
nombre de variables exclues de l’équation est strictement supérieur au nombre d’équations
moins 1, l’équation est dite sur-identifiée. Cela signifie qu’il existe plusieurs possibilités de
déterminer les paramètres structurels à partir des coefficients de la forme réduite. Lorsque la
condition énoncée n’est pas vérifiée pour une équation, le calcul des coefficients structurels
est impossible : on dit que l’équation est sous-identifiée. Pour arriver à estimer cette équation,
il faudrait la re-spécifier, soit en réduisant le nombre de variables (exogènes et/ou endogènes)
figurant en explicatives, soit en augmentant le nombre total de variables exogènes et
prédéterminées du modèle. En effet, si l’identification est une propriété associée à chaque
équation, elle dépend globalement de l’ensemble du modèle. L’ajout d’une variable exogène à
une équation structurelle peut rendre identifiable les autres équations structurelles.

La condition d’identification s’applique équation par équation. Elle constitue une phase
importante pour le choix final de la méthode d’estimation. Nous allons examiner
l’identification des équations du modèle précédent.

Le modèle comporte au total 6 variables y compris la constante. Cependant, du point de vue


économétrique, on peut distinguer:

 3 variables endogènes : Ct , I t et Pibt .

5
Il existe des conditions d’identification de rang qui sont à la fois nécessaires et suffisantes. Toutefois, dans la
pratique, ces conditions se révèlent difficiles, voire impossibles, à mettre en œuvre compte tenu des calculs
matriciels qu’elles impliquent. Voir Amemiya (1985, p. 230), Greene (1997, p.670), Bourbonnais (1998, p.213)
et Johnston et Dinardo (1999, 313) pour plus de détails.

26
 5 variables exogènes et prédéterminées: constante, G t , rt , C t 1 et I t 1 .

La détermination du statut économétrique des variables dans un modèle à équations


simultanées est une étape importante dans la mesure où elle a des implications sur
l’identification du modèle.

La première équation est soumise à 4 restrictions d’exclusion tandis que la deuxième équation
est soumise à 2 contraintes d’exclusion. La première équation est donc sur-identifiée et la
deuxième est juste-identifiée. Il est donc possible d’estimer le modèle.

2.2 Méthodes d’estimation

Il existe plusieurs méthodes d’estimation d’un modèle à équations simultanées. Le choix de la


méthode dépend des conditions d’identification. On peut utiliser les méthodes d’estimation
suivantes :

- la méthode des doubles moindres carrés ;


- la méthode du maximum de vraisemblance ;
- la méthode des triples moindres carrés.

Le modèle précédent étant identifiable, nous allons utiliser la méthode des doubles moindres
carrés en utilisant l’ensemble des variables exogènes et prédéterminées comme instruments.

Section 3 : Simulation de politiques dans un modèle d’équations simultanées


Il s’agit ici d’utiliser le modèle à équations simultanées pour simuler l’impact d’un jeu
d’hypothèses sur les variables exogènes sur les variables endogènes. Par exemple, nous
pouvons simuler l’impact d’une hausse des revenus de 10% sur l’évolution de l’économie sur
les 10 prochaines années.

Section 4 : Travaux pratiques


Les travaux pratiques porteront sur l’estimation pratique d’un modèle à équations
simultanées. Nous verrons ensuite comment utiliser ce modèle pour simuler des chocs de
politiques économiques.

27
Chapitre 3 : Modélisation VAR

Section 1 : Spécification et estimation d’un modèle VAR

1.1 Spécification d’un modèle VAR

Un modèle vectoriel autorégressif (VAR) est un modèle à équations simultanées particulier


dans lequel la valeur contemporaine d’une variable dépend de ses propres valeurs passées et
des valeurs passées des autres variables. La modélisation VAR est souvent critiquée d’être
athéorique dans le sens où elle ne fait pas appel à la théorie économique pour spécifier les
relations entre les variables. Elle repose sur la proposition générale selon laquelle les variables
économiques ont tendance à varier les unes avec les autres au cours du temps et aussi à être
autocorrélées. Toutes les variables d’un modèle VAR sont donc supposées endogènes.
Considérons deux variables X et Y. L’écriture sous la forme d’un VAR à p retards est :

p p
Yt   0  1i X t  i  1iYt  i  1t (13.1)
i 1 i 1

p p
X t  0  2i X t  i   2iYt  i  2 t (13.2)
i 1 i 1

On voit clairement qu’un modèle VAR est un type particulier de modèle à équations
simultanées : chaque équation est un modèle autorégressif à p décalages temporels et toutes
les équations comportent les mêmes variables explicatives. Soulignons que les équations du
VAR peuvent inclure des tendances, des variables indicatrices ou d’autres variables exogènes
stationnaires.

1.2 Estimation d’un modèle VAR

Un modèle VAR peut être estimé par les méthodes présentées dans le chapitre précédent.
Toutefois, il est possible de recourir à la méthode des moindres carrés ordinaires.

Considérons le vecteur constitué des deux variables suivantes : LPibrt et LConsgt . Etant
donné que ces deux variables ne sont pas stationnaires en niveau, nous allons considérer les
différences premières. On génère les différences premières des séries à partir du menu
Quick/Generate Series. Après cette opération, sélectionnez les deux variables différenciées
dans le workfile et faites un clic droit puis sélectionnez Open/as VAR…

On peut aussi procéder par le menu principal en sélectionnant Quick/Estimate VAR… puis
on entre la liste des variables. La constante est ici la seule variable exogène. Cliquez sur OK
pour valider. On obtient le tableau de résultats suivant:

Tableau 3.1 : Estimation du modèle VAR

Vector Autoregression Estimates


Sample(adjusted): 1967 2002

28
Included observations: 36 after adjusting endpoints
t-statistics in ( )
DLCONSG DLPIBR
DLCONSG(-1) -0.09121 -0.07550
(-0.51540) (-1.85118)
DLPIBR(-1) -0.04586 0.48188
(-0.07486) (3.41269)
C 0.05533 0.01855
(1.42978) (2.08037)
R-squared 0.00807 0.32067
Adj. R-squared -0.05204 0.27950
Sum sq. resids 1.10787 0.05884
S.E. equation 0.18322 0.04222
F-statistic 0.13434 7.78883
Log likelihood 11.5775 64.4125
Akaike AIC -0.47652 -3.41180
Schwarz SC -0.34456 -3.27984
Mean dependent 0.04943 0.03233
S.D. dependent 0.17863 0.04974
Determinant Residual Covariance 5.81E-05
Log Likelihood (d.f. adjusted) 73.38502
Akaike Information Criteria -3.74361
Schwarz Criteria -3.47969

Nous venons d’estimer un VAR bivarié avec un seul retard, ce qu’on note VAR(1).
Rappelons que l’estimation du VAR est équivalente à la régression par MCO équation par
équation. Ainsi les résultats présentés dans ce tableau peuvent être considérés comme une
compilation de deux régressions par moindres carrés ordinaires.

L’estimation d’un VAR ne présente pas les p-values pour le test de significativité des
coefficients. Cependant, sur la base des t-statistiques, on peut aisément conduire ce test, en
utilisant la valeur critique de 1,96 ou 2. Par exemple, si la valeur absolue du t-stat est
supérieure à 1,96 ou 2, alors on conclut que le coefficient est significativement différent de
zéro. Le coefficient de DLPIBR(-1) dans la première équation a un t-stat de -0.07486
indiquant que ce coefficient n’est pas significatif. Il en est de même pour la constante de la
première équation. Puisque certains coefficients ne sont pas significatifs, on peut les
supprimer du modèle de sorte à avoir un modèle réduit. Mais cela n’est pas possible à partir
de l’option VAR, puisque toutes les équations d’un modèle VAR devraient avoir exactement
le même nombre de retards et donc le même nombre de variables explicatives. Si l’on veut
obtenir un modèle réduit du VAR, on devra utiliser l’option system utilisée pour estimer les
modèles à équations simultanées (voir TP). En outre, l’option system permet de faire des tests
sur les coefficients des équations.

1.3 Détermination du nombre de retards

La détermination du nombre de retards est une étape préalable à l’estimation d’un VAR. Cette
étape est particulièrement délicate puisqu’elle n’est pas neutre au regard des résultats
numériques qui en découlent. L’estimation d’un VAR(p) à k variables nécessite au total

29
l’estimation de k+pk2 paramètres (y compris les termes constants). Ce nombre augmente de k2
avec chaque niveau de retards. Un nombre trop élevé de retards risque donc d’épuiser
rapidement les degrés de libertés et d’affaiblir la puissance des tests statistiques. Par exemple,
un VAR(4) à 5 variables nécessite l’estimation d’au moins 20 coefficients dans chacune des
équations. Si le nombre d’observations dont on dispose est faible, il aura une perte de degrés
de liberté qui appauvrira l’estimation puisqu’elle réduira le nombre de données disponibles.

Pour déterminer le nombre de retards, on utilise les critères d’information : on calcule ces
critères pour des ordres différents et on retient le retard qui minimise ces critères. EViews
offre la possibilité de réaliser plus aisément cette opération en sélectionnant lui-même la
solution. Sélectionnez View/Lag Structure/Lag Length Criteria…, puis indiquez le retard
maximal.

Pour un retard maximal égal à 4, on obtient le tableau suivant :

Tableau 3.2 : Critères d’information pour le VAR

Lag LogL LR FPE AIC SC HQ


0 65.2435 NA 7.42E-05 -3.8329 -3.7422 -3.8024
1 72.3436 12.9093* 6.16E-05 -4.0208 -3.7487* -3.9292*
2 76.2785 6.6774 6.20E-05 -4.0168 -3.5633 -3.8643
3 81.9412 8.9229 5.66E-05* -4.1176* -3.4827 -3.9040
4 82.9206 1.4245 6.90E-05 -3.9345 -3.1183 -3.6599
LR: sequential modified LR test statistic (each test at 5% level)
FPE: Final prediction error
AIC: Akaike information criterion
SC: Schwarz information criterion
HQ: Hannan-Quinn information criterion

Pour chaque critère le signe (*) indique le retard optimal retenu. Selon la statistique du
rapport de vraisemblance et les critères SC et HQ, un retard suffit pour modéliser les
interrelations dynamiques entre le taux de croissance du PIB et celui des dépenses publiques.
Cependant les critères FPE et AIC sélectionnent trois retards. Notons qu’il est possible de
déterminer l’ordre du VAR à partir des propriétés statistiques des résidus. On estime le VAR
pour différents retards successifs et on retient le nombre de retard p pour lequel les résidus
sont des bruits blancs.

Section 2 : Tests de causalité de Granger

D’une façon générale, les coefficients d’un modèle VAR ne peuvent être directement
interprétés. Les retards d’une même variable peuvent se voir attribuer des signes différents.
On s’intéresse, en général, à la significativité globale des coefficients associés à une variable
spécifique ou à un groupe de variables6. C’est l’idée du test de causalité de Granger (1969).
La causalité au sens de Granger (1969) est une approche de la causalité qui renvoie non pas au
caractère théorique de la causalité (cause-effet) mais au caractère prédictif de l’éventuelle
cause sur l’effet. En effet, selon Granger (1969), une variable X cause une autre variable Y, si
la connaissance des valeurs passées de X rend meilleure la prévision de Y. En d’autres termes,

6
Il existe dans la littérature plusieurs tests de causalité. Pour une revue de littérature voir Bruneau (1996).

30
on dira que la variable X cause au sens de Granger la variable Y si les valeurs passées de X
influencent significativement la valeur contemporaine de Y. Sur le plan statistique, le test de
causalité au sens de Granger revient à faire un test de significativité globale des coefficients
associés aux valeurs passées de la variable causale dans l’équation de la variable causée.

Considérons le modèle VAR bivarié définit de la façon suivante :

p p
Yt  c1  1i X t  i  1iYt  i  1t (13.3)
i 1 i 1

p p
X t  c2  2i X t i   2iYt i  2 t (13.4)
i 1 i 1

On teste les hypothèses suivantes :


H 0 : 11  12  ...  1 p  0  X ne cause pas Y.

H 0 :  21   22  ...   2 p  0  Y ne cause pas X.

Ces hypothèses peuvent être testées à l’aide du test de Fisher. On peut aussi utiliser un test du
rapport de vraisemblance par comparaison du modèle VAR non contraint et du modèle VAR
contraint. Le rejet des deux hypothèses implique une causalité réciproque entre X et Y. On
parle également de boucle rétroactive. Rappelons que le cadre statistique de ce test suppose la
stationnarité des variables.
Pour réaliser le test de causalité de Granger, sélectionnez View/Lag Structure/Pairwise
Granger Causality Tests.

On obtient les résultats consignés dans le tableau suivant.

Tableau 3.3 : Résultats du test de causalité de Granger (p=1)

VAR Pairwise Granger Causality/Block Exogeneity Wald Tests


Sample: 1965 2002
Included observations: 36
Dependent variable: DLCONSG
Exclude Chi-sq df Prob.
DLPIBR 0.00560 1 0.9403
All 0.00560 1 0.9403
Dependent variable: DLPIBR
Exclude Chi-sq df Prob.
DLCONSG 3.42685 1 0.0641
All 3.42685 1 0.0641

Pour une variable dépendante donnée, le tableau donne la statistique de Wald du test de
nullité simultanée des coefficients associés aux retards de la variable dépendante. Par
exemple, pour la variable DLCONSG, la statistique de test donne une valeur de 0.0056 et une
probabilité égale à 0.94. Cette probabilité étant supérieure à 5%, l’hypothèse de non causalité

31
de DLCONSG par DLPIBR ne peut être rejetée au seuil de 5%. En d’autres termes, le PIB
réel ne cause pas la consommation publique au seuil de 5%. En revanche, quand on considère
l’équation du PIB réel, on constate que la consommation publique cause (négativement) le
PIB réel au seuil de 7%.

Nous allons refaire le test de Granger en considérant 3 retards. Les résultats sont donnés dans
le tableau suivant :

Tableau 3.4 : Résultats du test de causalité de Granger (p=3)

VAR Pairwise Granger Causality/Block Exogeneity Wald Tests


Sample: 1965 2002
Included observations: 36
Dependent variable: DLCONSG
Exclude Chi-sq df Prob.
DLPIBR 6.10416 3 0.1067
All 6.10416 3 0.1067
Dependent variable: DLPIBR
Exclude Chi-sq df Prob.
DLCONSG 5.40822 3 0.1442
All 5.40822 3 0.1442

On voit bien qu’aucune causalité ne peut être mise ici en évidence avec ces résultats. Le test
de Granger est donc sensible au nombre de décalages pris en compte dans la modélisation.

Section 3 : Simulation dans un modèle VAR

3.1 Analyse impulsionnelle

L’une des principales applications des modèles VAR est d’analyser les effets de politiques
économiques au travers de simulations de chocs. Un modèle VAR modélise les relations
dynamiques entre un groupe de variables choisies pour caractériser un phénomène
économique particulier. L’analyse impulsionnelle permet d’analyser comment un choc à la
date T sur une variable affecte l’ensemble des variables du système pour les périodes T, T+1,
T+2,…

Pour faire l’analyse impulsionnelle, sélectionnez View/Impusle Response… On peut aussi


directement cliquer sur l’onglet impulse dans le tableau des estimations.

Le graphique suivant représente les réponses de la politique budgétaire aux chocs de demande
publique. Le deuxième graphique représente la réponse du PIB aux chocs de demande
publique. Nous allons nous intéresser particulièrement au second graphique.

32
Figure 3.1 : Fonctions de réponse de DLCONSG et DLPIBR

Response to Cholesky One S.D. Innovations ± 2 S.E.

Response of DLCONSG to DLCONSG Response of DLPIBR to DLCONSG

.25 .01

.20
.00

.15

-.01
.10

.05 -.02

.00
-.03
-.05

-.10 -.04
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10

On observe qu’un choc positif sur les dépenses publiques (augmentation des dépenses
publiques) conduit dans un premier temps à une baisse transitoire du taux de croissance de
l’économie. L’effet sur l’activité s’estompe progressivement. Il décroît fortement dès la
deuxième année et tend à se résorber au bout de 8 années. Le fait que la réponse tend vers
zéro est en cohérence avec la propriété de stationnarité des séries.

3.2 Décomposition de la variance


L’analyse des variances fournit des informations quant à l’importance relative des innovations
dans les variations de chacune des variables. Elle permet de déterminer dans quelle direction
un choc a le plus d’impact. Il existe une relation entre la décomposition de la variance de
l’erreur de prévision et la non causalité au sens de Granger. Si y ne cause pas x dans un
système bivarié, alors la variance de l’erreur de prévision de x sera entièrement due aux
innovations de x et aucunement à celles de y . Cette propriété n’est cependant vérifiée que si
la matrice de variance-covariance des innovations est diagonale7, c’est-à-dire s’il n’y a pas de
causalité instantanée entre les deux variables x et y .
Pour obtenir la décomposition de la variance, sélectionnez, à partir du menu, View/Variance
Decomposition…. On obtient deux tableaux qui indiquent chacun la proportion de la variance
expliquée par chaque variable.

Tableau 3.5: Décomposition de la variance de DLPIBR

Variance Decomposition of DLPIBR:


Period S.E. DLCONSG DLPIBR
1 0.04222 2.88732 97.11267
2 0.04984 14.10783 85.89217

7
Si les innovations ne sont pas orthogonales, il est possible de les orthogonaliser en utilisant
un minimum de raisonnement économique pour introduire des restrictions d’identification.
Cette approche est à la base des modèles VAR structurels (voir Blanchard et Quah, 1989;
Lütkepohl et Krätzig, 2004).

33
3 0.05129 15.23580 84.76420
4 0.05164 15.51525 84.48475
5 0.05172 15.57927 84.42073
6 0.05174 15.59451 84.40549
7 0.05174 15.59813 84.40187
8 0.05174 15.59899 84.40101
9 0.05174 15.59920 84.40080
10 0.05174 15.59924 84.40076
Cholesky Ordering: DLCONSG DLPIBR

Tableau 3.6 : Décomposition de la variance de DLCONSG

Variance Decomposition of DLCONSG:


Period S.E. DLCONSG DLPIBR
1 0.18322 100.0000 0.00000
2 0.18396 99.98923 0.01076
3 0.18398 99.98759 0.01240
4 0.18398 99.98716 0.01283
5 0.18398 99.98706 0.01293
6 0.18398 99.98704 0.01296
7 0.18398 99.98703 0.01296
8 0.18398 99.98703 0.01296
9 0.18398 99.98703 0.01296
10 0.18398 99.98703 0.01296

Le premier tableau indique que le choc d’offre explique une très grande part de la dynamique
du PIB. De façon instantanée, le choc d’offre contribue à 97,11% de la variance de l’erreur de
prévision du PIB, contre seulement 2,88% pour le choc de demande publique. A moyen et
long terme, la variance de l’erreur de prévision du taux de croissance est expliquée à 84,4%
par ses propres innovations et à 15,6% par les dépenses publiques. La décomposition de la
variance de l’erreur de prévision des dépenses publiques (cf. tableau 7.8) indique que moins
de 0,1% de l’erreur de prévision de celles-ci est dû aux impulsions provenant des chocs
d’offre. Nous pouvons conclure que les chocs de politique budgétaire en matière de
consommation publique ont plus d’impact sur l’activité économique que l’impact d’un choc
d’offre en a sur la politique budgétaire.

34
Chapitre 4 : Cointégration et Modèles à Correction d’Erreurs

Lorsqu’on travaille avec des séries temporelles, il faut vérifier au préalable que celles-ci sont
stationnaires. Lorsque cela n’est pas le cas, il faut trouver la bonne façon de les rendre
stationnaires. La plupart des données temporelles macroéconomiques sont des réalisations de
processus non stationnaires (Nelson et Plosser, 1982). Ce qui implique que les méthodes
habituelles d’estimation et d’inférence (moindres carrés ordinaires, test de Student, test de
Fisher etc.) ne peuvent être appliquées directement. Néanmoins, la théorie de la cointégration
indique des conditions dans lesquelles les régressions sont autorisées entre des séries non
stationnaires. En effet, lorsque les variables ne sont pas stationnaires, l’estimation d’un VAR
en différences premières n’est pas toujours appropriée. La différenciation conduit à un
appauvrissement de l’information dans la mesure où on enlève les mouvements de long terme
contenus dans le niveau des variables. Or cette information devrait être exploitée pour enrichir
la dynamique des variables plutôt que d’être retirée. En différenciant, seuls les effets de court
terme peuvent être analysés. Le calcul des différences premières n’est donc pas une stratégie
appropriée. Les techniques de cointégration montrent que sous certaines conditions le modèle
initial peut être reparamétré sous la forme d’un modèle vectoriel à correction d’erreurs faisant
intervenir les variables en différences premières et leurs niveaux (Engle et Granger, 1987;
Johansen, 1988). La représentation du modèle sous la forme à correction d’erreurs a plusieurs
avantages. Premièrement, elle n’est pas sujette aux problèmes de régressions fallacieuses
puisque toutes les variables du modèle sont stationnaires (Banerjee et al. 1993).
Deuxièmement, elle permet de distinguer clairement entre les élasticités de court terme et de
long terme puisque les différences premières et les niveaux des variables interviennent
explicitement dans le modèle. La cointégration et les modèles à correction d’erreurs
s’inscrivent dans le prolongement de la modélisation VAR appliquée aux séries temporelles
non stationnaires. Leur mise œuvre et leur interprétation nécessitent de bien comprendre la
théorie sous-jacente. C’est pourquoi, dans ce chapitre, nous allons rappeler quelques éléments
essentiels de cette théorie. Nous recommandons aux lecteurs de se référer aux ouvrages
d’économétrie qui abordent en détail ces modèles afin d’approfondir certains aspects (par
exemple, Lardic et Mignon, 2002 ; Bourbonnais, 1998).

Section 1 : La cointégration : définition statistique et signification économique

1.1 Notion et tests de stationarité

La stationnarité renvoie à l’invariance temporelle des propriétés des séries temporelles.


L’économétrie appliquée utilise une notion moins restrictive de la stationnarité que l’on
qualifie de faible ou de stationnarité de second ordre. Une série y t est faiblement stationnaire
lorsque ses deux premiers moments (espérance et variance) sont finis et indépendants du
temps. En conséquence, une série pour laquelle l’espérance et la variance sont modifiées dans
le temps est non stationnaire.

En pratique, les cas de non-stationnarité sont analysés à partir de deux types de processus. Les
processus TS (Trend Stationary) caractérisés par une non stationnarité de nature déterministe,
et les processus DS (Difference Stationary) présentant une non stationnarité de nature
stochastique. Dans le cas de processus TS, les données suivent une tendance qui a une
fonction définie (linéaire, quadratique, etc.). Afin de résoudre ce problème, il suffit d’inclure
35
une variable de tendance dans le modèle de régression. Toutefois, en pratique, il convient de
ne pas traiter une tendance stochastique comme une tendance déterministe. Dans le cas de
processus DS, les données suivent une marche aléatoire avec ou sans dérive avec un
coefficient de 1 pour le terme retardé : y t  y t 1  u t , où u t est stationnaire. Il y a non-
stationnarité de y t car on montre que la variance n’est pas constante.

La distinction entre ces deux types de stationnarité est fondamentale sur le plan économique
dans la mesure où ces deux types de processus sont caractérisés par des comportements très
différents. L’effet d’un choc sur un processus TS est transitoire (la série a une mémoire finie
des chocs), alors que sur un processus DS cet effet est permanent (mémoire infinie des chocs),
aucune force ne le ramènera à son niveau antérieur, sauf occurrence d’un choc de signe
opposé et de même magnitude. Sur le plan statistique, il est important d’identifier
correctement la nature de la non-stationnarité d’une série avant de la rendre stationnaire. En
effet, une méthode de stationnarisation inappropriée peut engendrer des artefacts statistiques.
Un processus TS est rendu stationnaire par une régression sur une tendance déterministe, alors
qu’un processus DS devient stationnaire par différenciation. Quand un processus TS linéaire
est statistiquement traité comme un processus DS, cela crée artificiellement dans la série un
mouvement cyclique court. A l’inverse, lorsqu’un processus est traité comme un processus
TS, cela génère un mouvement cyclique long (Nelson et Kang, 1981).
L’identification et la caractérisation de la non-stationnarité peuvent être effectuées par le biais
de tests statistiques. A cet égard, il existe un grand nombre de tests8 dont les plus utilisés en
raison de leur simplicité sont les tests de Dickey et Fuller (1979, 1981), le test de Phillips-
Perron (1988) et le test de KPSS.

 Tests de Dickey et Fuller

Les tests de Dickey-Fuller (DF) testent l’existence d’une racine unitaire dans le processus
générateur des données. Ce sont des tests paramétriques qui sont basés sur l’estimation d’un
modèle autorégressif. La loi du test DF sur laquelle est basé le test diffère selon l’hypothèse
alternative. Le choix de l’hypothèse alternative est donc primordial pour la validité du test.

Dans le test de Dickey-Fuller augmenté, le modèle prend la forme suivante:


p
y t  y t 1    j y t  j  d t  et (14.1)
j 1

Suivant les termes déterministes inclus dans d t , on aboutit aux trois modèles sur lesquels est
basé le test de Dickey-Fuller Augmenté:
p
 Modèle [1] : yt  yt 1    j yt  j  et (14.2)
j 1

p
 Modèle [2] : y t  y t 1  c    j yt  j  et (14.3)
j 1

8
Pour une revue de ces tests, on pourra notamment consulter Banerjee et al (1993) et Darne et Terraza (2002).

36
p
 Modèle [3] : yt  yt 1  c  bt    j yt  j  et (14.4)
j 1

Dans ces modèles autorégressifs, le choix de p est très important pour l’issue du test. Comme
dans les modèles à décalages temporels, on peut utiliser les critères d'information (Akaike,
Schwarz, Hannan-Quinn, …).

La question se pose toujours de savoir laquelle des trois spécifications précédentes retenir
pour conduire le test de racine unitaire. Il est fondamental de retenir le modèle le plus adéquat
car l’introduction de termes déterministes non pertinents réduit la puissance du test. En
pratique, on adopte une approche séquentielle descendante pour traiter cette question. Celle-ci
consiste à partir du modèle le plus large (avec constante et tendance déterministe – modèle
[3]) jusqu’au plus spécifique (sans tendance, ni constante – modèle [1]). Pour chaque modèle,
on teste la significativité des termes déterministes en utilisant les tables de Dickey-Fuller.
C’est une fois l’équation de test déterminée qu’on peut lire le test de racine unitaire.

Le test est basé sur la statistique de student tˆ associée au coefficient  de yt 1 . Toutefois,
Dickey et Fuller (1981) ont montré que sous l'hypothèse nulle de racine unitaire, tˆ ne suit
pas sa loi conventionnelle, même asymptotiquement. La distribution a été simulée par Dickey
et Fuller (1981) et par Mackinnon (1991). On rejette l’hypothèse nulle si la statistique
calculée est inférieure à la valeur critique tabulée. Si la statistique calculée est supérieure à
la valeur critique, on accepte l’hypothèse d’une racine unitaire, ce qui implique que la série
n’est pas stationnaire.

En dépit des tentatives de sophistication, le test de racine unitaire de Dickey-Fuller reste


marqué par une limite essentielle. L’hypothèse nulle suppose en effet que la tendance de la
série ne change pas sur toute la période. Or on sait que quelques chocs ponctuels peuvent
influencer, même sensiblement, la tendance des séries. Il apparaît donc que le test de Dickey-
Fuller est biaisé en faveur de l’hypothèse nulle de racine unitaire (Perron, 1989, 1992 ;
Rappoport et Reichlin, 1989)9. Ces critiques ont conduit à l’élaboration d’autres tests de
racine unitaire et de stationnarité dont ceux de Phillips et Perron (1988) et Kwiatkowski,
Phillips, Schmidt et Shin (1992) (noté KPSS par la suite).

 Test de Phillips-Perron

Le test de Phillips-Perron (1988) est construit sur une correction non paramétrique de la
statistique de Dickey-Fuller pour prendre en compte des erreurs hétéroscédastiques. Il se
déroule en deux étapes : on estime par MCO les trois modèles de base du test de Dickey-
Fuller et on calcule les statistiques associées, puis on estime un facteur correctif établi à partir
de la structure de covariance des résidus de telle sorte que les transformations réalisées
conduisent à des distributions identiques à celles du Dickey-Fuller standard. Ce test se ramène
donc au test de Dickey-Fuller simple dans le cas où les erreurs seraient homoscédastiques. Ce
test est non paramétrique car aucune modélisation du processus générateur des aléas n’est
formulée, il est plus robuste à une autocorrélation (mais également à une hétéroscédasticité)
de forme inconnue. La mise en œuvre du test est identique à celle du test de Dickey-Fuller :
on suit la même procédure séquentielle descendante.
9
Voir Perron (1989) et Zivot et Andrews (1992) pour les tests de racine unitaire prenant en compte le
changement structurel de tendance.

37
 Test de KPSS

Le test de Kwiatkowski, Phillips, Schmidt, Shin (1992) (noté KPSS) a la particularité de poser
l’hypothèse de stationnarité comme hypothèse nulle. Il teste l'hypothèse de stationnarité en
niveau (test  ) ou autour d'une tendance (test  ) contre l'alternative de non stationnarité. Le
test KPSS repose sur la décomposition de la série étudiée en une partie déterministe, une
marche aléatoire et un bruit blanc. On régresse la série sur une constante (test  ) ou sur une
constante et une tendance (test  ) et on détermine la série des résidus estimés ê t . La statistique
de test est définit par:
T

1
 Sˆ
t 1
t
2

KPSS /   2
(14.5)
S wa T
t
où Sˆt   eˆl ( t=1, …, T) est la somme partielle des résidus et Swa
2
l'estimateur de la variance
l 1

de long terme de ê t . La règle de décision est que si KPSS  /   KPSS * alors la série est
stationnaire, où KPSS * est la valeur critique. Dans le cas contraire, on considère que la série
est non stationnaire. Pour choisir entre le modèle avec constante et le modèle avec trend
linéaire, on peut s’aider de la représentation graphique de la série ou utiliser les résultats des
tests de Dickey-Fuller.

Les tests de stationarité en pratique…

Pour réaliser les tests de stationnarité d’une série en pratique, on visualise la série (par un
double clic sur la série) et on sélectionne à partir du menu de la fenêtre, Unit Root Test…
Les résultats du test de Dickey-Fuller pour la série LPIB sont présentés dans les tableaux
suivants:

Tableau 4.1a : Résultats du test de Dickey-Fuller

Null Hypothesis: LPIB has a unit root


Exogenous: Constant
Lag Length: 1 (Automatic based on SIC, MAXLAG=9)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -2.72106 0.0804
Test critical values: 1% level -3.62678
5% level -2.94584
10% level -2.61153
*MacKinnon (1996) one-sided p-values.

Tableau 4.1b : L’équation du test de Dickey-Fuller

Augmented Dickey-Fuller Test Equation


Dependent Variable: D(LPIBR)
Method: Least Squares

38
Sample(adjusted): 1967 2002
Included observations: 36 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
LPIBR(-1) -0.06572 0.02415 -2.72106 0.0103
D(LPIBR(-1)) 0.29307 0.15259 1.92053 0.0635
C 1.93905 0.70726 2.74164 0.0098
R-squared 0.38754 Mean dependent var 0.03233
Adjusted R-squared 0.35042 S.D. dependent var 0.04974
S.E. of regression 0.04009 Akaike info criterion -3.51543
Sum squared resid 0.05305 Schwarz criterion -3.38347
Log likelihood 66.27786 F-statistic 10.4408
Durbin-Watson stat 1.90939 Prob(F-statistic) 0.00030

Le deuxième tableau indique le modèle à partir duquel le test est réalisé. On peut ainsi juger
de la pertinence des termes déterministes à inclure dans la régression auxiliaire.

Le premier tableau donne les statistiques de test ADF, les valeurs critiques et les probabilités
associées. La statistique de test reporte ici une valeur de -2,72106 supérieure aux valeurs
critiques aux seuils de 1% et 5%, ce qui nous conduit à accepter l’hypothèse nulle. La série
admet une racine unitaire et ne peut donc être stationnaire. Le test est effectué suivant la
même démarche pour les tests PP et KPSS. Il est important de toujours se rappeler que
l’hypothèse nulle du test KPSS est la stationnarité.

Le tableau suivant synthétise les résultats des tests ADF, PP et KPSS pour les huit variables
en niveau et en différence première.

Tableau 4.2 : Résultats des tests de stationnarité

En niveau En différences premières


ADF PP KPSS ADF PP KPSS
LPIBR -2.721 -3.726* 0.649* -3.037 *
-2.953 *
0.440
(-2.945) (-2.943) (0.463) (-1.950) (-1.950) (0.463)
LI -2.197 -2.188 0.095 -6.633* -6.631* 0.078
(-2.943) (-2.943) (0.463) (-1.950) (-1.950) (0.463)
LC -2.604 -3.032* 0.665* -2.194* -2.209* 0.386
(-2.945) (-2.943) (0.463) (-1.950) (-1.950) (0.463)
LG -1.846 -2.221 0.642* -5.373* -5.373* 0.188
(-2.943) (-2.943) (0.463) (-1.950) (-1.950) (0.463)
LIPC -1.155 -0.974 0.719* -3.497* -3.448* 0.169
(-2.943) (-2.943) (0.463) (-2.945) (-2.945) (0.463)
R -2.964* -2.964* 0.112 - - -
(-1.950) (-1.950) (0.463)
Note : *indique le rejet de l’hypothèse nulle à 5%.

Les différentes statistiques de tests conduisent à des résultats différents. Les tests ADF et
KPSS concluent à la non-stationnarité de LPIBR tandis que le test PP conclue à la
stationnarité de cette série. Selon les statistiques ADF et PP, la série LI est non stationnaire en
niveau. En revanche, le test KPSS indique que cette variable est stationnaire en niveau. Quant
à la série LC, le test PP rejette l’hypothèse de non stationnarité tandis que les tests ADF et

39
KPSS rejettent l’hypothèse de stationnarité. En d’autres termes, la série LC est stationnaire
selon la statistique PP, et non stationnaire selon les statistiques ADF et KPSS. Selon les trois
statistiques de test, les séries LG et LIPC sont non stationnaires en niveau et stationnaires
lorsqu’on considère les différences premières. Les trois statistiques de test indiquent que la
série R est stationnaire.

En définitive, nous retenons que toutes les séries, à l’exception de R, sont non stationnaires en
niveau et stationnaires en différences premières. En d’autres termes, les séries LPIBR, LI, LC,
LG et LIPC sont intégrées d’ordre un.

Corrections à apporter au modèle. La façon de corriger un modèle comportant des variables


intégrées d’ordre un est de différencier les variables, c’est-à-dire soustraire à chaque
observation la valeur de la période précédente ( yt  yt  yt 1 ). Cependant, si les séries sont
cointégrées la spécification du modèle en différence première est biaisée du fait de l’oubli
d’une variable explicative importante. La théorie de la cointégration que nous verrons dans le
chapitre suivant indique les conditions sous lesquelles l’on est autorisé à différencier les
variables.

Interprétation du modèle après différenciation : Un modèle différencié s’interprète comme


l’impact d’une variation de la variable indépendante sur la variation de la variable
dépendante. Si les variables sont en log, la variation s’interprète comme un taux de
croissance. Ainsi, si le modèle cherche à trouver les déterminants de la consommation et
qu’on a dû le différencier, on pourrait interpréter le résultat comme «une hausse de croissance
du revenu a un impact positif sur le taux de croissance de la consommation». En pratique
l’analyse se fait en termes de variation en points de pourcentage.

Deux mises en garde: Premièrement, il ne faut pas différencier un modèle avec tendance
déterministe. Deuxièmement, sur-différencier enlève tout potentiel d’interprétation au modèle.
Vous aurez beau dire que votre modèle est stationnaire, mais si vous ne pouvez pas
l’interpréter, vous n’êtes pas avancé. Le plus souvent les modèles différenciés ont un pouvoir
explicatif (R2) très faible comparé à celui du modèle en niveau.

1.2 Séries cointégrées, c’est quoi ?

La régression d'une série non stationnaire sur des séries non stationnaires peut donner une
régression n’ayant aucun sens économique. C’est ce qu’on appelle les régressions fallacieuses
(Granger et Newbold, 1974). L’estimation de modèles impliquant des variables non
stationnaires soulève plusieurs problèmes assez sérieux. Premièrement, les estimateurs des
coefficients ne sont pas convergents. Deuxièmement, les statistiques des tests conventionnels,
tels que le t de Student et le F de Fisher, ne suivent plus leur distribution habituelle sous
l’hypothèse nulle, même asymptotiquement. En conséquence, les valeurs critiques habituelles
ne sont plus appropriées. Troisièmement, les modèles présenteront une apparente bonne
adéquation reflétée par un coefficient de détermination très élevé, mais la statistique de
Durbin-Watson convergera vers zéro au fur à mesure que le nombre d’observations augmente
(Granger et Newbold, 1974).

Néanmoins, il arrive que des séries non stationnaires et intégrées d’ordre un forment une
combinaison linéaire stationnaire. Cette situation particulièrement intéressante signifierait
que, bien que chacune des séries ait tendance à "errer", elles "marchent ensemble" suivant

40
une relation commune. On dit qu'elles sont cointégrées. Economiquement, cela signifie qu'il
existe une relation de long terme stable qui unit ces variables.

Nous allons maintenant donner la définition formelle d’Engle et Granger (1987). Considérons
un vecteur X t de variables non stationnaires. Les composantes de X t sont dites cointégrées si
premièrement elles sont intégrées de même ordre d (I(d)), et s’il existe une combinaison
linéaire de ces variables d’ordre d’intégration inférieur, c’est-à-dire s’il existe un vecteur 
non nul tel que Z t  X t est I ( d  b) , avec 0  b  d . Le vecteur  est le vecteur
cointégrant. Dans le cas où d  1 , la cointégration implique que Z t  X t est stationnaire.

Si nous considérons deux variables X et Y intégrées d’ordre un (I(1), l’existence d’une


relation de cointégration implique qu’il existe un coefficient  tel que Yt  X t  Z t est
stationnaire (I(0)).

L’ordre d’intégration d’une variable est le nombre de fois qu’il faut la différencier pour la
rendre stationnaire. La cointégration se présente ainsi comme une propriété de réduction de
l’ordre d’intégration d’une combinaison linéaire de variables intégrées du même ordre.

Remarques

1) En cas de cointégration, le vecteur cointégrant n’est pas unique. En effet, si  est un


vecteur cointégrant,  (   R ) est aussi un vecteur cointégrant.
2) Entre p variables toutes non stationnaires, il existe au plus p  1 relations distinctes de
cointégration. Par conséquent dans une relation bivariée, le rang de la cointégration ne
peut excéder 1. Un raisonnement par l’absurde permet de montrer ce résultat. Le nombre
de relations de cointégration est appelé rang de cointégration.

1.3 Spécification d’un modèle à correction d’erreurs

Lorsque deux variables sont cointégrées, elles sont liées par une relation de long terme.
Cependant, elles peuvent s'écarter de temps en temps (à court terme) de cette relation
d’équilibre. On peut interpréter l'écart entre Yt et sa valeur de long terme Yˆt     X t comme
une "erreur d'équilibre" et utiliser cet écart pour lier le comportement de court terme des deux
variables à leur comportement de long terme. On définit ainsi le modèle suivant:

Yt  bX t  et 1   t (14.6)

où et 1  Yt 1  Yˆt 1  Yt 1     X t 1 .

Cette représentation est communément appelée modèle à correction d'erreurs. Le coefficient


 mesure la force de rappel vers l’équilibre de long terme ; il doit être négatif pour que le
mécanisme de correction ait lieu. En effet, supposons que X t est constant et que l’écart à
l’équilibre et 1  Yt 1    X t 1 est positif. Cela signifie que Yt 1 est supérieure à sa valeur

41
d'équilibre Yˆt 1     X t 1 . En supposant que le coefficient  est négatif, le terme et 1 est
aussi négatif et, par conséquent, Yt  Yt  Yt 1 sera négatif. La valeur de Yt à la période t sera
inférieure à la valeur Yt 1 de sorte à corriger l'erreur d'équilibre. Si l'erreur
et 1  Yt 1    X t 1 est négative, alors Yt 1 sera en deçà de sa valeur d'équilibre. Le
terme et 1 étant positif (  étant supposé toujours négatif), la différence Yt  Yt  Yt 1 sera
également positive. Cela implique que Yt prendra une valeur supérieure à la valeur de Yt 1
permettant de réaliser l'équilibre. En d’autres termes, lorsqu’à un moment donné Yt s’écarte
de sa valeur d’équilibre, la période suivante, elle y revient : il y a un mécanisme à correction
qui gouverne la dynamique des variables et qui fait que ces dernières ne peuvent pas s’écarter
durablement de la relation d’équilibre. Si les séries sont cointégrées, les déviations par rapport
à la relation de long terme ont pour effet, à court terme, d’induire des variations dans
l’évolution de l’une ou de toutes les variables de façon à forcer le système à retourner vers son
équilibre de long terme.

Pour illustrer le concept de cointégration et de modèle à correction d’erreurs, considérons


l’exemple d’un couple. L’union entre les deux partenaires impose à chacun un mode de vie
caractérisé par une harmonie et une complicité entre les conjoints. Cette vie de bonne entente
et d’harmonie représente la situation de long terme, c’est-à-dire la relation qui devrait
normalement lier les deux partenaires. Cependant, de temps en temps, la vie de couple peut
connaitre des moments de disharmonie caractérisés par une divergence des comportements
individuels. Mais avec le temps, les deux conjoints finissent par s’entendre et à revenir à la
situation normale. Il y a comme une force invisible qui restaure, de jour en jour, l’harmonie
dans le couple.

Engle et Granger (1987) ont montré que tout ensemble de variables cointégrées peut être mis
sous la forme d’un modèle à correction d'erreurs où toutes les variables sont stationnaires:

p q
Yt  1  1 Yt 1    X t 1     1i Yt i    2i X t i  1t (14.7)
i 1 i 0

p q
X t   2   ' Yt 1    X t 1     '1i Yt i    ' 2i X t i   2t (14.8)
i 0 i 1

 1t et  2t sont deux bruits blancs.

La différence avec le modèle VAR usuel réside dans la présence du terme


d’erreur et 1  Yt 1    X t 1 . Remarquons que les équations d’erreurs (14.7) et (14.8) ne font
intervenir que des termes stationnaires. Par conséquent, les procédures habituelles
d’estimation et d’inférence statistique sont applicables sans risque de corrélation fallacieuse.

La vitesse d'ajustement ou force de rappel vers l'équilibre est mesurée par les coefficients 1
et 2 . Suivant le même raisonnement, l’un au moins de ces deux paramètres doit être
significatif et négatif pour valider la représentation sous forme à correction d'erreurs. Si

42
l’hypothèse nulle H 0 : 1  2  0 est acceptée, cela signifie qu’aucun terme à correction
d’erreurs n’est significatif. Dans ce cas, il convient de rejeter la spécification à correction
d’erreurs. En revanche, si l’hypothèse est rejetée, alors au moins un terme à correction
d’erreurs est significativement différent de zéro. Cela traduit un retour vers la trajectoire de
long terme : les séries sont alors cointégrées. Il est possible d'ajouter aux équations de court
terme d'autres variables explicatives supplémentaires à condition que celles-ci soient
déterministes ou bien stationnaires.

Section 2 : Estimation et tests de cointégration

Plusieurs méthodes d’estimation d’un MCE ont été proposées à la suite des travaux d’Engle et
Granger (1987). Dans cette section, nous allons présenter la méthode d’estimation en deux
étapes d’Engle et Granger, la procédure de Banerjee et alii. (1993) et la méthode de Johansen.

2.1 La méthode en deux étapes d’Engle et Granger

La méthodologie d’estimation d’un modèle à correction d’erreurs proposée par Engle et


Granger (1987) suit une procédure en deux étapes. Dans une première étape, on estime par la
méthode des moindres carrés ordinaires l’équation de cointégration yt    xt  et , puis on
teste dans une seconde étape la stationnarité du résidu estimé êt . Ce test fait office de test de
cointégration. La régression qui sert de base à ce test est la suivante :

p
eˆt  eˆt 1  i eˆt i   t (14.9)
i 1

 t est un bruit blanc,

où on teste H 0 :   0 contre H a :   0 .

Si les résidus sont stationnaires, on conclut que les séries sont cointégrées, et la relation de
cointégration estimée est Yt  ˆ  ˆX t  et . Bien entendu, il convient de s’assurer au préalable
que les variables en jeu sont intégrées d’ordre un. Néanmoins, étant donné que le test porte
sur les résidus êt calculés à partir de l'estimation de la relation de cointégration et non pas sur
les vraies erreurs et qui, elles, ne sont pas observées, les valeurs critiques des tests DF ou
DFA ne sont plus appropriées. Il convient d’utiliser les valeurs critiques tabulées par Engle et
Granger (1987), Engle et Yoo (1987) et Davidson et MacKinnon (1993).

La deuxième étape de la procédure d’estimation consiste à estimer par la méthode des


moindres carrés le modèle à correction d’erreurs, en remplaçant l’erreur d’équilibre par son
estimation10 :

10
Notons que le modèle à correction d’erreurs ne se réduit pas toujours à une seule équation. En général, il y a
autant d’équations que de variables. Le modèle se réduit à l’équation (14.11) uniquement si le coefficient de eˆt 1
dans l’équation de X t est nul. Cette hypothèse (dite d’exogénéité faible de X t ) doit être testée. Dans le cas où

43
p q
Yt  1  1eˆt 1    1i Yt i    2i X t i   1t (14.10)
i 1 i 0

Il est clair que cette seconde étape ne pose aucun problème particulier car tous les régresseurs
sont maintenant stationnaires. Les coefficients ont une distribution standard, ceux-ci peuvent
alors être soumis aux techniques classiques d’inférence statistique (Engle et Granger, 1987).
La cointégration implique non seulement que êt est stationnaire, mais que le coefficient
d’ajustement 1 est négatif et significatif. Ces restrictions sont nécessaires pour valider le
modèle à correction d’erreurs.

La procédure en deux étapes d’Engle et Granger présente cependant un certain nombre de


défauts qu’il convient de souligner. Tout d’abord, elle n’est applicable que dans le cas d’une
seule relation de cointégration. Elle ne permet donc pas de différencier plusieurs vecteurs de
cointégration. Or, dans un cadre multivarié, il pourrait exister plusieurs relations de
cointégration. Ensuite, le choix de la variable endogène est arbitraire et influence l’issue du
test. Lorsqu’il y a plusieurs variables, il se pose la question de savoir laquelle va occuper la
place de l’endogène. Enfin, l’estimation de l’équation de long terme ne tient pas compte de
l’information potentielle contenue dans la dynamique de court terme. Si la super convergence
des estimateurs de première étape implique que ce biais s’estompe asymptotiquement, ce biais
peut être non négligeable pour de petits échantillons (Stock, 1987 ; Davidson et MacKinnon,
1993 ; Banerjee, Dolado, Galbraith et Hendry, 1993). En outre, la distribution asymptotique
des estimateurs de long terme n’est pas standard (Phillips et Durlauf, 1986). Par conséquent, il
n’est pas possible de leur appliquer les règles d’inférence usuelles, notamment pour en étudier
la significativité.

Néanmoins, il est possible d'améliorer les estimations en appliquant des procédures de


correction robustes. La procédure suggérée par Stock et Watson (1993) consiste à ajouter des
régresseurs supplémentaires constitués de retards et d'avances de x t pour conduire la
régression cointégrante :

p
Yt     X t   c X
j  p
j t j et (14.11)

Cette façon de prendre en compte la dynamique de court terme corrige l'estimation des biais
d'endogénéïté et permet ainsi d'interpréter le t-student associé au coefficient  . Si les résidus
et sont autocorrélés, il suffit de corriger le t-student de  par la correction de Newey-West.
Le ratio de Student ainsi corrigé suit asymptotiquement une loi normale standard.

2.2 La méthode en une étape de Banerjee et al.

celle-ci est rejetée, une méthode d’estimation appropriée de type variables instrumentales ou maximum de
vraisemblance devrait être envisagée pour estimer les coefficients de l’équation.

44
Certains auteurs ont montré que l’on peut faire l’économie de calculs en estimant
simultanément, en une seule étape, les paramètres de court et de long terme. Dans la méthode
préconisée par Banerjee, Dolado, Galbraith et Hendry (1993), l’estimation se fait directement
sur le modèle à correction d’erreurs, non pas en introduisant la relation de cointégration
estimée préalablement au cours d’une première étape, mais en introduisant directement dans
le modèle les niveaux retardés des variables. Le modèle estimé s’écrit sous la forme suivante:

Yt   0  1Yt 1  2 X t 1    1i Yt i    2i X t i   t (14.12)


i 1 i 0

On en déduit la relation de cointégration par division11 :


2
  1 ,    (14.13)
1
Cette procédure peut paraître douteuse dans la mesure où la variable expliquée est stationnaire
tandis que les variables explicatives Yt 1 et X t 1 sont non stationnaires. Cependant, dans la
mesure où il existe une relation de cointégration entre les variables, l’estimation par MCO
n’est pas biaisée. La cointégration est testée à partir de la statistique de Student du
coefficient 1 . Pour accepter la cointégration, il faudrait que ce coefficient soit
significativement différent de zéro et négatif.

2.3 L’approche multivariée de Johansen

Johansen (1988) a proposé une procédure de test de cointégration, qui sera répandue par la
suite par Johansen et Juselius (1990), qui permet de s’affranchir du cadre restrictif d’Engle et
Granger. La procédure de test est fondée sur la méthode du maximum de vraisemblance et
offre la possibilité de prendre en compte plusieurs spécifications pour la relation de long
terme (présence d’une constante/tendance ou non dans l’espace de cointégration). Cette
méthode est décrite abondamment dans les ouvrages d’économétrie des séries temporelles.
Nous nous contenterons ici d’exposer les éléments essentiels de cette approche.

La méthodologie du test de cointégration de Johansen repose sur l’estimation d’un modèle


vectoriel autorégressif (VAR) par la méthode du maximum de vraisemblance. Considérons le
modèle VAR(k) non structurel définit de la façon suivante:

X t  1 X t 1  ....   k X t k    Dt   t (14.14)

où X t est un vecteur de p variables, Dt un vecteur de variables exogènes incluant


éventuellement une tendance et des variables indicatrices, et  t un vecteur d’impulsions iid
N(0,).

11
Le problème ici est qu’il n’est pas possible de faire une inférence sur les coefficients  . Les
écart-types peuvent être calculés suivant la transformation de Bewley ou de Bardsen. Voir
Banerjee et alii. (1993 : pp.53-64) pour plus de détails.
45
La plupart des variables économiques étant I(1), une différenciation est généralement
appliquée. Toutefois, l’estimation du VAR en différence peut conduire à une perte importante
d’information si les séries sont effectivement cointégrées. Pour tenir compte de cette
dimension potentiellement cointégrée des variables économiques, Johansen (1988) et
Johansen et Juselius (1990) réécrivent à partir de transformations algébriques l’équation (8.9)
sous la forme Vectorielle à Correction d’Erreurs (VEC par la suite) suivante :

X t    X t k  1X t 1  ....  k 1X t k 1  Dt   t (14.15)

Cette équation peut aussi s’écrire :

k 1
X t    X t 1   i X t i  Dt   t (14.16)
i 1

L’équation (14.16) n’est en fait qu'une transformation de (14.14) de sorte à y permettre la


mise en relation des variables en niveau et en différence. Cette représentation permet aux
variables cointégrées d’être à l’écart de l’équilibre uniquement à court terme. Les
matrices  et i renferment respectivement toutes les informations pertinentes sur la
dynamique de long terme et de court terme.

La procédure du test de cointégration de Johansen repose précisément sur la détermination du


rang de la matrice  , noté r, c’est-à-dire du nombre maximum de colonnes indépendantes de
 ou, de façon équivalente, le nombre de ses racines caractéristiques propres différentes de
zéro. Ce nombre est au plus égal à p, le nombre de variables du VAR.

Si  est de rang r, alors il existe deux matrices  et  de dimension ( p  r ) telles


que    ' . La stratégie de test repose ainsi sur le test de l’hypothèse nulle définie par :

H 0 (r ) :    ' (14.17)

Dans cette décomposition,  représente la matrice des vecteurs de cointégration qui rendent
la combinaison linéaire  ' X t 1 stationnaire.
La procédure de test permet de spécifier trois modèles. (a) Si  est de plein rang colonne,
c’est-à-dire r  p , alors X t est stationnaire. Dans ce cas, l’estimation sous la forme du VAR en
niveau (8.9) est appropriée. (b) Si le rang de  est égal à zéro, alors   0 , et il n’existe
aucune relation de cointégration entre les variables. Dans ce cas, la modélisation appropriée
est celle d’un VAR en différence première d’ordre (k-1). Ce qui implique que la dynamique
de court terme ne dépend pas des niveaux des variables. (c) Si  est de rang r inférieur à p ,
le modèle vectoriel à correction d’erreurs s’exprime sous la forme :

k 1
X t     ' X t 1   i X t i  Dt   t (14.18)
i 1

46
La matrice de poids  joue un rôle important dans cette spécification. Elle est constituée des
coefficients d’ajustement de court terme, c’est-à-dire des « forces de rappel » vers l’équilibre
dans la représentation vectorielle à correction d’erreurs. La ième ligne de cette matrice mesure
la vitesse avec laquelle la ième variable s’ajuste aux r relations de cointégration, c’est-à-dire
comment une des composantes donnée de X t réagit à court terme à une déviation transitoire
de ses déterminants de leur valeur d’équilibre de long terme. La matrice  ' est la matrice qui
contient les r vecteurs cointégrants linéairement indépendants. Chaque ligne de cette matrice
est constituée d’une relation de long terme.

Johansen utilise la méthode du maximum de vraisemblance concentrée pour estimer les


matrices  et  . Le test du rang de cointégration est déterminé par un test de nullité des p-r
plus petites valeurs propres de  . Cette méthode conduit à deux statistiques de ratios de
vraisemblance :

 
p
TraceH 0 (r ) / H 1 ( p)   T  ln( 1  ˆi (14.19)
i  r 1


 max H 0 (r ) / H 1 (r  1)   T ln 1  ˆr 1  (14.20)

̂ i est la iième valeur propre maximale estimée.

La première statistique teste l’hypothèse nulle de cointégration de rang r


( H 0 (r ) : rang()  r ) contre l’alternative de la stationnarité ( H1 ( p) : rang()  p ). Cette
statistique est appelée statistique de la trace. La seconde statistique teste H 0 (r ) : rang()  r
contre H1 (r ) : rang()  r  1 . Elle porte le nom de statistique de la valeur propre maximale.
De façon pratique, ces tests procèdent séquentiellement de r  0 à r  p  1 jusqu’à ce que
l’hypothèse nulle ne puisse pas être rejetée. Les deux statistiques de test ne suivent pas une
distribution du Chi-deux. Les valeurs critiques asymptotiques ont été simulées par Johansen et
Juselius (1990) puis par Osterwald-Lenum (1992), et sont données directement par les
logiciels d'économétrie. Elles dépendent de l’hypothèse sur les termes déterministes et du
nombre de variables. On rejettera l’hypothèse nulle lorsque la statistique calculée est
supérieure à la valeur critique pour une erreur de première espèce donnée. Le test de la trace
est plus robuste au Skewness et au Kurtosis (donc à la normalité) dans les résidus que le test
de la valeur propre maximale (Cheung et Lai, 1993 ; Gonzalo, 1994). Il arrive que les deux
statistiques donnent des résultats différents. Dans ce cas, il est préférable de retenir le résultat
qui peut recevoir une interprétation économique.

Il est possible d’inclure dans le modèle VEC des variables stationnaires. En effet, il est
raisonnable de penser qu’une relation de long terme contient également des variables
stationnaires. On augmente ainsi le nombre de valeurs propres significatives puisque le
vecteur où le coefficient est égal à 1 devant la variable stationnaire et 0 devant les autres
variables est aussi un vecteur cointégrant.

47
Le test de cointégration de Johansen comporte des avantages par rapport à la méthode en deux
étapes d’Engle et Granger. Toutefois, l’issue de test dépend du choix d’un certain nombre de
paramètres dont le nombre de retards et la présence de constante et de tendance dans la
spécification. Ces questions sont traitées dans les paragraphes qui suivent.

Interprétation des termes déterministes

Les lois asymptotiques des statistiques de test de rang de cointégration de Johansen ne sont
pas invariantes à la prise en compte des variables qui ne sont pas explicitement modélisées
dans le système. En particulier, ces lois sont conditionnées par la présence éventuelle d’une
constante ou d’un trend linéaire dans les relations de long terme. Plusieurs spécifications du
modèle deviennent envisageables selon l’hypothèse faite sur la présence ou non de termes
déterministes (constante et trend) dans les relations de cointégration et dans le modèle à
correction d’erreurs. Les différentes interprétations inhérentes à ces spécifications prennent
leur source dans le fait qu’un modèle VEC mélange des variables en différence et des
variables en niveau modélisant un équilibre de long terme. Pour choisir entre les différentes
spécifications il importe de bien cerner d’abord leur signification.

1) Le modèle à correction d’erreurs et l’espace de cointégration ne comportent aucun terme


déterministe (   0,   0 ):

X t 1    Dt   ' X t 1 (14.21)

Cette structure impose l’absence de toute composante déterministe, tant dans les séries en
niveau que dans les séries en différences premières.

2) Le modèle à correction d’erreurs ne comporte aucun terme déterministe et la constante


appartient uniquement à l’espace de cointégration:

X t 1    Dt   (  ' X t 1   0 ) (14.22)

Ce cas caractérise des séries sans tendance linéaire.

3) Le modèle à correction d’erreurs et l’équation de cointégration comportent une constante :

X t 1    Dt   (  ' X t 1   0 )     0 (14.23)

Le fait que X t comporte une dérive implique que les séries en niveau sont caractérisées par
une tendance linéaire. Mais la relation d’équilibre de long terme est stationnaire de
moyenne  0 .

4) Constante dans le modèle à correction d’erreurs et constante et trend dans l’équation de


cointégration:

X t 1    Dt   (  ' X t 1   0  t )     0
(14.24)

48
L’introduction d’une tendance linéaire dans la relation de cointégration se justifie si certaines
variables de X t présentent une tendance linéaire. La relation d’équilibre de long terme est
stationnaire autour d’une tendance linéaire. Ce cas autorise la présence de variables TS.

5) Constante et trend dans le VAR et dans l’espace de cointégration :

X t 1    Dt   (  ' X t 1   0  t )    ( 0   1t ) (14.25)

Le fait que X t admette une représentation avec dérive et tendance linéaire signifie que les
séries en niveau X t comportent une tendance quadratique.

Il est important de distinguer clairement entre ces différents cas. Car, d’une part, ils
impliquent des interprétations différentes sur le comportement des variables et, d’autre part,
les tests de cointégration dépendent de la façon dont on spécifie les termes déterministes.

2.4 Test de cointégration de Pesaran et al. (2001)

Pesaran et al. (2001) ont proposé une approche du test de cointégration basée sur les modèles
autorégressifs à retards échelonnés (ARDL). Cette méthodologie présente plusieurs avantages
par rapport aux méthodes d’Engle et Granger (1987) et de Johansen (1988). Premièrement, ce
test est applicable que les variables soient I(0) ou I(1). Cette caractéristique fondamentale
atténue le problème lié à l’incertitude des résultats des tests de racine unitaire. Deuxièmement,
la méthode tient compte des dynamiques de court et long termes lors du test de cointégration.
Au contraire, la méthode d’Engle et Granger (1987) estime la relation de long terme sans
prendre en compte explicitement les ajustements de court terme entre les variables.
Troisièmement, le test de Pesaran et al. (2001) s’avère relativement performante dans le cas
de petits échantillons contrairement au test de cointégration de Johansen dont la validité
requiert de grands échantillons.

L’équation de base du test de cointégration s’écrit sous la forme suivante:

p q
yt   0    1i yt i    1i xt i  1 yt 1   2 xt 1   t (14.26)
i 1 i 0

où  est l’opérateur de différence première. L’équation (14.26) pourrait inclure également


une tendance et des variables indicatrices captant l’effet de certains chocs macroéconomiques
dans les données. L’équation est estimée en utilisant tour à tour chacune des variables comme
variable dépendante. C’est là aussi l’un des avantages de la méthode de Pesaran et al. (2001)
d’indiquer explicitement laquelle des variables est dépendante et laquelle est indépendante
dans la relation de cointégration. Les retards p et q sont déterminés en minimisant le critère
d’Akaike (AIC).

Sous la condition à long terme y  x  0 , la forme réduite de la solution de l’équation


(8.29) donne l’équation de long terme pour yt :

y t   0  1 xt   t (14.27)

49
où  0   0 / 1 et 1  2 / 1 .

La procédure du test de cointégration repose sur le test de l’hypothèse H 0 : 1  2  0 contre


l’alternative que 1  0 , 2  0 . La statistique de test bien que classique (Fisher ou Wald) ne
suit pas une loi standard. La distribution asymptotique dépend : (a) des propriétés de
stationnarité des variables explicatives, (b) du nombre de variables explicatives, (c) de la taille
de l’échantillon, et (d) de la présence de termes déterministes (constante et tendance) dans le
modèle. Ainsi Pesaran et al. (2001) ont simulé deux ensembles de valeurs critiques pour la
statistique de test, avec plusieurs cas12 et différents seuils. Le premier ensemble correspond au
cas où toutes les variables explicatives sont I(0) et représente la borne inférieure. Le second
ensemble correspond au cas où toutes les explicatives sont I(1) et représente la borne
supérieure13. Si la F-stat. excède la borne supérieure alors il y a cointégration. Si elle est
inférieure à la borne inférieure alors on rejette l’existence d’une relation de cointégration. Si
la F-stat. est comprise entre les deux bornes, on ne peut pas conclure à moins de connaître
l’ordre d’intégration exact des variables.

Section 3 : Interprétation d’un modèle à correction d’erreurs

La spécification sous la forme à correction d’erreurs permet d'estimer les effets de court terme
et de long terme. En considérant l’équation (14.7), les coefficients  2 i et  représentent
respectivement les effets de court terme et de long terme de la variable xt sur y t . Lorsque les
variables sont considérées sous la forme logarithmique, ces effets s’interprètent en termes
d’élasticités. Si les séries sont cointégrées, il est possible de distinguer la causalité de court
terme de celle de long terme.

Section 4 : Travaux pratiques

Nous allons examiner la possibilité d’une relation de cointégration entre les variables
intervenant dans la fonction de consommation. S’il existe une telle relation alors il est
possible d’estimer la fonction de consommation à court terme sous la forme d’un modèle à
correction d’erreurs.

4.1 Tests de cointégration

Pour qu’une relation de cointégration existe entre des variables, deux conditions doivent être
réunies. Premièrement, les variables doivent être non stationnaires et intégrées du même
ordre14. Deuxièmement, leurs tendances stochastiques doivent être liées, c’est-à-dire qu’il doit
exister au moins une combinaison linéaire de ces variables qui soit stationnaire. Par
conséquent, en premier lieu, on doit déterminer l’ordre d’intégration des variables par le biais
des tests de racines unitaires standards. Ces tests effectués précédemment ont montré que les
variables LC, LPIBR et LIPC étaient intégrées d’ordre un. Nous allons étudier la possibilité

12
Il s’agit des modèles avec ou sans constante et/ou tendance. Cinq (5) cas sont présentés. Voir Pesaran et al.
(2001).
13
D’où le nom de la méthode « Bounds testing approach to cointégration » ou « Approche de test de
cointégration par les bornes ».
14
Des variables stationnaires peuvent être incluses dans l’analyse de la cointegration mais on doit se rappeler
que chaque variable stationnaire crée une relation de cointégration additionnelle. Ilexiste des tests de cointegrtion
qui autorise la présence de variables stationnaires parmi les regresseurs (voir Pesaran et al. (2001)).

50
de cointégration entre ces variables en utilisant l’approche d’Engle et Granger et celle de
Johansen.

 Test d’Engle et Granger

Ce test se fait en deux étapes. La première étape estime la relation statique de long terme par
la méthode des moindres carrés ordinaires. La seconde étape procède au test de stationnarité
des résidus de l’équation statique. La cointégration nécessite que la série résiduelle soit
stationnaire.

Etape 1 : Estimation de la relation de long terme

La relation statique de long terme s’écrit sous la forme suivante :

LC t  a0  a1 LPibt  a2 LIPC t  et (14.28)

Il s’agit d’une équation linéaire dont la procédure d’estimation a été déjà vue. Le tableau
suivant reporte les coefficients de régression de cette équation.

Tableau 4.3 : Estimation de la relation de long terme

Dependent Variable: LCONS


Method: Least Squares
Sample: 1965 2002
Included observations: 38
Variable Coefficient Std. Error t-Statistic Prob.
LIPC 0.09199 0.01009 9.10959 0.0000
LPIBR 0.90922 0.00449 202.232 0.0000
R-squared 0.987823 Mean dependent var 8.00335
Adjusted R-squared 0.987484 S.D. dependent var 0.39718
S.E. of regression 0.044435 Akaike info criterion -3.33838
Sum squared resid 0.07108 Schwarz criterion -3.25219
Log likelihood 65.4292 Durbin-Watson stat 1.21871

Pour que la relation estimée soit une relation de cointégration, le résidu issu de cette
régression doit être stationnaire. Si les résidus sont non stationnaires, la relation estimée
pourrait être une régression fallacieuse. On va donc générer la série des résidus de cette
équation. Pour cela, cliquez sur Procs/Make Residuals series… et tapez le nom de la série
des résidus, soit RES.

Etape 2 : Test de stationnarité sur la série des résidus

On applique les tests de racine unitaire sur la série des résidus RES. Les résultats issus de
l’application des tests ADF et PP sont reportés dans le tableau suivant :

Tableau 4.4 : Test de stationnarité sur la série des résidus de l’équation de long terme

51
ADF PP
Statistique -4.65645 -3.26526
Valeur critique à 5% -1.95039 -1.95011

Les statistiques de tests reportent toutes des valeurs inférieures aux valeurs critiques à 5%. On
en déduit donc que la série des résidus de l’équation statique est stationnaire. Par conséquent,
les séries sont cointégrées. Il est alors possible d’estimer le modèle à correction d’erreurs.

 Test de cointégration de Johansen

La méthode de Johansen requiert tout d’abord de déterminer le nombre de retards du VAR en


niveau. Nous avons vu comment déterminer l’ordre optimal d’un VAR. En suivant la même
démarche, avec un retard maximal de 4, les critères d’information indiquent deux retards pour
le VAR en niveau. Après cette étape, sélectionnez puis ouvrez le groupe des trois variables. A
partir du menu du groupe, sélectionnez View/Cointegration Test…. Entrez ensuite le nombre
de retards du VAR en différence première.

Pour réaliser le test du rang de cointégration de Johansen, il faut choisir parmi les cinq
spécifications possibles celle qui apparaît la plus plausible pour les données. L’option par
défaut est la troisième, à savoir qu’il existe une constante à la fois dans l’équation de
cointégration et dans la forme à correction d’erreurs. La présence des deux constantes
implique la présence d’une tendance linéaire dans les niveaux des séries. L’option 6 fait un
résumé des cinq spécifications. En choisissant cette option, on obtient le tableau suivant:

Tableau 4.5: Récapitulatif du test de cointégration de Johansen

Data Trend: None None Linear Linear Quadratic


Rank or No Intercept Intercept Intercept Intercept Intercept
No. of CEs No Trend No Trend No Trend Trend Trend
Selected (5% level) Number of Cointegrating Relations by Model (columns)
Trace 1 2 3 1 3
Max-Eig 1 1 1 1 1

On peut ainsi lire le nombre de relations de cointégration suivant l’hypothèse faite pour la
spécification du modèle. Par exemple, si on suppose qu’il n’y a aucune tendance dans les
séries, la présence d’un terme constant dans l’espace de cointégration (cas 2) conduit à retenir,
selon la statistique de la trace, l’hypothèse de deux relations de cointégration entre les trois
variables au seuil de 5%. La statistique de la valeur propre maximale indique au contraire une
seule relation de cointégration. En supposant une tendance linéaire dans les données et une
constante dans les équations de cointégration (cas 3), la statistique de la trace indique trois
relations de cointégration. L’existence de trois relations de cointégration entre trois variables
non stationnaires s’avère impossible car elle remet en cause la non stationnarité des variables.

En pratique, on ne choisit pas les cinq spécifications mais une seule. Or nous constatons que
le choix de la spécification n’est pas sans conséquence sur la structure du modèle. Comment
choisir la spécification la plus adaptée aux données ? L’analyse graphique des séries ainsi que
les tests de stationnarité peuvent être utiles à ce stade pour suggérer le choix de la ’’bonne’’
spécification. En examinant l’évolution des trois variables, on constate que celles-ci
présentent une tendance à la hausse. Si nous voulons autoriser la présence d’une constante

52
dans la relation de cointégration, nous devons choisir la deuxième ou la troisième
spécification. Cependant, les estimations montrent que ni la constante ni la tendance ne sont
significatives. La mise en relation des variables supprime donc la tendance linéaire commune
dans la relation. Nous choisissons la première option qui exclue la constante et la tendance de
toutes les équations. Les résultats du test correspondant à cette spécification sont consignés
dans le tableau suivant.

Tableau 4.6 : Statistique de la trace du test de cointégration de Johansen

Hypothesized Eigenvalue Trace 5 Percent 1 Percent


No. of CE(s) Statistic Critical Value Critical Value
None 0.51826 36.8405 24.31 29.75
At most 1 0.2299 10.5481 12.53 16.31
At most 2 0.03115 1.1393 3.84 6.51

L’interprétation du test se fait de façon séquentielle partant de r  0 à r  p  1  2 . L’on


s’arrête dès que l’hypothèse nulle est acceptée.

La première ligne du tableau teste l’hypothèse selon laquelle r  0 , c’est-à-dire qu’il n’existe
pas de relation de cointégration. Pour cette hypothèse, la statistique de la trace reporte une
valeur de 36,8405, supérieure aux valeurs critiques à 5% (24.31) et 1% (29,75), ce qui conduit
à rejeter l’hypothèse qu’il n’existe aucune relation de cointégration entre les variables. La
ligne suivante du tableau teste l’hypothèse d’au plus une relation de intégration. Cette
hypothèse ne peut être rejetée car la valeur de la statistique de la trace est inférieure à la
valeur critique à 5%. La procédure de test s’arrête à ce niveau. Finalement, la statistique de la
trace indique qu’il y a une seule relation de cointégration aux seuils de 5% et 1%.

Etant donné les distorsions du test de cointégration à distance finie, nous allons réexaminer les
résultats du test de cointégration en introduisant les facteurs de correction proposés par
Reinsel et Ahn (1992) et Cheung et Lai (1993). Les résultats sont reportés dans le tableau
suivant :

Tableau 4.7 : Correction de la statistique de la trace du test de cointégration de Johansen

Nombre de Valeurs Statistique de la Statistique de la Valeurs Critiques Valeurs Critiques


relations de propres Trace Trace ajustéea à 5% à 5% ajustéeb
cointégration
r0 0.51826 36.8405 30.700 29.68 29.172
r 1 0.2299 10.5481 8.790 15.41 15.036
r2 0.03115 1.1393 0.949 3.76 4.608
Note : a/ Les valeurs de la statistique sont ajustées suivant la correction de Reinsel et Ahn (1992).
b/ Les valeurs critiques asymptotiques sont corrigées suivant Cheung et Lai (1993).

En considérant ces corrections, la conclusion du test de la trace ne s’en trouve pas modifiée.
En effet, l’hypothèse d’absence de cointégration est toujours rejetée au seuil de 5%. En
revanche, on ne peut rejeter l’hypothèse d’au plus une relation de cointégration. Le test de la
valeur propre maximale dont les résultats sont reportés dans le tableau ci-dessous confirme
qu’il existe une seule relation de cointégration.

Tableau 4.8: Statistique de la valeur propre maximale du test de cointégration de Johansen

53
Nombre de relations de Valeurs Statistique λmax Valeurs Valeurs
cointégration propres Critiques à 5% Critiques à 1%
r0 0.51826 26.2923 17.89 22.99
r 1 0.2299 9.4087 11.44 15.69
r2 0.03115 1.1393 3.84 6.51

En définitive, nous retenons qu’il existe une seule relation de cointégration entre les trois
variables. Nous allons estimer le modèle à correction d’erreurs qui lie la dynamique de court
terme à celle de long terme.

4.2 Estimation du modèle à correction d’erreurs

Nous allons appliquer trois méthodes pour estimer la fonction de consommation sous la forme
à correction d’erreurs.

 La méthode en une seule étape

Le modèle à correction d’erreurs est estimé sous la forme suivante :

Lconst   0  1Lpibt   2 Lipct   3 Lpibt 1   4 Lipct 1   5 Lconst 1 


 6 Lconst 1   7 Lpibt 1   8 Lipct 1  ut (14.29)

Sélectionnez Quick/Estimate Equation et entrez les variables de la façon suivante :

DLCons C DLPibr DLipc DLPibr(-1) DLipc(-1) DCons(-1) LCons(-1) LPibr(-1) Lipc(-1)

Les résultats de l’estimation montrent que le coefficient associé à la force de rappel est négatif
(-0,86197) et significatif au seuil de 5%. Il existe bien un mécanisme à correction d’erreurs :
les déviations par rapport à la relation de long terme induisent à court terme des changements
dans l’évolution de la consommation, du PIB ou du prix de façon à forcer le système à
converger vers son équilibre de long terme. La valeur numérique du coefficient de rappel
représente la vitesse à laquelle tout déséquilibre entre les niveaux désiré et effectif de la
consommation est résorbé dans l’année qui suit tout choc. Ainsi, environ 86,197% des
déséquilibres de la consommation par rapport à son niveau de long terme sont corrigés
l’année suivante. Un choc constaté au cours d’une année est entièrement résorbé au bout
d’une année et 2 mois.

Tableau 4.9: Coefficients de régression du modèle à correction d’erreurs (méthode en une étape)

Dependent Variable: DLCONS


Method: Least Squares
Sample(adjusted): 1967 2002
Included observations: 36 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
DLPIBR 0.35682 0.14368 2.48336 0.0193

54
DLIPC 0.23984 0.10764 2.22800 0.0341
DLPIBR(-1) -0.17362 0.20015 -0.86747 0.3931
DLIPC(-1) -0.10618 0.11219 -0.94641 0.3520
DLCONS(-1) 0.55686 0.15729 3.54034 0.0014
LCONS(-1) -0.86197 0.17854 -4.82773 0.0000
LPIBR(-1) 0.78832 0.16410 4.80367 0.0000
LIPC(-1) 0.06847 0.01667 4.10677 0.0003
R-squared 0.80077 Mean dependent var 0.03476
Adjusted R-squared 0.75097 S.D. dependent var 0.06506
S.E. of regression 0.03247 Akaike info criterion -3.82380
Sum squared resid 0.02952 Schwarz criterion -3.47191
Log likelihood 76.8285 Durbin-Watson stat 2.11063

Le taux de croissance de la consommation dépend de façon positive du taux de croissance


courant du PIB réel et du taux de croissance passé de la consommation. Ce dernier résultat est
en accord avec les théories microéconomiques mettant en avant le rôle des habitudes dans les
choix de consommation des individus.

On peut calculer les élasticités de court et de long terme de la consommation par rapport au
revenu. L’élasticité de court terme est 1  0.3568 . Si le PIB réel augmente de 10%, la
consommation à court terme augmente de 35.68%. L’élasticité de long terme est égale à
 0.7883
 7   0.9145 . La consommation augmente à long terme de 9.145% suite à une
 6 0.8619
augmentation du PIB réel de 10%.

On peut effectuer sur ce modèle tous les tests classiques sur les résidus (autocorrélation,
hétéroscédasticité, normalité, stabilité, test d’erreur de spécification). Les résultats des tests de
diagnostic montrent que les résidus du modèle vérifient toutes les hypothèses du modèle
linéaire.

 La méthode en deux étapes d’Engle et Granger

La méthode en deux étapes estime dans un premier temps la rélation de cointégration et


introduit, dans un second temps, la série résiduelle retardée d’une période issue de cette
rélation dans l’équation de court terme. Nous avons déjà estimé la relation de long terme et
généré la série des résidus RES. Il s’agit maintenant d’introduire la variable RES(-1) dans le
modèle en différence première. L’équation à estimer se présente alors sous la forme suivante :

Lconst   0  1Lpibt   2 Lipct   3Lpibt 1   4 Lipct 1  (14.30)


  5 Lconst 1   6 rest 1   t

Les résultats de l’estimation sont reportés dans le tableau suivant :

55
Tableau 4.10 : Coefficients de régression du modèle à correction d’erreurs (méthode en deux
étapes)

Dependent Variable: DLCONS


Method: Least Squares
Sample(adjusted): 1967 2002
Included observations: 36 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
DLPIBR 0.40191 0.13229 3.03812 0.0049
DLIPC 0.24641 0.09544 2.58175 0.0150
DLPIBR(-1) -0.11909 0.17583 -0.67731 0.5034
DLIPC(-1) -0.14308 0.10420 -1.37311 0.1799
DLCONS(-1) 0.54715 0.15387 3.55577 0.0013
RES(-1) -0.82167 0.16763 -4.90162 0.0000
R-squared 0.79018 Mean dependent var 0.03476
Adjusted R-squared 0.75521 S.D. dependent var 0.06506
S.E. of regression 0.03219 Akaike info criterion -3.88309
Sum squared resid 0.03109 Schwarz criterion -3.61917
Log likelihood 75.8957 Durbin-Watson stat 2.01534

Les variables étant toutes stationnaires, les tests usuels s’appliquent. Le coefficient associé à
la force de rappel est égal à -0,821. Il est négatif et significatif au seuil de 5%. La
représentation à correction d’erreurs est donc validée. La valeur du coefficient indique
qu’environ 82% du déséquilibre de la période t-1 est corrigé en t. L’élasticité de long terme
issue de l’estimation de la relation de cointégration est de 0,909. L’élasticité de court terme
est estimée à 0,4019. Nous remarquons que les resultats sont proches de ceux obtenus par la
méthode en une étape.

Il est important de rappeler que le modèle à correction d’erreurs ne se réduit pas à une seule
équation. Nous supposons ici qu’il se réduit à une seule équation parce que nous faisons
l’hypothèse d’exogénéïté faible15 des variables explicatives (LPIBR et LIPC). Il convient de
tester cette hypothèse dans l’étape suivante. Il est également possible d’appliquer tous les tests
classiques (autocorrélation, hétéroscédasticité, normalité, stabilité…) sur ce modèle.

 La méthode de Johansen

L’approche de Johansen permet d’estimer simultanément la relation de cointégration et le


modèle à correction d’erreurs. Pour estimer le modèle à correction d’erreurs, sélectionnez les
variables dans le workfile, faites un clic droit, sélectionnez Open/ as VAR et cochez Vector
Error Correction…

15
Le test d’exogénéité faible renvoie à la notion de causalité de long terme et s’effectue en testant la nullité du
terme de rappel dans l’équation de la variable. Il existe une version forte (test d’exogénéité forte) qui impose des
restrictions sur les coefficients de court terme et le terme de rappel. Il s’agit d’un test de causalité globale. La
non significativité jointe de tous ces coefficients implique l’exogénéité forte de la variable.

56
On remarquera que le nombre de retards est celui du modèle VAR en différence première et
non celui du VAR en niveau. La méthode Johansen reste très sensible au nombre de retards.
Un nombre de retards élevé accroît la probabilité d’existence de relation de cointégration.

Pour indiquer le nombre de relation de cointégration et le type de spécification, cliquez sur


l’onglet Cointégration. Cliquez ensuite sur OK pour valider. Dans la mesure où nous avons
trois variables, le modèle à correction d’erreurs comportera trois équations. Les résultats de
l’estimation du modèle vectoriel à correction d’erreurs sont reportés dans le tableau suivant.

Tableau 4.11: Coefficients de régression du modèle à correction d’erreurs


(méthode de Johansen)

Cointegrating Eq: CointEq1


LCONS(-1) 1.0000
LPIBR(-1) -0.91938
(-194.205)
LIPC(-1) -0.07112
(-7.38384)
Error Correction: DLCONS D(LPIBR) DLIPC
CointEq1 -1.04479 -0.34633 -0.32237
(-5.79116) (-1.61012) (-1.06746)
DLCONS(-1) 0.68122 0.29238 0.12927
(4.18225) (1.50555) (0.47412)
DLPIBR(-1) -0.18571 0.12162 0.029764
(-0.90441) (0.49678) (0.08659)
DLIPC(-1) 0.06658 0.16225 0.69904
(0.80569) (1.64676) (5.05313)
R-squared 0.73179 0.34776 0.15658
Adj. R-squared 0.70664 0.28662 0.07751
Sum sq. resids 0.03974 0.05649 0.11137
S.E. equation 0.03524 0.04201 0.05899
F-statistic 29.1031 5.68741 1.98031
Log likelihood 71.4760 65.1451 52.9287
Akaike AIC -3.74867 -3.39695 -2.71826
Schwarz SC -3.57272 -3.22100 -2.54231
Mean dependent 0.03476 0.03233 0.06943
S.D. dependent 0.06506 0.04974 0.06142

La première partie du tableau donne la relation de cointégration. CointEq1 désigne les résidus
retardés d’une période issus de la relation de cointégration. En mettant la variable LCONS en
début, la procédure choisit cette variable comme étant la variable endogène, LPIB et LIPC
étant les variables exogènes.

La relation de long terme s’écrit :

Lconst  0.91938 Lpibt  0.07112 Lipct  et (14.31)


(194.20) ( 7.3838)

57
L’élasticité de long terme est donc estimée à 0,919, valeur qui est proche de celle obtenue par
les deux méthodes précédentes.
La deuxième partie du tableau montre que le terme à correction d’erreurs est négatif et
significativement différent de zéro dans l’équation relative au taux de croissance de la
consommation. Dans les équations relatives aux deux autres variables, ce terme est négatif
mais non significatif. Ce résultat indique que l’hypothèse d’exogénéïté faible des deux
variables LPIBR et LIPC ne peut être rejetée. Nous avons maintenant la certitude statistique
que la relation de cointégration mise en évidence plus haut est bien une équation de
consommation. A court terme, le taux de croissance de la consommation ne dépend que de sa
valeur passée, ceci reflète l’effet des habitudes de consommation.

58
Chapitre 5 : Introduction aux données de Panel

Il existe trois types d’échantillons de données. On distingue en premier lieu les données
temporelles ou séries chronologiques où les variables représentent des phénomènes observés à
intervalles réguliers. C’est ce type de données qu’on utilise dans la plupart des applications en
macroéconomie lorsqu’on travaille sur un pays donné. On a en second lieu les données en
coupe instantanée où les variables représentent des phénomènes observés au même instant sur
plusieurs individus. Il s’agit généralement des données d’enquête ponctuelle auprès
d’individus, de ménages ou d’entreprises. En troisième lieu, on a les données de panel dans
lesquelles les variables sont observées sur plusieurs individus et sur plusieurs périodes. Les
panels combinent donc les dimensions temporelle et individuelle des données. L’utilisation
des panels permet de contourner la difficulté liée au manque de données longues dans la
dimension temporelle. Elle permet de rendre plus puissants les tests lorsqu’on augmente la
dimension individuelle. Cependant, l’analyse des données de panel requiert des procédures
d’estimation très précises et fait apparaître des difficultés quant au traitement de
l’hétérogénéité individuelle. Elle constitue aujourd’hui une spécialité dans l’économétrie
(économétrie des données de panels) qui a donné lieu à de nombreux développements. Ici,
nous en faisons une brève présentation.

Section 1 : Spécification d’un modèle en données de panel

Considérons la fonction de consommation du chapitre 11. La spécification en panel s’écrit :

Cit  a0  a1 Rit  a 2 Pit  a3Git  eit (15.1)

où l’indice i est pour l’individu i (par exemple le pays) et l’indice t pour la période t (l’année).
On suppose qu’il existe n individus et T périodes.

On suppose que l’échantillon est cylindré ou complet (balanced) : Chacun des n individus est
observé sur T périodes de sorte qu’on dispose de T observations pour chacun des n individus,
ce qui fournit n x T observations. Lorsque le panel n’est pas cylindré, il peut exister des
problèmes d’hétéroscédasticité et/ou d’autocorrélation des erreurs aléatoires. Aujourd’hui, la
plupart des logiciels économétrique sont capables de gérer des panels non cylindrés.

Pour tirer profit de la double dimension, individuelle et temporelle des données, différentes
spécifications ont été proposées.

 Modèles à effets fixes


Ces modèles supposent une uniformité des coefficients d’un individu à l’autre sauf le terme
constant :

Cit   i    a1 Rit  a2 Pit  a3Git  eit (15.2)

 i est l’effet individuel, appelé « effet spécifique » de l’individu i. Il permet de capter


l’hétérogénéité individuelle. Il est possible d’inclure un effet temporel non aléatoire.

59
 Modèles à effets aléatoires

Cit    a1 Rit  a2 Pit  a3Git  eit (15.3)

avec eit   i   it , où  i et  it sont des perturbations aléatoires non corrélées. En fait,


l’erreur du modèle est composée de deux termes :

 i : effet individuel
 it : effet résiduel

D’où le nom de modèle à « erreurs composées ». Dans cette spécification, on considère


 i comme aléatoire, c’est-à-dire une perturbation propre à chaque individu.

 Modèles à coefficients variables

On suppose que les coefficients varient d’un individu à l’autre et d’une période à l’autre.
Le modèle est spécifié comme suit :

Cit    a1it Rit  a2it Pit  a3itGit  eit (15.4)

avec akit  bk  aki  akt


Ici, deux individus ayant les mêmes caractéristiques observables et faisant face au même
environnement n’auront pas nécessairement, en espérance, la même consommation.

Section 2 : Tests de stationnarité


Comme dans le cas des séries temporelles, il existe des tests de stationarité pour les modèles
de données de panel. Les principaux tests de stationnarité (racine unitaire) sur données de
panel sont :

 Test de Levin, Lin et Chu (2002)


 Test de Im, Pesaran et Shin (2003)
 Test de Breitung (2000)
 Test de Maddala et Wu (1999)
 Test de Choi (2001)
 Test de Hadri (2000)
 Tests ADF et PP
Ces tests reposent sur la spécification autorégressive suivante :

yit   i yit1  X it i  eit (15.4)

60
La série admet une racine unitaire si  i  1 .

Les tests précédents diffèrent suivant l’hypothèse sur la constance ou non du coefficient
autorégressif  i . Les tests de Levin, Lin et Chu (LLC), Breitung et Hadri supposent que
 i   . Les tests IPS, ADF et PP supposent que le coefficient  i varie selon les individus.

Les tests de LLC et Breitung considèrent la spécification de l’équation ADF suivante :

pi
y it  y it1    ij y it j  X it  eit (15.5)
j 1

On teste alors :

H 0 :   0 contre H a :   0

Les tests de Levin, Lin et Chu (LLC) et de Breitung considèrent comme hypothèse nulle
l’existence d’une racine unitaire tandis que le test de Hadri considère l’absence de racine
unitaire comme hypothèse nulle. Il est donc similaire au test KPSS.

L’application de ces tests dans Eviews ne pose aucune difficulté particulière.

Section 3 : Estimation et interprétation


Il existe plusieurs procédures pour estimer un modèle en données de panel. Pour le modèle à
effet fixe, on peut utiliser les variables muettes et estimer le modèle par les moindres carrés
ordinaires. On peut également utiliser le théorème de Frisch-Waugh en appliquant les MCO
sur les variables transformées en écarts à la moyenne individuelle. Dans le cas du modèle à
effets aléatoire, la bonne méthode d’estimation est celle des moindres carrés généralisés
(MCG).

Un modèle en panel peut s’estimer aisément sur les logiciels Eviews et STATA. Après
l’estimation, il faut procéder aux différents tests. En particulier, il faut choisir entre un modèle
à effets fixes et un modèle à effets aléatoires. Pour cela, on recourt au test d’Hausman. Dans
Eviews, cela se fait en cliquant dans l’onglet View/Fixed/Random Effects
Testing/Correlated Random Effects - Hausman Test…

Les coefficients d’un modèle en données de panel s’interprètent de la même façon comme
dans les modèles en données strictement temporelles. Dans le cas d’un modèle à correction
d’erreur estimé par la méthode en deux étapes, il est possible de calculer les coefficients de
court terme et ceux de long terme.

Section 4 : Travaux pratiques


Nous verrons en TP comment estimer des modèles en données de panel sous Eviews.

61
REFERENCES BIBLIOGRAPHIQUES

1. Bourbonnais R. (1998) : Econométrie, Cours et Exercices corrigés 2ième édition, Dunod,


Paris.
2. Dormon B. (1999) : Introduction à l’économétrie, Montchrestien, Paris.
3. Greene W.H. (1997): Econometric Analysis, Third Edition, Londres, Prentice Hall.
4. Gujarati D. (1995): Basic Econometrics, Third Edition, New York, McGraw-Hill.
5. Lardic S. et Mignon V. (2002) : Econométrie des séries temporelles macroéconomiques et
financières, Economica.
6. Maddala G.S. (1987): Econometrics, McGraw-Hill.
7. Sevestre P. (2002): Econométrie des données de panel, Dunod, Paris.

62