Vous êtes sur la page 1sur 89

Dr.

DIABATE Nahoussé

1
PARTIE I :
Eviews

2
Table des matières ___________________________________________________ Erreur ! Signet non défini.
Introduction ________________________________________________________ Erreur ! Signet non défini.
Chapitre 1 ________________________________________________________________________________ 8
Présentation du logiciel EViews ______________________________________________________________ 8
1.1. Présentation générale du fonctionnement du logiciel ____________________________________ 8
1.2 Champs d’application de EViews _________________________________________________________ 9
1.3 Objets types ________________________________________________________________________ 10
1.4 Expressions mathématiques _______________________________________________________ 11
Chapitre 2 _______________________________________________________________________________ 12
Manipulation de données __________________________________________________________________ 12
2.1 Création d’un workfile ____________________________________________________________ 12
2.2 Saisie directe des données _________________________________________________________ 13
2.3 Importation des données __________________________________________________________ 14
2.4 Création de variables _____________________________________________________________ 16
2.5 Graphiques _____________________________________________________________________ 17
Chapitre 3 _______________________________________________________________________________ 21
Estimation des modèles linéaires à une équation _______________________________________________ 21
3.1 Spécification du modèle et hypothèses _______________________________________________ 21
3.2 Estimation d’une équation linéaire __________________________________________________ 23
3.3 Tests de diagnostic sur les résidus ___________________________________________________ 27
3.3.1 Test de normalité ______________________________________________________________ 29
3.3.2 Test d’hétéroscédasticité ________________________________________________________ 35
3.3.3 Test d’autocorrélation __________________________________________________________ 37
 Test de Durbin et Watson ______________________________________________________ 37
 Analyse du corrélogramme et test de Ljung et Box _________________________________ 38
 Test de Breusch et Godfrey _____________________________________________________ 40
3.4 Test d’erreur de spécification ______________________________________________________ 41
3.5 Estimation en présence d’autocorrélation des erreurs ______________________________________ 42
3.6 Tests de restrictions linéaires sur les coefficients _______________________________________ 44
3.6.1. Test de significativité globale ______________________________________________________ 45
3.6.2. Test de significativité individuelle des coefficients _____________________________________ 47
3.6.3. Test de stabilité des coefficients ____________________________________________________ 50
3.7 Prévisions conditionnelles ____________________________________________________________ 54
3.7.1 Simulation historique et évaluation du pouvoir prédictif du modèle ______________________ 54
3.7.2 Prévision sur l’horizon 2003-2015 57

3
Introduction

L’analyse économique est basée sur la représentation théorique des comportements des
agents économiques. Elle repose sur des hypothèses plus ou moins réalistes et conduit à des
conclusions dont la portée peut être positive ou normative. Les théories économiques
influencent le réel dans la mesure où elles guident certaines décisions de politique
économique. Compte tenu de cette influence, les théories économiques doivent être
confrontées à la réalité afin d’évaluer leur pertinence empirique : les agents économiques
se comportent-ils conformément à la théorie ? L’économétrie est une « approche
scientifique visant à la compréhension des aspects économiques de la conduite humaine »
(Hendy, 1995). Elle procède à la mise en épreuve des théories économiques par l’application
de méthodes statistiques aux données empiriques. Le caractère non expérimental de la
science économique avait conduit les chercheurs dès les années trente à recourir à
l’économétrie1. Dans l’éditorial du premier numéro de la revue Econometrica créée en
1933, Fisher fixe les objectifs de la société d’Econométrie, à savoir, promouvoir les relations
entre la théorie économique, les statistiques et les mathématiques.

L'un des objets de l'économétrie est de confronter les prédictions des modèles théoriques
aux données économiques à l'aide de modèles statistiques. Cette confrontation pour être
réalisée doit suivre un certain nombre d’étapes: la spécification du modèle, le recueil de
données, l'estimation des paramètres du modèle, les tests de spécification et la
respécification.

Pour étudier un phénomène économique, on essaie de représenter celui-ci par le


comportement d’une variable. Cette variable économique dépend elle-même d’autres
variables que l’on relie entre elles par une relation mathématique. Cette relation définit ce
qu’on appelle un modèle. Par exemple, si on se propose d’étudier la consommation (C) d’un
certain bien, la théorique économique postule que C  f (R) où R représente le revenu.
Pour spécifier le modèle empirique, on doit postuler une forme pour les fonctions
intervenant dans le modèle. Bien entendu ces fonctions mathématiques doivent rester
compatibles avec les hypothèses a priori du modèle théorique. En général, la théorie
économique se contente d’indiquer les variables économiques qui interviennent dans le

1
Pour une histoire de l’économétrie, on pourra consulter Morgan (1990) et Desrosières (1993).
4
modèle et suggère le signe probable des dérivées partielles. Par exemple, pour la fonction
de consommation précédente, on a f ' R  0 . Cependant, la théorie économique ne
renseigne pas sur un certain nombre de choses dont la forme exacte des fonctions
mathématiques, la définition et la mesure des variables qui interviennent dans le modèle.
Faut-il retenir une spécification linéaire ? Faut-il raisonner en termes réels ou courants ?
Faut-il considérer les taux de croissance ou les niveaux des variables ? Faut-il appliquer une
transformation logarithmique à certaines variables ? Faut-il corriger les variables des
variations saisonnières ou non ? Ce sont là des questions pratiques importantes dont
dépend l’issue de l’évaluation empirique des modèles économiques.

Une fois le modèle spécifié, il faut réunir les données nécessaires à son estimation. A cet
égard, il existe trois types d’échantillons de données. On distingue en premier lieu les
données temporelles ou séries chronologiques où les variables représentent des
phénomènes observés à intervalles réguliers. C’est ce type de données qu’on utilise dans la
plupart des applications en macroéconomie lorsqu’on travaille sur un pays donné. On a en
second lieu les données en coupe instantanée où les variables représentent des
phénomènes observés au même instant sur plusieurs individus. Il s’agit généralement des
données d’enquête ponctuelle auprès d’individus, de ménages ou d’entreprises. En
troisième lieu, on a les données de panel dans lesquelles les variables sont observées sur
plusieurs individus et sur plusieurs périodes. Les panels combinent donc les dimensions
temporelle et individuelle des données. L’utilisation des panels permet de contourner la
difficulté liée au manque de données longues dans la dimension temporelle. Elle permet de
rendre plus puissants les tests lorsqu’on augmente la dimension individuelle. Cependant,
l’analyse des données de panel requiert des procédures d’estimation très précises et fait
apparaître des difficultés quant au traitement de l’hétérogénéité individuelle. Elle constitue
aujourd’hui une spécialité dans l’économétrie (économétrie des données de panels) qui a
donné lieu à de nombreux développements.

L’estimation des paramètres et la validation du modèle font appel aux méthodes


statistiques. La méthode d’estimation des coefficients est-elle appropriée ? Les coefficients
sont-ils significatifs ? Ont-ils le signe attendu ? Le modèle théorique est-il validé ? Cette
dernière étape est très importante. Elle doit permettre d’évaluer la robustesse du modèle
sur le plan statistique et la pertinence des théories économiques qui leur ont donné
5
naissance. Les hypothèses théoriques sont vérifiées en comparant leurs implications
empiriques avec la réalité. Lorsque la spécification retenue n’est pas satisfaisante, elle doit
être modifiée puis re-estimer à nouveau avant de conclure quant à la validité ou non de la
théorie.
Ce cours vous servira d’outil de référence pour l’estimation de modèles économétriques à
partir des logiciels Eviews et stata. Il traite de façon pratique l’estimation des modèles de
regression linéaires classiques.

Ce cours est adapté à ceux qui n’ont jamais utilisé les logiciels Eviews et stata, aussi bien
qu’à ceux qui en ont déjà acquis quelques principes de base. Bien entendu, ce cours n’est
pas exhaustif sur l’ensemble des fonctions qu’offrent les logiciels. Les manuels officiels des
logiciels restent donc indispensables. De plus, ce cours ne remplace pas les manuels de
cours déjà existants, qui demeurent indispensables pour bien comprendre les notions
théoriques de base et les principes des tests statistiques qui sont évoqués dans ce cours.

Ce cours a été rédigé sur la base de la version 4 de Eviews et stata 12, la configuration des
écrans, les commandes ou les synthaxes peuvent ne pas être les mêmes sur les versions
antérieures ou ultérieures du logiciel.

L'économétrie est une discipline qui effraie le plus souvent les étudiants par son caractère
formalisé et le recours à des notions de statistiques et de mathématiques. L’objectif de ce
cours est d’offrir aux étudiants une introduction pratique à l’économétrie. Il ne se substitue
pas aux manuels d’économétrie déjà existant et ne prétend pas faire du lecteur un
économètre. Car l’économétrie se situe au confluent de plusieurs champs disciplinaires
(sciences économiques, probabilités et statistique mathématique) et nécessite par
conséquent une formation diversifiée à la fois sur le plan théorique et pratique. Les modèles
présentés sont illustrés par des cas pratiques.

Le cours comporte au total trois chapitres. Le chapitre 1 fait une présentation succincte du
logiciel EViews. Cette présentation se limitera essentiellement à décrire le mode de
fonctionnement du logiciel et à présenter les différents types d’objets utilisés par le logiciel.
Il est évident que tout le long des chapitres suivants le lecteur sera amené à découvrir et
utiliser progressivement les fonctionnalités du logiciel. Le chapitre 2 présente les
manipulations préliminaires au traitement des données : la création d’espace de travail,

6
l’importation et la saisie directe de données. Une fois les données entrées, le traitement
peut alors commencer. Dans le chapitre 2, nous introduisons les traitements élémentaires, à
savoir la génération de nouvelles variables, le calcul de statistiques descriptives (moyenne,
écart-type, médiane…), les représentations graphiques et le calcul des coefficients de
corrélation. Le chapitre 3 aborde l’estimation des modèles structurels à une seule équation.
Il constitue le point de départ indispensable au développement des outils nécessaires à
l’étude de situations qui seront analysées dans la suite de l’ouvrage.

7
Chapitre 1 : Présentation du logiciel EViews

Le logiciel choisit pour les applications pratiques est EViews. Le choix de ce logiciel se justifie
surtout par la convivialité qu’elle offre à l’utilisateur dans la mise en œuvre des tâches.
L’utilisateur familier à l’environnement Windows n’éprouvera pas de difficultés à naviguer
dans les menus du logiciel pour chercher ce dont il a besoin. Dans ce chapitre introductif,
nous faisons une présentation générale du logiciel EViews. Nous décrivons les différents
modes de fonctionnement du logiciel, ses champs d’applications et les différents types
d’objets sur lesquels est basé le fonctionnement du logiciel. Bien entendu, cette
présentation n’épuise pas l’ensemble des potentialités du logiciel. Le lecteur pourra
consulter le guide d’utilisation du logiciel pour approfondir certains aspects.

1.1. Présentation générale du fonctionnement du logiciel


EViews est un logiciel qui permet de faire l’analyse, la prévision et la modélisation des
données. C’est un outil performant d’analyse des séries macroéconomiques. Il représente la
version nouvelle d’un ensemble d’outils de traitement des séries temporelles initialement
fait par TSP (Time Series Processor) développé initialement par les économistes.
Aujourd’hui, EViews connaît une large application dans beaucoup de domaines. Il offre la
possibilité d’entrer des données à partir du clavier ou de fichiers d’une disquette, de créer
de nouvelles séries à partir de séries existantes, de faire des analyses statistiques des
relations entre plusieurs grandeurs. EViews utilise les caractéristiques visuelles des logiciels
sous Windows. L’utilisateur peut utiliser sa souris pour faire des opérations à l’aide des
menus et boites de dialogue standard de Windows. Les résultats apparaissent en Windows
et peuvent être manipulés par les techniques standards. Ils peuvent être copiés puis collés
dans Word ou Excel lors du processus de rédaction du rapport d’analyse. Alternativement,
EViews dispose d’un langage de programmation et de commandes assez variées que
pourrait utiliser l’utilisateur. EViews contient un menu d’aide en ligne bien documenté sur
la mise en œuvre des procédures d’analyse, des commandes et des opérations qu’il permet
de faire.
EViews peut fonctionner aussi bien en mode interactif qu’en mode batch. En mode interactif,
l’utilisateur choisit, à partir des différentes fenêtres, ce qu’il veut faire. Il tape la commande dans
une fenêtre de commande et clique sur un bouton pour obtenir le résultat. Il fait en quelque sorte
de l’économétrie presse-bouton. Le mode interactif est utilisé lorsque certaines étapes du

8
traitement exigent un examen des résultats et des prises de décision de l'utilisateur. Le mode
interactif présente l'avantage d'être simple, mais montre rapidement ses limites pour réaliser
certaines tâches plus élaborées. Il est alors préférable d'utiliser le mode batch : les instructions sont
écrites sous forme d’un programme à l’aide d’une succession d’instructions utilisant des
commandes. Le mode batch nécessite donc la construction d’un fichier texte contenant une série
d’instructions pour aboutir aux résultats que l’on souhaite. L’utilisateur a la possibilité d’exécuter
une partie de ce programme dans différentes circonstances. L’un des avantages des programmes est
qu’ils permettent de documenter l’analyse. On peut savoir comment on est arrivé aux résultats.
Notons cependant que le mode batch est plus complémentaire qu'incompatible avec le mode
interactif. Dans ce cours, nous allons utiliser ces deux modes de fonctionnement du logiciel EViews
et les illustrer à partir d’exemples pratiques. Le lancement du logiciel se fait comme tout autre
logiciel à partir du bureau ou du menu démarrer.

1.2 Champs d’application de EViews

EViews connaît des applications dans de nombreux domaines de la vie impliquant le


traitement et l’analyse des données. Il est utilisé notamment dans les activités suivantes:

 La gestion de modèles macroéconomiques


 La prévision macroéconomique :
 Prévision de l’inflation ;
 Prévision du taux de croissance ;
 Prévision du taux d’investissement ;
 Prévision des recettes budgétaires etc. ;
 La prévision en entreprise
 Prévision des ventes ;
 Prévision de la demande ;
 Prévision des prix, etc.;
 L’analyse financière
 Caractéristiques des séries financières
 Hétéroscédasticité et volatilité
 Les modèles à effets ARCH, ARCH en moyenne, ARCH généralisé ;

9
L’analyse des séries à haute fréquence et les techniques de prévision avancées
(modélisation ARIMA, ARCH, GARCH …) ne seront pas abordées dans le présent ouvrage qui
se présente comme une introduction à la pratique économétrique.

1.3 Objets types

Eviews est basé sur la notion d’objet. Les objets sont des blocs d’éléments liés par une
notion commune et qui sont mis ensemble pour être utilisés plus aisément. De façon
virtuelle, tout le travail dans EViews impliquera l’utilisation et la manipulation d’objets.
L’objet le plus important dans EViews est le workfile (espace de travail) et la première chose
à faire sera de créer un workfile ou d’ouvrir un workfile existant. Chaque objet est un
ensemble d’information se rapportant à un domaine particulier de l’analyse. Les objets
peuvent recevoir également des noms. Les objets les plus importants après le workfile sont
les séries et les équations. Il existe cependant un certain nombre d’autres objets qui jouent
des fonctions différentes. Il s’agit par exemple des vecteurs de coefficients, des bases de
données, des graphes, des groupes, des modèles, etc. Tous ces objets, à l’exception des
workfile et des bases de données, possèdent leurs propres icônes qui apparaissent dans le
workfile. Lorsqu’un nouvel espace de travail (workfile) est crée, deux objets apparaissent
automatiquement : le vecteur des coefficients et la série des résidus. Le vecteur des
coefficients sert à stocker les coefficients des équations estimées. Par défaut, ce vecteur est
nommé par la lettre c et ses coefficients sont c(1), c(2), …, c(k). Toutefois, on peut définir
d’autres vecteurs pour recevoir les coefficients, par exemple a ou b. Voici l’aperçu des
icônes associés à certains objets :

10
Pour créer un nouvel objet, il suffit de sélectionner Object/New Object, à partir du menu
principal ou du menu du workfile, de choisir ensuite le type d’objet, de le nommer et de
cliquer sur OK pour valider.

1.4 Expressions mathématiques


EViews dispose d’un éventail d’opérateurs et de fonctions qui permet de faire des calculs
mathématiques (additions, soustraction, multiplication, division, puissance, recodages,
arrondi ...). Il dispose également de certaines fonctions spécialisées utilisées couramment
dans l’analyse des séries temporelles (logarithmes, exponentielles, différences premières,
différences secondes, retards, avances, désaisonalisation, lissage…). Le lecteur découvrira
ces fonctions au fur et à mesure des applications.

11
Chapitre 2 : Manipulation de données

Ce chapitre aborde les manipulations préliminaires à réaliser avant l’étape de modélisation.


Il s’agit de savoir créer un espace de travail, importer ou saisir des données, créer de
nouvelles séries et de produire des statistiques descriptives sur les données. La maîtrise de
ces opérations est indispensable pour la suite des applications.

Nous allons considérer des données portant sur la consommation privée réelle (Cons), la
consommation publique réelle (Consg), les dépenses publiques (GT), l’investissement public
(INVG), l’investissement privé (INVP), l’indice des prix à la consommation (IPC), le PIB réel
(PIBR) et le taux d’intérêt réel (R). Les données couvrent la période 1965-2002. Elles se
trouvent dans le fichier Excel intitulé cons.xls. Elles sont reportées en annexes pour que le
lecteur puisse lui-même refaire les exercices. Il convient toujours de prendre connaissance
des données et de noter le nombre de variables ainsi que la période des observations. Ces
deux éléments seront nécessaires dans le processus d’importation des données sous
EViews.

2.1 Création d’un workfile


La première action à faire sous EViews est de créer un workfile. Le workfile est l’espace de
travail qui organise et enregistre tous les objets qui vont être générés lors du traitement des
données. La création de l’espace de travail définit le nombre d’observations, leur fréquence
(données annuelles, trimestrielles, mensuelles, journalières… ou irrégulières), le nombre et
les noms des variables. Il est nécessaire de relever ces caractéristiques dans le cas d’une
importation de données. Nous allons faire l’exercice à partir des données du fichier cons.xls.

Pour créer le workfile, sélectionnez File/New/Workfile comme indiqué ci-dessous :

12
Après cette opération, on obtient l’écran suivant :

Dans notre exemple, les données sont annuelles et commencent en 1965 pour finir en 2002.
Si les données étaient trimestrielles, on aurait indiqué le trimestre après l’année en tapant
1965 :1 et 2001:4. Après avoir cliqué sur OK, l’écran suivant s’affiche :

Vous venez de créer un workfile, c’est-à-dire un espace de travail. Ce workfile ne contient


pas encore de variables. C’est maintenant que nous allons procéder à la saisie ou à
l’importation des données du fichier cons.xls.

2.2 Saisie directe des données


EViews donne la possibilité d’entrer directement des données dans un workfile. Pour cela,
sélectionnez, dans le menu principal, Objects/New Object/Series. Entrez ensuite le nom de
la série (par exemple Y).

13
(2) Tapez ici le
nom de la série à
créer

(3) Validez ici

(1) Type d’Objet

Après avoir validé, la variable Y apparaît dans le workfile. Répétez ces opérations autant de
fois que vous voulez créer de variables. Pour visualiser la variable créée, faites un double-clic
sur l’icône de la série dans le workfile. Toutes les valeurs apparaissent en NA. Ce symbole
indique qu’aucune valeur numérique n’est encore saisie pour la variable. Cliquez sur Edit +/-
pour activer l’édition des données. Vous pouvez maintenant entrer les observations de la
série Y. Appuyez la touche Entrée (sur votre clavier) après chaque nouvelle saisie. Avant de
fermer la fenêtre de saisie, cliquez à nouveau sur Edit +/-.

2.3 Importation des données


Dans la pratique, les données sont déjà saisies sous un autre logiciel. Dans la plupart du
temps, il s’agit de fichiers de format Excel. Dans ces cas, EViews offre la possibilité
d’importer ces données sans avoir à les ressaisir. Dans notre cas, les données sont au format
Excel et nous allons les importer dans EViews.

Dans le menu principal, cliquez sur File/Import/Read Text-Lotus-Excel…

14
Précisez ensuite le nom du fichier de données (ici cons.xls) et cliquez sur ouvrir. Vous
obtenez l’écran suivant :

Les données commencent à la


colonne B, ligne 2 (voir note*)

Les séries sont


en colonne

Taper ici le
nombre de
variables

Note * : La colonne A du fichier contient les années. Le fait d’avoir déjà précisé que les
données vont de 1965 à 2002 génère automatiquement la variable « année ». Les séries
commencent en réalité à partir de la colonne B, ligne 2. La ligne 1 contient les noms des
séries.

15
En cliquant sur OK, vous obtenez la fenêtre suivante:

Vous venez d’importer les données du fichier cons.xls dans le fichier de travail. Les huit (8)
séries CONS, CONSG, GT, INVG, INVP, IPC, PIBR et R apparaissent bien dans le workfile.
Range indique la période couverte par les séries. Sample indique la période qui va être
considérée dans les calculs. Nous pouvons maintenant procéder à l’analyse des données.
Pour visualiser les observations d’une série, double-cliquez sur la série. Pour visualiser un
groupe de variables, sélectionnez-les et faites Show puis validez. On peut aussi faire un clic
droit et sélectionner Open/As Group.

Il faut toujours enregistrer ou sauvegarder le worfile. Pour cela, cliquez sur Save et donnez
le nom de votre choix.

2.4 Création de variables


La création ou la transformation de variables sont des opérations courantes dans la pratique
économétrique. On peut par exemple, calculer des totaux de variables ou appliquer des
transformations logarithmiques ou encore calculer des taux de croissance pour certaines
variables. Pour générer de nouvelles variables par transformation de variables existantes,
sélectionnez Quick/Generate Series, ou cliquez sur l’onglet Genr situé dans le menu du
workfile, puis tapez la formule de calcul. Nous allons générer les logarithmes de certaines
variables. Pour générer la variable LCONS égale au logarithme de la variable CONS, la
formule à inscrire est indiquée dans l’écran suivant :

16
Générez de la même façon les logarithmes des autres variables. Les nouvelles séries
apparaissent dans le workfile. Pour créer un groupe comprenant les nouvelles séries,
sélectionnez les variables et choisissez Show dans le menu puis nommez le groupe.

2.5 Graphiques
Pour obtenir la représentation graphique d’une série, il faut d’abord la visualiser (faites
simplement un double-clic sur la série). Ensuite, sélectionnez View/Graph/Line. On peut
obtenir simultanément les graphiques de plusieurs séries en sélectionnant View/Multiple
Graphs/Line.

Graphiques séparés

Figure 2.1a : Evolution de la consommation Figure 2.1b : Evolution du PIB


réel

9.0
8.8

8.8

8.4
8.6

8.4
8.0
8.2

7.6 8.0

7.8
7.2
7.6

7.4
6.8
1965 1970 1975 1980 1985 1990 1995 2000
1965 1970 1975 1980 1985 1990 1995 2000

LPIBR
LCONS

17
Graphiques simultanés

Figure 2.1c : Evolution de la consommation et du PIB réel

9.0

8.5

8.0

7.5

7.0
1965 1970 1975 1980 1985 1990 1995 2000

LPIBR LCONS

On peut également représenter le nuage de points entre deux variables. Ouvrez les deux
variables et sélectionnez View/Graph/Scatter/Simple Scatter. Pour le couple (LPIBR,
LCONS), on obtient le nuage de points suivant :

Figure 2.2 : Evolution de la consommation en fonction du PIB réel

8.8

8.4

8.0
LCON S

7.6

7.2

6.8
7.4 7.6 7.8 8.0 8.2 8.4 8.6 8.8 9.0

LPIBR

On constate sur ce graphique qu’il existe une forte corrélation entre les deux variables. Un
ajustement linéaire de la consommation par le PIB paraît adéquat.

18
Vous pouvez sauvegarder ce graphique en cliquant sur Name dans la boîte de dialogue et
entrer le nom du graphique. Lorsque vous fermez la fenêtre graphique, le graphique
figurera dans le workfile comme un objet aux côtés des objets déjà présents.

2.6 Statistiques descriptives de base


Nous allons calculer quelques statistiques élémentaires sur les variables LCONS, LPIBR, LIPC
et LGT. Pour ce faire, sélectionnez les quatre variables, puis visualisez-les (menu Show). Une
fois le groupe ouvert, sélectionnez View/Descriptives Stats/Individual Samples. Vous
obtenez le tableau suivant :

Tableau 2.1 : Statistiques descriptives sur les séries LCONS, LPIBR, LIPC et LGT

LCONS LPIBR LIPC LGT

Mean 8.00335 8.43223 3.66023 6.56367

Median 8.15143 8.55444 3.89188 6.79791

Maximum 8.53834 8.85166 4.81963 7.25358

Minimum 7.05872 7.53833 2.27877 5.38204

Std. Dev. 0.39718 0.34971 0.86015 0.55241

Skewness -0.91170 -1.09403 -0.31417 -0.83844

Kurtosis 2.87865 3.27984 1.68367 2.54600

Jarque-Bera 5.28761 7.70439 3.36860 4.77860

Probability 0.07109 0.02123 0.18557 0.09169

Sum 304.1274 320.4248 139.0891 249.4195

Sum Sq. Dev. 5.83709 4.52506 27.37508 11.29097

Observations 38 38 38 38

19
L’interprétation des statistiques descriptives ne pose aucune difficulté particulière. La
statistique de Jarque-Bera suggère que l’hypothèse que la distribution des variables LCONS,
LPIBR et LGT est une loi normale ne peut être réjetée au seuil de 10%. Nous reviendrons sur
cette statistique dans les chapitres suivants. Pour retourner aux données, cliquez sur
l’onglet Sheet.

Pour obtenir la matrice des corrélations empiriques entre les variables, sélectionnez
View/Correlations/Common Sample ou View/covariance analysis/Correlation. On obtient
le tableau de résultats suivant :

Tableau 2.2 : Matrice des coefficients de corrélation

LCONS LPIBR LIPC LGT

LCONS 1 0.99204 0.93326 0.92491

LPIBR 0.99204 1 0.91490 0.91674

LIPC 0.93326 0.91490 1 0.90594

LGT 0.92491 0.91674 0.905945 1

Les coefficients de corrélation empiriques permettent d’évaluer les relations linéaires entre
les variables. On peut utiliser un test statistique pour tester la significativité de ces
coefficients. Tous les coefficients de corrélation sont ici élevés : les quatre variables sont
donc positivement corrélées entre elles. Cela signifie qu’elles évoluent dans le même sens.
Lorsqu’une variable prend des valeurs élevées, les autres prennent également des valeurs
élevées. L’analyse des corrélations est une étape importante dans le processus de
modélisation. D’une part, elle permet d’évaluer la pertinence d’une relation linéaire entre
les variables, et d’autre part, de détecter l’existence d’une multicolinéarité entre les
variables explicatives.

20
Chapitre 3 : Estimation des modèles linéaires à une équation

Ce chapitre est consacré à l’estimation des modèles linéaires à une seule équation. Il
synthétise un ensemble de connaissances fondamentales en économétrie. Il constitue le
point de départ indispensable au développement des outils nécessaires à l’étude de
situations qui seront analysées dans les chapitres suivants. Les aspects théoriques de
l’estimation et de l’inférence statistique ne seront pas développés, on se contentera
seulement de les rappeler en mettant l’accent plus particulièrement sur leur signification,
leur importance, leur interprétation et surtout leur vérification pratique. Après avoir rappelé
la spécification générale et les hypothèses théoriques à la base de ces modèles, le chapitre
propose une application à partir de l’estimation d’une fonction de consommation. Le
modèle estimé est soumis à une série de tests d’évaluation. Les procédures de correction
sont abordées de façon pratique. L’équation estimée est utilisée pour prévoir la
consommation sur un horizon temporel spécifié. Il est clair que la maîtrise des aspects
théoriques de l’économétrie du modèle linéaire est un atout indéniable qui facilitera
l’évaluation, la validation et l’interprétation des modèles économétriques. Le lecteur pourra
consulter des ouvrages comme Greene (1997) ou Bourbonnais (1998) sur les
développements théoriques relatifs à l’économétrie du modèle linéaire.

3.1 Spécification du modèle et hypothèses

Nous nous intéresserons à l’estimation une fonction de consommation sous la


forme linéaire suivante:

Lconst  a0  a1Lpibt  a2 Lipct  a3 Lgtt  et (3.1)

Dans cette spécification, la consommation (LCONS) est la variable dépendante ou endogène,


LPIBR, LIPC et LGT sont les variables explicatives, indépendantes ou encore exogènes. et est

un terme d’erreur qui capte l’ensemble d’autres variables explicatives pertinentes non

21
prises en compte dans la spécification, mais aussi d’autres types d’erreurs de spécification
telles que la forme de la relation mathématique, l’erreur d’échantillonnage et les erreurs de
mesure sur les variables. Ce terme est supposé aléatoire, ce qui permet de rendre le modèle
non déterministe : les valeurs observées de la consommation peuvent ainsi s’écarter des
valeurs théoriques issues de l’équation. Toutefois, pour que l’ajustement soit satisfaisant,
les valeurs de et ne doivent pas être trop « grandes », sinon le modèle n’expliquerait pas

grande chose des variations de la consommation.

Notons que le caractère endogène ou exogène d’une variable n’est pas une caractéristique
intrinsèque de celle-ci, il dépend du modèle considéré. Ainsi, le PIB sera une variable
endogène dans un modèle global d’une économie, mais une variable exogène dans un
modèle du marché de l’immobilier. Nous reviendrons dans la suite sur le statut des variables
dans un modèle structurel quand nous aborderons les modèles à équations simultanées.

Une fois le modèle spécifié, il faut fournir des estimations des paramètres structurels a0 , a1 ,

a 2 et a3 à partir d’un échantillon d’observations. Ces coefficients sont importants pour

l’analyse économique étant donnée leur signification économique. Par exemple, le


coefficient a1 représente l’élasticité de la consommation par rapport au revenu, il indique de
combien varie la consommation lorsque le revenu augmente de 1%. De même, le coefficient
a 2 évalue l’élasticité de la consommation privée par rapport au niveau général des prix. Ces
paramètres structurels sont importants pour la simulation des politiques
macroéconomiques.

Pour « gérer » les termes d’erreurs et ainsi que les propriétés du modèle, on pose les

hypothèses suivantes:

- Les erreurs et sont de moyenne nulle : les erreurs se compensent sur toute la

période;
- La variance des erreurs et est constante (hypothèse d’homoscédascticité) ;

- Les erreurs et sont indépendantes (l’erreur au temps t n’est pas influencée par

l’erreur aux temps t-1, t-2, ou plus généralement la corrélation entre deux
observations distinctes est nulle) ;

22
- Les erreurs et suivent une distribution normale.

On résume ces quatre hypothèses en posant que les termes d’erreurs sont normalement
 
identiquement et indépendamment distribuées et on note et ~ iid 0,  2 . La pertinence

des tests que nous allons faire sur le modèle dépendra de la validité de ces hypothèses.
L’hypothèse de normalité n’est pas indispensable pour garantir l’absence de biais dans
l’estimation des coefficients, mais elle s’avère cruciale pour réaliser les tests statistiques sur
le modèle.

En plus des hypothèses précédentes sur les termes d’erreurs, on pose également un certain
nombre d’hypothèses sur les variables explicatives. Ainsi une des hypothèses importantes
dans les modèles structurels est l’exogénéïté des variables explicatives. Cette hypothèse
signifie que les variables explicatives sont indépendantes du terme d’erreur et (

cov( xt , et )  0) . La violation de cette hypothèse implique un traitement économétrique


approprié. On suppose d’une part que le nombre d’observations excède le nombre de
paramètres à estimer et, d’autre part, qu’il n’existe pas de multicolinéarité parfaite entre les
variables explicatives. La première condition est une condition nécessaire pour vérifier la
deuxième. L’absence d’une multicolinéarité parfaite signifie qu’il n’y a pas de redondance
des différentes variables explicatives dans la détermination de la variable expliquée. Cette
hypothèse conditionne la possibilité d’estimer les paramètres du modèle.

L’ensemble de ces hypothèses confère à l’estimateur des moindres carrés la propriété de


meilleur estimateur linéaire sans biais. De plus, il est convergent, c’est-à-dire qu’on
améliore la précision lorsque le nombre d’observations augmente. De plus, l’estimateur suit
asymptotiquement une loi normale.

3.2 Estimation d’une équation linéaire


Pour estimer l’équation (3.1), on peut procéder de deux façons. La première consiste à
sélectionner, dans le menu principal, Quick/Estimate Equation…. Dans la fenêtre qui
s’affiche, on tape l’équation en commençant par la variable endogène suivie d’une
constante et des variables explicatives.

23
Cette méthode devient fastidieuse si le modèle comporte un grand nombre de variables
explicatives. En outre, l’obligation de taper les noms exacts des variables ajoute une
difficulté supplémentaire à cette procédure.

La deuxième façon de procéder (et la plus simple) consiste à sélectionner les variables qui
interviennent dans l’équation en commençant par la variable endogène (LCONS), à faire
ensuite un clic droit et à sélectionner Open as Equation. Quand vous cliquez sur as
Equation, vous obtenez la même fenêtre que précédemment : la première variable
sélectionnée occupe la première position suivie des autres variables. Cette variable est
interprétée par EViews comme étant la variable endogène de l’équation et les autres
variables les explicatives. Faites attention à la position de la variable endogène dans la
succession des variables qui s’affichent dans la fenêtre de spécification.

Remarquez que la méthode d’estimation utilisée par défaut est la méthode des moindres
carrés ordinaires. Cette méthode d’estimation consiste à minimiser la somme des distances
entre les valeurs observées de la variable endogène et ses valeurs ajustées. Il existe une
méthode alternative connue sous le nom de maximum de vraisemblance qui vise à
maximiser la fonction de vraisemblance du modèle. On peut cependant retenir que dans les
hypothèses de base du modèle linéaire les deux méthodes d’estimation donnent des
estimateurs équivalents.

24
A ce niveau, nous devons faire une remarque importante pour la suite. En effet, dans cette
spécification, nous avons utilisé les variables « loguées » (LCONS, LPIBR, LIPC et LGT).
L’avantage de cette transformation est d’obtenir directement les élasticités partielles.
Cependant, lorsque nous allons faire les prévisions, il faudra revenir aux valeurs en niveau
(CONS) en appliquant la fonction exponentielle. Pour contourner cette opération et faire
l’économie de calculs, nous allons entrer l’équation de la façon suivante :

Cliquez sur OK pour valider. Vous obtenez le tableau de résultats suivant.

25
Tableau 3.1 : Coefficients de régression de la fonction de consommation (3.1)

Dependent Variable: LOG(CONS)

Method: Least Squares

Sample: 1965 2002

Included observations: 38

Variable Coefficient Std. Error t-Statistic Prob.

C -0.34244 0.37381 -0.91609 0.3661

LOG(PIBR) 0.94053 0.06066 15.50491 0.0000

LOG(IPC) 0.06559 0.02327 2.81880 0.0080

LOG(GT) 0.02665 0.03661 0.72789 0.4717

R-squared 0.98837 Mean dependent var 8.00335

Adjusted R- 0.98734 S.D. dependent var 0.39718


squared

S.E. of regression 0.04467 Akaike info criterion -3.27955

Sum squared resid 0.06785 Schwarz criterion -3.10717

Log likelihood 66.31146 F-statistic 963.5803

Durbin-Watson 1.30263 Prob(F-statistic) 0.00000


stat

Ce tableau présente les principales valeurs caractéristiques d’une régression. La colonne


variable indique les variables explicatives du modèle. La colonne suivante donne les valeurs
numériques estimées des coefficients associés à chaque variable. La troisième colonne
indique les écart-types des coefficients estimés. Le rapport entre le coefficient estimé et son
écart-type donne le ratio de Student appelé plus couramment le t de Student. Cette
statistique est donnée dans la quatrième colonne du tableau. Enfin, la dernière colonne
indique les probabilités attachées aux différentes valeurs de la statistique de Student. Nous
26
reviendrons sur l’interprétation de ces probabilités lors des tests de significativité des
coefficients.

Le menu de la fenêtre équation permet d’accéder à différentes sorties de la régression. Par


exemple, si vous cliquez sur l’onglet Resids de ce menu, vous obtenez un graphique des
termes d’erreurs. On peut créer la série des résidus, c’est-à-dire les termes êt , en

sélectionnant Procs/Make Residual Series… et en donnant un nom à la série (par exemple


RES).

On peut nommer l’équation en tant qu’objet. Pour cela, cliquez sur Name et tapez le nom
(Eq1 par exemple). Pour documenter les résultats (dans un document Word par exemple),
cliquez sur View/Representations. Vous obtenez trois lignes de textes qui indiquent la
commande utilisée, l’équation estimée et les valeurs des coefficients de l’équation. Pour
revenir aux résultats de la régression, cliquez sur l’onglet Stats.

Nous allons maintenant procéder aux différents tests de spécification sur le modèle. Il s’agit
des tests sur les termes d’erreurs, du test d’erreur de spécification et des tests sur les
coefficients.

3.3 Tests de diagnostic sur les résidus

Les propriétés des estimateurs des moindres carrés ordinaires reposent sur un certain
nombre d’hypothèses formulées a priori sur les termes d’erreur. Il s’agit plus précisément
de la nullité de la moyenne, de l’absence d’autocorrélation, de l’homoscédasticité et de la
normalité des erreurs. Ces hypothèses économétriques sont importantes pour garantir de
bonnes propriétés aux estimateurs des moindres carrés ordinaires. Les tests d’hypothèses
économiques n’auront un sens que si la spécification économétrique du modèle n’a pas été
préalablement rejetée. Ne commentez pas les coefficients sans avoir vérifié au préalable les
hypothèses économétriques. En effet, le rejet, par exemple, des hypothèses d’absence
d’autocorrélation et d’homoscédasticité des erreurs rend l’estimateur des moindres carrés
ordinaires inefficace, et toute décision économique basée sur cet estimateur est risquée. En
corrigeant les estimations de l’autocorrélation ou de l’hétéroscédasticité, la significativité de
certains coefficients peut s’en trouver modifier.

Dans cette section, nous présentons les tests d’hypothèses économétriques permettant

27
d’évaluer la spécification économétrique retenue. Mais il convient au préalable de savoir ce
qu’est un test d’hypothèse. Un test d’hypothèse consiste à tester une hypothèse nulle notée
le plus souvent H 0 contre une hypothèse alternative notée H 1 . Il ne s’agit pas d’une

démonstration à proprement dite. Conformément à une démarche d’infirmation, ne pas


rejeter H 0 ne signifie pas obligatoirement que celle-ci est vraie, mais seulement que les

données disponibles ne sont pas en contradiction avec cette hypothèse et que l’on n’a pas
de raison suffisante de lui préférer l’hypothèse alternative compte tenus des résultats
obtenus sur l’échantillon. Rejeter H 0 n’entraîne nullement l’acceptation de H 1 . En effet,

l’issu du test d’une hypothèse dépend de l’hypothèse alternative à laquelle on la confronte.

Par nature, le jugement sur échantillon ne permet pas de décider avec certitude. Nous ne
pouvons pas être sûr que l’hypothèse examinée est juste ou fausse. Il nous faudrait pour
cela examiner la population dans sa totalité, ce qui est physiquement ou économiquement
impossible, voire parfois sans intérêt. C’est pour cela, pour effectuer un test d'hypothèses,
on se fixe une probabilité d’erreur a priori notée  , appélée encore erreur de première
espèce ou seuil de signification: c’est la probabilité de rejeter l’hypothèse nulle sachant
qu’elle est vraie.
La procédure d’un test d’hypothèse répose sur l’utilisation d’une variable aléatoire
(statistique de test) dont la distribution est connue sous l’hypothèse nulle. On divise
l’ensemble des réalisations possibles de cette variable en deux régions : une région
d’acceptation de l’hypothèse nulle et une région de rejet, la frontière étant déterminée par
une valeur critique, elle-même determinée par le seuil de signification  . Il arrive que la
statistique de test conduit à accepter H 0 alors qu’en réalité elle est fausse. Dans ce cas, on

commet une erreur dite de deuxième espèce notée  . L’aptitude d’un test à rejetter
l’hypothèse nulle lorsqu’elle est fausse constitue la puissance du test. Logiquement, plus la
région d’acceptation est grande plus l’erreur de deuxième espèce est grande. Les deux types
d’erreur sont intimement liés. On ne peut réduire l’une qu’en consentant à accroitre l’autre
et vice-versa. Le seul moyen de réduire l’une et l’autre est d’accroitre le nombre
d’observations. Plus les observations sont nombreuses, plus est étroit le champ des
hypothèses admissibles et mieux nous sommes armés pour rejetter l’hypothèse lorsqu’elle
est fausse.

28
Dans la méthodologie des tests statistiques, on considère que l’erreur de première espèce
est plus grave que l’erreur de deuxième espèce. Par conséquent, on choisit, dans la
pratique, un  faible :1%, 5% ou 10% et on accepte l’erreur  dont la valeur dépend des
données. Dans la pratique, les logiciels statistiques calculent un niveau de probabilité qu’on
appelle la p-value qui réprésente le seuil d’erreur minimal pour lequel la statistique de test
rejette l'hypothèse nulle. La p-value a l’avantage d’être directement interprétable : on
rejette l’hypothèse nulle lorsque la p-value est inférieure à  .
3.3.1 Test de normalité

Pour réaliser le test de normalité, sélectionnez View/Residual Tests/Histogram-Normality


Test, comme indiqué ci-dessous:

Vous obtenez le graphique suivant:

29
Figure 3.1 : Histogramme de la série des résidus de l’équation (3.1)

10
Series: Residuals
Sample 1965 2002
8 Observations 38

Mean 1.97E-15
6 Median -0.009997
Maximum 0.114133
Minimum -0.072786
4 Std. Dev. 0.042825
Skewness 0.687528
Kurtosis 3.013218
2
Jarque-Bera 2.994007
Probability 0.223800
0
-0.05 0.00 0.05 0.10

Ce graphique présente la distribution de fréquence de la série des résidus dans un


histogramme. La distribution normale est caractérisée graphiquement par:

 une symétrie des observations autour de la moyenne: on observe autant


d'observations en-deçà de la moyenne que d'observations au-délà de la
moyenne;
 une forte concentration des observations autour de la moyenne;
 le nombre d'observations diminue rapidement lorsque l'on s'écarte de la
moyenne. On dit que les queues de distribution sont peu épaisses ou que la
distribution est mesokurtique.

Cependant, un certain nombre d’ambiguités compliquent l'interprétation « visuelle » de


l’histogramme. Tout d'abord, l'histogramme ne donne une répresentation fidèle de la vraie
densité que si le nombre d'observations est suffisamment important. Si le nombre
d'observations est "faible", la forme de l'histogramme sera moins suggestive. Ensuite, des
lois de probabilités différentes voient les réprésentations graphiques de leurs fonctions de
densité être semblables de sorte qu'il n'est pas toujours possible que l'on puisse distinguer
le processus générateur des séries issus de ces lois à partir de l'étude des seuls
histogrammes. Par exemple les distributions de probabilités de la loi normale et de la loi de
Student sont pratiquement indiscernables.

30
A droite de l’histogramme se trouvent un ensemble de statistiques descriptives portant sur
la série des résidus : la moyenne, la médiane, le maximum, le minimum et l’écart-type.
L’écart-type est estimé à partir de la formule suivante :

 e t  e
2

s T 1
(3.2)
T 1

où T est le nombre d’observations et e la moyenne de la série des résidus.

En plus de ces statistiques, EViews reporte des indicateurs de forme qui permettent
d’apprécier la normalité de la série. Le Skewness mesure l’asymétrie de la distribution
autour de sa moyenne. Elle est calculée par la formule:

1 T  et  e 
3

S    (3.3)
T t 1  ˆ 

T 1
où ˆ  s est l’écart type des observations résiduelles.
T

Le Skewness d’une distribution symétrique, comme la distribution normale, est nulle. Ainsi
un Skewness positif signifie que la distribution est décalée vers la droite et une valeur
négative signifie que la distribution a une longue queue vers la gauche. Dans notre cas, le
Skewness n’est pas trop éloigné de zéro.

Le Kurtosis mesure le degré d’aplatissement de la distribution. Il se calcule à partir de la


formule suivante:

1 T e e
4

K   t  (3.4)
T t 1  ˆ 

31
Le Kurtosis d’une distribution normale est égal à 3. Si le Kurtosis reporte une valeur
supérieure à 3, alors la distribution est plus pointue par rapport à la normale (elle est dite
leptokurtique) ; si la valeur du Kurtosis est inférieure à 3, la distribution est plus aplatie que
la normale (elle est dite platikurtique). Dans notre cas, le Kurtosis approche la valeur 3.

La statistique de Jarque-Bera propose un test de normalité qui tienne compte du Skewness


et du Kurtosis. Elle est définie par:

T  k  2 ( K  3) 2 
JB  S   (3.5)
6  4 

où k est le nombre de coefficients utilisés pour générer la série, K le Kurtosis et S le


Skewness.

Sous l’hypothèse de normalité, la statistique de Jarque-Bera est distribuée suivant une loi du

 2 à 2 degrés de liberté. La probabilité reportée représente la probabilité que  2 excède la


valeur calculée. Une probabilité inférieure à 0.05 conduit à rejeter l’hypothèse nulle d’une
distribution normale au seuil de 5%. Dans notre cas, la statistique de Jarque-Bera reporte
une valeur de 2.99 et une probabilité de commettre une erreur de première espèce de 0.22.
Autrement dit, si on rejette l’hypothèse de normalité des résidus, il y a 22% de chances de
prendre une mauvaise décision. Cette probabilité étant bien supérieure à 5%, on ne peut
donc rejeter l’hypothèse de normalité des résidus au seuil de 5%. Nous sommes donc
amenés à accepter l’hypothèse que les termes d’erreur suivent une distribution normale.

En plus du test de Jarque-Bera, EViews permet de faire d’autres tests de normalité comme
par exemple le test de Kolmogorov-Smirnov, le test de Lilliefors, le test de Cramer-von
Mises, le test d’Anderson-Darling et le test de Watson. Ces tests sont basés sur la
comparaison de la distribution empirique et une distribution théorique spécifiée.
Pour réaliser ces tests, double-cliquez sur la série des résidus RES, et sélectionnez
View/Distribution/Empirical Distribution Tests. Vous obtenez la fenêtre suivante :

32
La distribution théorique est la distribution normale. Cette distribution est caractérisée par
sa moyenne et son écart-type. En ne renseignant pas ces paramètres, EViews les estime par
la méthode du maximum de vraisemblance sous l’hypothèse de normalité. Nous choisissons
ici cette option. Cliquez alors sur OK pour obtenir les résultats.

Le tableau des résultats (cf. Tableau 3.2) comporte deux parties. La première partie (PARTIE
I) présente les statistiques de tests et les probabilités critiques correspondantes. La colonne
« Value » donne les valeurs asymptotiques des statistiques de tests et la colonne
« Adj.Value » corrige ces valeurs pour tenir compte à la fois de la taille finie de l’échantillon
et de l’incertitude sur les estimations des paramètres de la distribution théorique. La
dernière colonne indique les probabilités des valeurs ajustées.

Les statistiques de Lilliefors, de Cramer-von Mises, de Watson et d’Anderson-Darling


conduisent toutes à accepter l’hypothèse de normalité de la série RES.

33
Tableau 3.2 : Statistiques du test de normalité des résidus de l’équation (3.1)

PARTIE I

Method Value Adj. Value Probability

Lilliefors (D) 0.12966 NA > 0.1

Cramer-von Mises 0.09795 0.09924 0.1152


(W2)

Watson (U2) 0.08284 0.08393 0.1557

Anderson-Darling (A2) 0.57622 0.58849 0.1251

PARTIE II

Method: Maximum Likelihood - d.f. corrected (Exact Solution)

Parameter Value Std. Error z-Statistic Prob.

MU 1.97E-15 0.00694 2.83E-13 1.0000

SIGMA 0.04282 0.00497 8.60232 0.0000

Log likelihood 66.30476 Mean dependent var. 1.97E-15

No. of Coefficients 2 S.D. dependent var. 0.04282

La seconde partie du tableau (PARTIE II) indique les valeurs des paramètres utilisées pour
calculer la fonction de densité théorique. La moyenne de la série résiduelle RES est estimée
à 1.97x10-15 avec une probabilité égale à 1, indiquant que les erreurs ont une moyenne qui
n’est pas significativement différente de zéro. L’écart-type est estimé à 0.04282 avec une
probabilité qui indique que ce paramètre est significativement différent de zéro. On
remarquera que ces valeurs sont les mêmes que celles reportées dans l’histogramme des
résidus. Dans la partie inférieure du tableau on peut lire la valeur de la fonction de
vraisemblance ainsi que le nombre de paramètres estimés (moyenne et écart-type). Pour
revenir au tableau des estimations, cliquez sur l’onglet Stats.

34
3.3.2 Test d’hétéroscédasticité
L’hétéroscédasticité qualifie des données qui n’ont pas une variance constante.
L’hétéroscédasticité des erreurs ne biaise pas l’estimation des coefficients, mais plutôt les
tests statistiques puisque les écarts-types estimés des coefficients ne sont pas adéquats. Le
problème de l’hétéroscédasticité se rencontre plus fréquemment sur des données en coupe
instantanée ou bien sur des données groupées. Elle prend souvent une forme particulière
sur des données temporelles. Néanmoins, il est important dans tous les cas de savoir la
détecter et la corriger.
Plusieurs tests existent pour détecter l’hétéroscédasticité. Il s’agit en particulier du test de
Goldfeld et Quandt (1965), du test de Breusch et Pagan (1979), du test de Glesjer (1969) et
du test de White (1980). L’idée générale de ces tests est de vérifier si le carré des résidus
peut être expliqué par les variables du modèle. Si c’est le cas, il y a hétéroscédasticité. Dans
le contexte du test d’hétéroscédasticité de White, l’hypothèse nulle est que tous les
coefficients de la régression des carrés des résidus sont nuls, c’est-à-dire les variables du
modèle n’expliquent pas la variance des termes d’erreurs. Dans les tests de Goldfeld et
Quandt et de Breusch et Pagan, les variables responsables de l’hétéroscédasticité peuvent
être des variables extérieures aux modèles, c’est-à-dire des variables qui ne font pas partie
des variables exogènes. Il est clair qu’en pratique trouver de telles variables n’est pas
toujours une tâche aisée. Ces deux derniers tests ne sont pas encore disponibles en mode
interactif sous EViews. Toutefois, ils peuvent être programmés sous grande difficulté2.
Nous allons tester l’hypothèse d’hétéroscédacticité à l’aide du test de White. Nous
l’appliquons ici dans sa forme complète, c’est-à-dire en introduisant dans l’équation non
seulement les variables explicatives et leurs carrés mais également les doubles produits.
Pour ce faire, sélectionnez View/Residual Tests/White Heteroskedasticity (cross terms). Le
tableau qui s’affiche donne la régression de White. Les statistiques sur lesquelles est basé le
test de White figurent dans le haut du tableau. Il s’agit des tests de Fisher (F-statistic) et du
Chi-deux. La statistique du test de White est égale au produit du nombre d’observations et
du coefficient de détermination de la régression de test (Obs*R-squared). Le résultat du test
figure dans le tableau suivant:

2
Pour une présentation théorique de ces tests, voir Dormon (1999, pp. 299-306).
35
Tableau 3.3 : Statistiques du test d’hétéroscédasticité de White

White Heteroskedasticity Test:

F-statistic 0.636302 Probability 0.756550

Obs*R-squared 6.452314 Probability 0.693933

A chaque statistique de test est associée une probabilité. L’hypothèse d’homoscédasticité


ne peut être rejetée au seuil de 5% car la probabilité de se tromper en rejetant cette
hypothèse est de 69%. Le rejet de l’hypothèse d’homoscédasticité fait donc prendre un
risque inacceptable.

Remarque : Lorsque le test conclue à l’existence d’une hétéroscédasticité, on peut chercher


à en détecter la source et proposer une méthode de correction. Le principe de la correction
consiste à modifier l’écriture de l’équation afin de rendre les erreurs homoscédastiques. On
peut par exemple représenter graphiquement le nuage de points entre la série des résidus
et chacune des variables explicatives. La présence d’une hétéroscédasticité implique une
variation systématique de la variance des résidus en fonction de la variable causale. Pour
corriger ce problème, on applique la méthode des moindres carrés pondérés qui consiste à
multiplier les variables initiales par l’inverse de la variable causale. On peut aussi utiliser les
procédures de correction proposées par White (1980) et Newey et West (1978), disponibles
en options dans la fenêtre de spécification. Ces procédures apportent une correction
seulement au niveau de l’estimation des écart-types des coefficients. La procédure de White
propose une correction sans préciser la forme de l’hétéroscédasticité. Elle utilise les
estimateurs sans biais des coefficients obtenus par les moindres carrés ordinaires, et estime
ensuite la matrice de variance-covariance de façon convergente. La procédure de Newey et
West estime cette matrice sous l’hypothèse d’une hétéroscédasticité et d’une
autocorrélation de formes inconnues.

36
3.3.3 Test d’autocorrélation
L’autocorrélation des erreurs signifie que le terme d’erreur correspondant à une période est
corrélé avec le terme d’erreur d’une autre période. Si cette corrélation joue entre deux
termes consécutifs ( et et et 1 ), on parle d’autocorrélation d’ordre un. La plupart des

applications sur des données annuelles impliquent des autocorrélations d’ordre un. Dans les
séries temporelles, l’autocorrélation des erreurs peut avoir plusieurs origines. Elle peut
provenir de phénomènes de mémoire ou d’inertie dans la fonction de comportement des
agents. Elle peut également être liée à une erreur de spécification de la forme fonctionnelle
ou à une erreur de mesure ou encore à l’omission d’une variable explicative pertinente
corrélée dans le temps. Dans le cas des données transversales, il est possible d’observer une
autocorrélation spatiale si les observations ont été préalablement rangées selon un certain
ordre, par exemple géographique.

Il existe plusieurs tests de l’autocorrélation des erreurs. Les plus couramment utilisés sont le
test de Durbin et Watson (1950 et 1951), le test de Ljung et Box (1979) et le test de Breusch
et Godfrey (1978).

 Test de Durbin et Watson

Les conditions d’application du test de Durbin et Watson supposent que les variables
explicatives ne sont pas aléatoires, ce qui implique que la variable endogène retardée ne
figure pas parmi les variables explicatives (sinon elle serait corrélée avec les termes erreurs
en cas d’autocorreléation). De plus, le modèle doit être spécifié avec une constante parmi
les explicatives et les erreurs doivent suivre une loi normale. Ce test ne s’applique que sur
des données temporelles. Le modèle (3.1) remplit bien toutes ces conditions.

Le test de Durbin et Watson cherche à detecter seulement une autocorrélation d’ordre un


de la forme et  et 1   t . Il teste l’hypothèse H 0 :   0 contre H 1 :   0 . La

statistique de Durbin-Watson se lit directement dans le tableau des estimations. Elle est liée
au coefficient d’autocorrélation des erreurs par la formule :
DW  2(1  ˆ ) (3.6)

37
Cette formule s’avère utile en pratique car elle permet dans certains cas d’avoir très
rapidement une idée sur l’autocorrélation des erreurs. La valeur calculée de DW est
comprise entre 0 et 4. Une valeur proche de 2 indique une absence d’autocorrélation des
erreurs tandis qu’une valeur proche de zéro ou de 4 est révélatrice d’une autocorrélation
des erreurs (autocorrélation positive ou négative). Pour des valeurs qui s’éloignent de ces
deux valeurs, il faut consulter les valeurs critiques tabulées par Durbin et Watson pour
pouvoir décider en toute assurance.

Dans notre cas, la statistique de Durbin-Watson reporte une valeur de 1.302 qui n’est ni
proche de zéro ni proche de 2. Le recours à la table de Durbin et Watson est donc nécessaire
pour conclure. On lit dans la table de Durbin et Watson3 à n  38 et k  3 , d 1  1.32 et

d 2  1.66 . La valeur de la statistique DW se situe à droite de d1 , nous pouvons conclure à


une autocorrélation positive des résidus, donc à une présomption de dépendance des
erreurs.

 Analyse du corrélogramme et test de Ljung et Box

Le corrélogramme d’une série est la représentation graphique des coefficients de


corrélation de la série avec elle-même décalée de k périodes. Le corrélogramme permet
une interprétation instantanée de la significativité des coefficients d’autocorrélation. Pour
obtenir le corrélogramme de la série des résidus, sélectionnez View/Residual Tests/
Correlogram- Q-statistics…

3
Voir Bourbonnais (1998), Table de Durbin-Watson, page 297.
38
Figure 3.2 : Corrélogramme de la série des résidus de l’équation (3.1)

La colonne AC indique les autocorélations simples et la colonne PAC les autocorrélations


partielles. La statistique du test de Ljung-Box est donnée par la Q-Stat avec sa probabilité
critique dans les deux dernières colonnes. Cette statistique teste la significativité globale de
plusieurs coefficients d’autocorrélation.

Le corrélogramme permet d’identifier rapidement les termes significatifs des fonctions


d’autocorrélation simples et partielles. Les bornes de l’intervalle de confiance sont stylisées
par les pointillés horizontaux ; chaque terme qui sort de cet intervalle est significativement
différent de zéro au seuil de 5%. S’il n’y a pas d’autocorrélation, tous les coefficients AC et
PAC devraient être proches de zéro, et toutes les Q-statistiques seraient non significatives
avec des probabilités élevées. Si les coefficients AC sont décroissants géométriquement et
les PAC non significatifs à partir d’un retard d’ordre p, alors la série obéit à un processus
autorégressif d’ordre p (AR(p)). En revanche, si les AC sont non significatifs à partir d’un
ordre q et les PAC décroissant géométriquement, alors la série suit un processus moyenne
mobile d’ordre q (MA(q)).

On observe ici que seul le premier terme du corrélogramme sort de l’intervalle de confiance.
En effet, la Q-stat de Ljung-Box reporte une valeur de 3.883 avec une probabilité de 0.049

39
inférieure à 0.05. Nous rejetons donc l’hypothèse de nullité du premier coefficient
d’autocorrélation.

 Test de Breusch et Godfrey

Contrairement au test de Durbin et Watson, le test de Breusch et Godfrey permet de tester


une autocorrélation d’ordre supérieur à 1 et reste valable en présence de la variable
endogène retardée parmi les variables explicatives. Pour réaliser ce test, sélectionnez
View/Residual Tests/ Serial Correlation LM Test…. Précisez l’ordre de l’autocorrélation et
cliquez sur OK. Pour un nombre de retards égal à un, on obtient le tableau suivant:

Tableau 3.4 : Statistiques du test d’autocorrélation de Breusch-Godfrey

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 4.036988 Probability 0.052750

Obs*R-squared 4.141955 Probability 0.041833

La statistique de test de Breusch-Godfrey reporte une valeur de 4.141 et une probabilité de


0.041. Ces valeurs nous amènent à rejeter l’hypothèse nulle d’absence d’autocorrélation
d’ordre un des erreurs.

On retient finalement l’hypothèse d’une autocorrélation des erreurs à l’ordre un. L’équation
de consommation doit donc être re-spécifiée et re-estimée avant d’être utilisée pour la
prévision ou la prise de décision. Rappelez-vous que l’autocorrélation des erreurs d’un
modèle peut provenir d’une mauvaise spécification ou d’un oubli de variables explicatives
pertinentes. Avant d’appliquer une méthode de correction, nous allons effectuer le test
d’erreur de spécification de Ramsey (1969).

40
3.4 Test d’erreur de spécification
Dans ce qui précède nous avons testé les différentes hypothèses portant sur les termes
d’erreurs. Cependant, il existe d’autres types d’erreurs de spécification qui peuvent affecter
l’estimation du modèle. Le test de Ramsey (1969) teste les trois types d’erreurs de
spécification suivantes :

- Omission de variables explicatives pertinentes ;


- Forme fonctionnelle incorrecte ; certaines variables pourraient être prises en log, en
puissance (forme non linéaire) ou transformées autrement ;
- Corrélation entre les variables explicatives et le terme d’erreur. Cette situation peut
provenir soit d’une erreur de mesure sur les variables, soit d’un problème
d’endogénéité de certaines explicatives ou de la présence de l’endogène retardée en
explicative avec des erreurs autocorrélées.
Pour réaliser le test de Ramsey, sélectionnez View/Stability Tests/Ramsey RESET Test…
comme indiqué ci-dessous:

41
Le résultat du test est donné dans le tableau suivant :

Tableau 3.5 : Statistiques du test de Ramsey de l’équation (3.1)

Ramsey RESET Test:

F-statistic 1.37130 Probability 0.24997

Log likelihood ratio 1.54714 Probability 0.21355

La probabilité critique de la statistique de test indique qu’il n’y a pas d’erreur de


spécification dans l’équation estimée.

3.5 Estimation en présence d’autocorrélation des erreurs

La présence de l’autoccorélation résiduelle rend hasardeux les commentaires concernant


l’inférence statistique et la validité globale du modèle. En effet, si les erreurs sont
autocorrélées, l’estimateur des coefficients reste sans biais dans la mesure où cette
propriété dépend de l’hypothèse d’orthogonalité des explicatives et du terme d’erreur.
Toutefois sa variance n’est plus minimale. Par conséquent, les tests basés sur ces
coefficients sont biaisés. Si, en plus, l’équation estimée comporte l’endogène retardée en
explicative (forme autorégressive), alors s’ajoute un problème d’endogénéïté qui rend les
estimateurs non convergents.

Il convient donc de re-estimer les coefficients du modèle en utilisant une procédure


d’estimation adéquate. A cet égard, plusieurs techniques ont été proposées: la méthode
itérative de Cochrane-Orcutt, la procédure de Prais-Winsten, la méthode du balayage de
Hildreth-Lu, la méthode du maximum de vraisemblance et la méthode des variables
instrumentales.

42
Nous allons re-estimer le modèle en retenant une autocorrélation d’ordre 1. Pour cela,
cliquez sur Estimate dans le menu de l’équation pour retourner à la spécification de
l’équation, et ajoutez un terme AR(1) à la fin de l’équation.

Cliquez sur OK pour valider. Vous obtenez le tableau de résultats suivant:

Tableau 3.6 : Coefficients de regression en présence d’erreurs AR(1)

Dependent Variable: LOG(CONS)

Method: Least Squares

Sample(adjusted): 1966 2002

Included observations: 37 after adjusting endpoints

Convergence achieved after 22 iterations

Variable Coefficient Std. Error t-Statistic Prob.

C -0.23425 0.64174 -0.36503 0.7175

LOG(PIBR) 0.92329 0.09614 9.60344 0.0000

LOG(IPC) 0.07050 0.03498 2.01536 0.0523

43
LOG(GT) 0.02933 0.04697 0.62450 0.5367

AR(1) 0.34409 0.18185 1.89217 0.0675

R-squared 0.98770 Mean dependent 8.02888


var

Adjusted R-squared 0.98617 S.D. dependent var 0.36970

S.E. of regression 0.04347 Akaike info criterion -3.30800

Sum squared resid 0.06049 Schwarz criterion -3.09031

Log likelihood 66.19811 F-statistic 642.7463

Durbin-Watson stat 1.58816 Prob(F-statistic) 0.00000

Les coefficients estimés, les écart-types et les statistiques s’interprètent de la façon


habituelle. Le coefficient estimé du terme AR(1) est le coefficient de l’autocorrélation
sérielle des résidus inconditionnels. On constate que ce coefficient est significatif au seuil de
10% et est inférieur à l’unité.

Nous reviendrons sur les autres méthodes d’estimation dans le chapitre consacré à la
programmation. Rappelez-vous que plusieurs raisons peuvent être à l’origine de
l’autocorrélation des erreurs, dont l’omission de variables explicatives pertinentes. Aussi,
est-il possible de corriger l’autocorrélation des erreurs en introduisant des retards de la
variable endogène parmi les variables explicatives. Nous reviendrons sur ce point lorsque
nous aborderons les modèles à décalages temporels.

3.6 Tests de restrictions linéaires sur les coefficients

Les tests de restrictions linéaires sur les coefficients sont de trois types : le test de
significativité globale des coefficients, le test de significativité des coefficients pris
individuellement et le test de stabilité. Le test de significativité globale et le test de
significativité individuelle des coefficients sont réalisés à partir respectivement de la

44
statistique de Fisher et de la statistique de Student. Ces statistiques reposent sur
l’hypothèse de normalité des erreurs. On peut aussi utiliser un test du rapport de
vraisemblance.

3.6.1. Test de significativité globale

Le test de significativité globale des coefficients cherche à savoir s’il existe au moins un
coefficient parmi tous les coefficients, à l’exception de la constante, qui soit
significativement différent de zéro, c’est-à-dire une variable explicative qui influence
significativement la variable endogène. On teste l’hypothèse nulle selon laquelle tous les
coefficients du modèle, à l’exception de la constante, sont égaux à zéro, contre l’hypothèse
alternative selon laquelle il existe au moins un coefficient différent de zéro. Ce test est
réalisé à partir de la statistique de Fisher. Celle-ci figure directement dans le tableau des
estimations. Si l’hypothèse nulle est acceptée, cela signifie qu’il n’existe aucune relation
linéaire significative entre la variable endogène et les variables explicatives retenues. Il
faudrait alors rechercher une spécification plus adéquate de la dynamique de la variable
endogène.

La valeur de la statistique de Ficher reporte ici une valeur de 642.746 avec une probabilité
presque nulle. Manifestement les coefficients sont globalement significatifs, ce qui signifie
que, prises ensemble, les trois variables explicatives influencent de façon significative les
variations de la consommation.

Le coefficient de détermination R 2 est un indicateur statistique qui permet d’évaluer le


pouvoir explicatif global du modèle puisqu’il fournit la part de la variance expliquée par le
modèle. Il permet de juger de la qualité de l’ajustement. On s’aperçoit que la valeur du
coefficient de détermination est très élevé: 98% des variations de la consommation (en log)
est expliquée par le modèle, ce qui est très satisfaisant.
Il existe une relation entre la statistique de Fisher et le R 2 :

45
R2 T  k  1
F (3.7)
1  R2 k

où T est le nombre d’observations et k le nombre de variables explicatives véritables, c’est-


à-dire sans la constante. La statistique de Fisher croît avec le R 2 : à des valeurs élevées du
R 2 correspondent des valeurs élevées de F. Ainsi, au lieu de tester, grâce à la statistique F, la
significativité globale des variables explicatives, il est approximativement équivalent de
tester la significativité de R 2 . Si l’hypothèse alternative est acceptée, on doit s’attendre à ce
que R 2 et F prennent une valeur élevée.

Si le coefficient de détermination R 2 est une statistique très facile à comprendre, il faut


cependant se garder d’y attacher trop d’importance, car il présente un défaut gênant. En
effet, le R 2 augmente de façon mécanique avec le nombre de variables explicatives, même
si celles-ci n’ont aucun rapport avec la variable endogène. A la limite, quand le nombre de
variables explicatives est égal au nombre d’observations, on obtient un R 2 égal à 1 et la
variable endogène est expliquée à 100%, quelle que soit la pertinence économique des
variables explicatives retenues, pourvu que l’hypothèse d’indépendance linéaire des
vecteurs des observations de ces variables soit respectée. On comprend alors pourquoi le
R 2 n’est pas pertinent pour comparer le pouvoir explicatif de plusieurs modèles ne
comportant pas le même nombre de degrés de liberté. Il convient de calculer une version
pénalisée du R 2 par les degrés de liberté, appelée R 2 -ajusté (Adjusted R-squared). Le
coefficient de détermination ajusté R 2 se calcule à partir de l’expression suivante :

T 1
(1  R 2 )  (1  R 2 ) (3.8)
T  k 1
T  k 1
D’après cette expression, on constate que R 2  0 dès que 1  R 2  .
T 1

46
Le coefficient ajusté permet de comparer objectivement les pouvoirs explicatifs de deux
modèles portant sur la même variable dépendante mais n’impliquant pas le même nombre
de variables explicatives4.

Il est important de noter que le coefficient de détermination n’est interprétable que si


l’équation estimée comporte une constante. En effet, lorsque le modèle ne comporte pas de
terme constant, l’équation de décomposition de la variance de la variable expliquée n’est
plus vérifiée. Dans ce cas, le R 2 peut donner une valeur négative.

3.6.2. Test de significativité individuelle des coefficients

Dire qu’un coefficient est significatif signifie que la variable explicative correspondante
contribue de façon significative à l’explication de la variable endogène. La significativité d’un
coefficient est testée à partir du t de Student. On teste l’hypothèse d’un coefficient nul
contre l’hypothèse alternative d’un coefficient différent de zéro (positif ou négatif, le test
étant bilatéral). Un coefficient sera significatif si la probabilité est inférieure au seuil de 5%.
Cette probabilité apparaît dans la dernière colonne du tableau des estimations (cf. tableau
3.1). Rappellons que cette probabilité est calculée sur la base de l’hypothèse de normalité
des termes d’erreurs. Pour la variable LPIBR, la probabilité est presque nulle. Par
conséquent, quel que soit le seuil retenu, cette variable contribue significativement à
expliquer le niveau de la consommation. L’élasticité-revenu de la consommation est égale à
0.94, ce qui signifie que, toutes choses égales par ailleurs, une augmentation du revenu de
10% entraîne un accroissement de la consommation de 9.4%. On constate également que le
coefficient de la variable de prix est significatif au seuil de 5%. En revanche, l’utilisation des
probabilités permet de rejeter, sans ambiguïté, le caractère significatif des dépenses
publiques. En effet, le rejet de l’hypothèse nulle entraîne une probabilité d’erreur de 47%.
On peut cependant continuer à interpréter les résultats de l’estimation dans la mesure où le
maintien d’une variable explicative non significative ne biaise pas les estimations sous les
hypothèses économétriques initiales. Toutefois, si le modèle doit être utilisé à des fins de

4 2
L’ajout d’une variable à l’équation entraîne une augmentation du R si et seulement si le t de Student de cette
2 2
variable est, en valeur absolue, supérieure à 1 (Greene, 1997). Le R est inférieur au R . Les deux statistiques
sont asymtotiquement équivalentes.
47
prévision, on peut être amené à éliminer cette variable conformément au principe de
parcimonie.

La non significativité de la variable LGT peut apparaître surprenante dans la mesure où cette
variable présente une très forte corrélation avec la consommation (voir la matrice de
corrélation présentée dans le tableau 2.2 du chapitre 2). En fait, il existe une très forte
corrélation entre les trois variables explicatives, qui fait peser un risque de multicolinéarité.
Or la multicolinéarité entre les variables explicatives d’un modèle linéaire conduit à des
écarts-types des coefficients élevés, donc à des statistiques de Student faibles, conduisant à
la non significativité des coefficients alors que le coefficient de détermination R 2 reporte
une valeur élevée. En outre, en présence de multicolinéarité approchée, il est difficile, sinon
impossible, d’isoler l’effet intrinsèque de chacune des variables explicatives sur l’endogène
(il y a confusion des effets), car toute variation de l’une des variables explicatives implique
une variation des autres variables. En supprimant tour à tour chacune des variables, on
constate que les autres variables présentent des coefficients bien significatifs. Mais la forte
colinéarité entre les variables génère un coefficient non significatif pour la dernière variable.
On rencontre très souvent ce genre de problème d’adéquation entre la théorie économique
et la pratique économétrique : en théorie on peut supposer que des variables sont
orthogonales mais lors de la modélisation on se rend compte qu’elles sont liées entre elles.
On peut obtenir des coefficients non significatifs ou affectés d’un signe erroné.

En réalité, le coefficient de corrélation simple n’est pas trop révélateur du degré de liaison
réelle entre deux variables. Il est d’une utilité limitée lorsqu’on travaille avec plusieurs
variables. On préfère dans ces conditions utiliser le coefficient de corrélation partielle qui
mesure la liaison ou corrélation nette entre deux variables lorsque l’influence d’une tierce
variable est retirée. Le coefficient de corrélation partielle permet de mieux juger de la
pertinence d’inclure une variable explicative dans un modèle. Ainsi plus le coefficient de
corrélation partielle d’une variable est élevé, plus sa contribution est importante à
l’explication des variations de la variable endogène. Dans notre exemple, le coefficient de
corrélation partielle entre la consommation et les dépenses publiques est égal à 0.124 avec
une probabilité de 0.472. Ainsi, lorsqu’on contrôle par le revenu et les prix, l’influence des
dépenses publiques sur la consommation devient non significative.

48
Il existe plusieurs techniques pour détecter la multicolinéarité entre les variables
explicatives, dont le test de Klein et le test de Farrar-Glauber5. La procédure du test de Klein
(1962) consiste à comparer le coefficient de détermination R 2 du modèle et les coefficients
de détermination entre les variables explicatives considérées deux à deux Rij2 . Il y a

présomption de multicolinéarité lorsque la plupart des Rij2 sont supérieurs au R 2 . La

faiblesse de cette méthode vient de ce que la colinéarité peut impliquer plus de deux
variables explicatives. On peut alors préférer régresser chaque variable explicative sur
toutes les autres variables explicatives. Si les coefficients de détermination R 2j sont élevés,

alors il y a présomption de multicolinéarité.

Il existe différentes techniques pour surmonter ou du moins réduire l’inconvénient de la


multicolinéarité. La parade la plus souvent utilisée consiste à éliminer certaines variables
explicatives. La pertinence de cette méthode peut toutefois être questionnée. D’une part,
l’élimination d’une variable peut entraîner une erreur de spécification si la théorie
économique postule précisément que cette variable doit être inclue dans le modèle. D’autre
part, l’élimination d’une variable explicative significative corrélée avec les autres variables
explicatives peut entraîner le rejet de l’hypothèse d’exogénéïté de ces dernières et être à
l’origine d’un biais d’estimation.

Une deuxième approche consiste à remplacer les variables explicatives par un nombre plus
faible de combinaisons linéaires. A cet égard, les méthodes d’analyse factorielle telles que
l’Analyse en Composantes Principales (ACP) et l’Analyse des Correspondances Multiples
(ACM) peuvent s’avérer utiles, surtout si le nombre de variables explicatives est important6.
L’avantage d’utiliser des combinaisons linéaires issues d’une analyse factorielle réside dans
l’orthogonalité de ces combinaisons. Il faut cependant noter que l’utilisation des
composantes principales n’a pas de justification théorique. De plus, il est souvent difficile de
donner une signification précise à ces composantes principales, ce qui vient compliquer
l’interprétation des coefficients du modèle.

5
Une présentation théorique et une application de ces tests sont faites dans Bourbonnais (1998) pages 100-103.
6
Les aspects techniques et pratiques de ces méthodes sont développés dans Lebart L., Morineau A. et Piron, M.
(1995), Statistique exploratoire multidimensionnelle, Dunod, Paris. Jambu M. (1999), Méthodes de base de
l’analyse des données, Dunod, Paris.
49
Il existe d’autres méthodes pour corriger les effets d’une forte multicolinéarité. On peut
chercher à augmenter le nombre des observations ou bien transformer la relation
fonctionnelle qui lie les variables explicatives à la variable endogène.

3.6.3. Test de stabilité des coefficients

L’analyse économétrique des comportements repose sur l’hypothèse de constance dans le


temps et dans l’espace des coefficients du modèle. Cette hypothèse signifie que sur la
période d’estimation le comportement des agents n’a pas connu de changement structurel
important. Cette constance des paramètres de comportement est à la base des simulations
qui vont être faites pour évaluer l’impact de différentes politiques économiques. Des
ruptures structurelles dans la valeur des coefficients peuvent évoquer un problème de
spécification du modèle. On se souvient de la critique de Lucas selon laquelle l’utilisation
des modèles économétriques traditionnelles, pour simuler les effets des changements de
politique économique, est incorrecte dans la mesure où des agents dotés d’anticipations
rationnelles vont modifier leur comportement en réaction à des changements dans les
règles du jeu. Il en résulte une instabilité des paramètres du modèle.

Il est donc important de compléter la série des tests économétriques par des tests de
stabilité. Ces tests s’intéressent plus généralement à des questions du genre : peut-on
considérer qu’il y a eu un changement dans le comportement de consommation des
ménages après telle date? La propension marginale à consommer est-elle restée constante
sur toute la période d’estimation? Les sources de la croissance sont-elle restées les mêmes
avant et après la crise des années 1980? Le comportement de consommation des hommes
est-il identique à celui des femmes? Lorsqu’on travaille sur des données temporelles, les
tests de stabilité prennent la forme de tests de stabilité temporelle ou structurelle. Sur des
données en coupe instantanée, il s’agit de tests d’homogénéité de comportements
(hommes/femmes ; riches/pauvres etc.).

Il existe plusieurs tests de stabilité dont les plus utilisés sont le test de Chow, l’analyse des
résidus et des coefficients récursifs et les tests CUSUM et CUSUMQ de Brown, Durbin et
Evans (1975). Le test de Chow effectue un test de Fisher en comparant les estimations des
coefficients sur deux ou plusieurs sous périodes. Il nécessite d’indiquer une ou plusieurs
50
dates de rupture dans les séries, ce qui requiert une analyse exploratoire plus précise des
séries. Les tests CUSUM et CUSUMQ dispensent de cette connaissance préalable.

Nous allons réaliser le test de Chow en considérant les deux sous périodes 1965-1993 et
1994-2002. A partir du menu de l’équation, sélectionnez View/Stability Tests/Chow
Breakpoint Test…

Entrez 1994 dans la boîte de dialogue qui apparaît. Cette date correspond à la date
supposée de rupture. Cliquez sur OK pour obtenir le tableau suivant :

Tableau 3.7 : Résultat du test de stabilité de Chow

Chow Breakpoint Test: 1994

F-statistic 0.87937 Probability 0.48795

Log likelihood ratio 4.21306 Probability 0.37793

51
La statistique de Fisher reporte une probabilité supérieure à 5% : on ne peut donc pas
rejeter au seuil de 5% l’hypothèse de stabilité des coefficients. En d’autres termes, l’année
1994 n’introduit pas un changement structurel significatif dans le comportement de
consommation des ménages. Notons que le test de Chow n’est pas pertinent si la date
choisie ne correspond pas à la véritable date de rupture.

Une autre procédure de test de stabilité consiste à analyser les résidus ou les coefficients
récursifs. Ces derniers sont obtenus en estimant de façon récursive le modèle : on
commence à estimer le modèle avec un nombre réduit d’observations, puis on augmente
progressivement ce nombre jusqu’à utiliser toutes les données. A chaque fois, on calcule de
nouveaux coefficients (les coefficients récursifs) à partir desquels on génère les résidus
récursifs normalisés. Si le modèle est stable, les coefficients récursifs seront très proches et
les résidus récursifs seront indépendamment et normalement distribués, de moyenne nulle
et d’écart-type constant. Les tests CUSUM et CUSUMSQ sont basés sur les résidus récursifs.
Le CUSUM utilise la somme cumulée des résidus récursifs tandis que le CUSUMSQ utilise le
carré des résidus récursifs. Ces statistiques de test offrent l’avantage par rapport au test de
Chow de ne pas connaître a priori la date de rupture.

Pour mettre en œuvre ces tests, sélectionnez, à partir du menu de l’équation,


View/Stability Tests/Recursive Estimates…

52
Il suffit de cocher la case correspondante au test que l’on veut faire (résidus récursifs,
CUSUM ou CUSUMQ). Les résultats pour les tests CUSUM et CUSUMQ sont représentés
dans les graphiques suivants :

Figure 3.3a: Test CUSUM Figure 3.3b: Test CUSUMQ

20

15

10

-5

-10

-15

-20
1970 1975 1980 1985 1990 1995 2000

CUSUM 5% Significance

1.6

1.2

0.8

0.4

0.0

-0.4
1970 1975 1980 1985 1990 1995 2000

CUSUM of Squares 5% Significance

53
Si les courbes sortent du corridor stylisé par les droites en pointillés, on conclut qu’il y a
instabilité du modèle. Sinon, le modèle peut être considéré comme stable sur toute la
période. Ici, aucune des statistiques CUSUM et CUSUMQ ne franchit les droites: nous
pouvons donc conclure que le comportement de consommation des ménages est resté
stable sur toute la période.

3.7 Prévisions conditionnelles

Nous avons estimé une équation de consommation sur la période 1965-2002. Nous allons
maintenant utiliser cette équation pour réaliser des prévisions sur la période 2003-2010. Il
s’agira de déterminer les valeurs de la consommation pour des valeurs attribuées au revenu
et au prix. La variable LGT sera éliminée parmi les variables explicatives. Avant de se livrer à
l’exercice, nous allons évaluer la capacité prédictive du modèle en réalisant une simulation
historique.

3.7.1 Simulation historique et évaluation du pouvoir prédictif du modèle

La simulation historique consiste à appliquer le modèle pour générer les valeurs passées de
la consommation. Cette simulation par resubstitution permet d’évaluer la capacité
prédictive du modèle, c’est-à-dire son aptitude à reproduire les données historiques. Pour
réaliser la simulation, sélectionnez Procs/Forecast ou cliquez simplement sur le bouton
Forecast dans la barre de menu de la fenêtre des estimations. Vous obtenez la fenêtre
suivante :

54
Bien que le modèle estimé soit spécifié sous la forme logarithmique, EViews offre la
possibilité de prévoir directement les valeurs de la série en niveau pour l’horizon temporelle
défini. La série simulée est nommée en ajoutant la lettre F (pour Forecast) au nom de la
variable endogène. Ici cette série prend le nom CONSF. Toutefois, il est possible de la
renommer autrement. La variable CONSF apparaît dans le workfile.
Il existe deux méthodes de prévision : la méthode statique et la méthode dynamique. La
différence réside dans le traitement des valeurs retardées des variables endogènes durant la
simulation. Le choix entre ces deux méthodes se pose lorsque le modèle compote une
dynamique autorégressive. La prévision statique requiert que les données sur les variables
explicatives (exogènes et endogènes retardées éventuellement) soient disponibles sur toute
la période de prévision. La méthode dynamique utilise les valeurs passées estimées de la
variable dépendante pour former la prévision de la période suivante. Pour la première
observation, ces deux méthodes donnent la même prévision. L’équation que nous avons
estimée n’est pas un modèle dynamique, c’est pourquoi seule l’option Static est disponible.
Nous utiliserons la méthode dynamique dans la section consacrée aux modèles à décalages
temporels.

Dans le champ Forecast sample, indiquez la période de prévision et cliquez sur OK pour
valider. Vous obtenez le graphique donnant l’évolution de la variable CONSF sur toute la
période historique 1965-2002. Les courbes en pointillés matérialisent les bornes inférieure

55
et supérieure de l’intervalle de confiance à 5% des valeurs prévisionnelles. Une bonne
adéquation se traduit par un resserrement de ces deux courbes.

Figure 3.4 : Evolution de la série prévisionnelle CONSF

6000
Forecast: CONSF
Actual: CONS
5000
Forecast sample: 1965 2002
Included observations: 38
4000
Root Mean Squared Error 158.1191
Mean Absolute Error 114.9630
3000
Mean Abs. Percent Error 3.378645
Theil Inequality Coefficient 0.023481
2000 Bias Proportion 0.000559
Variance Proportion 0.011606
1000 Covariance Proportion 0.987835

0
1965 1970 1975 1980 1985 1990 1995 2000

CONSF

On peut représenter simultanément les évolutions des séries CONS et CONSF afin d’évaluer
graphiquement l’écart entre les valeurs réelles et les valeurs simulées. On constate (cf.
figure 3.5) que globalement les simulations historiques ne s’écartent pas trop des valeurs
réelles.

Figure 3.5 : Evolution des séries CONS et CONSF

6000

5000

4000

3000

2000

1000
1965 1970 1975 1980 1985 1990 1995 2000

CONS CONSF

Les statistiques figurant à droite du graphique de CONSF (cf. figure 3.4) permettent de
procéder à une évaluation statistique de la qualité prédictive du modèle. Root Mean
Squared Error et Mean Absolute Error sont des statistiques qui dépendent de l’échelle de
mesure de la variable endogène. Elles permettent de comparer les prévisions d’une même

56
endogène pour différents modèles. Mean Absolute Percentage Error (MAPE) et Theil
Inequality Coefficient sont indépendantes de l’échelle de mesure de la variable endogène.
Le coefficient d’inégalité de Theil est compris en 0 et 1, une valeur proche de zéro indiquant
une bonne adéquation.
La moyenne des carrés des erreurs de prévision (Mean Squared Error) est décomposée
suivant trois types de proportions. Bias Proportion indique combien la moyenne des
prévisions s’écarte de la moyenne des valeurs actuelles de la série. Variance Proportion
indique combien la variation des valeurs prévisionnelles s’écarte de celle des valeurs
actuelles. Covariance Proportion mesure les erreurs de prévision non systématiques. Pour
une bonne prévision, les deux premières proportions devraient fournir des valeurs faibles.

Notons que EViews n’affiche ces différentes statistiques que lorsque les valeurs de la
variable endogène sont renseignées sur la période de simulation. Il s’agit en effet de
comparer les valeurs prédites avec les valeurs réellement observées de la variable
endogène. En pratique, on utilise ces statistiques pour évaluer l’adéquation des prévisions
avec les réalisations. Si cette adéquation est bonne alors on peut procéder à la prévision
proprement dite de la variable endogène. Dans notre exemple, MAPE= 3,378% et
Theil=0,023. La performance prévisionnelle du modèle est donc bonne.
Cette méthode d’évaluation présente cependant un biais : elle fournit le plus souvent une
mesure optimiste de la capacité prédictive du modèle car elle applique le modèle à des
données qui ont servit à le construire. Une autre façon d’apprécier plus objectivement la
capacité prédictive d’un modèle consiste à utiliser le modèle pour prédire les valeurs de la
variable endogène pour une période non comprise dans l’échantillon d’estimation et à
vérifier si les valeurs prédites sont suffisamment proches des valeurs effectivement
observées durant cette période. Cette approche repose sur l’hypothèse de stabilité
structurelle du modèle.

3.7.2 Prévision sur l’horizon 2003-2015

Nous allons maintenant procéder à la prévision de la consommation sur la période 2003-


2015. Pour former les prévisions nous devons d’abord étendre la taille du workfile (Range)

57
et celle de l’échantillon (Sample). Ensuite, nous devons renseigner les valeurs futures du
revenu et du prix. De façon pratique, voici les étapes à suivre:

 Sélectionnez, à partir du menu du workfile, Procs/Change Workfile Range. Changez


la date de fin en 2015. On peut aussi double-cliquer sur Range.
 Augmentez le nombre d’observations de l’échantillon en sélectionnant
Procs/Sample ou en double-cliquant sur l’onglet Sample de la barre de menu du
workfile. Changez la date de fin en 2015 et cliquez sur OK. On peut constater
visiblement ces changements dans le workfile ;
 Ouvrez la série PIBR. Les valeurs pour 2003-2015 sont marquées par « NA ». Entrez
les valeurs pour la période 2003-2015. Nous allons générer ces valeurs en supposant
une augmentation des revenus de 10% par an de 2003 à 2015. Sous cette hypothèse,
les valeurs du revenu réel ainsi que celles du prix sont données dans le tableau
suivant:

Tableau 3.8 : Valeurs de PIBR et IPC de 2003 à 2010

Année PIBR (x 109) IPC

2003 7383.92236 130.580

2004 8122.314596 137.501

2005 8934.546055 144.685

2006 9828.000661 152.139

2007 10810.80072 159.867

2008 11891.88080 167.873

2009 13081.06888 176.163

2010 14389.17576 184.739

58
On peut générer ces valeurs en utilisant le menu Quick/Generate Series puis en
entrant la formule comme indiquée dans la fenêtre suivante :
ˆ

 Retournez à l’équation et cliquez sur Forecast. Précisez la période de prévision qui


est 2003-2010. Cochez l’option Static.
Les prévisions de consommation sont données dans le tableau suivant:

Tableau 3.9: Consommation prévisionnelle de 2003 à 2010

Année CONS (x 109)

2003 5021.0238

2004 5608.9072

2005 6198.3274

2006 6823.6568

2007 7501.8256

2008 8243.1766

2009 9055.8617

2010 9947.5928

59
Quatre types d’erreurs entachent la qualité des prévisions : l’incertitude sur l’évolution
future des termes d’erreur; l’incertitude sur les coefficients structurels; l’incertitude sur les
valeurs futures des variables explicatives et l’erreur sur la spécification du modèle.
L’incertitude sur les termes d’erreur provient du fait que ces termes ne sont pas connus sur
la période de prévision, ils sont remplacés par leur valeur moyenne. Or si cette moyenne est
nulle sur une période, les valeurs individuelles peuvent cependant être non nulles. Plus
l’erreur individuelle sera importante, plus l’erreur de la prévision sera grande. L’erreur-type
fournit une mesure statistique de la variation des erreurs individuelles.
L’incertitude sur les coefficients structurels provient du fait que ces derniers sont estimés. Il
se peut donc que ces estimations dévient des valeurs vraies des coefficients. Les écart-types
des coefficients donnent une idée sur la précision avec laquelle ces coefficients sont
estimés. L’effet de ces incertitudes sur la prévision dépend de la trajectoire prévisionnelle
des variables exogènes. Plus ces variables dévieront fortement de leurs tendances
moyennes, plus grande sera l’imprécision des prévisions. La connaissance imprécise des
valeurs futures des variables exogènes introduit un élément supplémentaire d’incertitude
dans la prévision de la variable endogène. La qualité des prévisions dépend également du
choix de la spécification du modèle. Par exemple, si l’on adopte une spécification linéaire de
façon « mécanique » alors qu’en réalité la relation véritable est non linéaire, les prévisions
seront mauvaises. C’est pour ces diverses raisons que la prévision conditionnelle ne doit pas
être utilisée sur un horizon temporel assez long. Les techniques de prévision utilisant la
méthodologie de Box et Jenkins s’avèrent moins exigeantes en conjectures dans la mesure
où elles utilisent seulement l’information contenue dans la mémoire des séries pour former
les prévisions.

Annexes

Les données qui ont servi aux applications sont reportées ici afin de permettre aux étudiants
de s’exercer à reproduire les résultats.

60
Tableau A1 : Données de base

Année CONS CONSG GT INVG INVP IPC PIBR R

1965 1162.964 315.662 225.075 124.191 275.888 9.7647 1878.706 1.9

1966 1246.960 437.673 248.725 140.803 270.774 10.174 2096.211 -2.9

1967 1380.101 391.919 219.604 160.494 260.083 10.407 2192.597 1.1

1968 1450.326 589.519 217.466 149.371 278.514 10.964 2467.730 -0.3

1969 1667.219 567.696 332.428 172.622 295.595 11.452 2703.132 -1.6

1970 1932.034 435.253 413.464 215.815 400.481 12.392 2983.583 -5.8

1971 1951.198 629.493 436.243 249.310 435.729 12.337 3265.730 4.2

1972 2013.056 703.056 436.461 208.145 479.830 12.375 3404.086 2.6

1973 2149.647 670.345 442.168 243.815 542.455 13.749 3606.262 -5.15

1974 2251.121 780.116 425.758 238.263 492.818 16.136 3762.319 -11.75

1975 2435.022 740.263 465.257 375.314 522.219 17.982 4072.818 -5.62

1976 2703.847 874.527 461.456 434.706 585.800 20.154 4598.880 -4.28

1977 3116.885 543.520 684.438 531.618 743.239 25.68 4935.263 -15.73

1978 3501.150 348.965 745.861 730.724 892.834 29.081 5473.673 -5.16

1979 3867.488 218.271 749.953 745.511 773.464 33.834 5604.735 -7.41

1980 3649.936 16.308 920.076 568.716 755.626 38.807 4990.585 -3.99

1981 3409.839 415.510 889.313 542.807 797.124 42.222 5165.281 4.49

1982 3214.423 886.533 902.684 486.972 587.725 45.424 5175.654 6.58

1983 3169.704 998.539 765.574 408.388 397.159 47.986 4973.791 6.23

61
1984 3273.096 1029.535 674.807 182.813 353.991 50.042 4839.435 7.24

1985 3307.043 1076.587 1002.982 210.023 463.616 50.975 5057.269 8.64

1986 3475.003 1170.196 1130.695 185.870 391.035 55.911 5222.103 -1.01

1987 3650.990 969.108 1198.742 240.632 343.150 59.793 5203.880 1.33

1988 3707.643 950.393 1413.162 225.463 379.522 63.937 5263.021 1.67

1989 3635.505 1343.394 1375.803 215.797 223.479 64.608 5418.175 8.93

1990 3461.744 1537.238 1181.281 202.182 157.633 64.087 5358.797 11.88

1991 3530.136 1447.183 1055.385 193.475 190.196 65.166 5360.990 9.10

1992 3585.553 1487.036 1040.427 197.833 77.457 67.923 5347.879 6.91

1993 3552.873 1262.344 1052.827 261.099 261.269 69.394 5337.585 -2.12

1994 3789.470 853.417 978.473 272.814 465.183 87.493 5380.884 -20.69

1995 3853.782 1011.280 1014.267 294.081 605.170 100 5764.312 -12.51

1996 4046.085 1411.720 1019.404 303.980 448.070 102.48 6209.855 -2.42

1997 4277.862 1340.229 1045.473 357.242 589.742 106.6 6565.075 -3.87

1998 4745.730 1213.942 1027.620 415.757 501.571 111.6 6877.000 0.12

1999 4935.969 1133.655 957.648 296.031 620.345 112.48 6986.000 4.13

2000 5065.122 1024.365 808.387 189.624 534.131 115.25 6813.241 2.43

2001 5106.892 980.892 1279.167 124.421 624.711 120.18 6836.917 0.64

2002 4358.380 1653.604 1306.364 211.883 488.790 123.92 6712.657 1.79

62
Chapitre 1 : Présentation du logiciel STATA

Ce cours vise à aider les étudiants à se lancer à l’assaut de l’économétrie appliquée en se


familiarisant avec le logiciel le plus complet et le plus facile d’accès, c'est à dire STATA. Il y
a bien sûr d’autres logiciels économétriques (SPSS, RATS, SAS (est l’un des plus répandus
au sein des grosses institutions qui utilisent l’outil économétrique) ; Eviews est simple mais
parfois limité) mais STATA est le plus répandu dans les universités.

1.1. Les différentes fenêtres

La figure ci-dessous reproduit un écran type de STATA. Quatre fenêtres sont repérables :

 La fenêtre résultat

En haut à droite sur fond noir, la fenêtre décrit les résultats des commandes ; des régressions.

 La fenêtre de commande

En bas, la fenêtre commande permet de taper ici des commandes qui peuvent être exécutés
par la touche Entrée. On n’utilise cette fenêtre que pour essayer de façon interactive des
commandes mais pas pour rédiger un programme.

63
 La fenêtre de variables

En bas à droite la fenêtre de variables liste les variables avec les "labels" de celles-ci quand
elles existent. Il suffit de cliquer sur l'une d'elles pour qu'elle soit saisie par la fenêtre
commande.

 La fenêtre de commandes passées

En haut à droite la fenêtre des commandes passées récapitule les commandes déjà utilisées et
il suffit de cliquer sur l'une d'elle pour la rappeler dans la fenêtre commande.

La barre d’outil de STATA ci-dessous permet facilement de gérer les actions de base. De
gauche à droite : ouvrir un fichier de données STATA, sauvegarder un fichier de donnée
(équivalent à la commande save), imprimer les résultats tels qu’ils apparaissent dans la
fenêtre de résultats, commencer un log qui est une procédure qui stocke dans un fichier « .log
» les commandes suivis des résultats, un bouton pour faire apparaitre la fenêtre résultat
lorsqu’elle n’est pas présente, un bouton avec une enveloppe qui permet de créer un do file
(on y reviendra), deux éditeurs des tableaux de données et finalement un bouton pour stopper
la commande en cours (si elle est longue et que l’on s’aperçoit d’une erreur dans la
programmation par exemple).

1.2. Comment lire les données

1.2.1. La commande use

Si vous disposez des données sous format Stata (qui finissent par .dta) alors la commande
use vous permet simplement de lire les données. Il y a deux façons de procéder, selon que
l'on souhaite travailler dans un dossier seul ou juste faire appel au fichier de données :
.use "C: \Econometrie\TPEinfo\TD_n1.dta"

Ou bien, on peut procéder ainsi :

. cd "C :\Econometrie\TPEinfo"

64
. use TD_n1

Il faut parfois rajouter l'option clear1 afin d'effacer le fichier de données déjà utilisé par le
logiciel.
. use TD_n1, clear

1.2.2. La commande insheet

Lorsque les données sont sous la forme d'un fichier CSV (comma separated values, ou
finissant par .csv) alors il faut utiliser la commande insheet.

. insheet using "C :\Econometrie\TPEinfo\TD_n1.csv"

Les seules consignes à respecter avec cette commande sont la préparation du fichier de
données en indiquant sur la première ligne le nom des variables qui sont disposées en
colonne. Il ne faut pas laisser de noms de variables sous format numérique et de préférence
transformer les dates (en variables) avec un Under score : 2004 en 2004. Vérifier qu'il n'y a
pas de virgule dans les données pour ne pas troubler la reconnaissance des
variables/colonnes.

1.2.3. La commande infile

Lorsque les données sont sous format ASCII, format texte .txt ou .asc, alors il suffit
d’utiliser la commande infile avec un inconvénient : il faut préciser à la main le nom des
variables.
Exemple :
infile age edu salaire using "C :\Econometrie\TPEinfo\TD_n1.txt"

1.2.4. Le Logiciel STAT Transfer

Le logiciel STAT Transfer permet de convertir les fichiers de bases de données dans un
fichier compatible sous STATA. En effet, les bases de données utilisables sous STATA
doivent être dans un format spécifique (.dta). Le logiciel STAT Transfer permet d’obtenir ce
format. En général, les bases de données sont sous format Excel et peuvent être ensuite
converties en format .dta par STAT Transfer. Notons que le logiciel permet de faire
également l’opération inverse (convertir un fichier .dta en fichier .xls). De manière générale,

65
STAT Transfer permet de convertir tout fichier de bases de données en divers formats
utilisables par des logiciels économétriques tel que STATA, SPSS, RATS, SAS, etc.
De nos jours, avec les versions améliorées de STATA, le logiciel STAT Transfer n’est plus
obligatoire vue qu’on peut directement importer les données d’un fichier Excel vers STATA.

1.2.5. Le problème de mémoire insuffisante

Lorsque nous travaillons avec STATA et que nous n’avons pas assez de mémoire vive
disponible pour STATA (le message d’erreur est : no room for more observations) alors il
faut utiliser la commande set memory XXm pour préciser le nombre de mégabytes que vous
souhaitez allouer à STATA.
Exemple : set memory 50m, pour allouer 50 mégabytes à STATA.
De nos jours, les versions améliorées de STATA (11, 12, etc.) ajustent automatiquement la
mémoire vive.

1.3. Comment sauvegarder données et travail

1.3.1. Le Do file

La bonne façon de travailler sous STATA est d’utiliser un fichier .do (un do file) comme
fichier de travail. On écrit ainsi un programme que l’on peut sauvegarder et réutiliser la fois
suivante. L’utilisation de la fenêtre commande est plus pour tester rapidement des variantes
ou pour s’exercer au début avec les commandes.
Pour commencer un do file, il faut préciser dans quel dossier on travaille. La syntaxe est la
même que dans le DOS :
.cd "C : \Econometrie\TPEinfo "

1.3.2. Enregistrement des données

La commande la plus simple est save. On ne peut l’utiliser simplement que lorsque le fichier
de données n’existe pas encore. Sinon il faut ajouter l’option replace.
save TD_n1, replace

save TD_n1_2

66
si l’on souhaite opérer des changements qui ne soient pas définitifs (par exemple dans un do
file), alors il suffit d’ajouter l’option clear. La commande clear efface du logiciel la base de
données qu’il était en train de lire.

use TD_n1, clear

1.4. Chercher de l’aide

1.4.1. Dans les manuels

Il y a trois types de manuels STATA. On peut citer le User manual qui décrit les éléments de
base qui se trouvent dans le cours, les volumes References qui sont un dictionnaire de Stata
en 6 volumes très précis et complet sur chaque commande. Puis enfin, le Graphics Manual
pour faire de jolis graphiques.

1.4.2. Dans STATA

Le logiciel a aussi une version abrégée du manuel en ligne. Il suffit pour y faire référence de
cliquer sur « Help ». Tout en travaillant, on peut rappeler la description d’une commande en
utilisant la commande help suivi de la commande dont on veut connaitre le mode
d’utilisation.
.Help regress
Si on ne connait pas le nom de la commande, il est pratique d’utiliser la commande search et
de préciser en anglais ce que l’on cherche. Le logiciel d’aide vient ensuite suggérer des
entrées possibles pour votre demande.
.Search prediction

1.4.3. Sur Internet

Sur la toile, on peut trouver beaucoup d’informations. Au sein même de Stata, nous pouvons
utiliser la commande net search mot clé pour trouver des programmes stata ou des sites
référencés. Par rapport à l’aide sur Internet, on peut citer quelques sites :
http://www.stata.com/support/faqs/ : c’est le site d’aide de la société qui produit STATA.
http://www.princeton.edu/~erp/stata/main.html: c’est le site d’apprentissage de Stata de
l’Université de Princeton.

67
http://www.ats.ucla.edu/stat/stata: c’est le site d’apprentissage de Stata de l’Université
UCLA.
http://www.econ.ucdavis.edu/faculty/cameron/stata/stata.html: c’est le cours de Stata de
l’Université de Californie Davis. Il y a un certain nombre d’exemples de fichiers .do et de
base de données pour travailler des exemples.
http://www.hec.unil.ch/schmidheiny/sea2/: c’est le cours d’économétrie appliquée de
l’Université Suisse de HEC Lausanne. Les fiches sur des points précis sont relativement bien
faites.

68
Chapitre 2 : Travailler dans l’environnement STATA

Ce chapitre couvre l’utilisation des commandes Stata pour créer et gérer des variables,
fusionner des bases de données, créer des fichiers programmes, faire des statistiques
descriptives, effectuer des régressions. Pour faciliter la compréhension de la structure des
syntaxes des différentes commandes, les commandes de Stata sont mises en caractères gras et
les autres éléments (à l’exemple des noms des variables) sont mis en italiques pour signifier
qu’ils relèvent du choix de l’utilisateur.

2.1. Les fonctions et les expressions

2.1.1. Les opérateurs arithmétiques

Addition +
Soustraction -
Multiplication *
Division /
Exposant ^

Exemple :
generate y = x^2 crée une nouvelle variable y telle que y soit le carré de x.

2.1.2. Les expressions by, if et in

 By
Permet de répéter une commande pour chaque valeur (ou modalité) d’une variable donnée.
Syntaxe générale pour by :
by variables : commande

Avant d’utiliser by, il faut d’abord classer les observations en fonction des valeurs de la
variable à laquelle la commande by va s’appliquer, la commande sort permet d’effectuer ce
classement par ordre croissant.

Exemple 1 :

Soit une variable numérique nommée continent dont chaque valeur correspond à un continent
donné.

69
sort continent
by continent : list pays
La commande list permet de faire une liste des modalités de la variable à laquelle elle
s’applique. Ainsi, les deux lignes de commandes ci-dessus permettent de lister les noms des
pays de la base de données pour chaque continent donné. On peut fusionner ces deux lignes
de commandes par la ligne unique suivante :
bysort continent : list pays

Exemple 2 :
Soit PRI une variable muette qui prend la valeur 1 pour les pays à revenu intermédiaire et 0
autrement, et soit la variable pays qui contient le nom des pays.
bysort continent PRI: list pays
Cette ligne de commande classe d’abord les pays par continent, puis à l’intérieur des
continents fait un classement en fonction de l’appartenance ou non du groupe des pays à
revenu intermédiaire, puis affiche le résultat.

 if
Permet de spécifier les conditions dans lesquelles une commande doit être exécutée. Syntaxe
générale pour if :
commande if condition

Exemple :
generate y = x ^ (0.5) if x>=0 crée une variable y qui est égale à la racine carrée de la
variable x, si x est positif.

 in
Permet de spécifier les observations auxquelles s’applique une commande. Syntaxe générale
pour in :
commande in intervalle

Exemple :

list in 1/9 Affiche la première jusqu’à la neuvième observation de la base de données.


list in n Affiche la n ième observations, n peut être négatif, dans ce cas le décompte se fait à
partir de la dernière observation.
list in -1 Affiche la dernière observation de la base de données.

70
2.1.3. Les opérateurs de relation
Voici la liste des différents opérateurs de relation dans Stata :
Supérieur >
Supérieur ou égal >=
Inférieur <
Inférieur ou égal <=
Egal =
N’est pas égal ~=
Différent de !=

Remarque : il existe une exception pour le signe d’égalité. En effet, lorsque la commande if
précède une condition d’égalité, il faut utiliser le signe « = = » au lieu du signe « = » pour
exprimer cette égalité.

Exemple : list if x = =10 Liste les observations dont la valeur de x est égale à 10.
list if x >. Liste les observations dont les valeurs de x sont manquantes.

2.1.4. Les fonctions


Voici une liste non exhaustive des fonctions mathématiques disponibles sur Stata :
Racine carrée sqrt
Exponentielle exp
Logarithme népérien log
Valeur absolue abs
Partie entière int

Exemple : generate y = log(sqrt(abs(x))) Crée une variable y qui est égale au log naturel de
la racine carrée de la valeur absolue de la variable x.

Remarque 1 : Pour la fonction logarithmique, Stata accepte l’expression log ou ln, mais les
deux correspondent au logarithme naturel. Pour obtenir la fonction logarithmique base 10, il
faut utiliser l’expression log10.

Remarque 2 : Il existe bien d’autres fonctions telles que les fonctions de probabilité, les
fonctions sur les matrices et les fonctions texte. (Voir menu Help ou dans les Manuels de
Stata).

71
2.1.5. Les opérateurs logiques
Ou | (combinaison de la touche Altgr et la touche « 6 »)
Et &
Exemple : list if x>3 & x<20 liste toutes les observations dont la valeur de x est comprise
entre 3 et 20, bornes non comprises.

Remarque : L’opérateur & est prioritaire sur l’opérateur |.


list if x > 50 | (x > 30 & z < 2.5)

2.2. Réorganisation des données

2.2.1. La commande « rename »

Le premier travail de l’économètre est souvent de nettoyer son fichier et pour cela il est
parfois nécessaire de renommer les variables sous des noms plus pratiques. La commande
rename (abrégée en ren) permet de changer le nom de la variable.

La syntaxe : rename ancien_nom nouveau_nom.


Ex : rename GDPPC_PPP pibpc_ppa

2.2.2. Les commandes « recode » et « replace »

Le codage des variables n’est pas forcément optimal et parfois faux. L’usage de la commande
recode permet de remédier à ces problèmes :
recode marital 1=3 si par exemple le code pour célibataire devrait être 3 au lieu de 1.
recode salaire 99999=. Si le codage du salaire donne 99999 en cas d’absence de réponse. Le
point (.) est considéré comme une observation manquante.
Avec une variable texte (string), il faut utiliser la commande replace et la commande logique
if :
replace pays= " Côte d’Ivoire " if pays==" CIV "

2.2.3. Les commandes « keep » et « drop »

Quand on travaille sur une base de données, il est parfois nécessaire de supprimer les
variables inutiles ou les observations non concernées par nos estimations. La commande keep
vous permet de garder et drop de supprimer. On les utilise alternativement selon le nombre de
variable à garder ou à jeter.

72
keep HOST INVTEL GDPPC_PPP
drop POP PRI_MOB PRI_FIX

Avec les observations et les commandes logiques, il est possible de préciser ce que l’on veut
effacer en le conditionnant à la valeur d’autres variables.

keep if age>=15

Ou bien on supprime les individus nés en 1945 ou 1968 :


drop if naissance==1945 | naissance==1968

2.2.4. La commande « sort »

Cette commande permet de classer les observations par ordre croissant d’une ou de plusieurs
variables.

Exemple : soit pays une variable contenant le nom des pays,


sort pays : Permet de classer les observations par ordre alphabétique des noms de pays.
sort pays annees : classe d’abord par ordre alphabétique les pays, puis pour chaque pays fait
le classement des données par ordre chronologique (années étant la variable représentant le
temps).
Pour faire des classements, il existe une commande dans Stata nommée gsort qui offre plus
de flexibilité en ce sens qu’elle permet de classer par ordre croissant ou par ordre décroissant
ou les deux simultanément pour deux ou plusieurs variables différentes.

2.2.5. La fusion des bases de donnée : les commandes « Merge » et «Append»

Les commandes merge et append permettent respectivement de fusionner horizontalement et


verticalement deux bases de données. De façon générale, la commande merge permet
d’ajouter de nouvelles variables à la base de données, et la commande append permet
d’ajouter de nouvelles observations.

73
.

Les différentes étapes pour fusionner deux bases de données :

 Au niveau de la commande merge

Tout d’abord, il faut avoir une variable commune aux bases A et B qui permettra de faire la
fusion, prenons par exemple les noms de pays contenus dans la variable nommée pays.
1. Ouvrir la base A et classer les observations par nom des pays : sort pays

2. Ouvrir la base B et classer les observations par nom des pays : sort pays
Enregistrer puis fermer la fenêtre STATA de la base B.
3. Revenir dans la fenêtre de la base A pour appliquer la commande suivante :
merge pays using "Chemin d’accès de la base B".
4. Enregistrer ensuite la nouvelle base obtenue.

Remarque 1 :
La variable de fusion (nom des pays dans cet exemple) de la base A doit être rigoureusement
identique à celle de la base B.

Remarque 2 :
On peut également utiliser deux ou plusieurs variables pour faire la fusion (en particulier pour
les panels) : par exemple fusionner par nom des pays et par période, on aura alors les
commandes suivantes :
sort pays periode
merge pays periode using "Chemin d’accès de la base B".

74
Remarque 3 :
Il se peut qu’il y ait des observations dans la base A qui ne se trouvent pas dans la base B et
inversement. Dans ce cas, arrivé à l’étape 3 de la procédure, on peut utiliser la commande
browse pour afficher toute la base de données, puis faire un copier (Ctrl+C) coller de
STATA vers Excel pour nettoyer la base des observations non désirée. Une autre possibilité
est que STATA crée une variable indicatrice _merge qui dans sa forme standard prend la
valeur « 1 » lorsque les observations de la base de données résultante proviennent
uniquement de la base A, la valeur « 2 » lorsque les observations proviennent de uniquement
de la Base B et la valeur « 3 » lorsque les observations sont communes aux deux bases. Avec
la commande drop if _merge = = 2, on peut supprimer les observations non désirées de la
base de B. Cependant, on prend le risque de supprimer par exemple une observation de la
base A qui a son correspondant dans la base B, mais dont l’identifiant est légèrement
différent dans les deux bases par mégarde (ex : Côte d’Ivoire et Côte d’ivoire ne représentent
pas le même pays).

 Au niveau de la commande append

Pour la commande append, la syntaxe est plus simple. Il suffit d’ouvrir la première base (base
A) et dans la fenêtre de commande de STATA, Taper la ligne de commande suivante :
append using "Chemin d’accès de la base B".

2.3. Description des données

2.3.1. Regarder les données brutes

La première chose à faire une fois qu’on a chargé les données dans le logiciel est de les
regarder grâce à l’éditeur. On clique sur la fenêtre avec un fichier (ou on tape la commande
edit) ou on clique sur la fenêtre avec un fichier et une loupe juste à droite (ou on tape la
commande browse). Avec la première commande, on peut rajouter manuellement des
observations, avec la seconde vous ne pouvez que regarder.

2.3.2. La commande « list »

Cette commande utilisée seule, donne l’ensemble des données de façon similaire à browse
mais sur la fenêtre résultat. Il est aussi possible d’utiliser list suivi de la variable d’intérêt.
list PIB
75
Le résultat est la suite de toutes les observations pour cette variable. Mais il est possible aussi
de demander uniquement quelques observations. Ainsi, pour les 5 premières observations du
PIB :
list PIB in 1/5

2.3.3. La commande « describe »

La commande describe décrit des informations de base sur les variables de la base. En
ajoutant une variable après describe, seules les informations sur ces dernières sont affichées.
On trouve le type de variable et le format de leur compression, le label…

Ex : describe MOB_PEN

Il existe différents formats de stockage des données afin de minimiser la place de mémoire
utilisée par les données. Certaines variables n’ont pas besoin huit caractères et peuvent être
disponible sous un format plus léger. Il y a deux types de base de variables : soit numérique
soit texte (string2). Dans le cas des variables numériques, on distingue 5 cas :
byte nombre entier entre -127 et 126, comme une variable muette ;
int nombre entier entre -32767 et 32766 ;
long nombre entier entre -2147483647 et 2147483646, comme une donnée de population ;
float nombre réel avec une précision de 8 chiffres, comme des données de production ;
double nombre réel avec une précision de 16 chiffres.

2.3.4. La commande « summarize »

Elle affiche le nombre d’observations, la moyenne, l’écart-type, et les valeurs extrêmes. Si on


ajoute plus de précision, il suffit de rajouter une option detail.

Ex: sum FIXED_PEN ; sum FIXED_PEN, detail

sum MOB_PEN FIXED_PEN INVTEL HOST EDUC IND_LIB

2.3.5. La commande « tabulate »

Elle donne le nombre d’observations et la fréquence de chaque valeur de la variable. Elle peut
être utilisée pour regarder la distribution d’une variable. Lorsque nous avons deux variables
devant la commande tabulate, nous avons un tableau croisé.

76
Ex : tab invtel ; tab invtel pop.

tab invtel pop, row nous donne un tableau croisé de invtel et la pop avec les fréquences en
ligne.
tab invtel pop, col nous donne un tableau croisé de invtel et la pop avec les fréquences en
colonne.
Il existe d’autres variantes de la commande tab, il s’agit de tab1 et tab2.
tab1 popden host : on créé non pas un tableau croisé de popden et host mais plutôt un tableau
separé de chaque variable.
tab2 popden host educ : On créé un tableau croisé pour chaque combinaison possible de deux
variables de cette liste de variables (popden, host ; popden educ ; host educ).

2.3.6. Les commandes « correlate » et « covariance »

Pour obtenir la corrélation ou la covariance entre deux (ou plus) variables, il suffit d’utiliser
les deux commandes suivantes :

corr var1 var2


La covariance s’ajoute en option: corr var1 var2, cov
Ex : corr mobsubscr gdppc_ppp ; corr mobsubscr gdppc_ppp , cov

2.4. Création de nouvelles variables

2.4.1. Les commandes generate et egen

Pour créer une variable, deux commandes sont disponibles dans Stata : la commande
generate et la commande egen. La commande egen est une extension de la commande
generate, et elle est utilisée pour créer des variables à l’aide de fonctions spécifiques (voir
l’aide pour la liste de fonctions utilisables avec la commande egen).

Exemples pour generate ou gen:


gen y = x : crée une variable y dont les valeurs sont identiques à celle de la variable x.
gen y = x+z : crée une variable y qui est égale à la somme des variable x et z.
gen y = x[_n-1] : crée une variable y qui est égale à la valeur précédente de la variable x.
gen y = " ab ": crée une variable non numérique contenant le terme ab pour toutes les
observations.
Exemples pour egen:

77
egen y = count(x) : crée une variable y dont la valeur est constante et égale au nombre
d’observations non manquantes de la variable x.
egen y = sd(x): crée une variable y dont la valeur constante est égale à l’écart-type de la
variable x. à la place de sd, on peut utiliser la fonction mad pour calculer la médiane, la
fonction max pour le maximum, la fonction min pour le minimum, la fonction sum pour la
somme et la fonction mean pour la moyenne.
egen y = pctile(x), p(n) : crée une variable y telle qu’elle soit égale au nième percentile (n=50
correspond à la médiane).
egen idpays = group (pays) : crée une variable idpays qui attribue un numéro par pays en les
classant par ordre alphabétique (pays est une variable qui contient le nom des pays). Cette
commande peut servir à créer des identifiants pays. De façon générale, la fonction group
permet d’attribuer un numéro à chaque modalité de la variable à laquelle elle s’applique.
egen y = rmax(x z) : pour chaque observation, la nouvelle variable y créée sera égale au
maximum des valeurs des variables x et z. Lorsqu’on remplace rmax par la fonction rsum, la
variable y créée sera égale à la somme en ligne des variables x et z. Il existe également les
fonctions rsd et rmean.
egen moy = rmean(pop1 pop2) : La nouvelle variable moy créé sera égale à la moyenne des
valeurs des variables pop1 et pop2.
egen SD = rsd(x import) : La nouvelle variable SD créé sera égale à l’écart-type des valeurs
des variables x et import.
Les commandes generate et egen peuvent être combinées avec by, if et in. Supposons que
l’on dispose des données sur le PIB (contenues dans la variable pib) pour un échantillon de
pays, et que l’on souhaite calculer le PIB moyen par continent, la commande à appliquer est
la suivante :

sort continent
by continent : egen pib_moy = mean(pib)

La nouvelle variable pib_moy créée va faire correspondre à chaque pays la valeur du PIB
moyen du continent auquel il appartient.

2.4.2. Comment créer des variables avec retard

Lorsque nous voulons créer une variable retardée sous Stata, on applique la commande ci-
dessous :

78
Exemple dans le cas où l’on créé une variable pib retardée provenant d’une base de données
de différents pays avec les valeurs par années du PIB.
so pays annees
by pays : gen pib_ret = pib[_n-1] if annees == annees [_n-1]+1

Une autre façon de procéder si l’on dispose de données temporelles est d’utiliser la
commande tsset qui permet de déclarer une variable comme une série temporelle.
gen t =_n
tsset t (résumer ces deux commandes en seulm : tsset annees)
Les variables retardées pourront être créées automatiquement sous la forme de
L.nomdevariable pour un retard ou L2.nomdevariable pour deux retards.

2.4.3. Mettre des étiquettes pour des variables

Stata offre la possibilité d’attribuer une étiquette à chaque variable. Cette étiquette constitue
une description de la variable puisqu’il n’est pas évident à une tierce personne de deviner la
signification d’une variable à partir de son nom. Par ailleurs les étiquettes apportent une
meilleure lisibilité des résultats économétriques car dans les tableaux des régressions, on peut
remplacer les noms des variables par les étiquettes.

Syntaxe générale : label var nom_variable "description"


Exemple : label var GDPPC_PPP "Produit intérieur brut par tête en parité du pouvoir
d’achat"

On peut également attribuer un nom à toute la base de données par la commande :


label data "nom_base"

Pour supprimer les étiquettes pour les deux exemples ci-dessus :


label var GDPPC_PPP supprime l’étiquette de la variable GDPPC_PPP
label data supprime l’étiquette de la variable GDPPC_PPP

2.4.4. Réaliser des graphiques

La création de graphiques avec STATA n’est pas toujours simple en particulier lorsqu’on
souhaite que les graphiques soient « présentables » dans un mémoire. Un manuel est consacré
aux graphiques. Nous présentons ici les commandes pour faire des graphiques simples :
 Pour obtenir un graphique circulaire (« un camembert »), on a la commande suivante :

79
graph pie var1 var2 var3…
Exemple : graph pie MOB_PEN FIXED_PEN HOST
 Pour un diagramme en bâtons (ne pas confondre avec un histogramme) :
graph bar var1 (on peut mettre en option over (pays) ou over (annees)
 Pour un diagramme en bâtons verticaux on a la commande suivante :
graph hbar HOST (on peut mettre en option over (pays) ou over (annees)
 Pour obtenir les chandeliers japonais ou boîtes à moustache :
graph box variable (on peut mettre en option over (pays) ou over (annees)

Pour tous les graphiques (X, Y), la commande débute par twoway (ou tw) suivi du type de
graphique (X, Y) souhaité. Parmi les principaux types, nous avons :
. tw histogram variable, option cette ligne de commande génère un histogramme. L’option
bin (nombre) définit le nombre de tranches.
Exemple: tw histogram INVTEL, bin(10)

. tw scatter variable_ordonnée variable_abscisse, option


Cette ligne de commande permet d’obtenir un nuage de points.

. tw function y = exp(sinx), option


Cette ligne de commande permet d’obtenir une représentation graphique de la fonction
spécifiée.

. tw line variable_ordonnée variable_abscisse, option


Cette ligne de commande permet d’obtenir un graphique avec des points reliés par une ligne.

. tw kdensity variable, option


Cette ligne de commande permet d’obtenir l’estimation de la densité du noyau de la variable.

. tw area variable_ordonnée variable_abscisse, option


Cette ligne de commande créé un graphique avec une ligne reliant les points (X,Y) et une aire
colorée entre la ligne et l’axe des abscisses.

. tw rarea variable_ordonnée variable_abscisse annees, option


Cette ligne de commande créé un graphique avec une aire colorée correspondant à l’espace
compris entre les valeurs de variable_ordonnée et de variable_abscisse.

80
Il est possible de superposer facilement des graphiques avec STATA. Ainsi, il est possible
d’obtenir sur un même graphique le nuage de point, la droite de régression MCO et
l’intervalle de confiance. Supposons que la variable expliquée soit les importations
(IMPORT), la variable explicative le produit intérieur brut réel (PIBR).
On a les lignes de commandes suivantes :
. regress IMPORT PIBR
. predict import_pred, xb
. predict ecarttype,stdf
. gen interval_bas= import_pred-1.96* ecarttype
. gen interval_haut= import_pred+1.96* ecarttype
. scatter IMPORT PIBR || line import_pred interval_bas interval_haut PIBR,sort

81
Chapitre 3 : Régression linéaire sous STATA

3.1. Les régressions sur données longitudinale (ou en séries temporelles) :

3.1.1. Les moindres carrés ordinaires (MCO)

Pour effectuer des régressions en MCO, il faut utiliser la commande regress (ou reg) suivi de
la variable dépendante, des variables explicatives et éventuellement des options. La syntaxe
générale est la suivante :

reg var_dep var_explicatives (if, in), options

Ex: Impact de la libéralisation des télécommunications et pénétration de l’Internet en Côte


d’Ivoire.
Les données sur la Côte d’Ivoire sont extraites de la base (Base_Uemoa_Maghreb_telcom) et
couvre la période de 1998 à 2012. La variable Internet représente le nombre d’internaute par
habitant (en log); PIBpc est le produit intérieur brut par tête en PPA (en log), education est le
niveau d’éducation scolaire (en log), Abon est le nombre d’abonnés au téléphone mobile (en
log), IND_LIB est un indice de libéralisation construit en tenant compte de certains aspects tel
que la privatisation, la réglementation et le degré de concurrence dans le secteur. La variable
inv, représente le niveau des investissements télécoms réalisés sur la période d’étude. Le
tableau ci-dessous nous donne les résultats de l’estimation du modèle par les MCO.

82
L’analyse de la significativité se fera ultérieurement.

On peut combiner la commande reg à by, if et in. Par exemple, soit Union une variable
muette égale à 1 pour les pays de l’Uemoa et 0 pour les pays du Maghreb.
reg internaute PIBpc Abon education IND_LIB inv if Union ==1 (le modèle sera estimé
uniquement pour les pays de l’UEMOA).

En utilisant by, on peut par exemple avoir séparément le résultat des estimations à la fois des
pays du Maghreb et de l’Uemoa en tapant la commande suivante :

83
3.1.2. Comment générer des variables muettes
Pour créer des variables muettes ou des variables indicatrices (dummy variable en anglais) on
peut utiliser les méthodes suivantes. La première est simple et « à la main » :
gen age12-25=0
replace age12-25=1 if age>=12 & age <=25
gen age26-60 =0
replace age26-60=1 if age>=26 & age<=60
gen age60=0
replace age60=1 if age>60

La seconde méthode (automatique) est utile lorsque vous voulez créer automatiquement des
variables muettes en faisant une régression. Dans ce cas, il faut utiliser la procédure xi :

84
xi : reg internaute PIBpc education Abon inv IND_LIB i.IND_LIB

On créé donc une liste de variable muette à partir des valeurs de l’IND_LIB. Le
i.nomdevariable désigne la variable dont on veut créer la séquence de variables muettes.

3.2. Exercice d’application (Eviews et STATA)

- Application avec Eviews (révisions)


On dispose pour le Sénégal et sur la période de 1972 à 2001, des séries macroéconomiques
Investissements (INV), Produit Intérieur Brut (PIB) et Taux d’intérêt réel (Tx_int).
On fait l’hypothèse que les variables INV, PIB et Tx_int vérifient le modèle linéaire :

Nous disposons des données annuelles (voir fichier Excel en Annexe ci-dessous)
1) Tester la normalité et la lognormalité des variables INV, PIB et Tx_int.
2) Estimer les paramètres par la méthode des MCO. Interpréter économiquement les
paramètres estimés.
3) Interpréter la valeur du coefficient de détermination R2.
4) Effectuer les tests suivants :
- Test de significativité des variables explicatives (Student)
- Test de significativité globale du modèle (Fisher)
- Test d’hétéroscédasticité des erreurs (Test de White et ARCH)
H0 : modèle homoscédastiques vs H1 : modèle hétéroscédastique
Décision :
Si les p-value sont supérieures à 5% alors on accepte l’homoscédasticité des erreurs

- Test d’hétéroscédasticité des erreurs (Test Breusch-Pagan)


H0 : modèle homoscédastique vs H1 : modèle hétéroscédastique
Décision :
Si les p-values sont supérieures à 5% alors on accepte l’homoscédasticité des erreurs

- Test de corrélation des erreurs de Durbin Watson


Le test de Durbin-Watson (DW) permet de détecter une autocorrélation des erreurs d’ordre
un selon la forme :

85
Le test d’hypothèse est le suivant :
H0 : Erreurs non corrélées (   0 ) vs H1 : Erreurs corrélées (   0 )

La statistique de Durbin-Watson est la suivante :

Ou  t est le résidu calculé


La lecture de la table de Durbin-Watson (DW) permet de déterminer deux valeurs dinf et dsup
comprises entre 0 et 2 qui délimitent l’espace entre 0 et 4 selon le schéma ci-dessous.

0 <DW<dinf ou 4-dinf<DW<4, il y a autocorrélation des erreurs respective positive et


négative.
dsup<DW<4-dsup, il y a absence d’autocorrélation des erreurs
dinf<DW<dsup ou 4-dsup<DW<4-dinf , nous sommes dans la zone de doute et on ne peut pas
conclure dans un sens comme dans l’autre. Mais dans la pratique, on supposera qu’il y a
absence de corrélation des erreurs.
L’autocorrélation des erreurs peut provenir d’une mauvaise spécification analytique du
modèle et de l’oubli d’une variable explicative importante.
Conditions d’application du test de Durbin-Watson
- Le modèle doit comporter impérativement un terme constant ;

- Le nombre d’observations doit être supérieur ou égal à 15 ;

- Le modèle doit être spécifié en séries temporelle ;

- La variable à expliquer ne doit pas figurer parmi les variables explicatives du modèle en tant
que variable retardée. Si c’est le cas, on peut utiliser par exemple le test h de Durbin ou le test
de Breusch-Godfrey.
Dans le cas de notre exercice, il y a autocorrélation positive des erreurs. L’autocorrélation des
erreurs va être corrigée par la méthode de Cochrane Orcutt.
On ajoute seulement au modèle dans les variables explicatives le processus autorégressif :
ar(1)
86
- Test de stabilité des coefficients du modèle

L’un des critères les plus importants pour l’estimation d’un modèle est qu’elle doit rester
valable pour des données autres que celles qui ont été utilisées lors de l’estimation. Ce critère
est celui de la constance des paramètres.
La stabilité des coefficients d’un modèle joue un rôle important lorsqu’on cherche à
comprendre les mécanismes économiques et à réaliser des projections. Leur instabilité peut
refléter des phénomènes ponctuels dans le temps (chocs pétroliers, dévaluation, crise
boursière, nouvelle réglementation, calamités naturelles,…). Nous allons utiliser deux tests de
stabilité des coefficients : le test de Chow (1960) et le test CUSUM de Brown, Durbin et
Evans (1975).

 Le test de Chow

Le test de Chow appelé aussi test de changement structurel, permet d’examiner si les
coefficients d’une régression sont stables par rapport aux observations utilisées.
L’inconvénient du test de Chow est le choix arbitraire du point de rupture. Un point de
rupture peut amener à rejeter l’hypothèse de stabilité alors qu’avec un autre point de rupture
on ne la rejetterait pas. De plus quand on travaille sur des séries temporelles, la date à
laquelle des changements dans les coefficients interviennent n’est pas toujours facilement
repérable.
Supposons qu’on ait deux sous-périodes ayant N1 et N2 observations (N=N1+N2).
Le test d’hypothèse le suivant :
H0 : SCR=SCR1 + SCR2 (stabilité) contre H1 : SCR ≠ SCR1+SCR2 (instabilité)
SCR : somme des carrés des résidus du modèle général
SCR1 : somme des carrés des résidus du modèle estimé sur N1
SCR2 : somme des carrés des résidus du modèle estimé sur N2

La statistique de Chow est définie par :

Ce rapport suit sous l’hypothèse de stabilité une loi de Fisher à k degrés de liberté pour le
numérateur et N-2k degrés de liberté pour le dénominateur.
On se fixe  , on lit A sur la table telle que :

87
La règle de décision est la suivante :
 Si F*  A, on rejette l’hypothèse de stabilité des coefficients pour les deux périodes
considérées.

 Si F*  , on rejette l’hypothèse de stabilité des coefficients pour les deux périodes


considérées.

 Tests CUSUM (Brown, Durbin, Evans)


Brown, Durbin et Evans ont proposé en 1975 des tests de stabilité des coefficients basés sur
des résidus récursifs. Ces tests sont des tests graphiques permettant d’accepter ou non
l’hypothèse de stabilité.
L’intérêt de ces tests réside dans le fait qu’ils permettent d’étudier la stabilité d’une
régression sans définir a priori la date de rupture sur les coefficients. Ce test résout le choix
arbitraire du point de rupture du test de Chow.
Si la courbe sort du corridor, les coefficients du modèle sont instables. Si la courbe ne sort
pas du corridor, les coefficients du modèle sont stables.

- Application avec STATA

Pour l’estimation du modèle, il faut d’abord déclarer la nature des données (ici on utilise des
séries temporelles) donc :

.tsset annees (puis valider)

Ensuite dans le cas de notre modèle, générer les variables en logarithme

.gen ln_inv=log(inv)
.gen ln_pib=log(pib)

Pour l’estimation, il faut taper la commande suivante :

.reg ln_inv ln_pib tx_int (puis valider)

Tests post estimation

 Test de normalité des erreurs,

88
H0 erreurs suivent une loi normale vs H1 les erreurs ne suivent pas une loi normale
. predict residu, resid (puis valider)
. sktest residu (puis valider)

 Test d’hétéroscédasticité des erreurs

Le test de White ou celui de Breusch-Pagan est le plus souvent utilisé :


Après estimation taper la commande suivante :

. hettest (puis valider)

 Test d’autocorrélation des erreurs

Test d’autocorrélation des erreurs, récurrents lorsqu’on utilise des séries temporelles
 Le test de Durbin-Watson permet de tester la présence d’un processus AR(1) dans les
données.
. estat dwatson (puis valider)
S’il y a autocorrélation des erreurs, relancer la régression avec une correction de Prais-
Winsten (prais).
. Prais var_dep var_explicatives
Lorsqu’on soupçonne la présence d’autocorrélation d’ordre supérieur à 1, le test de Breusch-
Godfrey (estat bgodfrey) ou celui de Durbin-Watson (estat durbina) doivent être réalisés.
Le test de Engle (estat archlm) permet de tester la présence d’éléments ARCH dans les
résidus.

89

Vous aimerez peut-être aussi