Académique Documents
Professionnel Documents
Culture Documents
DIABATE Nahoussé
1
PARTIE I :
Eviews
2
Table des matières ___________________________________________________ Erreur ! Signet non défini.
Introduction ________________________________________________________ Erreur ! Signet non défini.
Chapitre 1 ________________________________________________________________________________ 8
Présentation du logiciel EViews ______________________________________________________________ 8
1.1. Présentation générale du fonctionnement du logiciel ____________________________________ 8
1.2 Champs d’application de EViews _________________________________________________________ 9
1.3 Objets types ________________________________________________________________________ 10
1.4 Expressions mathématiques _______________________________________________________ 11
Chapitre 2 _______________________________________________________________________________ 12
Manipulation de données __________________________________________________________________ 12
2.1 Création d’un workfile ____________________________________________________________ 12
2.2 Saisie directe des données _________________________________________________________ 13
2.3 Importation des données __________________________________________________________ 14
2.4 Création de variables _____________________________________________________________ 16
2.5 Graphiques _____________________________________________________________________ 17
Chapitre 3 _______________________________________________________________________________ 21
Estimation des modèles linéaires à une équation _______________________________________________ 21
3.1 Spécification du modèle et hypothèses _______________________________________________ 21
3.2 Estimation d’une équation linéaire __________________________________________________ 23
3.3 Tests de diagnostic sur les résidus ___________________________________________________ 27
3.3.1 Test de normalité ______________________________________________________________ 29
3.3.2 Test d’hétéroscédasticité ________________________________________________________ 35
3.3.3 Test d’autocorrélation __________________________________________________________ 37
Test de Durbin et Watson ______________________________________________________ 37
Analyse du corrélogramme et test de Ljung et Box _________________________________ 38
Test de Breusch et Godfrey _____________________________________________________ 40
3.4 Test d’erreur de spécification ______________________________________________________ 41
3.5 Estimation en présence d’autocorrélation des erreurs ______________________________________ 42
3.6 Tests de restrictions linéaires sur les coefficients _______________________________________ 44
3.6.1. Test de significativité globale ______________________________________________________ 45
3.6.2. Test de significativité individuelle des coefficients _____________________________________ 47
3.6.3. Test de stabilité des coefficients ____________________________________________________ 50
3.7 Prévisions conditionnelles ____________________________________________________________ 54
3.7.1 Simulation historique et évaluation du pouvoir prédictif du modèle ______________________ 54
3.7.2 Prévision sur l’horizon 2003-2015 57
3
Introduction
L’analyse économique est basée sur la représentation théorique des comportements des
agents économiques. Elle repose sur des hypothèses plus ou moins réalistes et conduit à des
conclusions dont la portée peut être positive ou normative. Les théories économiques
influencent le réel dans la mesure où elles guident certaines décisions de politique
économique. Compte tenu de cette influence, les théories économiques doivent être
confrontées à la réalité afin d’évaluer leur pertinence empirique : les agents économiques
se comportent-ils conformément à la théorie ? L’économétrie est une « approche
scientifique visant à la compréhension des aspects économiques de la conduite humaine »
(Hendy, 1995). Elle procède à la mise en épreuve des théories économiques par l’application
de méthodes statistiques aux données empiriques. Le caractère non expérimental de la
science économique avait conduit les chercheurs dès les années trente à recourir à
l’économétrie1. Dans l’éditorial du premier numéro de la revue Econometrica créée en
1933, Fisher fixe les objectifs de la société d’Econométrie, à savoir, promouvoir les relations
entre la théorie économique, les statistiques et les mathématiques.
L'un des objets de l'économétrie est de confronter les prédictions des modèles théoriques
aux données économiques à l'aide de modèles statistiques. Cette confrontation pour être
réalisée doit suivre un certain nombre d’étapes: la spécification du modèle, le recueil de
données, l'estimation des paramètres du modèle, les tests de spécification et la
respécification.
1
Pour une histoire de l’économétrie, on pourra consulter Morgan (1990) et Desrosières (1993).
4
modèle et suggère le signe probable des dérivées partielles. Par exemple, pour la fonction
de consommation précédente, on a f ' R 0 . Cependant, la théorie économique ne
renseigne pas sur un certain nombre de choses dont la forme exacte des fonctions
mathématiques, la définition et la mesure des variables qui interviennent dans le modèle.
Faut-il retenir une spécification linéaire ? Faut-il raisonner en termes réels ou courants ?
Faut-il considérer les taux de croissance ou les niveaux des variables ? Faut-il appliquer une
transformation logarithmique à certaines variables ? Faut-il corriger les variables des
variations saisonnières ou non ? Ce sont là des questions pratiques importantes dont
dépend l’issue de l’évaluation empirique des modèles économiques.
Une fois le modèle spécifié, il faut réunir les données nécessaires à son estimation. A cet
égard, il existe trois types d’échantillons de données. On distingue en premier lieu les
données temporelles ou séries chronologiques où les variables représentent des
phénomènes observés à intervalles réguliers. C’est ce type de données qu’on utilise dans la
plupart des applications en macroéconomie lorsqu’on travaille sur un pays donné. On a en
second lieu les données en coupe instantanée où les variables représentent des
phénomènes observés au même instant sur plusieurs individus. Il s’agit généralement des
données d’enquête ponctuelle auprès d’individus, de ménages ou d’entreprises. En
troisième lieu, on a les données de panel dans lesquelles les variables sont observées sur
plusieurs individus et sur plusieurs périodes. Les panels combinent donc les dimensions
temporelle et individuelle des données. L’utilisation des panels permet de contourner la
difficulté liée au manque de données longues dans la dimension temporelle. Elle permet de
rendre plus puissants les tests lorsqu’on augmente la dimension individuelle. Cependant,
l’analyse des données de panel requiert des procédures d’estimation très précises et fait
apparaître des difficultés quant au traitement de l’hétérogénéité individuelle. Elle constitue
aujourd’hui une spécialité dans l’économétrie (économétrie des données de panels) qui a
donné lieu à de nombreux développements.
Ce cours est adapté à ceux qui n’ont jamais utilisé les logiciels Eviews et stata, aussi bien
qu’à ceux qui en ont déjà acquis quelques principes de base. Bien entendu, ce cours n’est
pas exhaustif sur l’ensemble des fonctions qu’offrent les logiciels. Les manuels officiels des
logiciels restent donc indispensables. De plus, ce cours ne remplace pas les manuels de
cours déjà existants, qui demeurent indispensables pour bien comprendre les notions
théoriques de base et les principes des tests statistiques qui sont évoqués dans ce cours.
Ce cours a été rédigé sur la base de la version 4 de Eviews et stata 12, la configuration des
écrans, les commandes ou les synthaxes peuvent ne pas être les mêmes sur les versions
antérieures ou ultérieures du logiciel.
L'économétrie est une discipline qui effraie le plus souvent les étudiants par son caractère
formalisé et le recours à des notions de statistiques et de mathématiques. L’objectif de ce
cours est d’offrir aux étudiants une introduction pratique à l’économétrie. Il ne se substitue
pas aux manuels d’économétrie déjà existant et ne prétend pas faire du lecteur un
économètre. Car l’économétrie se situe au confluent de plusieurs champs disciplinaires
(sciences économiques, probabilités et statistique mathématique) et nécessite par
conséquent une formation diversifiée à la fois sur le plan théorique et pratique. Les modèles
présentés sont illustrés par des cas pratiques.
Le cours comporte au total trois chapitres. Le chapitre 1 fait une présentation succincte du
logiciel EViews. Cette présentation se limitera essentiellement à décrire le mode de
fonctionnement du logiciel et à présenter les différents types d’objets utilisés par le logiciel.
Il est évident que tout le long des chapitres suivants le lecteur sera amené à découvrir et
utiliser progressivement les fonctionnalités du logiciel. Le chapitre 2 présente les
manipulations préliminaires au traitement des données : la création d’espace de travail,
6
l’importation et la saisie directe de données. Une fois les données entrées, le traitement
peut alors commencer. Dans le chapitre 2, nous introduisons les traitements élémentaires, à
savoir la génération de nouvelles variables, le calcul de statistiques descriptives (moyenne,
écart-type, médiane…), les représentations graphiques et le calcul des coefficients de
corrélation. Le chapitre 3 aborde l’estimation des modèles structurels à une seule équation.
Il constitue le point de départ indispensable au développement des outils nécessaires à
l’étude de situations qui seront analysées dans la suite de l’ouvrage.
7
Chapitre 1 : Présentation du logiciel EViews
Le logiciel choisit pour les applications pratiques est EViews. Le choix de ce logiciel se justifie
surtout par la convivialité qu’elle offre à l’utilisateur dans la mise en œuvre des tâches.
L’utilisateur familier à l’environnement Windows n’éprouvera pas de difficultés à naviguer
dans les menus du logiciel pour chercher ce dont il a besoin. Dans ce chapitre introductif,
nous faisons une présentation générale du logiciel EViews. Nous décrivons les différents
modes de fonctionnement du logiciel, ses champs d’applications et les différents types
d’objets sur lesquels est basé le fonctionnement du logiciel. Bien entendu, cette
présentation n’épuise pas l’ensemble des potentialités du logiciel. Le lecteur pourra
consulter le guide d’utilisation du logiciel pour approfondir certains aspects.
8
traitement exigent un examen des résultats et des prises de décision de l'utilisateur. Le mode
interactif présente l'avantage d'être simple, mais montre rapidement ses limites pour réaliser
certaines tâches plus élaborées. Il est alors préférable d'utiliser le mode batch : les instructions sont
écrites sous forme d’un programme à l’aide d’une succession d’instructions utilisant des
commandes. Le mode batch nécessite donc la construction d’un fichier texte contenant une série
d’instructions pour aboutir aux résultats que l’on souhaite. L’utilisateur a la possibilité d’exécuter
une partie de ce programme dans différentes circonstances. L’un des avantages des programmes est
qu’ils permettent de documenter l’analyse. On peut savoir comment on est arrivé aux résultats.
Notons cependant que le mode batch est plus complémentaire qu'incompatible avec le mode
interactif. Dans ce cours, nous allons utiliser ces deux modes de fonctionnement du logiciel EViews
et les illustrer à partir d’exemples pratiques. Le lancement du logiciel se fait comme tout autre
logiciel à partir du bureau ou du menu démarrer.
9
L’analyse des séries à haute fréquence et les techniques de prévision avancées
(modélisation ARIMA, ARCH, GARCH …) ne seront pas abordées dans le présent ouvrage qui
se présente comme une introduction à la pratique économétrique.
Eviews est basé sur la notion d’objet. Les objets sont des blocs d’éléments liés par une
notion commune et qui sont mis ensemble pour être utilisés plus aisément. De façon
virtuelle, tout le travail dans EViews impliquera l’utilisation et la manipulation d’objets.
L’objet le plus important dans EViews est le workfile (espace de travail) et la première chose
à faire sera de créer un workfile ou d’ouvrir un workfile existant. Chaque objet est un
ensemble d’information se rapportant à un domaine particulier de l’analyse. Les objets
peuvent recevoir également des noms. Les objets les plus importants après le workfile sont
les séries et les équations. Il existe cependant un certain nombre d’autres objets qui jouent
des fonctions différentes. Il s’agit par exemple des vecteurs de coefficients, des bases de
données, des graphes, des groupes, des modèles, etc. Tous ces objets, à l’exception des
workfile et des bases de données, possèdent leurs propres icônes qui apparaissent dans le
workfile. Lorsqu’un nouvel espace de travail (workfile) est crée, deux objets apparaissent
automatiquement : le vecteur des coefficients et la série des résidus. Le vecteur des
coefficients sert à stocker les coefficients des équations estimées. Par défaut, ce vecteur est
nommé par la lettre c et ses coefficients sont c(1), c(2), …, c(k). Toutefois, on peut définir
d’autres vecteurs pour recevoir les coefficients, par exemple a ou b. Voici l’aperçu des
icônes associés à certains objets :
10
Pour créer un nouvel objet, il suffit de sélectionner Object/New Object, à partir du menu
principal ou du menu du workfile, de choisir ensuite le type d’objet, de le nommer et de
cliquer sur OK pour valider.
11
Chapitre 2 : Manipulation de données
Nous allons considérer des données portant sur la consommation privée réelle (Cons), la
consommation publique réelle (Consg), les dépenses publiques (GT), l’investissement public
(INVG), l’investissement privé (INVP), l’indice des prix à la consommation (IPC), le PIB réel
(PIBR) et le taux d’intérêt réel (R). Les données couvrent la période 1965-2002. Elles se
trouvent dans le fichier Excel intitulé cons.xls. Elles sont reportées en annexes pour que le
lecteur puisse lui-même refaire les exercices. Il convient toujours de prendre connaissance
des données et de noter le nombre de variables ainsi que la période des observations. Ces
deux éléments seront nécessaires dans le processus d’importation des données sous
EViews.
12
Après cette opération, on obtient l’écran suivant :
Dans notre exemple, les données sont annuelles et commencent en 1965 pour finir en 2002.
Si les données étaient trimestrielles, on aurait indiqué le trimestre après l’année en tapant
1965 :1 et 2001:4. Après avoir cliqué sur OK, l’écran suivant s’affiche :
13
(2) Tapez ici le
nom de la série à
créer
Après avoir validé, la variable Y apparaît dans le workfile. Répétez ces opérations autant de
fois que vous voulez créer de variables. Pour visualiser la variable créée, faites un double-clic
sur l’icône de la série dans le workfile. Toutes les valeurs apparaissent en NA. Ce symbole
indique qu’aucune valeur numérique n’est encore saisie pour la variable. Cliquez sur Edit +/-
pour activer l’édition des données. Vous pouvez maintenant entrer les observations de la
série Y. Appuyez la touche Entrée (sur votre clavier) après chaque nouvelle saisie. Avant de
fermer la fenêtre de saisie, cliquez à nouveau sur Edit +/-.
14
Précisez ensuite le nom du fichier de données (ici cons.xls) et cliquez sur ouvrir. Vous
obtenez l’écran suivant :
Taper ici le
nombre de
variables
Note * : La colonne A du fichier contient les années. Le fait d’avoir déjà précisé que les
données vont de 1965 à 2002 génère automatiquement la variable « année ». Les séries
commencent en réalité à partir de la colonne B, ligne 2. La ligne 1 contient les noms des
séries.
15
En cliquant sur OK, vous obtenez la fenêtre suivante:
Vous venez d’importer les données du fichier cons.xls dans le fichier de travail. Les huit (8)
séries CONS, CONSG, GT, INVG, INVP, IPC, PIBR et R apparaissent bien dans le workfile.
Range indique la période couverte par les séries. Sample indique la période qui va être
considérée dans les calculs. Nous pouvons maintenant procéder à l’analyse des données.
Pour visualiser les observations d’une série, double-cliquez sur la série. Pour visualiser un
groupe de variables, sélectionnez-les et faites Show puis validez. On peut aussi faire un clic
droit et sélectionner Open/As Group.
Il faut toujours enregistrer ou sauvegarder le worfile. Pour cela, cliquez sur Save et donnez
le nom de votre choix.
16
Générez de la même façon les logarithmes des autres variables. Les nouvelles séries
apparaissent dans le workfile. Pour créer un groupe comprenant les nouvelles séries,
sélectionnez les variables et choisissez Show dans le menu puis nommez le groupe.
2.5 Graphiques
Pour obtenir la représentation graphique d’une série, il faut d’abord la visualiser (faites
simplement un double-clic sur la série). Ensuite, sélectionnez View/Graph/Line. On peut
obtenir simultanément les graphiques de plusieurs séries en sélectionnant View/Multiple
Graphs/Line.
Graphiques séparés
9.0
8.8
8.8
8.4
8.6
8.4
8.0
8.2
7.6 8.0
7.8
7.2
7.6
7.4
6.8
1965 1970 1975 1980 1985 1990 1995 2000
1965 1970 1975 1980 1985 1990 1995 2000
LPIBR
LCONS
17
Graphiques simultanés
9.0
8.5
8.0
7.5
7.0
1965 1970 1975 1980 1985 1990 1995 2000
LPIBR LCONS
On peut également représenter le nuage de points entre deux variables. Ouvrez les deux
variables et sélectionnez View/Graph/Scatter/Simple Scatter. Pour le couple (LPIBR,
LCONS), on obtient le nuage de points suivant :
8.8
8.4
8.0
LCON S
7.6
7.2
6.8
7.4 7.6 7.8 8.0 8.2 8.4 8.6 8.8 9.0
LPIBR
On constate sur ce graphique qu’il existe une forte corrélation entre les deux variables. Un
ajustement linéaire de la consommation par le PIB paraît adéquat.
18
Vous pouvez sauvegarder ce graphique en cliquant sur Name dans la boîte de dialogue et
entrer le nom du graphique. Lorsque vous fermez la fenêtre graphique, le graphique
figurera dans le workfile comme un objet aux côtés des objets déjà présents.
Tableau 2.1 : Statistiques descriptives sur les séries LCONS, LPIBR, LIPC et LGT
Observations 38 38 38 38
19
L’interprétation des statistiques descriptives ne pose aucune difficulté particulière. La
statistique de Jarque-Bera suggère que l’hypothèse que la distribution des variables LCONS,
LPIBR et LGT est une loi normale ne peut être réjetée au seuil de 10%. Nous reviendrons sur
cette statistique dans les chapitres suivants. Pour retourner aux données, cliquez sur
l’onglet Sheet.
Pour obtenir la matrice des corrélations empiriques entre les variables, sélectionnez
View/Correlations/Common Sample ou View/covariance analysis/Correlation. On obtient
le tableau de résultats suivant :
Les coefficients de corrélation empiriques permettent d’évaluer les relations linéaires entre
les variables. On peut utiliser un test statistique pour tester la significativité de ces
coefficients. Tous les coefficients de corrélation sont ici élevés : les quatre variables sont
donc positivement corrélées entre elles. Cela signifie qu’elles évoluent dans le même sens.
Lorsqu’une variable prend des valeurs élevées, les autres prennent également des valeurs
élevées. L’analyse des corrélations est une étape importante dans le processus de
modélisation. D’une part, elle permet d’évaluer la pertinence d’une relation linéaire entre
les variables, et d’autre part, de détecter l’existence d’une multicolinéarité entre les
variables explicatives.
20
Chapitre 3 : Estimation des modèles linéaires à une équation
Ce chapitre est consacré à l’estimation des modèles linéaires à une seule équation. Il
synthétise un ensemble de connaissances fondamentales en économétrie. Il constitue le
point de départ indispensable au développement des outils nécessaires à l’étude de
situations qui seront analysées dans les chapitres suivants. Les aspects théoriques de
l’estimation et de l’inférence statistique ne seront pas développés, on se contentera
seulement de les rappeler en mettant l’accent plus particulièrement sur leur signification,
leur importance, leur interprétation et surtout leur vérification pratique. Après avoir rappelé
la spécification générale et les hypothèses théoriques à la base de ces modèles, le chapitre
propose une application à partir de l’estimation d’une fonction de consommation. Le
modèle estimé est soumis à une série de tests d’évaluation. Les procédures de correction
sont abordées de façon pratique. L’équation estimée est utilisée pour prévoir la
consommation sur un horizon temporel spécifié. Il est clair que la maîtrise des aspects
théoriques de l’économétrie du modèle linéaire est un atout indéniable qui facilitera
l’évaluation, la validation et l’interprétation des modèles économétriques. Le lecteur pourra
consulter des ouvrages comme Greene (1997) ou Bourbonnais (1998) sur les
développements théoriques relatifs à l’économétrie du modèle linéaire.
un terme d’erreur qui capte l’ensemble d’autres variables explicatives pertinentes non
21
prises en compte dans la spécification, mais aussi d’autres types d’erreurs de spécification
telles que la forme de la relation mathématique, l’erreur d’échantillonnage et les erreurs de
mesure sur les variables. Ce terme est supposé aléatoire, ce qui permet de rendre le modèle
non déterministe : les valeurs observées de la consommation peuvent ainsi s’écarter des
valeurs théoriques issues de l’équation. Toutefois, pour que l’ajustement soit satisfaisant,
les valeurs de et ne doivent pas être trop « grandes », sinon le modèle n’expliquerait pas
Notons que le caractère endogène ou exogène d’une variable n’est pas une caractéristique
intrinsèque de celle-ci, il dépend du modèle considéré. Ainsi, le PIB sera une variable
endogène dans un modèle global d’une économie, mais une variable exogène dans un
modèle du marché de l’immobilier. Nous reviendrons dans la suite sur le statut des variables
dans un modèle structurel quand nous aborderons les modèles à équations simultanées.
Une fois le modèle spécifié, il faut fournir des estimations des paramètres structurels a0 , a1 ,
Pour « gérer » les termes d’erreurs et ainsi que les propriétés du modèle, on pose les
hypothèses suivantes:
- Les erreurs et sont de moyenne nulle : les erreurs se compensent sur toute la
période;
- La variance des erreurs et est constante (hypothèse d’homoscédascticité) ;
- Les erreurs et sont indépendantes (l’erreur au temps t n’est pas influencée par
l’erreur aux temps t-1, t-2, ou plus généralement la corrélation entre deux
observations distinctes est nulle) ;
22
- Les erreurs et suivent une distribution normale.
On résume ces quatre hypothèses en posant que les termes d’erreurs sont normalement
identiquement et indépendamment distribuées et on note et ~ iid 0, 2 . La pertinence
des tests que nous allons faire sur le modèle dépendra de la validité de ces hypothèses.
L’hypothèse de normalité n’est pas indispensable pour garantir l’absence de biais dans
l’estimation des coefficients, mais elle s’avère cruciale pour réaliser les tests statistiques sur
le modèle.
En plus des hypothèses précédentes sur les termes d’erreurs, on pose également un certain
nombre d’hypothèses sur les variables explicatives. Ainsi une des hypothèses importantes
dans les modèles structurels est l’exogénéïté des variables explicatives. Cette hypothèse
signifie que les variables explicatives sont indépendantes du terme d’erreur et (
23
Cette méthode devient fastidieuse si le modèle comporte un grand nombre de variables
explicatives. En outre, l’obligation de taper les noms exacts des variables ajoute une
difficulté supplémentaire à cette procédure.
La deuxième façon de procéder (et la plus simple) consiste à sélectionner les variables qui
interviennent dans l’équation en commençant par la variable endogène (LCONS), à faire
ensuite un clic droit et à sélectionner Open as Equation. Quand vous cliquez sur as
Equation, vous obtenez la même fenêtre que précédemment : la première variable
sélectionnée occupe la première position suivie des autres variables. Cette variable est
interprétée par EViews comme étant la variable endogène de l’équation et les autres
variables les explicatives. Faites attention à la position de la variable endogène dans la
succession des variables qui s’affichent dans la fenêtre de spécification.
Remarquez que la méthode d’estimation utilisée par défaut est la méthode des moindres
carrés ordinaires. Cette méthode d’estimation consiste à minimiser la somme des distances
entre les valeurs observées de la variable endogène et ses valeurs ajustées. Il existe une
méthode alternative connue sous le nom de maximum de vraisemblance qui vise à
maximiser la fonction de vraisemblance du modèle. On peut cependant retenir que dans les
hypothèses de base du modèle linéaire les deux méthodes d’estimation donnent des
estimateurs équivalents.
24
A ce niveau, nous devons faire une remarque importante pour la suite. En effet, dans cette
spécification, nous avons utilisé les variables « loguées » (LCONS, LPIBR, LIPC et LGT).
L’avantage de cette transformation est d’obtenir directement les élasticités partielles.
Cependant, lorsque nous allons faire les prévisions, il faudra revenir aux valeurs en niveau
(CONS) en appliquant la fonction exponentielle. Pour contourner cette opération et faire
l’économie de calculs, nous allons entrer l’équation de la façon suivante :
25
Tableau 3.1 : Coefficients de régression de la fonction de consommation (3.1)
Included observations: 38
On peut nommer l’équation en tant qu’objet. Pour cela, cliquez sur Name et tapez le nom
(Eq1 par exemple). Pour documenter les résultats (dans un document Word par exemple),
cliquez sur View/Representations. Vous obtenez trois lignes de textes qui indiquent la
commande utilisée, l’équation estimée et les valeurs des coefficients de l’équation. Pour
revenir aux résultats de la régression, cliquez sur l’onglet Stats.
Nous allons maintenant procéder aux différents tests de spécification sur le modèle. Il s’agit
des tests sur les termes d’erreurs, du test d’erreur de spécification et des tests sur les
coefficients.
Les propriétés des estimateurs des moindres carrés ordinaires reposent sur un certain
nombre d’hypothèses formulées a priori sur les termes d’erreur. Il s’agit plus précisément
de la nullité de la moyenne, de l’absence d’autocorrélation, de l’homoscédasticité et de la
normalité des erreurs. Ces hypothèses économétriques sont importantes pour garantir de
bonnes propriétés aux estimateurs des moindres carrés ordinaires. Les tests d’hypothèses
économiques n’auront un sens que si la spécification économétrique du modèle n’a pas été
préalablement rejetée. Ne commentez pas les coefficients sans avoir vérifié au préalable les
hypothèses économétriques. En effet, le rejet, par exemple, des hypothèses d’absence
d’autocorrélation et d’homoscédasticité des erreurs rend l’estimateur des moindres carrés
ordinaires inefficace, et toute décision économique basée sur cet estimateur est risquée. En
corrigeant les estimations de l’autocorrélation ou de l’hétéroscédasticité, la significativité de
certains coefficients peut s’en trouver modifier.
Dans cette section, nous présentons les tests d’hypothèses économétriques permettant
27
d’évaluer la spécification économétrique retenue. Mais il convient au préalable de savoir ce
qu’est un test d’hypothèse. Un test d’hypothèse consiste à tester une hypothèse nulle notée
le plus souvent H 0 contre une hypothèse alternative notée H 1 . Il ne s’agit pas d’une
données disponibles ne sont pas en contradiction avec cette hypothèse et que l’on n’a pas
de raison suffisante de lui préférer l’hypothèse alternative compte tenus des résultats
obtenus sur l’échantillon. Rejeter H 0 n’entraîne nullement l’acceptation de H 1 . En effet,
Par nature, le jugement sur échantillon ne permet pas de décider avec certitude. Nous ne
pouvons pas être sûr que l’hypothèse examinée est juste ou fausse. Il nous faudrait pour
cela examiner la population dans sa totalité, ce qui est physiquement ou économiquement
impossible, voire parfois sans intérêt. C’est pour cela, pour effectuer un test d'hypothèses,
on se fixe une probabilité d’erreur a priori notée , appélée encore erreur de première
espèce ou seuil de signification: c’est la probabilité de rejeter l’hypothèse nulle sachant
qu’elle est vraie.
La procédure d’un test d’hypothèse répose sur l’utilisation d’une variable aléatoire
(statistique de test) dont la distribution est connue sous l’hypothèse nulle. On divise
l’ensemble des réalisations possibles de cette variable en deux régions : une région
d’acceptation de l’hypothèse nulle et une région de rejet, la frontière étant déterminée par
une valeur critique, elle-même determinée par le seuil de signification . Il arrive que la
statistique de test conduit à accepter H 0 alors qu’en réalité elle est fausse. Dans ce cas, on
commet une erreur dite de deuxième espèce notée . L’aptitude d’un test à rejetter
l’hypothèse nulle lorsqu’elle est fausse constitue la puissance du test. Logiquement, plus la
région d’acceptation est grande plus l’erreur de deuxième espèce est grande. Les deux types
d’erreur sont intimement liés. On ne peut réduire l’une qu’en consentant à accroitre l’autre
et vice-versa. Le seul moyen de réduire l’une et l’autre est d’accroitre le nombre
d’observations. Plus les observations sont nombreuses, plus est étroit le champ des
hypothèses admissibles et mieux nous sommes armés pour rejetter l’hypothèse lorsqu’elle
est fausse.
28
Dans la méthodologie des tests statistiques, on considère que l’erreur de première espèce
est plus grave que l’erreur de deuxième espèce. Par conséquent, on choisit, dans la
pratique, un faible :1%, 5% ou 10% et on accepte l’erreur dont la valeur dépend des
données. Dans la pratique, les logiciels statistiques calculent un niveau de probabilité qu’on
appelle la p-value qui réprésente le seuil d’erreur minimal pour lequel la statistique de test
rejette l'hypothèse nulle. La p-value a l’avantage d’être directement interprétable : on
rejette l’hypothèse nulle lorsque la p-value est inférieure à .
3.3.1 Test de normalité
29
Figure 3.1 : Histogramme de la série des résidus de l’équation (3.1)
10
Series: Residuals
Sample 1965 2002
8 Observations 38
Mean 1.97E-15
6 Median -0.009997
Maximum 0.114133
Minimum -0.072786
4 Std. Dev. 0.042825
Skewness 0.687528
Kurtosis 3.013218
2
Jarque-Bera 2.994007
Probability 0.223800
0
-0.05 0.00 0.05 0.10
30
A droite de l’histogramme se trouvent un ensemble de statistiques descriptives portant sur
la série des résidus : la moyenne, la médiane, le maximum, le minimum et l’écart-type.
L’écart-type est estimé à partir de la formule suivante :
e t e
2
s T 1
(3.2)
T 1
En plus de ces statistiques, EViews reporte des indicateurs de forme qui permettent
d’apprécier la normalité de la série. Le Skewness mesure l’asymétrie de la distribution
autour de sa moyenne. Elle est calculée par la formule:
1 T et e
3
S (3.3)
T t 1 ˆ
T 1
où ˆ s est l’écart type des observations résiduelles.
T
Le Skewness d’une distribution symétrique, comme la distribution normale, est nulle. Ainsi
un Skewness positif signifie que la distribution est décalée vers la droite et une valeur
négative signifie que la distribution a une longue queue vers la gauche. Dans notre cas, le
Skewness n’est pas trop éloigné de zéro.
1 T e e
4
K t (3.4)
T t 1 ˆ
31
Le Kurtosis d’une distribution normale est égal à 3. Si le Kurtosis reporte une valeur
supérieure à 3, alors la distribution est plus pointue par rapport à la normale (elle est dite
leptokurtique) ; si la valeur du Kurtosis est inférieure à 3, la distribution est plus aplatie que
la normale (elle est dite platikurtique). Dans notre cas, le Kurtosis approche la valeur 3.
T k 2 ( K 3) 2
JB S (3.5)
6 4
Sous l’hypothèse de normalité, la statistique de Jarque-Bera est distribuée suivant une loi du
En plus du test de Jarque-Bera, EViews permet de faire d’autres tests de normalité comme
par exemple le test de Kolmogorov-Smirnov, le test de Lilliefors, le test de Cramer-von
Mises, le test d’Anderson-Darling et le test de Watson. Ces tests sont basés sur la
comparaison de la distribution empirique et une distribution théorique spécifiée.
Pour réaliser ces tests, double-cliquez sur la série des résidus RES, et sélectionnez
View/Distribution/Empirical Distribution Tests. Vous obtenez la fenêtre suivante :
32
La distribution théorique est la distribution normale. Cette distribution est caractérisée par
sa moyenne et son écart-type. En ne renseignant pas ces paramètres, EViews les estime par
la méthode du maximum de vraisemblance sous l’hypothèse de normalité. Nous choisissons
ici cette option. Cliquez alors sur OK pour obtenir les résultats.
Le tableau des résultats (cf. Tableau 3.2) comporte deux parties. La première partie (PARTIE
I) présente les statistiques de tests et les probabilités critiques correspondantes. La colonne
« Value » donne les valeurs asymptotiques des statistiques de tests et la colonne
« Adj.Value » corrige ces valeurs pour tenir compte à la fois de la taille finie de l’échantillon
et de l’incertitude sur les estimations des paramètres de la distribution théorique. La
dernière colonne indique les probabilités des valeurs ajustées.
33
Tableau 3.2 : Statistiques du test de normalité des résidus de l’équation (3.1)
PARTIE I
PARTIE II
La seconde partie du tableau (PARTIE II) indique les valeurs des paramètres utilisées pour
calculer la fonction de densité théorique. La moyenne de la série résiduelle RES est estimée
à 1.97x10-15 avec une probabilité égale à 1, indiquant que les erreurs ont une moyenne qui
n’est pas significativement différente de zéro. L’écart-type est estimé à 0.04282 avec une
probabilité qui indique que ce paramètre est significativement différent de zéro. On
remarquera que ces valeurs sont les mêmes que celles reportées dans l’histogramme des
résidus. Dans la partie inférieure du tableau on peut lire la valeur de la fonction de
vraisemblance ainsi que le nombre de paramètres estimés (moyenne et écart-type). Pour
revenir au tableau des estimations, cliquez sur l’onglet Stats.
34
3.3.2 Test d’hétéroscédasticité
L’hétéroscédasticité qualifie des données qui n’ont pas une variance constante.
L’hétéroscédasticité des erreurs ne biaise pas l’estimation des coefficients, mais plutôt les
tests statistiques puisque les écarts-types estimés des coefficients ne sont pas adéquats. Le
problème de l’hétéroscédasticité se rencontre plus fréquemment sur des données en coupe
instantanée ou bien sur des données groupées. Elle prend souvent une forme particulière
sur des données temporelles. Néanmoins, il est important dans tous les cas de savoir la
détecter et la corriger.
Plusieurs tests existent pour détecter l’hétéroscédasticité. Il s’agit en particulier du test de
Goldfeld et Quandt (1965), du test de Breusch et Pagan (1979), du test de Glesjer (1969) et
du test de White (1980). L’idée générale de ces tests est de vérifier si le carré des résidus
peut être expliqué par les variables du modèle. Si c’est le cas, il y a hétéroscédasticité. Dans
le contexte du test d’hétéroscédasticité de White, l’hypothèse nulle est que tous les
coefficients de la régression des carrés des résidus sont nuls, c’est-à-dire les variables du
modèle n’expliquent pas la variance des termes d’erreurs. Dans les tests de Goldfeld et
Quandt et de Breusch et Pagan, les variables responsables de l’hétéroscédasticité peuvent
être des variables extérieures aux modèles, c’est-à-dire des variables qui ne font pas partie
des variables exogènes. Il est clair qu’en pratique trouver de telles variables n’est pas
toujours une tâche aisée. Ces deux derniers tests ne sont pas encore disponibles en mode
interactif sous EViews. Toutefois, ils peuvent être programmés sous grande difficulté2.
Nous allons tester l’hypothèse d’hétéroscédacticité à l’aide du test de White. Nous
l’appliquons ici dans sa forme complète, c’est-à-dire en introduisant dans l’équation non
seulement les variables explicatives et leurs carrés mais également les doubles produits.
Pour ce faire, sélectionnez View/Residual Tests/White Heteroskedasticity (cross terms). Le
tableau qui s’affiche donne la régression de White. Les statistiques sur lesquelles est basé le
test de White figurent dans le haut du tableau. Il s’agit des tests de Fisher (F-statistic) et du
Chi-deux. La statistique du test de White est égale au produit du nombre d’observations et
du coefficient de détermination de la régression de test (Obs*R-squared). Le résultat du test
figure dans le tableau suivant:
2
Pour une présentation théorique de ces tests, voir Dormon (1999, pp. 299-306).
35
Tableau 3.3 : Statistiques du test d’hétéroscédasticité de White
36
3.3.3 Test d’autocorrélation
L’autocorrélation des erreurs signifie que le terme d’erreur correspondant à une période est
corrélé avec le terme d’erreur d’une autre période. Si cette corrélation joue entre deux
termes consécutifs ( et et et 1 ), on parle d’autocorrélation d’ordre un. La plupart des
applications sur des données annuelles impliquent des autocorrélations d’ordre un. Dans les
séries temporelles, l’autocorrélation des erreurs peut avoir plusieurs origines. Elle peut
provenir de phénomènes de mémoire ou d’inertie dans la fonction de comportement des
agents. Elle peut également être liée à une erreur de spécification de la forme fonctionnelle
ou à une erreur de mesure ou encore à l’omission d’une variable explicative pertinente
corrélée dans le temps. Dans le cas des données transversales, il est possible d’observer une
autocorrélation spatiale si les observations ont été préalablement rangées selon un certain
ordre, par exemple géographique.
Il existe plusieurs tests de l’autocorrélation des erreurs. Les plus couramment utilisés sont le
test de Durbin et Watson (1950 et 1951), le test de Ljung et Box (1979) et le test de Breusch
et Godfrey (1978).
Les conditions d’application du test de Durbin et Watson supposent que les variables
explicatives ne sont pas aléatoires, ce qui implique que la variable endogène retardée ne
figure pas parmi les variables explicatives (sinon elle serait corrélée avec les termes erreurs
en cas d’autocorreléation). De plus, le modèle doit être spécifié avec une constante parmi
les explicatives et les erreurs doivent suivre une loi normale. Ce test ne s’applique que sur
des données temporelles. Le modèle (3.1) remplit bien toutes ces conditions.
statistique de Durbin-Watson se lit directement dans le tableau des estimations. Elle est liée
au coefficient d’autocorrélation des erreurs par la formule :
DW 2(1 ˆ ) (3.6)
37
Cette formule s’avère utile en pratique car elle permet dans certains cas d’avoir très
rapidement une idée sur l’autocorrélation des erreurs. La valeur calculée de DW est
comprise entre 0 et 4. Une valeur proche de 2 indique une absence d’autocorrélation des
erreurs tandis qu’une valeur proche de zéro ou de 4 est révélatrice d’une autocorrélation
des erreurs (autocorrélation positive ou négative). Pour des valeurs qui s’éloignent de ces
deux valeurs, il faut consulter les valeurs critiques tabulées par Durbin et Watson pour
pouvoir décider en toute assurance.
Dans notre cas, la statistique de Durbin-Watson reporte une valeur de 1.302 qui n’est ni
proche de zéro ni proche de 2. Le recours à la table de Durbin et Watson est donc nécessaire
pour conclure. On lit dans la table de Durbin et Watson3 à n 38 et k 3 , d 1 1.32 et
3
Voir Bourbonnais (1998), Table de Durbin-Watson, page 297.
38
Figure 3.2 : Corrélogramme de la série des résidus de l’équation (3.1)
On observe ici que seul le premier terme du corrélogramme sort de l’intervalle de confiance.
En effet, la Q-stat de Ljung-Box reporte une valeur de 3.883 avec une probabilité de 0.049
39
inférieure à 0.05. Nous rejetons donc l’hypothèse de nullité du premier coefficient
d’autocorrélation.
On retient finalement l’hypothèse d’une autocorrélation des erreurs à l’ordre un. L’équation
de consommation doit donc être re-spécifiée et re-estimée avant d’être utilisée pour la
prévision ou la prise de décision. Rappelez-vous que l’autocorrélation des erreurs d’un
modèle peut provenir d’une mauvaise spécification ou d’un oubli de variables explicatives
pertinentes. Avant d’appliquer une méthode de correction, nous allons effectuer le test
d’erreur de spécification de Ramsey (1969).
40
3.4 Test d’erreur de spécification
Dans ce qui précède nous avons testé les différentes hypothèses portant sur les termes
d’erreurs. Cependant, il existe d’autres types d’erreurs de spécification qui peuvent affecter
l’estimation du modèle. Le test de Ramsey (1969) teste les trois types d’erreurs de
spécification suivantes :
41
Le résultat du test est donné dans le tableau suivant :
42
Nous allons re-estimer le modèle en retenant une autocorrélation d’ordre 1. Pour cela,
cliquez sur Estimate dans le menu de l’équation pour retourner à la spécification de
l’équation, et ajoutez un terme AR(1) à la fin de l’équation.
43
LOG(GT) 0.02933 0.04697 0.62450 0.5367
Nous reviendrons sur les autres méthodes d’estimation dans le chapitre consacré à la
programmation. Rappelez-vous que plusieurs raisons peuvent être à l’origine de
l’autocorrélation des erreurs, dont l’omission de variables explicatives pertinentes. Aussi,
est-il possible de corriger l’autocorrélation des erreurs en introduisant des retards de la
variable endogène parmi les variables explicatives. Nous reviendrons sur ce point lorsque
nous aborderons les modèles à décalages temporels.
Les tests de restrictions linéaires sur les coefficients sont de trois types : le test de
significativité globale des coefficients, le test de significativité des coefficients pris
individuellement et le test de stabilité. Le test de significativité globale et le test de
significativité individuelle des coefficients sont réalisés à partir respectivement de la
44
statistique de Fisher et de la statistique de Student. Ces statistiques reposent sur
l’hypothèse de normalité des erreurs. On peut aussi utiliser un test du rapport de
vraisemblance.
Le test de significativité globale des coefficients cherche à savoir s’il existe au moins un
coefficient parmi tous les coefficients, à l’exception de la constante, qui soit
significativement différent de zéro, c’est-à-dire une variable explicative qui influence
significativement la variable endogène. On teste l’hypothèse nulle selon laquelle tous les
coefficients du modèle, à l’exception de la constante, sont égaux à zéro, contre l’hypothèse
alternative selon laquelle il existe au moins un coefficient différent de zéro. Ce test est
réalisé à partir de la statistique de Fisher. Celle-ci figure directement dans le tableau des
estimations. Si l’hypothèse nulle est acceptée, cela signifie qu’il n’existe aucune relation
linéaire significative entre la variable endogène et les variables explicatives retenues. Il
faudrait alors rechercher une spécification plus adéquate de la dynamique de la variable
endogène.
La valeur de la statistique de Ficher reporte ici une valeur de 642.746 avec une probabilité
presque nulle. Manifestement les coefficients sont globalement significatifs, ce qui signifie
que, prises ensemble, les trois variables explicatives influencent de façon significative les
variations de la consommation.
45
R2 T k 1
F (3.7)
1 R2 k
T 1
(1 R 2 ) (1 R 2 ) (3.8)
T k 1
T k 1
D’après cette expression, on constate que R 2 0 dès que 1 R 2 .
T 1
46
Le coefficient ajusté permet de comparer objectivement les pouvoirs explicatifs de deux
modèles portant sur la même variable dépendante mais n’impliquant pas le même nombre
de variables explicatives4.
Dire qu’un coefficient est significatif signifie que la variable explicative correspondante
contribue de façon significative à l’explication de la variable endogène. La significativité d’un
coefficient est testée à partir du t de Student. On teste l’hypothèse d’un coefficient nul
contre l’hypothèse alternative d’un coefficient différent de zéro (positif ou négatif, le test
étant bilatéral). Un coefficient sera significatif si la probabilité est inférieure au seuil de 5%.
Cette probabilité apparaît dans la dernière colonne du tableau des estimations (cf. tableau
3.1). Rappellons que cette probabilité est calculée sur la base de l’hypothèse de normalité
des termes d’erreurs. Pour la variable LPIBR, la probabilité est presque nulle. Par
conséquent, quel que soit le seuil retenu, cette variable contribue significativement à
expliquer le niveau de la consommation. L’élasticité-revenu de la consommation est égale à
0.94, ce qui signifie que, toutes choses égales par ailleurs, une augmentation du revenu de
10% entraîne un accroissement de la consommation de 9.4%. On constate également que le
coefficient de la variable de prix est significatif au seuil de 5%. En revanche, l’utilisation des
probabilités permet de rejeter, sans ambiguïté, le caractère significatif des dépenses
publiques. En effet, le rejet de l’hypothèse nulle entraîne une probabilité d’erreur de 47%.
On peut cependant continuer à interpréter les résultats de l’estimation dans la mesure où le
maintien d’une variable explicative non significative ne biaise pas les estimations sous les
hypothèses économétriques initiales. Toutefois, si le modèle doit être utilisé à des fins de
4 2
L’ajout d’une variable à l’équation entraîne une augmentation du R si et seulement si le t de Student de cette
2 2
variable est, en valeur absolue, supérieure à 1 (Greene, 1997). Le R est inférieur au R . Les deux statistiques
sont asymtotiquement équivalentes.
47
prévision, on peut être amené à éliminer cette variable conformément au principe de
parcimonie.
La non significativité de la variable LGT peut apparaître surprenante dans la mesure où cette
variable présente une très forte corrélation avec la consommation (voir la matrice de
corrélation présentée dans le tableau 2.2 du chapitre 2). En fait, il existe une très forte
corrélation entre les trois variables explicatives, qui fait peser un risque de multicolinéarité.
Or la multicolinéarité entre les variables explicatives d’un modèle linéaire conduit à des
écarts-types des coefficients élevés, donc à des statistiques de Student faibles, conduisant à
la non significativité des coefficients alors que le coefficient de détermination R 2 reporte
une valeur élevée. En outre, en présence de multicolinéarité approchée, il est difficile, sinon
impossible, d’isoler l’effet intrinsèque de chacune des variables explicatives sur l’endogène
(il y a confusion des effets), car toute variation de l’une des variables explicatives implique
une variation des autres variables. En supprimant tour à tour chacune des variables, on
constate que les autres variables présentent des coefficients bien significatifs. Mais la forte
colinéarité entre les variables génère un coefficient non significatif pour la dernière variable.
On rencontre très souvent ce genre de problème d’adéquation entre la théorie économique
et la pratique économétrique : en théorie on peut supposer que des variables sont
orthogonales mais lors de la modélisation on se rend compte qu’elles sont liées entre elles.
On peut obtenir des coefficients non significatifs ou affectés d’un signe erroné.
En réalité, le coefficient de corrélation simple n’est pas trop révélateur du degré de liaison
réelle entre deux variables. Il est d’une utilité limitée lorsqu’on travaille avec plusieurs
variables. On préfère dans ces conditions utiliser le coefficient de corrélation partielle qui
mesure la liaison ou corrélation nette entre deux variables lorsque l’influence d’une tierce
variable est retirée. Le coefficient de corrélation partielle permet de mieux juger de la
pertinence d’inclure une variable explicative dans un modèle. Ainsi plus le coefficient de
corrélation partielle d’une variable est élevé, plus sa contribution est importante à
l’explication des variations de la variable endogène. Dans notre exemple, le coefficient de
corrélation partielle entre la consommation et les dépenses publiques est égal à 0.124 avec
une probabilité de 0.472. Ainsi, lorsqu’on contrôle par le revenu et les prix, l’influence des
dépenses publiques sur la consommation devient non significative.
48
Il existe plusieurs techniques pour détecter la multicolinéarité entre les variables
explicatives, dont le test de Klein et le test de Farrar-Glauber5. La procédure du test de Klein
(1962) consiste à comparer le coefficient de détermination R 2 du modèle et les coefficients
de détermination entre les variables explicatives considérées deux à deux Rij2 . Il y a
faiblesse de cette méthode vient de ce que la colinéarité peut impliquer plus de deux
variables explicatives. On peut alors préférer régresser chaque variable explicative sur
toutes les autres variables explicatives. Si les coefficients de détermination R 2j sont élevés,
Une deuxième approche consiste à remplacer les variables explicatives par un nombre plus
faible de combinaisons linéaires. A cet égard, les méthodes d’analyse factorielle telles que
l’Analyse en Composantes Principales (ACP) et l’Analyse des Correspondances Multiples
(ACM) peuvent s’avérer utiles, surtout si le nombre de variables explicatives est important6.
L’avantage d’utiliser des combinaisons linéaires issues d’une analyse factorielle réside dans
l’orthogonalité de ces combinaisons. Il faut cependant noter que l’utilisation des
composantes principales n’a pas de justification théorique. De plus, il est souvent difficile de
donner une signification précise à ces composantes principales, ce qui vient compliquer
l’interprétation des coefficients du modèle.
5
Une présentation théorique et une application de ces tests sont faites dans Bourbonnais (1998) pages 100-103.
6
Les aspects techniques et pratiques de ces méthodes sont développés dans Lebart L., Morineau A. et Piron, M.
(1995), Statistique exploratoire multidimensionnelle, Dunod, Paris. Jambu M. (1999), Méthodes de base de
l’analyse des données, Dunod, Paris.
49
Il existe d’autres méthodes pour corriger les effets d’une forte multicolinéarité. On peut
chercher à augmenter le nombre des observations ou bien transformer la relation
fonctionnelle qui lie les variables explicatives à la variable endogène.
Il est donc important de compléter la série des tests économétriques par des tests de
stabilité. Ces tests s’intéressent plus généralement à des questions du genre : peut-on
considérer qu’il y a eu un changement dans le comportement de consommation des
ménages après telle date? La propension marginale à consommer est-elle restée constante
sur toute la période d’estimation? Les sources de la croissance sont-elle restées les mêmes
avant et après la crise des années 1980? Le comportement de consommation des hommes
est-il identique à celui des femmes? Lorsqu’on travaille sur des données temporelles, les
tests de stabilité prennent la forme de tests de stabilité temporelle ou structurelle. Sur des
données en coupe instantanée, il s’agit de tests d’homogénéité de comportements
(hommes/femmes ; riches/pauvres etc.).
Il existe plusieurs tests de stabilité dont les plus utilisés sont le test de Chow, l’analyse des
résidus et des coefficients récursifs et les tests CUSUM et CUSUMQ de Brown, Durbin et
Evans (1975). Le test de Chow effectue un test de Fisher en comparant les estimations des
coefficients sur deux ou plusieurs sous périodes. Il nécessite d’indiquer une ou plusieurs
50
dates de rupture dans les séries, ce qui requiert une analyse exploratoire plus précise des
séries. Les tests CUSUM et CUSUMQ dispensent de cette connaissance préalable.
Nous allons réaliser le test de Chow en considérant les deux sous périodes 1965-1993 et
1994-2002. A partir du menu de l’équation, sélectionnez View/Stability Tests/Chow
Breakpoint Test…
Entrez 1994 dans la boîte de dialogue qui apparaît. Cette date correspond à la date
supposée de rupture. Cliquez sur OK pour obtenir le tableau suivant :
51
La statistique de Fisher reporte une probabilité supérieure à 5% : on ne peut donc pas
rejeter au seuil de 5% l’hypothèse de stabilité des coefficients. En d’autres termes, l’année
1994 n’introduit pas un changement structurel significatif dans le comportement de
consommation des ménages. Notons que le test de Chow n’est pas pertinent si la date
choisie ne correspond pas à la véritable date de rupture.
Une autre procédure de test de stabilité consiste à analyser les résidus ou les coefficients
récursifs. Ces derniers sont obtenus en estimant de façon récursive le modèle : on
commence à estimer le modèle avec un nombre réduit d’observations, puis on augmente
progressivement ce nombre jusqu’à utiliser toutes les données. A chaque fois, on calcule de
nouveaux coefficients (les coefficients récursifs) à partir desquels on génère les résidus
récursifs normalisés. Si le modèle est stable, les coefficients récursifs seront très proches et
les résidus récursifs seront indépendamment et normalement distribués, de moyenne nulle
et d’écart-type constant. Les tests CUSUM et CUSUMSQ sont basés sur les résidus récursifs.
Le CUSUM utilise la somme cumulée des résidus récursifs tandis que le CUSUMSQ utilise le
carré des résidus récursifs. Ces statistiques de test offrent l’avantage par rapport au test de
Chow de ne pas connaître a priori la date de rupture.
52
Il suffit de cocher la case correspondante au test que l’on veut faire (résidus récursifs,
CUSUM ou CUSUMQ). Les résultats pour les tests CUSUM et CUSUMQ sont représentés
dans les graphiques suivants :
20
15
10
-5
-10
-15
-20
1970 1975 1980 1985 1990 1995 2000
CUSUM 5% Significance
1.6
1.2
0.8
0.4
0.0
-0.4
1970 1975 1980 1985 1990 1995 2000
53
Si les courbes sortent du corridor stylisé par les droites en pointillés, on conclut qu’il y a
instabilité du modèle. Sinon, le modèle peut être considéré comme stable sur toute la
période. Ici, aucune des statistiques CUSUM et CUSUMQ ne franchit les droites: nous
pouvons donc conclure que le comportement de consommation des ménages est resté
stable sur toute la période.
Nous avons estimé une équation de consommation sur la période 1965-2002. Nous allons
maintenant utiliser cette équation pour réaliser des prévisions sur la période 2003-2010. Il
s’agira de déterminer les valeurs de la consommation pour des valeurs attribuées au revenu
et au prix. La variable LGT sera éliminée parmi les variables explicatives. Avant de se livrer à
l’exercice, nous allons évaluer la capacité prédictive du modèle en réalisant une simulation
historique.
La simulation historique consiste à appliquer le modèle pour générer les valeurs passées de
la consommation. Cette simulation par resubstitution permet d’évaluer la capacité
prédictive du modèle, c’est-à-dire son aptitude à reproduire les données historiques. Pour
réaliser la simulation, sélectionnez Procs/Forecast ou cliquez simplement sur le bouton
Forecast dans la barre de menu de la fenêtre des estimations. Vous obtenez la fenêtre
suivante :
54
Bien que le modèle estimé soit spécifié sous la forme logarithmique, EViews offre la
possibilité de prévoir directement les valeurs de la série en niveau pour l’horizon temporelle
défini. La série simulée est nommée en ajoutant la lettre F (pour Forecast) au nom de la
variable endogène. Ici cette série prend le nom CONSF. Toutefois, il est possible de la
renommer autrement. La variable CONSF apparaît dans le workfile.
Il existe deux méthodes de prévision : la méthode statique et la méthode dynamique. La
différence réside dans le traitement des valeurs retardées des variables endogènes durant la
simulation. Le choix entre ces deux méthodes se pose lorsque le modèle compote une
dynamique autorégressive. La prévision statique requiert que les données sur les variables
explicatives (exogènes et endogènes retardées éventuellement) soient disponibles sur toute
la période de prévision. La méthode dynamique utilise les valeurs passées estimées de la
variable dépendante pour former la prévision de la période suivante. Pour la première
observation, ces deux méthodes donnent la même prévision. L’équation que nous avons
estimée n’est pas un modèle dynamique, c’est pourquoi seule l’option Static est disponible.
Nous utiliserons la méthode dynamique dans la section consacrée aux modèles à décalages
temporels.
Dans le champ Forecast sample, indiquez la période de prévision et cliquez sur OK pour
valider. Vous obtenez le graphique donnant l’évolution de la variable CONSF sur toute la
période historique 1965-2002. Les courbes en pointillés matérialisent les bornes inférieure
55
et supérieure de l’intervalle de confiance à 5% des valeurs prévisionnelles. Une bonne
adéquation se traduit par un resserrement de ces deux courbes.
6000
Forecast: CONSF
Actual: CONS
5000
Forecast sample: 1965 2002
Included observations: 38
4000
Root Mean Squared Error 158.1191
Mean Absolute Error 114.9630
3000
Mean Abs. Percent Error 3.378645
Theil Inequality Coefficient 0.023481
2000 Bias Proportion 0.000559
Variance Proportion 0.011606
1000 Covariance Proportion 0.987835
0
1965 1970 1975 1980 1985 1990 1995 2000
CONSF
On peut représenter simultanément les évolutions des séries CONS et CONSF afin d’évaluer
graphiquement l’écart entre les valeurs réelles et les valeurs simulées. On constate (cf.
figure 3.5) que globalement les simulations historiques ne s’écartent pas trop des valeurs
réelles.
6000
5000
4000
3000
2000
1000
1965 1970 1975 1980 1985 1990 1995 2000
CONS CONSF
Les statistiques figurant à droite du graphique de CONSF (cf. figure 3.4) permettent de
procéder à une évaluation statistique de la qualité prédictive du modèle. Root Mean
Squared Error et Mean Absolute Error sont des statistiques qui dépendent de l’échelle de
mesure de la variable endogène. Elles permettent de comparer les prévisions d’une même
56
endogène pour différents modèles. Mean Absolute Percentage Error (MAPE) et Theil
Inequality Coefficient sont indépendantes de l’échelle de mesure de la variable endogène.
Le coefficient d’inégalité de Theil est compris en 0 et 1, une valeur proche de zéro indiquant
une bonne adéquation.
La moyenne des carrés des erreurs de prévision (Mean Squared Error) est décomposée
suivant trois types de proportions. Bias Proportion indique combien la moyenne des
prévisions s’écarte de la moyenne des valeurs actuelles de la série. Variance Proportion
indique combien la variation des valeurs prévisionnelles s’écarte de celle des valeurs
actuelles. Covariance Proportion mesure les erreurs de prévision non systématiques. Pour
une bonne prévision, les deux premières proportions devraient fournir des valeurs faibles.
Notons que EViews n’affiche ces différentes statistiques que lorsque les valeurs de la
variable endogène sont renseignées sur la période de simulation. Il s’agit en effet de
comparer les valeurs prédites avec les valeurs réellement observées de la variable
endogène. En pratique, on utilise ces statistiques pour évaluer l’adéquation des prévisions
avec les réalisations. Si cette adéquation est bonne alors on peut procéder à la prévision
proprement dite de la variable endogène. Dans notre exemple, MAPE= 3,378% et
Theil=0,023. La performance prévisionnelle du modèle est donc bonne.
Cette méthode d’évaluation présente cependant un biais : elle fournit le plus souvent une
mesure optimiste de la capacité prédictive du modèle car elle applique le modèle à des
données qui ont servit à le construire. Une autre façon d’apprécier plus objectivement la
capacité prédictive d’un modèle consiste à utiliser le modèle pour prédire les valeurs de la
variable endogène pour une période non comprise dans l’échantillon d’estimation et à
vérifier si les valeurs prédites sont suffisamment proches des valeurs effectivement
observées durant cette période. Cette approche repose sur l’hypothèse de stabilité
structurelle du modèle.
57
et celle de l’échantillon (Sample). Ensuite, nous devons renseigner les valeurs futures du
revenu et du prix. De façon pratique, voici les étapes à suivre:
58
On peut générer ces valeurs en utilisant le menu Quick/Generate Series puis en
entrant la formule comme indiquée dans la fenêtre suivante :
ˆ
2003 5021.0238
2004 5608.9072
2005 6198.3274
2006 6823.6568
2007 7501.8256
2008 8243.1766
2009 9055.8617
2010 9947.5928
59
Quatre types d’erreurs entachent la qualité des prévisions : l’incertitude sur l’évolution
future des termes d’erreur; l’incertitude sur les coefficients structurels; l’incertitude sur les
valeurs futures des variables explicatives et l’erreur sur la spécification du modèle.
L’incertitude sur les termes d’erreur provient du fait que ces termes ne sont pas connus sur
la période de prévision, ils sont remplacés par leur valeur moyenne. Or si cette moyenne est
nulle sur une période, les valeurs individuelles peuvent cependant être non nulles. Plus
l’erreur individuelle sera importante, plus l’erreur de la prévision sera grande. L’erreur-type
fournit une mesure statistique de la variation des erreurs individuelles.
L’incertitude sur les coefficients structurels provient du fait que ces derniers sont estimés. Il
se peut donc que ces estimations dévient des valeurs vraies des coefficients. Les écart-types
des coefficients donnent une idée sur la précision avec laquelle ces coefficients sont
estimés. L’effet de ces incertitudes sur la prévision dépend de la trajectoire prévisionnelle
des variables exogènes. Plus ces variables dévieront fortement de leurs tendances
moyennes, plus grande sera l’imprécision des prévisions. La connaissance imprécise des
valeurs futures des variables exogènes introduit un élément supplémentaire d’incertitude
dans la prévision de la variable endogène. La qualité des prévisions dépend également du
choix de la spécification du modèle. Par exemple, si l’on adopte une spécification linéaire de
façon « mécanique » alors qu’en réalité la relation véritable est non linéaire, les prévisions
seront mauvaises. C’est pour ces diverses raisons que la prévision conditionnelle ne doit pas
être utilisée sur un horizon temporel assez long. Les techniques de prévision utilisant la
méthodologie de Box et Jenkins s’avèrent moins exigeantes en conjectures dans la mesure
où elles utilisent seulement l’information contenue dans la mémoire des séries pour former
les prévisions.
Annexes
Les données qui ont servi aux applications sont reportées ici afin de permettre aux étudiants
de s’exercer à reproduire les résultats.
60
Tableau A1 : Données de base
61
1984 3273.096 1029.535 674.807 182.813 353.991 50.042 4839.435 7.24
62
Chapitre 1 : Présentation du logiciel STATA
La figure ci-dessous reproduit un écran type de STATA. Quatre fenêtres sont repérables :
La fenêtre résultat
En haut à droite sur fond noir, la fenêtre décrit les résultats des commandes ; des régressions.
La fenêtre de commande
En bas, la fenêtre commande permet de taper ici des commandes qui peuvent être exécutés
par la touche Entrée. On n’utilise cette fenêtre que pour essayer de façon interactive des
commandes mais pas pour rédiger un programme.
63
La fenêtre de variables
En bas à droite la fenêtre de variables liste les variables avec les "labels" de celles-ci quand
elles existent. Il suffit de cliquer sur l'une d'elles pour qu'elle soit saisie par la fenêtre
commande.
En haut à droite la fenêtre des commandes passées récapitule les commandes déjà utilisées et
il suffit de cliquer sur l'une d'elle pour la rappeler dans la fenêtre commande.
La barre d’outil de STATA ci-dessous permet facilement de gérer les actions de base. De
gauche à droite : ouvrir un fichier de données STATA, sauvegarder un fichier de donnée
(équivalent à la commande save), imprimer les résultats tels qu’ils apparaissent dans la
fenêtre de résultats, commencer un log qui est une procédure qui stocke dans un fichier « .log
» les commandes suivis des résultats, un bouton pour faire apparaitre la fenêtre résultat
lorsqu’elle n’est pas présente, un bouton avec une enveloppe qui permet de créer un do file
(on y reviendra), deux éditeurs des tableaux de données et finalement un bouton pour stopper
la commande en cours (si elle est longue et que l’on s’aperçoit d’une erreur dans la
programmation par exemple).
Si vous disposez des données sous format Stata (qui finissent par .dta) alors la commande
use vous permet simplement de lire les données. Il y a deux façons de procéder, selon que
l'on souhaite travailler dans un dossier seul ou juste faire appel au fichier de données :
.use "C: \Econometrie\TPEinfo\TD_n1.dta"
. cd "C :\Econometrie\TPEinfo"
64
. use TD_n1
Il faut parfois rajouter l'option clear1 afin d'effacer le fichier de données déjà utilisé par le
logiciel.
. use TD_n1, clear
Lorsque les données sont sous la forme d'un fichier CSV (comma separated values, ou
finissant par .csv) alors il faut utiliser la commande insheet.
Les seules consignes à respecter avec cette commande sont la préparation du fichier de
données en indiquant sur la première ligne le nom des variables qui sont disposées en
colonne. Il ne faut pas laisser de noms de variables sous format numérique et de préférence
transformer les dates (en variables) avec un Under score : 2004 en 2004. Vérifier qu'il n'y a
pas de virgule dans les données pour ne pas troubler la reconnaissance des
variables/colonnes.
Lorsque les données sont sous format ASCII, format texte .txt ou .asc, alors il suffit
d’utiliser la commande infile avec un inconvénient : il faut préciser à la main le nom des
variables.
Exemple :
infile age edu salaire using "C :\Econometrie\TPEinfo\TD_n1.txt"
Le logiciel STAT Transfer permet de convertir les fichiers de bases de données dans un
fichier compatible sous STATA. En effet, les bases de données utilisables sous STATA
doivent être dans un format spécifique (.dta). Le logiciel STAT Transfer permet d’obtenir ce
format. En général, les bases de données sont sous format Excel et peuvent être ensuite
converties en format .dta par STAT Transfer. Notons que le logiciel permet de faire
également l’opération inverse (convertir un fichier .dta en fichier .xls). De manière générale,
65
STAT Transfer permet de convertir tout fichier de bases de données en divers formats
utilisables par des logiciels économétriques tel que STATA, SPSS, RATS, SAS, etc.
De nos jours, avec les versions améliorées de STATA, le logiciel STAT Transfer n’est plus
obligatoire vue qu’on peut directement importer les données d’un fichier Excel vers STATA.
Lorsque nous travaillons avec STATA et que nous n’avons pas assez de mémoire vive
disponible pour STATA (le message d’erreur est : no room for more observations) alors il
faut utiliser la commande set memory XXm pour préciser le nombre de mégabytes que vous
souhaitez allouer à STATA.
Exemple : set memory 50m, pour allouer 50 mégabytes à STATA.
De nos jours, les versions améliorées de STATA (11, 12, etc.) ajustent automatiquement la
mémoire vive.
1.3.1. Le Do file
La bonne façon de travailler sous STATA est d’utiliser un fichier .do (un do file) comme
fichier de travail. On écrit ainsi un programme que l’on peut sauvegarder et réutiliser la fois
suivante. L’utilisation de la fenêtre commande est plus pour tester rapidement des variantes
ou pour s’exercer au début avec les commandes.
Pour commencer un do file, il faut préciser dans quel dossier on travaille. La syntaxe est la
même que dans le DOS :
.cd "C : \Econometrie\TPEinfo "
La commande la plus simple est save. On ne peut l’utiliser simplement que lorsque le fichier
de données n’existe pas encore. Sinon il faut ajouter l’option replace.
save TD_n1, replace
save TD_n1_2
66
si l’on souhaite opérer des changements qui ne soient pas définitifs (par exemple dans un do
file), alors il suffit d’ajouter l’option clear. La commande clear efface du logiciel la base de
données qu’il était en train de lire.
Il y a trois types de manuels STATA. On peut citer le User manual qui décrit les éléments de
base qui se trouvent dans le cours, les volumes References qui sont un dictionnaire de Stata
en 6 volumes très précis et complet sur chaque commande. Puis enfin, le Graphics Manual
pour faire de jolis graphiques.
Le logiciel a aussi une version abrégée du manuel en ligne. Il suffit pour y faire référence de
cliquer sur « Help ». Tout en travaillant, on peut rappeler la description d’une commande en
utilisant la commande help suivi de la commande dont on veut connaitre le mode
d’utilisation.
.Help regress
Si on ne connait pas le nom de la commande, il est pratique d’utiliser la commande search et
de préciser en anglais ce que l’on cherche. Le logiciel d’aide vient ensuite suggérer des
entrées possibles pour votre demande.
.Search prediction
Sur la toile, on peut trouver beaucoup d’informations. Au sein même de Stata, nous pouvons
utiliser la commande net search mot clé pour trouver des programmes stata ou des sites
référencés. Par rapport à l’aide sur Internet, on peut citer quelques sites :
http://www.stata.com/support/faqs/ : c’est le site d’aide de la société qui produit STATA.
http://www.princeton.edu/~erp/stata/main.html: c’est le site d’apprentissage de Stata de
l’Université de Princeton.
67
http://www.ats.ucla.edu/stat/stata: c’est le site d’apprentissage de Stata de l’Université
UCLA.
http://www.econ.ucdavis.edu/faculty/cameron/stata/stata.html: c’est le cours de Stata de
l’Université de Californie Davis. Il y a un certain nombre d’exemples de fichiers .do et de
base de données pour travailler des exemples.
http://www.hec.unil.ch/schmidheiny/sea2/: c’est le cours d’économétrie appliquée de
l’Université Suisse de HEC Lausanne. Les fiches sur des points précis sont relativement bien
faites.
68
Chapitre 2 : Travailler dans l’environnement STATA
Ce chapitre couvre l’utilisation des commandes Stata pour créer et gérer des variables,
fusionner des bases de données, créer des fichiers programmes, faire des statistiques
descriptives, effectuer des régressions. Pour faciliter la compréhension de la structure des
syntaxes des différentes commandes, les commandes de Stata sont mises en caractères gras et
les autres éléments (à l’exemple des noms des variables) sont mis en italiques pour signifier
qu’ils relèvent du choix de l’utilisateur.
Addition +
Soustraction -
Multiplication *
Division /
Exposant ^
Exemple :
generate y = x^2 crée une nouvelle variable y telle que y soit le carré de x.
By
Permet de répéter une commande pour chaque valeur (ou modalité) d’une variable donnée.
Syntaxe générale pour by :
by variables : commande
Avant d’utiliser by, il faut d’abord classer les observations en fonction des valeurs de la
variable à laquelle la commande by va s’appliquer, la commande sort permet d’effectuer ce
classement par ordre croissant.
Exemple 1 :
Soit une variable numérique nommée continent dont chaque valeur correspond à un continent
donné.
69
sort continent
by continent : list pays
La commande list permet de faire une liste des modalités de la variable à laquelle elle
s’applique. Ainsi, les deux lignes de commandes ci-dessus permettent de lister les noms des
pays de la base de données pour chaque continent donné. On peut fusionner ces deux lignes
de commandes par la ligne unique suivante :
bysort continent : list pays
Exemple 2 :
Soit PRI une variable muette qui prend la valeur 1 pour les pays à revenu intermédiaire et 0
autrement, et soit la variable pays qui contient le nom des pays.
bysort continent PRI: list pays
Cette ligne de commande classe d’abord les pays par continent, puis à l’intérieur des
continents fait un classement en fonction de l’appartenance ou non du groupe des pays à
revenu intermédiaire, puis affiche le résultat.
if
Permet de spécifier les conditions dans lesquelles une commande doit être exécutée. Syntaxe
générale pour if :
commande if condition
Exemple :
generate y = x ^ (0.5) if x>=0 crée une variable y qui est égale à la racine carrée de la
variable x, si x est positif.
in
Permet de spécifier les observations auxquelles s’applique une commande. Syntaxe générale
pour in :
commande in intervalle
Exemple :
70
2.1.3. Les opérateurs de relation
Voici la liste des différents opérateurs de relation dans Stata :
Supérieur >
Supérieur ou égal >=
Inférieur <
Inférieur ou égal <=
Egal =
N’est pas égal ~=
Différent de !=
Remarque : il existe une exception pour le signe d’égalité. En effet, lorsque la commande if
précède une condition d’égalité, il faut utiliser le signe « = = » au lieu du signe « = » pour
exprimer cette égalité.
Exemple : list if x = =10 Liste les observations dont la valeur de x est égale à 10.
list if x >. Liste les observations dont les valeurs de x sont manquantes.
Exemple : generate y = log(sqrt(abs(x))) Crée une variable y qui est égale au log naturel de
la racine carrée de la valeur absolue de la variable x.
Remarque 1 : Pour la fonction logarithmique, Stata accepte l’expression log ou ln, mais les
deux correspondent au logarithme naturel. Pour obtenir la fonction logarithmique base 10, il
faut utiliser l’expression log10.
Remarque 2 : Il existe bien d’autres fonctions telles que les fonctions de probabilité, les
fonctions sur les matrices et les fonctions texte. (Voir menu Help ou dans les Manuels de
Stata).
71
2.1.5. Les opérateurs logiques
Ou | (combinaison de la touche Altgr et la touche « 6 »)
Et &
Exemple : list if x>3 & x<20 liste toutes les observations dont la valeur de x est comprise
entre 3 et 20, bornes non comprises.
Le premier travail de l’économètre est souvent de nettoyer son fichier et pour cela il est
parfois nécessaire de renommer les variables sous des noms plus pratiques. La commande
rename (abrégée en ren) permet de changer le nom de la variable.
Le codage des variables n’est pas forcément optimal et parfois faux. L’usage de la commande
recode permet de remédier à ces problèmes :
recode marital 1=3 si par exemple le code pour célibataire devrait être 3 au lieu de 1.
recode salaire 99999=. Si le codage du salaire donne 99999 en cas d’absence de réponse. Le
point (.) est considéré comme une observation manquante.
Avec une variable texte (string), il faut utiliser la commande replace et la commande logique
if :
replace pays= " Côte d’Ivoire " if pays==" CIV "
Quand on travaille sur une base de données, il est parfois nécessaire de supprimer les
variables inutiles ou les observations non concernées par nos estimations. La commande keep
vous permet de garder et drop de supprimer. On les utilise alternativement selon le nombre de
variable à garder ou à jeter.
72
keep HOST INVTEL GDPPC_PPP
drop POP PRI_MOB PRI_FIX
Avec les observations et les commandes logiques, il est possible de préciser ce que l’on veut
effacer en le conditionnant à la valeur d’autres variables.
keep if age>=15
Cette commande permet de classer les observations par ordre croissant d’une ou de plusieurs
variables.
73
.
Tout d’abord, il faut avoir une variable commune aux bases A et B qui permettra de faire la
fusion, prenons par exemple les noms de pays contenus dans la variable nommée pays.
1. Ouvrir la base A et classer les observations par nom des pays : sort pays
2. Ouvrir la base B et classer les observations par nom des pays : sort pays
Enregistrer puis fermer la fenêtre STATA de la base B.
3. Revenir dans la fenêtre de la base A pour appliquer la commande suivante :
merge pays using "Chemin d’accès de la base B".
4. Enregistrer ensuite la nouvelle base obtenue.
Remarque 1 :
La variable de fusion (nom des pays dans cet exemple) de la base A doit être rigoureusement
identique à celle de la base B.
Remarque 2 :
On peut également utiliser deux ou plusieurs variables pour faire la fusion (en particulier pour
les panels) : par exemple fusionner par nom des pays et par période, on aura alors les
commandes suivantes :
sort pays periode
merge pays periode using "Chemin d’accès de la base B".
74
Remarque 3 :
Il se peut qu’il y ait des observations dans la base A qui ne se trouvent pas dans la base B et
inversement. Dans ce cas, arrivé à l’étape 3 de la procédure, on peut utiliser la commande
browse pour afficher toute la base de données, puis faire un copier (Ctrl+C) coller de
STATA vers Excel pour nettoyer la base des observations non désirée. Une autre possibilité
est que STATA crée une variable indicatrice _merge qui dans sa forme standard prend la
valeur « 1 » lorsque les observations de la base de données résultante proviennent
uniquement de la base A, la valeur « 2 » lorsque les observations proviennent de uniquement
de la Base B et la valeur « 3 » lorsque les observations sont communes aux deux bases. Avec
la commande drop if _merge = = 2, on peut supprimer les observations non désirées de la
base de B. Cependant, on prend le risque de supprimer par exemple une observation de la
base A qui a son correspondant dans la base B, mais dont l’identifiant est légèrement
différent dans les deux bases par mégarde (ex : Côte d’Ivoire et Côte d’ivoire ne représentent
pas le même pays).
Pour la commande append, la syntaxe est plus simple. Il suffit d’ouvrir la première base (base
A) et dans la fenêtre de commande de STATA, Taper la ligne de commande suivante :
append using "Chemin d’accès de la base B".
La première chose à faire une fois qu’on a chargé les données dans le logiciel est de les
regarder grâce à l’éditeur. On clique sur la fenêtre avec un fichier (ou on tape la commande
edit) ou on clique sur la fenêtre avec un fichier et une loupe juste à droite (ou on tape la
commande browse). Avec la première commande, on peut rajouter manuellement des
observations, avec la seconde vous ne pouvez que regarder.
Cette commande utilisée seule, donne l’ensemble des données de façon similaire à browse
mais sur la fenêtre résultat. Il est aussi possible d’utiliser list suivi de la variable d’intérêt.
list PIB
75
Le résultat est la suite de toutes les observations pour cette variable. Mais il est possible aussi
de demander uniquement quelques observations. Ainsi, pour les 5 premières observations du
PIB :
list PIB in 1/5
La commande describe décrit des informations de base sur les variables de la base. En
ajoutant une variable après describe, seules les informations sur ces dernières sont affichées.
On trouve le type de variable et le format de leur compression, le label…
Ex : describe MOB_PEN
Il existe différents formats de stockage des données afin de minimiser la place de mémoire
utilisée par les données. Certaines variables n’ont pas besoin huit caractères et peuvent être
disponible sous un format plus léger. Il y a deux types de base de variables : soit numérique
soit texte (string2). Dans le cas des variables numériques, on distingue 5 cas :
byte nombre entier entre -127 et 126, comme une variable muette ;
int nombre entier entre -32767 et 32766 ;
long nombre entier entre -2147483647 et 2147483646, comme une donnée de population ;
float nombre réel avec une précision de 8 chiffres, comme des données de production ;
double nombre réel avec une précision de 16 chiffres.
Elle donne le nombre d’observations et la fréquence de chaque valeur de la variable. Elle peut
être utilisée pour regarder la distribution d’une variable. Lorsque nous avons deux variables
devant la commande tabulate, nous avons un tableau croisé.
76
Ex : tab invtel ; tab invtel pop.
tab invtel pop, row nous donne un tableau croisé de invtel et la pop avec les fréquences en
ligne.
tab invtel pop, col nous donne un tableau croisé de invtel et la pop avec les fréquences en
colonne.
Il existe d’autres variantes de la commande tab, il s’agit de tab1 et tab2.
tab1 popden host : on créé non pas un tableau croisé de popden et host mais plutôt un tableau
separé de chaque variable.
tab2 popden host educ : On créé un tableau croisé pour chaque combinaison possible de deux
variables de cette liste de variables (popden, host ; popden educ ; host educ).
Pour obtenir la corrélation ou la covariance entre deux (ou plus) variables, il suffit d’utiliser
les deux commandes suivantes :
Pour créer une variable, deux commandes sont disponibles dans Stata : la commande
generate et la commande egen. La commande egen est une extension de la commande
generate, et elle est utilisée pour créer des variables à l’aide de fonctions spécifiques (voir
l’aide pour la liste de fonctions utilisables avec la commande egen).
77
egen y = count(x) : crée une variable y dont la valeur est constante et égale au nombre
d’observations non manquantes de la variable x.
egen y = sd(x): crée une variable y dont la valeur constante est égale à l’écart-type de la
variable x. à la place de sd, on peut utiliser la fonction mad pour calculer la médiane, la
fonction max pour le maximum, la fonction min pour le minimum, la fonction sum pour la
somme et la fonction mean pour la moyenne.
egen y = pctile(x), p(n) : crée une variable y telle qu’elle soit égale au nième percentile (n=50
correspond à la médiane).
egen idpays = group (pays) : crée une variable idpays qui attribue un numéro par pays en les
classant par ordre alphabétique (pays est une variable qui contient le nom des pays). Cette
commande peut servir à créer des identifiants pays. De façon générale, la fonction group
permet d’attribuer un numéro à chaque modalité de la variable à laquelle elle s’applique.
egen y = rmax(x z) : pour chaque observation, la nouvelle variable y créée sera égale au
maximum des valeurs des variables x et z. Lorsqu’on remplace rmax par la fonction rsum, la
variable y créée sera égale à la somme en ligne des variables x et z. Il existe également les
fonctions rsd et rmean.
egen moy = rmean(pop1 pop2) : La nouvelle variable moy créé sera égale à la moyenne des
valeurs des variables pop1 et pop2.
egen SD = rsd(x import) : La nouvelle variable SD créé sera égale à l’écart-type des valeurs
des variables x et import.
Les commandes generate et egen peuvent être combinées avec by, if et in. Supposons que
l’on dispose des données sur le PIB (contenues dans la variable pib) pour un échantillon de
pays, et que l’on souhaite calculer le PIB moyen par continent, la commande à appliquer est
la suivante :
sort continent
by continent : egen pib_moy = mean(pib)
La nouvelle variable pib_moy créée va faire correspondre à chaque pays la valeur du PIB
moyen du continent auquel il appartient.
Lorsque nous voulons créer une variable retardée sous Stata, on applique la commande ci-
dessous :
78
Exemple dans le cas où l’on créé une variable pib retardée provenant d’une base de données
de différents pays avec les valeurs par années du PIB.
so pays annees
by pays : gen pib_ret = pib[_n-1] if annees == annees [_n-1]+1
Une autre façon de procéder si l’on dispose de données temporelles est d’utiliser la
commande tsset qui permet de déclarer une variable comme une série temporelle.
gen t =_n
tsset t (résumer ces deux commandes en seulm : tsset annees)
Les variables retardées pourront être créées automatiquement sous la forme de
L.nomdevariable pour un retard ou L2.nomdevariable pour deux retards.
Stata offre la possibilité d’attribuer une étiquette à chaque variable. Cette étiquette constitue
une description de la variable puisqu’il n’est pas évident à une tierce personne de deviner la
signification d’une variable à partir de son nom. Par ailleurs les étiquettes apportent une
meilleure lisibilité des résultats économétriques car dans les tableaux des régressions, on peut
remplacer les noms des variables par les étiquettes.
La création de graphiques avec STATA n’est pas toujours simple en particulier lorsqu’on
souhaite que les graphiques soient « présentables » dans un mémoire. Un manuel est consacré
aux graphiques. Nous présentons ici les commandes pour faire des graphiques simples :
Pour obtenir un graphique circulaire (« un camembert »), on a la commande suivante :
79
graph pie var1 var2 var3…
Exemple : graph pie MOB_PEN FIXED_PEN HOST
Pour un diagramme en bâtons (ne pas confondre avec un histogramme) :
graph bar var1 (on peut mettre en option over (pays) ou over (annees)
Pour un diagramme en bâtons verticaux on a la commande suivante :
graph hbar HOST (on peut mettre en option over (pays) ou over (annees)
Pour obtenir les chandeliers japonais ou boîtes à moustache :
graph box variable (on peut mettre en option over (pays) ou over (annees)
Pour tous les graphiques (X, Y), la commande débute par twoway (ou tw) suivi du type de
graphique (X, Y) souhaité. Parmi les principaux types, nous avons :
. tw histogram variable, option cette ligne de commande génère un histogramme. L’option
bin (nombre) définit le nombre de tranches.
Exemple: tw histogram INVTEL, bin(10)
80
Il est possible de superposer facilement des graphiques avec STATA. Ainsi, il est possible
d’obtenir sur un même graphique le nuage de point, la droite de régression MCO et
l’intervalle de confiance. Supposons que la variable expliquée soit les importations
(IMPORT), la variable explicative le produit intérieur brut réel (PIBR).
On a les lignes de commandes suivantes :
. regress IMPORT PIBR
. predict import_pred, xb
. predict ecarttype,stdf
. gen interval_bas= import_pred-1.96* ecarttype
. gen interval_haut= import_pred+1.96* ecarttype
. scatter IMPORT PIBR || line import_pred interval_bas interval_haut PIBR,sort
81
Chapitre 3 : Régression linéaire sous STATA
Pour effectuer des régressions en MCO, il faut utiliser la commande regress (ou reg) suivi de
la variable dépendante, des variables explicatives et éventuellement des options. La syntaxe
générale est la suivante :
82
L’analyse de la significativité se fera ultérieurement.
On peut combiner la commande reg à by, if et in. Par exemple, soit Union une variable
muette égale à 1 pour les pays de l’Uemoa et 0 pour les pays du Maghreb.
reg internaute PIBpc Abon education IND_LIB inv if Union ==1 (le modèle sera estimé
uniquement pour les pays de l’UEMOA).
En utilisant by, on peut par exemple avoir séparément le résultat des estimations à la fois des
pays du Maghreb et de l’Uemoa en tapant la commande suivante :
83
3.1.2. Comment générer des variables muettes
Pour créer des variables muettes ou des variables indicatrices (dummy variable en anglais) on
peut utiliser les méthodes suivantes. La première est simple et « à la main » :
gen age12-25=0
replace age12-25=1 if age>=12 & age <=25
gen age26-60 =0
replace age26-60=1 if age>=26 & age<=60
gen age60=0
replace age60=1 if age>60
La seconde méthode (automatique) est utile lorsque vous voulez créer automatiquement des
variables muettes en faisant une régression. Dans ce cas, il faut utiliser la procédure xi :
84
xi : reg internaute PIBpc education Abon inv IND_LIB i.IND_LIB
On créé donc une liste de variable muette à partir des valeurs de l’IND_LIB. Le
i.nomdevariable désigne la variable dont on veut créer la séquence de variables muettes.
Nous disposons des données annuelles (voir fichier Excel en Annexe ci-dessous)
1) Tester la normalité et la lognormalité des variables INV, PIB et Tx_int.
2) Estimer les paramètres par la méthode des MCO. Interpréter économiquement les
paramètres estimés.
3) Interpréter la valeur du coefficient de détermination R2.
4) Effectuer les tests suivants :
- Test de significativité des variables explicatives (Student)
- Test de significativité globale du modèle (Fisher)
- Test d’hétéroscédasticité des erreurs (Test de White et ARCH)
H0 : modèle homoscédastiques vs H1 : modèle hétéroscédastique
Décision :
Si les p-value sont supérieures à 5% alors on accepte l’homoscédasticité des erreurs
85
Le test d’hypothèse est le suivant :
H0 : Erreurs non corrélées ( 0 ) vs H1 : Erreurs corrélées ( 0 )
- La variable à expliquer ne doit pas figurer parmi les variables explicatives du modèle en tant
que variable retardée. Si c’est le cas, on peut utiliser par exemple le test h de Durbin ou le test
de Breusch-Godfrey.
Dans le cas de notre exercice, il y a autocorrélation positive des erreurs. L’autocorrélation des
erreurs va être corrigée par la méthode de Cochrane Orcutt.
On ajoute seulement au modèle dans les variables explicatives le processus autorégressif :
ar(1)
86
- Test de stabilité des coefficients du modèle
L’un des critères les plus importants pour l’estimation d’un modèle est qu’elle doit rester
valable pour des données autres que celles qui ont été utilisées lors de l’estimation. Ce critère
est celui de la constance des paramètres.
La stabilité des coefficients d’un modèle joue un rôle important lorsqu’on cherche à
comprendre les mécanismes économiques et à réaliser des projections. Leur instabilité peut
refléter des phénomènes ponctuels dans le temps (chocs pétroliers, dévaluation, crise
boursière, nouvelle réglementation, calamités naturelles,…). Nous allons utiliser deux tests de
stabilité des coefficients : le test de Chow (1960) et le test CUSUM de Brown, Durbin et
Evans (1975).
Le test de Chow
Le test de Chow appelé aussi test de changement structurel, permet d’examiner si les
coefficients d’une régression sont stables par rapport aux observations utilisées.
L’inconvénient du test de Chow est le choix arbitraire du point de rupture. Un point de
rupture peut amener à rejeter l’hypothèse de stabilité alors qu’avec un autre point de rupture
on ne la rejetterait pas. De plus quand on travaille sur des séries temporelles, la date à
laquelle des changements dans les coefficients interviennent n’est pas toujours facilement
repérable.
Supposons qu’on ait deux sous-périodes ayant N1 et N2 observations (N=N1+N2).
Le test d’hypothèse le suivant :
H0 : SCR=SCR1 + SCR2 (stabilité) contre H1 : SCR ≠ SCR1+SCR2 (instabilité)
SCR : somme des carrés des résidus du modèle général
SCR1 : somme des carrés des résidus du modèle estimé sur N1
SCR2 : somme des carrés des résidus du modèle estimé sur N2
Ce rapport suit sous l’hypothèse de stabilité une loi de Fisher à k degrés de liberté pour le
numérateur et N-2k degrés de liberté pour le dénominateur.
On se fixe , on lit A sur la table telle que :
87
La règle de décision est la suivante :
Si F* A, on rejette l’hypothèse de stabilité des coefficients pour les deux périodes
considérées.
Pour l’estimation du modèle, il faut d’abord déclarer la nature des données (ici on utilise des
séries temporelles) donc :
.gen ln_inv=log(inv)
.gen ln_pib=log(pib)
88
H0 erreurs suivent une loi normale vs H1 les erreurs ne suivent pas une loi normale
. predict residu, resid (puis valider)
. sktest residu (puis valider)
Test d’autocorrélation des erreurs, récurrents lorsqu’on utilise des séries temporelles
Le test de Durbin-Watson permet de tester la présence d’un processus AR(1) dans les
données.
. estat dwatson (puis valider)
S’il y a autocorrélation des erreurs, relancer la régression avec une correction de Prais-
Winsten (prais).
. Prais var_dep var_explicatives
Lorsqu’on soupçonne la présence d’autocorrélation d’ordre supérieur à 1, le test de Breusch-
Godfrey (estat bgodfrey) ou celui de Durbin-Watson (estat durbina) doivent être réalisés.
Le test de Engle (estat archlm) permet de tester la présence d’éléments ARCH dans les
résidus.
89