Académique Documents
Professionnel Documents
Culture Documents
Simon Leblond1
Université de Montréal
simon.leblond@umontreal.ca
26 décembre 2003
1 Merci à William McCausland, François Vaillancourt et Benoit Perron pour leurs commentaires
utiles dans l’élaboration de ce document. Je demeure seul responsable de toutes les erreurs.
Table des Matières
1 Introduction à Stata 6
4 Graphiques 15
4.1 Exemples et résultats pour le Chapitre 4 . . . . . . . . . . . . . . . . . . . . 16
5 Régressions Simples 17
5.1 Tests d’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Test de Changement structurel (Test de Chow) . . . . . . . . . . . . . . . . 19
1
8 Moindres Carrés Généralisés 26
10 Modèles de durée 29
11 Séries Chronologiques 30
11.1 Opération sur les variables dans le cadre de séries chronologiques . . . . . . . 30
11.2 Opérateurs de séries temporelles . . . . . . . . . . . . . . . . . . . . . . . . . 30
11.3 Tests d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.4 Méthode de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.1 Stationnarité des données . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.2 Modélisation des cycles: Modèles AR, MA, ARMA, ARIMA . . . . . 33
11.4.3 Sélection de Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
A Tableaux Récapitulatifs 45
A.1 Fonctions de Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.2 Opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
A.3 Symboles Mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2
A.4 Alphabet Grec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
Introduction
Ce manuel ne vient pas se substituer à vos notes de cours, mais plutôt les compléter en vous
donnant un guide pour l’utilisation de Stata. À ce titre, bien que vous trouverez quelques fois
des explications plus importantes sur la nature d’un problème économétrique, la majorité
du temps on supposera que vous possédez déjà les connaissances liées à la section consultée.
Chaque section présente rapidement le but de l’opération qui y est traité. Les commandes
appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre d’exemples
concrets. Il existe deux versions de ce guide, celle-ci pour Stata et une autre pour Matlab.
Notez que ce manuel couvre la version 7 de Stata, la version 8 sera intégrée peu à peu pendant
l’année qui vient. Comme il s’agit d’un manuel encore en développement, des changements
lui seront constamment apportés en cours de session et la version distribuée sera toujours la
plus récente. Tout commentaire, suggestion ou correction sera bienvenu et apprécié.
Prenez note que ce texte décrit seulement certaines fonctions ainsi que leurs options
les plus souvent utilisées pour le genre de recherches effectuées au bac et à la maı̂trise en
économie, il n’est donc pas du tout exhaustif. Un conseil: apprenez à utiliser l’aide de Stata.
Il s’agit là d’un outil fort utile pour découvrir de nouvelles fonctions ou pour connaı̂tre
l’ensemble des options disponibles pour les fonctions décrites dans ce guide.
4
• Le texte en italique désigne les variables et autres chaı̂nes de caractères qui doivent
être remplacées.
• Le texte en sans serif désigne le texte tel qu’il serait entré à l’ordinateur.
Les chapitres 1 à 4 font le tour des commandes de base, ainsi que leur format de saisie. À
la suite de ces chapitres vous devriez être en mesure d’importer, de manipuler, puis d’exporter
vos données et de tracer des graphiques.
Les chapitres 5 à 12 abordent quant à eux chacun un sujet spécifique de l’économétrie. Ils
prennent donc une approche quelque peu différente puisqu’ils introduisent peu de nouvelles
fonctions, se concentrant plutôt sur la démarche à adopter pour effectuer l’opération en
question.
Finalement, les deux derniers chapitres (13 et 14) sortent quelque peu du cadre de ce
guide en abordant respectivement la manipulation des données par Word et Excel et la
recherche de données. Ces chapitres ont pour but de vous aider dans le cadre plus général
de la production d’un travail de recherche.
5
Chapitre 1
Introduction à Stata
Ce guide s’appuie sur la construction d’un do-file (.do), plutôt que sur l’entrée directe de
commandes. Les avantages du do-file sont nombreux. Entre autres, il vous d’entrer les
commandes à nouveau si le travail s’étend sur plusieurs séances, il permet de garder une trace
du travail effectuer et il permet de garder une vue d’ensemble des étapes du programme.
Pour créer un do-file, il faut entrer dans le do-file editor. Vous pouvez également construire
un fichier texte (.txt) avec un traitement de texte quelconque auquel vous donnerez une
extension ‘.do’. Notez que vous n’êtes pas du tout obligés d’avoir recours à un do-file, vous
pouvez entrez directement dans la boı̂te de commande toutes les fonctions mentionnées dans
ce guide.
La version 8 de Stata permet d’utiliser les fonctions en les sélectionnant directement des
menus. Ce guide n’abordera pas du tout cette approche et ce concentrera sur l’utilisation
“manuelle” (entrée directe) des fonctions.
6
Chapitre 2
insheet
Rapide et efficace, insheet permet d’importer les données d’un fichier texte possédant une
observation par ligne et dont les données sont séparées par des tabulations ou des vir-
gules.
si le nom des données sont sur la première ligne:
insheet using nomdef ichier1
options3 : clear, spécifie que les données en mémoires peuvent être remplacées par les nou-
velles données importées.
1
À moins de précisions contraires, nomdef ichier indique le nom complet, donc avec le chemin d’accès et
l’extension (a : \test.txt par exemple).
2
La nomenclature de l’aide de Stata est conservée tout au long de ce guide, ainsi les arguments entre “[
]” désignent des arguments facultatifs.
3
Les options dans stata sont séparés du reste de la commande par une virgule. Par exemple, dans le cas
présent: insheet using ”c:\ test.txt”, clear
7
infile (inf)4
Permet plus de flexibilité que insheet en permettant que les observations soient sur plusieurs
lignes ou que les données soient séparées par des espaces.
une observation par ligne: infile nom des variables using nom de f ichier
observations sur plusieurs lignes:
infile nom des variables [ skip(#) nom des variables] using ‘‘nom de f ichier’’;
où # désigne le nombre de ligne à sauter pour continuer la lecture de l’observation.
options: clear, voir insheet
generate (g)
Probablement la commande la plus utile (et utilisée) dans Stata, elle permet de créer des
nouvelles variables.
generate nouvelle variable = expression
ex: g x2 = x^2
replace
Même idée que generate, mais pour une variable existante.
replace variable existante = expression
8
2.2.2 Opérateurs logiques et de comparaison
ET: &
OU: |
Non (¬): ~
Égal: ==
Différent: ~=
Plus grand: >
Plus petit: <
Plus grand ou égal: >=
Plus petit ou égal: <=
ex:
Création d’une matrice: mat A = B*C
Modification d’une matrice existante: mat A = A*2
Construction d’une matrice: mat D = (1,0,0\0,1,0); où les virgules séparent les
colonnes et les \ séparent les rangées (matrice 2 × 3).
Extraction d’une sous-matrice: mat A = B(1..4,2...); se lit rangées 1 à 4, colonne
2 à N.
Remplacement d’un élément: mat A(1,1) = 3; remplace l’élément a11 par 3.
mkmat
Permet de transformer des variables existantes en vecteurs du même nom ou en une nouvelle
matrice.
Transformation en vecteurs: mkmat nom(s) de variable(s)
Transformation en matrice: mkmat nom(s) de variable(s), matrix [(nom de la nouvelle matrice)]
9
ex: svmat X, n(x1,x2,x3,x4)
matrix get
Sert à obtenir une copie d’une matrice système5
Quelques matrices systèmes:
Fonctions matricielles
det(A): déterminant de A
rowsof(A): nombre de rangées de A
colsof(A): nombre de colonnes de A
el(A,i,j): élément aij de A
I(n): matrice identité n × n
inv(A): inverse de la matrice carrée A
diag(V ): matrice diagonale n × n, avec pour diagonale les éléments de V , où V est un
vecteur n × 1 ou 1 × n
vecdiag(A): extrait la diagonale d’une matrice carrée A sous forme de vecteur
Opérateurs matriciel
Soit A et B, deux matrices carrées définies positives n × n et C, une matrice définie positive
t × n:
Transposée: A0 (n × n)
Somme: A + B (n × n)
Différence: A - B (n × n)
Produit vectoriel: B*C 0 (n × n)
Division par un scalaire: A/k (n × n)
Empiler les rangées horizontalement: A ((n + t) × n)
Empiler les colonnes verticalement: A,B (n × 2n)
5
Les variables et les matrices systèmes sont stockés par Stata dans des noms prédéfinis après une opération
donnée.
10
2.3 Autres transformations des variables
log(x): logarithme naturel de x, équivalent à ln(x)
exp(x): exponentiel de x, i.e. ex
mod(x,y): partie entière de x par rapport à y, par exemple: mod(5,26) = 5
abs(x): valeur absolue de x
sqrt(x): racine carrée de x, équivalent à x^1/2
max(x1 , ..., xn ): renvoie l’argument possédant la valeur la plus élevée
min(x1 , ..., xn ): renvoie l’argument possédant la valeur la moins élevée
sum(x): somme de tous les éléments de x
uniform(): donne une valeur aléatoire entre 0 et 1 (ditribution uniforme sur [0,1))
2.4 Divers
Commentaires
Il est possible d’insérer des commentaires dans son programme en prenant soin de débuter
la ligne de commentaire par le symbole ‘*’.
more
Avez-vous déjà rencontré le message --more-- qui fait une pause dans l’affichage de vos
données? Si ça vous énerve, vous pouvez enlever ce message en spécifiant set more off au
début de votre programme.
if
La majorité des fonctions peuvent être suivies de la commande if qui permet de spécifier
une condition pour que l’expression soit executée. if est placé après la fonction, mais avant
les options
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande if expression
11
in
La majorité des fonctions peuvent être suivies de la commande in qui permet de spécifier
l’étendue des données affectées par la fonction. in est placé après la fonction, mais avant les
options.
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande in étendue; où étendue peut prendre la forme # ou #/#, et # peut-être un
nombre positif, l (dernière observation), f (première observation) ou un nombre négatif (dis-
tance par rapport à la dernière observation).
ex:
regress y x1 x2 in f /60; équivalent à regress y x1 x2 in 1/60: les 60 premières
observations.
list y in -10/l: les 10 dernières observations.
12
Chapitre 3
ex:
list y in -10/l: affiche les 10 dernières observations de y.
3.1.2 Exportation
log using
Permet de sauvegarder une copie de sa session dans le fichier spécifié. Doit être suivi de log
off à la fin du programme.
log using nom de f ichier
programme
log off
Options: replace, indique à Stata de remplacer le fichier existant.
3.1.3 Impression
La façon la plus pratique d’imprimer ses résultats est d’utiliser la fonction log, puis de traiter
le fichier “.log” avec son traitement de texte préféré.
13
3.2 Exemples et résultats pour le Chapitre 3
Reprenons l’exemple du chapitre 1, en incluant cette fois les fonctions du chapitre 2.
14
Chapitre 4
Graphiques
graph (gr)
Trace des graphiques.
graph nom des variables, [type de graphique, autres options]
Où type de graphique peut prendre les valeurs suivantes:
• histogram (h): histogramme
• twoway (t): nuage de points à deux axes; valeur par défaut si plusieurs variables sont
affichés. La première variable spécifiée est toujours la variable dépendante.
15
– o: petits cercles
– .: points
– i: invisibles
16
Chapitre 5
Régressions Simples
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u
y = Xβ + u
regress (reg)
Incontournable si on désire faire des régressions par MCO. Effectue la régression de la variable
dépendante sur la ou les variables indépendantes spécifiées.
regress variable dépendante [variables indépendantes]
Options:
• level(#) (l(#)): permet de spécifier le niveau de confiance pour les intervalles et le
p-value (# doit être un entier); si level() n’est pas spécifié, # prend la valeur 95, i.e.
le niveau de confiance est fixé à 95%.
predict
Permet de calculer les valeurs prédites, les résidus, etc. pour toutes les observations.
predict nom de nouvelle variable; sans aucune option calcule les valeurs prédites (ŷ).
Options:
• xb: calcule X 0 β, la valeur linéaire prédite
17
ex: calcule les ŷ hors-échantillon
reg y x1 x2 x3 in 1/100
predict y hat if ~e(sample)
test (t)
test permet d’effectuer des tests d’hypothèses après une estimation. Il prend principalement
deux formes:
test [expression1 = expression2]: test que l’expression1 n’est pas statistiquement différente
de l’expression2
test liste de coef f icients: test que les coefficients ne sont pas conjointements statistique-
ment différents de zéro.
ex:
reg y x1 x2 x3
test x1 = x2
test x2 x3
3. régresser la carré des résidus sur les variables dépendantes de la régression originale;
reg y x1 x2
predict u, r
g u2 = u2̂
reg u2 x1 x2
Il suffit alors de regarder la statistique F donnée par Stata.
La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement dis-
tribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des variables
dépendantes et leurs produits croisés dans la régression de l’étape 3, il s’agı̂t là du test
18
de White. Afin de limiter le nombre de régresseurs, on peut utiliser un test de White
légèrement modifié:
u2 = β0 + β1 ŷ + β2 ŷ 2 + e
On procède pour le reste exactement de la même façon que pour le test de Breusch-Pagan.
Que faire lorsque vous trouvez la présence d’hétéroscédasticité? Deux options s’offrent à
vous:
y = β0 + β1 x1 + β2 x2 + u
Le test de Chow sert à vérifier s’il existe une différence dans l’influence d’une variable
dépendante entre deux groupes de données, i.e. si le coefficient est statistiquement différent.
Les deux groupes de données pourraient être deux séries d’observations ou deux périodes de
temps par exemple.
La façon “classique” d’effectuer le test de Chow est d’effectuer la régression du modèle pour
les deux groupes de façon indépendante et pour les deux groupes ensemble:
19
un pour les observations du deuxième groupe et de faire une seule régression sur les variables
originales et sur les termes d’interaction avec la variable binaire2 :
ŷ = β0 + β1 x1 + β2 x2 + β3 δ + β4 x1 δ + β5 x2 δ
On désire maintenant tester si β0 = (β0 + β3 ), si β1 = (β1 + β4 ) et si β2 = (β2 + β5 ). Ce qui
revient à tester si β3 , β4 et β5 sont conjointement différent de 0. Ceci peut être facilement
effectué par un test de F .
ex:
g g2 = (groupe == 2)
g g2x1 = g2*x1
g g2x2 = g2*x2
reg y x1 x2 g2 g2x1 g2x2
test g2 g2x1 g2x2
2
Cette section et l’exemple qui la suit sont inspirés de la rubrique de l’aide de Stata: How can I compute
the Chow test statistic? par Bill Gould.
20
Chapitre 6
Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les hypothèses clas-
siques du modèle linéaire sont violées et on se retrouve face à un problème d’endogénéité.
Dans ces cas, on peut faire appel à l’estimateur de variables instrumentales (VI) ou
aux doubles moindres carrés ordinaires (DMCO).
β̂(V I) = (Z 0 X)−1 Z 0 y
où
1
σ̂ 2 = (y − X β̂(IV ) )0 (y − X β̂(IV ) ).
T
ou, lorsque J > K (J étant le nombre de VI et K le nombre de variables indépendantes),
par:
β̂(IV ) = [X 0 Z(Z 0 Z)−1 Z 0 X]−1 X 0 Z(Z 0 Z)−1 Z 0 y.
ivreg
ivreg permet de faire directement une régression par DMCO.
21
ivreg variable dependante variables independantes (variable dependante = variable(s) intrumentale(
options
où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui affiche
les résultats de la première régression.
ex:
ivreg y1 z1 z2 (y2=x1), r first
6.2 DMCO
Le principe des doubles moindres carrés ordinaires est d’utiliser une estimation de la variable
endogène qui ne soit pas corrélée avec le terme d’erreur pour effectuer la régression.
Soit le modèle suivant:
y1 = β0 + β1 x1 + β2 x2 + β3 y2 + u
et soit z une VI de y2 .
Cette dernière régression ne souffrant plus d’endogénéité, les β̂ ainsi obtenus sont
non-biaisés.
Vous pouvez effectuer les deux régressions par vous même ou utiliser la fonction ivreg à la
section précédente.
22
6.3 Tests d’endogénéité
Le test de Hausman permet de vérifier s’il existe bel et bien une différence entre l’estimateur
VI et l’estimateur MCO, vérifiant ainsi s’il y a bel et bien endogénéité des variables (si les
deux estimateurs sont consistants, ils seront asymptotiquement égaux). Sous H0 , la statis-
tique de Hausman est:
H = [β̂(V I) − b]0 [σ̂ 2 [(X 0 Z(Z 0 Z)−1 Z 0 X]−1 − σ̂ 2 (X 0 X)−1 ]−1 [β̂(V I) − b] ∼ χ2 (J)
hausman
Effectue le test de spécification d’Hausman.
Estimation du modèle moins efficient, mais convergent (VI ici)
hausman, save
Estimation du modèle efficient, mais peut-être pas convergent (MCO ici)
hausman
Options: constant (c), indique que la constante doit être inclue dans la comparaison des
deux modèles.
ex:
ivreg y1 z1 z2 (y2=x1)
hausman, save
reg y1 z1 z2 y2
hausman, c
23
Chapitre 7
Estimateur du Maximum de
Vraissemblance (EMV)
La fonction de vraisemblance est la probabilité jointe des observations étant donné les
paramètres d’intérêts, i.e.:
n
Y
L(θ|y) = f (y1 , . . . , yn |θ) = f (yi |θ)
i=1
La log-vraisemblance est
T T (y − Xβ)0 (y − Xβ)
L(β, σ 2 ) = − log(2π) − log σ 2 − .
2 2 2σ 2
Les CPO sont:
δlnL (y − Xβ)(y − Xβ)
=
δβ 2σ 2
1
Le logarithme étant une fonction montone, la valeur qui maximise L(θ|y) est la même que celle qui
maximise L(θ|y).
24
δlnL T (y − Xβ)0 (y − Xβ)
= − +
δσ 2 2σ 2 2σ 4
Ce qui nous permet de trouver
β̂ = (X 0 X)X 0 y
(y − Xβ)0 (y − Xβ) ê0 ê
σˆ2 = =
T T
ml
Permet de faire une estimation par maximum de vraisemblance pour une équation donnée.
Cette fonction étant fort complexe et très peu utilisée dans le cadre des problèmes abordés
dans ce guide, il est laissé à la discrétion du lecteur le soin de consulter l’aide de Stata à son
sujet.
Stata estime automatiquement par maximum de vraisemblance les régressions qui doivent
être traitées par EMV. Les modèles à variable dépendante qualitative, les modèles de durée
et les ARIMA sont des exemples de tels cas.
25
Chapitre 8
β̂ M CG = (X 0 V −1 X)−1 X 0 V −1 y
ou encore
β̂ M CG = (X 0 W −1 X)−1 W 0 V −1 y
et sa variance est
var[β̂] = σ 2 (X 0 V −1 X)−1 .
où V et W sont égaux à
x1 0 · · · 0
0 x2 · · · 0
2 2
W = σ .. .. ≡ σ V
.. . .
. . . .
0 0 · · · xn
vwls
permet de faire une régression linéaire pondérée par la variance.
vwls variable dependante variables independantes [poids], options
Options: sd(nom variable) fournit une estimation de l’écart-type de la variable dépendante.
ex:
vwls y x1 x2, sd(sigma2ch)
où sigma2ch est une estimation de l’écart-type de y.
26
Chapitre 9
9.1 Probit/Logit
Un probit et un logit s’appuient en fait sur le même principe, ils ne diffèrent que dans la
forme de la fonction de répartition qu’ils utilisent pour calculer l’effet sur la probabilité
d’une variation de la variable latente. En effet, lorsque la variable dépendante ne prend que
des valeurs qualitatives (oui ou non par exemple), l’effet d’une variable indépendante sur la
probabilité de dire oui doit être “traduit” par une fonction de répartition. Cette dernière
nous donne la probabilité associée à une valeur donnée de la valeur latente exprimée par la
combinaison linéaire des variables indépendantes.
probit (prob)
Estime un modèle probit.
probit variable dépendante variable indépendante
Options: probit possède en grande partie les mêmes options que regress.
Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire, il faut
préciser xt dans les options de predict.
logit
Permet d’estimer un modèle logit.
logit variable dépendante variable indépendante
Options: logit possède en grande partie les mêmes options que regress.
27
9.2 Probit/Logit ordonné
9.3 Tobit
Un tobit est essentiellement un modèle dont les données sont censurées. Comme le probit,
le tobit suit une loi normale.
tobit
Permet d’estimer un modèle tobit.
logit variable dépendante variable indépendante
Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à gauche
ou à droite. Une ou les deux de ces options doivent être spécifiées. # indique le point de
troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit respectivement de la valeur
minimum et de la valeur maximum.
Les autres options de tobit sont en grande partie commune avec regress.
ex:
tobit y x1 x2 x3 x4, ll(0)
28
Chapitre 10
Modèles de durée
29
Chapitre 11
Séries Chronologiques
l
L’opérateur l est l’opérateur Retard de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
l#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre de retards à
appliquer. Si # est omis, un seul retard est appliqué (équivalent à l1.variable).
tsset t
* un modèle AR2
30
regress y l.y l2.y
f
L’opérateur f est l’opérateur Avance de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
f#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre d’avance à
appliquer. Si # est omis, une seule avance est appliquée (équivalent à f1.variable).
tsset t
* une autre formulation pour un modèle AR2
regress f.y y l.y
Choisissons n égal à 3.
reg y x1 x2
predict u, r
reg u l.u l2.u l3.u
Il suffit alors de regarder la statistique F donnée par Stata.
Le test de Durbin-Watson est aussi utilisé pour tester la présence d’autocorrélation, mais
comme il est moins précis et ne considère qu’une seule période, nous ne le couvrirons pas ici.
31
11.4 Méthode de Box-Jenkins
Ce qu’il est important de comprendre, à mon avis, dans la méthode de Box-Jenkins, c’est que
l’objectif de toutes les opérations que nous effectuons est de se retrouver avec un résidu qui
est un bruit-blanc. Le but ultime étant de modéliser la série afin de faire des prédictions,
nous pouvons seulement être certain d’avoir tout extrait lorsqu’il nous reste seulement un
bruit-blanc: un processus qui est par définission impossible à prédire.
Changement structurel
Les changement structurels peuvent être détectés à l’aide du Test de Chow (voir section 5.2).
Malheureusement, rien ne peut généralement être fait pour stationnariser une série dans le
cas d’un changement structurel.
Tendance déterministe
Afin de régler le problème de la présence d’une tendance temporelle, il suffit de la modéliser.
Il faut faire attention de bien choisir la tendance la mieux adaptée à nos données: linéaire,
quadratique, logarithmique, etc.
32
Racines Unitaires
On fait face à un problème de racine unitaire lorsque ρ = 1 dans le modèle suivant:
yt = α + ρyt−1 + et
Afin de régler le problème de racine unitaire, il faut différencier la série, i.e. travailler sur
∆yt = yt − yt−1 plutôt que yt . Le modèle devient donc:
∆yt = α + θyt−1 + t
La différenciation d’une série est effectuée automatiquement dans Stata lors de l’utilisation
de la fonction arima.
Tester pour la présence d’une racine unitaire se fait par un test t où H0 est θ = 0.
Malheureusement, sous l’hypothèse nulle, la statistique t ne suit pas la loi asymptotique
habituelle. Il faut plutôt utiliser la loi de Dickey-Fuller. S’il y a corrélation des termes
d’erreur, il faut plutôt utiliser une loi de Dickey-Fuller augmentée.
dfuller
Effectue un test de Dickey-Fuller augmenté sur la variable spécifiée.
dfuller nom de variable, options
Options:
33
ex: AR(1)
arima t, arima(1,0,0)
ex: MA(1)
arima t, arima(0,0,1)
ex: ARIMA(1,1,2)
arima t, arima(1,1,2)
corrgram
Construit une table des autocorrélations et des autocorrélations partielles. Permet de tracer
l’autocorrélogramme et l’autocorrélogramme partiel.
corrgram nom de variable, option
Options: lags(#): spécifie le nombre de retards à calculer.
ac
Produit un autocorrélogramme.
ac nom de variable, options
Options:
pac
Produit un autocorrélogramme partiel. Même structure et mêmes options que ac.
34
R-carré ajusté
Le R-carré ajusté (R̄2 ) est donné par la formule suivante:
n−1
R̄2 = 1 − (1 − R2 )
n−K
e0 e Klogn
BIC(K) = log( )+
n n
35
Chapitre 12
Il existe bon nombre de méthodes pour traiter les données en Panel et la littérature sur le
sujet est très exhaustive, nous ne traiterons donc dans ce chapitre que des méthodes de base.
Les effets fixes ont l’avantage de permettre une corrélation avec les variables explicatives,
mais imposent une structure aux effets. À l’inverse, les effets aléatoires seront biaisés s’il y a
corrélation avec certaines varibles explicatives, mais permettent beaucoup plus de flexibilité.
36
préférable dans certains cas de ne pas inclure de constante pour comparer tous les groupes
entre eux. Dans le dernier exemple, on pourrait ainsi laisser tomber la constante et inclure
cinq variables binaires pour les groupes et trois variables binaires pour les annés.
tsset
Cette fonction déjà vue dans le chapitre 11 permet également de déclarer nos données comme
un panel de séries temporelles. Il suffit pour ça d’ajouter la variable de panel (de groupe)
avant la variable de temps.
tsset variable de panel variable de temps
ex:
gt= n
tsset groupe t
Une fois tsset déclaré pour des données panel, il est possible de travailler avec la famille
de fonctions xt de Stata. Il existe une telle fonction pour chacun des types de régression:
xtreg, xtlogit, xprobit, xttobit, xtgls, etc. Nous ne couvrirons ici que sommaire-
ment xtreg et nous vous référons à l’aide de Stata pour plus de détails sur cette famille de
fonctions.
xtreg
37
Permet de faire des régressions sur des données en Panel.
Effet fixe: xtreg variable dépendante variable indépendante, fe
Effet aléatoire estimé par MCG: xtreg variable dépendante variable indépendante, re
Effet aléatoire estimé par EMV: xtreg variable dépendante variable indépendante, mle
ex:
tsset groupe annee
xtreg y x1 x2, fe
38
Chapitre 13
13.1 Remarques
Quelques remarques importantes lorsque vous travaillez avec des données numériques:
• Pour être utilisables, les données numériques doivent être séparées par variable et par
observation, chaque valeur étant séparée de la suivante par un ‘séparateur’.
• Généralement, il est plus facile de travailler si les variables constituent les colonnes et
les observations les rangées.
• Comme les logiciels sont (tous?) américains, le séparateur de décimales doit être un
point (‘.’) et non pas une virgule (‘,’). Si ce n’est pas le cas, ceci peut facilement être
changé par la commande replace du menu Edit de Excel.
• Assurez-vous que le séparateur de valeurs est compatible avec la méthode utilisée pour
importer les données dans le logiciel économétrique.
• Assurez-vous également que si vous avez du texte dans vos observations, cela est permis
par votre méthode d’importation.
• Évitez les lignes de commentaire ou de texte avant vos données ou le nom de vos
variables. Bien qu’il soit possible de contourner cette difficulté, ça évite souvent des
problèmes.
13.2 Tableur
Cette section est surtout orientée vers Excel puisque c’est le tableur le plus utilisé sur le
marché.
39
• Exportation des données: Dans le menu Fichier, Sauvegarder sous, sélectionnez un
format text avec séparateur: soit des tabulations (.txt ou .tab), soit des virgules (.txt
ou .csv).
• Création de Tableau: Le copier-coller est la solution de choix ici. L’idéal est de passer
par Excel après avoir importer le fichier de données (sélectionnez les cases désirées,
copier, coller...). Sinon, vous pouvez également copier directement les résultats à partir
du gestionnaire de données.
• Insertion de Graphique: Menu insertion, objet, du fichier.... Trouvez l’image qui vous
sert de graphique et appuyez sur OK.
40
Chapitre 14
14.1.1 À l’Université
Votre premier arrêt pour trouver des données se doit d’être sur le site web de la bib-
liothèque des sciences humaines au:
http://www.bib.umontreal.ca/SB/num/
Cette page vous donne accès aux plus importantes sources officielles de données numériques,
notamment, Statistiques Canada (E-STAT et CHASS), l’institut de la statistique du
Québec et l’OCDE. La majorité de ces données sont des séries chronologiques ou des
données en panel.
Pour obtenir des données d’enquêtse, il faut se tourner vers Sherlock (aussi accessible
par cette page) ou vers des organismes privés. Certaines données d’enquêtes sont
également accessible par l’institut de la statistique du Québec.
14.1.2 À l’Extérieur
Google www.google.ca
Moteur de recherche très puissant qui devrait vous aider pour toutes vos requêtes.
Gouvernement du Québec www.gouv.qc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.
41
Gouvernement du Canada www.gc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.
Eurostat http://europa.eu.int/comm/eurostat/
Plusieurs indicateurs économiques et sociaux de l’Union Européenne.
US Census Bureau http://www.census.gov/
Données des recensement américains.
Agences Nationales de Statistiques http://www.census.gov/main/www/stat int.html
Liens vers toutes les agences nationales de statistiques.
Fedstat http://www.fedstats.gov/
Liens vers la majorité des organismes fédéraux américains produisant des données
qui son accessibles.
Données Spatiales http://data.geocomm.com/catalog/
Plusieurs liens vers des données codées géographiquement.
DataLinks http://www.econ-datalinks.org/
Une foule de liens vers des données économiques et financières.
Cette liste est très très loin d’être exhaustive, donc n’hésitez pas à pousser vos
recherches sur internet plus loin. Si vous trouver des liens intéressant, envoyez-les moi
et je me ferrai un plaisir de les ajouter aux versions futures de ce guide.
Un conseil: Les sites gouvernementaux et ministériels au niveau national et sous-
national sont souvent des mines d’or de données!
14.2.1 Statcan
http://www.bib.umontreal.ca/SB/num/statcan.htm
Vous avez deux choix pour accéder aux séries chronologiques de Statistiques Canada:
42
CHASS Accès à envrions 600 000 séries de plus qu’avec E-Stat, mais environnement
de navigation moins convivial.
1. Trouvez le tableau qui vous intéresse en effectuant une recherche par sujet ou par
mot-clé.
2. Une fois dans le tableau de votre choix, vous aurez généralement à sélectionner des
séries spécifiques en choisissant parmis une liste déroulante et ce, pour plusieurs
catégories (ex: géographie, fréquence, sexe, dates, etc.).
Choisissez les séries désirés (tenez la touche ctrl enfoncée pour sélectionner
plusieurs items dans une même liste) et appuyez sur série chronologiques.
3. Choisissez votre format de sortie parmis les choix offerts (suggestion: CSV ou
PRN, périodes = lignes).
4. Appuyez sur extraire et sauvegarder le fichier qui apparaitra sous le nom désiré.
14.2.2 OCDE
http://www.sourceoecd.org/ (doit être accédé par l’UdeM)
Généralement, les données les plus intéressantes se trouvent dans statistiques de l’OCDE
/ Perspectives Économiques.
1. Une fois dans Perspectives Économiques, appuyez sur Bases de données statis-
tiques puis, à la page suivante, sur tableaux, puis sur données et, enfin, sur accès
aux données.
2. Vous devrez ensuite sélectionner dans l’ordre vos Pays, vos Variables et votre
Période de couverture.
3. La dernière étape consiste à sauvegarder vos données dans le format désiré.
14.2.3 Sherlock
1. Une fois votre enquête sélectionnée, cliquez dessus.
2. Choisissez le format d’extraction. À moins que vous connaissiez SAS ou SPSS, il
vous est suggéré de choisir Extraction par variables et un fichier .tab.
3. Vous devrez ensuite sélectionner les variables désirées en cochant les cases corre-
spondantes.
43
4. Finalement, vous devez choisir les valeurs des variables que vous désirées.
5. Pour extraire les données, entrez votre adresse courriel et appuyez sur Extraire.
Les données vous seront envoyées en différé à l’adresse spécifiée.
44
45
Annexe A
Tableaux Récapitulatifs
47
Fonctions Diverses (suite)
uniform Donne une valeur aléatoire uniform()
entre 0 et 1 (ditribution uni-
forme sur [0,1)).
tsset Déclaration de séries tem- tsset variable de temps
porelles/Données pannel.
l Opérateur retard. l#.variable
f Opérateur avance. f#.variable
Fonctions Économétriques
regress reg Effectue une régression regress vard ep [vars inds]
linéaire par MCO.
predict Calcule les valeurs prédites, predict nouvelle variable,
les résidus, etc. options
test t Effectue des tests test [expression1 =
d’hypothèse. expression2]
ivreg Effectue une régression par ivreg var dep vars inds
DMCO. (var dep = V I), options
hausman Effectue le test de hausman / hausman, save
spécification d’Hausman.
vwls Effectue une régression vwls vard ep vars inds
pondérée par la variance [poids], options
(FGLS).
probit prob Estime un modèle probit. probit var dep vars inds
logit Estime un modèle logit. logit var dep vars inds
tobit Estime un modèle tobit. tobit var dep vars inds,
[ll(#)] [ul(#)]
dfuller Effectue le test de Dickey- dfuller nom de variable,
Fuller augmenté. options
pperron Effectue le test de Phillips- pperron nom de variable,
Perron. options
corrgram Produit une table des au- corrgram
tocorrélations et des auto- nom de variable, option
corrélations partielles.
xtreg Effectue une régression sur xtreg var dep vars inds,
des données panel. [fe] [re] [mle]
48
A.2 Opérateurs
Description Forme
Opérateurs Mathématiques
Addition +
Soustraction -
Multiplication *
Division /
Puissance ^
Opérateurs Logiques
ET &
OU |
Non (¬) ~
Opérateurs de Comparaison
Égal ==
Différent ~=
Plus grand >
Plus petit <
Plus grand ou égal >=
Plus petit ou égal <=
49
A.4 Alphabet Grec
minuscule majuscule nom minuscule majuscule nom
α alpha ν nu
β beta ξ Ξ xi
γ Γ gamma o o
δ ∆ delta π, $ Π pi
, ε epsilon ρ, % rho
ζ zeta σ, ς Σ sigma
η eta τ tau
θ, ϑ Θ theta υ Υ upsilon
ι iota φ, ϕ Φ phi
κ kappa χ chi
λ Λ lambda ψ Ψ psi
µ mu ω Ω omega
50