Guide Econo Me Tries Tata

Guide d’économétrie appliquée pour Stata
Simon Leblond1
Université de Montréal
simon.leblond@umontreal.ca
26 décembre 2003
1 Merci à William McCausland, François Vaillancourt et Benoit Perron pour leurs commentaires
utiles dans l’élaboration de ce document. Je demeure seul responsable de toutes les erreurs.
Table des Matières
1 Introduction à Stata 6
2 Commandes générales importantes 7

2.1 Importation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Manipulation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Opérateurs mathématiques . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Opérateurs logiques et de comparaison . . . . . . . . . . . . . . . . . 9
2.2.3 Manipulations des matrices . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Autres transformations des variables . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Divers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Exemples et résultats pour le Chapitre 2 . . . . . . . . . . . . . . . . . . . . 12
3 Visualisation des données 13

3.1 Impression/Exportation des données . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Impression à l’écran . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2 Exportation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.3 Impression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4 Graphiques 15
5 Régressions Simples 17
5.1 Tests d’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Test de Changement structurel (Test de Chow) . . . . . . . . . . . . . . . . 19
6 Variables instrumentales et Doubles Moindres Carrés 21

6.1 Estimateur Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 21
6.2 DMCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.3 Tests d’endogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
7 Estimateur du Maximum de Vraissemblance (EMV) 24
1
8 Moindres Carrés Généralisés 26
9 Variables dépendantes qualitatives 27

9.1 Probit/Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
9.2 Probit/Logit ordonné . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.3 Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.4 Biais de sélection: Heckit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
10 Modèles de durée 29
11 Séries Chronologiques 30
11.1 Opération sur les variables dans le cadre de séries chronologiques . . . . . . . 30
11.2 Opérateurs de séries temporelles . . . . . . . . . . . . . . . . . . . . . . . . . 30
11.3 Tests d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.4 Méthode de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.1 Stationnarité des données . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.2 Modélisation des cycles: Modèles AR, MA, ARMA, ARIMA . . . . . 33
11.4.3 Sélection de Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
12 Données longitudinales (Panel) 36

12.1 Effets Fixes et Effets Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.1.1 Variables binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.1.2 Fonctions pour données longitudinales . . . . . . . . . . . . . . . . . 37
13 Interaction avec les tableurs et les traitements de texte 39

13.1 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13.2 Tableur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13.3 Traitement de texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
14 Où trouver ses données et comment les extraires 41

14.1 Liens utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.1.1 À l’Université . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.1.2 À l’Extérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.2 Accès au Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
14.2.1 Statcan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
14.2.2 OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
14.2.3 Sherlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
A Tableaux Récapitulatifs 45
A.1 Fonctions de Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.2 Opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
A.3 Symboles Mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
2
A.4 Alphabet Grec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
Introduction
Ce manuel ne vient pas se substituer à vos notes de cours, mais plutôt les compléter en vous
donnant un guide pour l’utilisation de Stata. À ce titre, bien que vous trouverez quelques fois
des explications plus importantes sur la nature d’un problème économétrique, la majorité
du temps on supposera que vous possédez déjà les connaissances liées à la section consultée.
Chaque section présente rapidement le but de l’opération qui y est traité. Les commandes
appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre d’exemples
concrets. Il existe deux versions de ce guide, celle-ci pour Stata et une autre pour Matlab.
Notez que ce manuel couvre la version 7 de Stata, la version 8 sera intégrée peu à peu pendant
l’année qui vient. Comme il s’agit d’un manuel encore en développement, des changements
lui seront constamment apportés en cours de session et la version distribuée sera toujours la
plus récente. Tout commentaire, suggestion ou correction sera bienvenu et apprécié.
Prenez note que ce texte décrit seulement certaines fonctions ainsi que leurs options
les plus souvent utilisées pour le genre de recherches effectuées au bac et à la maı̂trise en
économie, il n’est donc pas du tout exhaustif. Un conseil: apprenez à utiliser l’aide de Stata.
Il s’agit là d’un outil fort utile pour découvrir de nouvelles fonctions ou pour connaı̂tre
l’ensemble des options disponibles pour les fonctions décrites dans ce guide.
Les fonctions sont présentées dans le format suivant:

1. Le nom de la fonction et, entre paranthèses, le nom abrgégé de la fonction;
2. Sa description;
3. Le format d’entrée;
4. Ses options (s’il y en a);
5. Un exemple court.
La majorité des chapitres se terminent par une section donnant un exemple plus long et plus
concret d’applications des informations présentés dans le chapitre.
La nomenclature suivante est suivie dans ce guide:

• Le texte en machine à écrire désigne les fonctions dans leur forme générique.
4
• Le texte en italique désigne les variables et autres chaı̂nes de caractères qui doivent
être remplacées.
• Le texte en sans serif désigne le texte tel qu’il serait entré à l’ordinateur.
Les chapitres 1 à 4 font le tour des commandes de base, ainsi que leur format de saisie. À
la suite de ces chapitres vous devriez être en mesure d’importer, de manipuler, puis d’exporter
vos données et de tracer des graphiques.
Les chapitres 5 à 12 abordent quant à eux chacun un sujet spécifique de l’économétrie. Ils
prennent donc une approche quelque peu différente puisqu’ils introduisent peu de nouvelles
fonctions, se concentrant plutôt sur la démarche à adopter pour effectuer l’opération en
question.
Finalement, les deux derniers chapitres (13 et 14) sortent quelque peu du cadre de ce
guide en abordant respectivement la manipulation des données par Word et Excel et la
recherche de données. Ces chapitres ont pour but de vous aider dans le cadre plus général
de la production d’un travail de recherche.
5
Chapitre 1
Introduction à Stata
Ce guide s’appuie sur la construction d’un do-file (.do), plutôt que sur l’entrée directe de
commandes. Les avantages du do-file sont nombreux. Entre autres, il vous d’entrer les
commandes à nouveau si le travail s’étend sur plusieurs séances, il permet de garder une trace
du travail effectuer et il permet de garder une vue d’ensemble des étapes du programme.
Pour créer un do-file, il faut entrer dans le do-file editor. Vous pouvez également construire
un fichier texte (.txt) avec un traitement de texte quelconque auquel vous donnerez une
extension ‘.do’. Notez que vous n’êtes pas du tout obligés d’avoir recours à un do-file, vous
pouvez entrez directement dans la boı̂te de commande toutes les fonctions mentionnées dans
ce guide.
La version 8 de Stata permet d’utiliser les fonctions en les sélectionnant directement des
menus. Ce guide n’abordera pas du tout cette approche et ce concentrera sur l’utilisation
“manuelle” (entrée directe) des fonctions.
6
Chapitre 2
Commandes générales importantes
2.1 Importation des données

Note importante sur l’importation de données:
Lorsque vous faites le transfert des données, vous devez vous assurer que le format de celles-ci
est compatible avec Stata. Outre les séparateurs de données qui doivent correspondre à la
commande choisie, il faut aussi s’assurer que le séparateur de décimales soit un point (.) et
que les milliers ne soient pas séparés par un espace. Consultez la section 13 pour plus de
détails à ce sujet.
insheet
Rapide et efficace, insheet permet d’importer les données d’un fichier texte possédant une
observation par ligne et dont les données sont séparées par des tabulations ou des vir-
gules.
si le nom des données sont sur la première ligne:
insheet using nomdef ichier1
si le fichier ne contient pas le nom des données:

insheet [nom des variables]2 using nom de f ichier
options3 : clear, spécifie que les données en mémoires peuvent être remplacées par les nou-
velles données importées.
1
À moins de précisions contraires, nomdef ichier indique le nom complet, donc avec le chemin d’accès et
l’extension (a : \test.txt par exemple).
2
La nomenclature de l’aide de Stata est conservée tout au long de ce guide, ainsi les arguments entre “[
]” désignent des arguments facultatifs.
3
Les options dans stata sont séparés du reste de la commande par une virgule. Par exemple, dans le cas
présent: insheet using ”c:\ test.txt”, clear
7
infile (inf)4
Permet plus de flexibilité que insheet en permettant que les observations soient sur plusieurs
lignes ou que les données soient séparées par des espaces.
une observation par ligne: infile nom des variables using nom de f ichier
observations sur plusieurs lignes:
infile nom des variables [ skip(#) nom des variables] using ‘‘nom de f ichier’’;
où # désigne le nombre de ligne à sauter pour continuer la lecture de l’observation.
options: clear, voir insheet
ex: observation sur la première, la deuxième et la quatrième ligne. . .

infile var1 var2 skip var3 var4 skip(1) var5 var6 using “a:\ test.raw”
2.2 Manipulation des données

Stata
generate (g)
Probablement la commande la plus utile (et utilisée) dans Stata, elle permet de créer des
nouvelles variables.
generate nouvelle variable = expression
ex: g x2 = x^2
replace
Même idée que generate, mais pour une variable existante.
replace variable existante = expression
ex: replace x2 = x/2
2.2.1 Opérateurs mathématiques

Addition: +
Soustraction: -
Multiplication: *
Division: /
Puissance: ^
4
Le nom entre paranthèses qui suit le nom de la fonction désigne l’abréviation que l’on peut utiliser dans
le code.
8
2.2.2 Opérateurs logiques et de comparaison
ET: &
OU: |
Non (¬): ~
Égal: ==
Différent: ~=
Plus grand: >
Plus petit: <
Plus grand ou égal: >=
Plus petit ou égal: <=
2.2.3 Manipulations des matrices

matrix (mat)
L’équivalent de generate pour les matrices, permet de créer des nouvelles matrices ou de
modifier des matrices existantes.
matrix nom de la matrice = expression
ex:
Création d’une matrice: mat A = B*C
Modification d’une matrice existante: mat A = A*2
Construction d’une matrice: mat D = (1,0,0\0,1,0); où les virgules séparent les
colonnes et les \ séparent les rangées (matrice 2 × 3).
Extraction d’une sous-matrice: mat A = B(1..4,2...); se lit rangées 1 à 4, colonne
2 à N.
Remplacement d’un élément: mat A(1,1) = 3; remplace l’élément a11 par 3.
mkmat
Permet de transformer des variables existantes en vecteurs du même nom ou en une nouvelle
matrice.
Transformation en vecteurs: mkmat nom(s) de variable(s)
Transformation en matrice: mkmat nom(s) de variable(s), matrix [(nom de la nouvelle matrice)]
ex: mkmat x1 x2 x3 x4, mat(X)

svmat
Inverse de mkmat, transforme les colonnes d’une matrice en vecteurs.
svmat matrice, [names(nom col1, nom col2, . . . )]; names peut aussi s’écrire n
9
ex: svmat X, n(x1,x2,x3,x4)
matrix get
Sert à obtenir une copie d’une matrice système5
Quelques matrices systèmes:
• b: coefficients après une estimation
• VCE: matrice de variance-covariance après une estimation
matrix variable = get(matrice système)
ex: matrix beta = get( b)
Fonctions matricielles
det(A): déterminant de A
rowsof(A): nombre de rangées de A
colsof(A): nombre de colonnes de A
el(A,i,j): élément aij de A
I(n): matrice identité n × n
inv(A): inverse de la matrice carrée A
diag(V ): matrice diagonale n × n, avec pour diagonale les éléments de V , où V est un
vecteur n × 1 ou 1 × n
vecdiag(A): extrait la diagonale d’une matrice carrée A sous forme de vecteur
Opérateurs matriciel
Soit A et B, deux matrices carrées définies positives n × n et C, une matrice définie positive
t × n:
Transposée: A0 (n × n)
Somme: A + B (n × n)
Différence: A - B (n × n)
Produit vectoriel: B*C 0 (n × n)
Division par un scalaire: A/k (n × n)
Empiler les rangées horizontalement: A ((n + t) × n)
Empiler les colonnes verticalement: A,B (n × 2n)
5
Les variables et les matrices systèmes sont stockés par Stata dans des noms prédéfinis après une opération
donnée.
10
2.3 Autres transformations des variables
log(x): logarithme naturel de x, équivalent à ln(x)
exp(x): exponentiel de x, i.e. ex
mod(x,y): partie entière de x par rapport à y, par exemple: mod(5,26) = 5
abs(x): valeur absolue de x
sqrt(x): racine carrée de x, équivalent à x^1/2
max(x1 , ..., xn ): renvoie l’argument possédant la valeur la plus élevée
min(x1 , ..., xn ): renvoie l’argument possédant la valeur la moins élevée
sum(x): somme de tous les éléments de x
uniform(): donne une valeur aléatoire entre 0 et 1 (ditribution uniforme sur [0,1))
2.4 Divers
Commentaires
Il est possible d’insérer des commentaires dans son programme en prenant soin de débuter
la ligne de commentaire par le symbole ‘*’.
ex: * Ceci est un commentaire.
more
Avez-vous déjà rencontré le message --more-- qui fait une pause dans l’affichage de vos
données? Si ça vous énerve, vous pouvez enlever ce message en spécifiant set more off au
début de votre programme.
set matsize (set mat)

La taille maximale des matrices est fixée par défaut à 40 × 40 dans Stata. Pour utiliser des
matrices plus grandes vous devez utiliser la fonction set matsize.
set matsize #; où # est un nombre entre 10 et 800 qui indique la taille maximale des
matrices.
if
La majorité des fonctions peuvent être suivies de la commande if qui permet de spécifier
une condition pour que l’expression soit executée. if est placé après la fonction, mais avant
les options
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande if expression
ex: replace x = y if x < y
11
in
La majorité des fonctions peuvent être suivies de la commande in qui permet de spécifier
l’étendue des données affectées par la fonction. in est placé après la fonction, mais avant les
options.
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande in étendue; où étendue peut prendre la forme # ou #/#, et # peut-être un
nombre positif, l (dernière observation), f (première observation) ou un nombre négatif (dis-
tance par rapport à la dernière observation).
ex:
regress y x1 x2 in f /60; équivalent à regress y x1 x2 in 1/60: les 60 premières
observations.
list y in -10/l: les 10 dernières observations.
2.5 Exemples et résultats pour le Chapitre 2

Lecture des données à partir du fichier Donnees.dat et manipulation des variables dans le
but de faire une régression. Le fichier Donnees.dat contient 5 variables, comptant chacune
100 observations.
set more off

infile px qt var3 var4 var5 ”c:\mes documents\Donnees.dat”, clear
* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit
* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale
* à 1 pour que la variable binaire égale 1.
g bin = (0.25 = var3/var4 = 0.5 var5==1)
* Création d’une variable indice.
g no = n
12
Chapitre 3
Visualisation des données
3.1 Impression/Exportation des données

3.1.1 Impression à l’écran
list
Affiche à l’écran la valeur des variables spécifées.
list [nom(s) de variable(s)]; si aucun nom de variable est spécifié, Stata affiche toutes les
variables.
ex:
list y in -10/l: affiche les 10 dernières observations de y.
3.1.2 Exportation
log using
Permet de sauvegarder une copie de sa session dans le fichier spécifié. Doit être suivi de log
off à la fin du programme.
log using nom de f ichier
programme
log off
Options: replace, indique à Stata de remplacer le fichier existant.
3.1.3 Impression
La façon la plus pratique d’imprimer ses résultats est d’utiliser la fonction log, puis de traiter
le fichier “.log” avec son traitement de texte préféré.
13
Reprenons l’exemple du chapitre 1, en incluant cette fois les fonctions du chapitre 2.
log using ”c:\mes documents\ExChap2.log”, replace

set more off
infile px qt var3 var4 var5 ”c:documents.dat”, clear
* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit
* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale
* à 1 pour que la variable binaire égale 1.
g bin = (0.25 = var3/var4 = 0.5 & var5 ==1)
list px qt bin
* Création d’une variable indice.
g no = n
log close
14
Chapitre 4
Graphiques
graph (gr)
Trace des graphiques.
graph nom des variables, [type de graphique, autres options]
Où type de graphique peut prendre les valeurs suivantes:
• histogram (h): histogramme
• twoway (t): nuage de points à deux axes; valeur par défaut si plusieurs variables sont
affichés. La première variable spécifiée est toujours la variable dépendante.
• bar (b): graphique à barres
• pie (p): graphique en pointe de tartes

Voici certaines des options supplémentaires les plus utiles:
• xlog, ylog: spécifie que l’axe des x ou des y respectivement doit être en échelle
logarithmique.
• xline, yline: spécifie qu’une grille en x ou en y respectivement devrait être affichée.
• connect(option) (c(option)): spécifie si les points devraient être connectés/. option

peut prendre les valeurs suivantes:
– .: non-connectés; valeur par défaut

– l: lignes droites entre les points
– s: traces des lignes courbes entre les points
• symbol(option) (s(options)): spécifie le symbole que doivent prendre les points.

option peut prendre les valeurs suivantes:
– O: grand cercles; valeur par défaut
15
– o: petits cercles
– .: points
– i: invisibles
• saving(nomdef ichier), [replace]: sauvegarde le graphique dans le fichier spécifié,

si aucune extension n’est spécifiée, Stata ajoute par défaut “.gph”.
replace indique que le fichier existant peut être remplacé.

log using ”e:\ExChap3.log”, replace
set more off
* Fixer le nombre d’observations à 100.
set obs 100
* création d’un indice de temps commençant à 4.
g t = n+3
* création du log de cet indice.
g lnt = log(t)
graph lnt t, saving(”e:1”, replace)
graph lnt t, yline saving(”e:2”, replace)
graph lnt t, yline c(s) saving(”e:3”, replace)
graph lnt t, yline s(.) saving(”e:4”, replace)
graph lcrd t, xlog yline c(s) s(i) saving(”e:5”, replace)
log off
16
Chapitre 5
Régressions Simples
Dans ce chapitre nous considérerons le modèle suivant:
y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u
y = Xβ + u
regress (reg)
Incontournable si on désire faire des régressions par MCO. Effectue la régression de la variable
dépendante sur la ou les variables indépendantes spécifiées.
regress variable dépendante [variables indépendantes]
Options:
• level(#) (l(#)): permet de spécifier le niveau de confiance pour les intervalles et le
p-value (# doit être un entier); si level() n’est pas spécifié, # prend la valeur 95, i.e.
le niveau de confiance est fixé à 95%.
• robust (r): calcule des variances robustes par la méthode de Eicker-White.
ex: reg y x1 x2 x3 if x1==1, r
predict
Permet de calculer les valeurs prédites, les résidus, etc. pour toutes les observations.
predict nom de nouvelle variable; sans aucune option calcule les valeurs prédites (ŷ).
Options:
• xb: calcule X 0 β, la valeur linéaire prédite
• residuals (r): calcule les résidus
• stdp: calcule les écarts-types des valeurs prédites
17
ex: calcule les ŷ hors-échantillon
reg y x1 x2 x3 in 1/100
predict y hat if ~e(sample)
test (t)
test permet d’effectuer des tests d’hypothèses après une estimation. Il prend principalement
deux formes:
test [expression1 = expression2]: test que l’expression1 n’est pas statistiquement différente
de l’expression2
test liste de coef f icients: test que les coefficients ne sont pas conjointements statistique-
ment différents de zéro.
ex:
reg y x1 x2 x3
test x1 = x2
test x2 x3
5.1 Tests d’hétéroscédasticité

La présence d’hétéroscédasticité ne vient pas biaiser vos résultats, elle biaise plutôt les écarts-
types obtenus par MCO. Il existe plusieurs méthodes similaires de tester pour la présence
d’hétéroscédasticité. La plus simple est le test de Breusch-Pagen:
1. récupérer les résidus de la régression qu’on désire tester;
2. générer le carré des résidus;
3. régresser la carré des résidus sur les variables dépendantes de la régression originale;
4. tester si les coefficients sont conjointement significatifs (test F ou test LM).
reg y x1 x2
predict u, r
g u2 = u2̂
reg u2 x1 x2
Il suffit alors de regarder la statistique F donnée par Stata.
La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement dis-
tribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des variables
dépendantes et leurs produits croisés dans la régression de l’étape 3, il s’agı̂t là du test
18
de White. Afin de limiter le nombre de régresseurs, on peut utiliser un test de White
légèrement modifié:
u2 = β0 + β1 ŷ + β2 ŷ 2 + e
On procède pour le reste exactement de la même façon que pour le test de Breusch-Pagan.
Que faire lorsque vous trouvez la présence d’hétéroscédasticité? Deux options s’offrent à
vous:
• Calculer des variances robustes par la méthode de White1
• Estimer le modèle par MCG, i.e. modéliser la forme d’hétéroscédasticité (voir le

chapitre 8).
5.2 Test de Changement structurel (Test de Chow)

Considérez le modèle suivant:
y = β0 + β1 x1 + β2 x2 + u
Le test de Chow sert à vérifier s’il existe une différence dans l’influence d’une variable
dépendante entre deux groupes de données, i.e. si le coefficient est statistiquement différent.
Les deux groupes de données pourraient être deux séries d’observations ou deux périodes de
temps par exemple.
La façon “classique” d’effectuer le test de Chow est d’effectuer la régression du modèle pour
les deux groupes de façon indépendante et pour les deux groupes ensemble:
yˆ1 = β10 + β11 x11 + β12 x12

yˆ2 = β20 + β21 x21 + β22 x22
ŷ = β0 + β1 x1 + β2 x2
puis de tester si les coefficient sont statistiquement différents par un test F :

ˆ y − SSR
(SSR ˆ y1 − SSRˆ y2 )/q
F =
(SSRˆ y1 − SSR
ˆ y2 )/n1 + n2 − 2k)
Rappel: q est le nombre de contraintes et k le nombre de coefficients, ici q = k = 3

Une autre façon plus rapide d’effectuer ce test est de construire une variable binaire égale à
1
Il peut-être bien tentant de procéder systématiquement avec les variances robustes Eicker-White pour
éviter de faire le test d’hétéroscédasticité, mais cette façon de faire réduit la précision de vos résultats (i.e.
gonfle les écarts-types et réduit la puissance des tests) lorsque les données sont homoscédastiques.
19
un pour les observations du deuxième groupe et de faire une seule régression sur les variables
originales et sur les termes d’interaction avec la variable binaire2 :
Soit δ la variable binaire:
ŷ = β0 + β1 x1 + β2 x2 + β3 δ + β4 x1 δ + β5 x2 δ
On désire maintenant tester si β0 = (β0 + β3 ), si β1 = (β1 + β4 ) et si β2 = (β2 + β5 ). Ce qui
revient à tester si β3 , β4 et β5 sont conjointement différent de 0. Ceci peut être facilement
effectué par un test de F .
ex:
g g2 = (groupe == 2)
g g2x1 = g2*x1
g g2x2 = g2*x2
reg y x1 x2 g2 g2x1 g2x2
test g2 g2x1 g2x2
2
Cette section et l’exemple qui la suit sont inspirés de la rubrique de l’aide de Stata: How can I compute
the Chow test statistic? par Bill Gould.
20
Chapitre 6
Variables instrumentales et Doubles

Moindres Carrés
Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les hypothèses clas-
siques du modèle linéaire sont violées et on se retrouve face à un problème d’endogénéité.
Dans ces cas, on peut faire appel à l’estimateur de variables instrumentales (VI) ou
aux doubles moindres carrés ordinaires (DMCO).
6.1 Estimateur Variables Instrumentales

Soit Z, une matrice de VI et X, la matrice originale. L’estimateur VI est donné par:
β̂(V I) = (Z 0 X)−1 Z 0 y
et l’estimateur VI de la covariance par:
σ̂ 2 (Z 0 X)−1 (Z 0 Z)(X 0 Z)−1
où
1
σ̂ 2 = (y − X β̂(IV ) )0 (y − X β̂(IV ) ).
T
ou, lorsque J > K (J étant le nombre de VI et K le nombre de variables indépendantes),
par:
β̂(IV ) = [X 0 Z(Z 0 Z)−1 Z 0 X]−1 X 0 Z(Z 0 Z)−1 Z 0 y.
σ̂ 2 [X 0 Z(Z 0 Z)−1 Z 0 X]−1 .
ivreg
ivreg permet de faire directement une régression par DMCO.
21
ivreg variable dependante variables independantes (variable dependante = variable(s) intrumentale(
options
où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui affiche
les résultats de la première régression.
ex:
ivreg y1 z1 z2 (y2=x1), r first
predict peut être utilisé après ivreg
6.2 DMCO
Le principe des doubles moindres carrés ordinaires est d’utiliser une estimation de la variable
endogène qui ne soit pas corrélée avec le terme d’erreur pour effectuer la régression.
Soit le modèle suivant:
y1 = β0 + β1 x1 + β2 x2 + β3 y2 + u
et soit z une VI de y2 .
Comme leur nom l’indique, les DMCO se font en deux étapes.
1. Estimation de la variable endogène:

Régression de y2 sur toutes les variables indépendantes (x1 et x2 ici) et la/les VI
pour y2 (z ici).
On récupère yˆ2 , l’estimation linéaire de y2 .
2. Régression du modèle avec yˆ2 :

Régression de y1 sur une constante, x1 , x2 et yˆ2 .
Cette dernière régression ne souffrant plus d’endogénéité, les β̂ ainsi obtenus sont
non-biaisés.
Vous pouvez effectuer les deux régressions par vous même ou utiliser la fonction ivreg à la
section précédente.
22
6.3 Tests d’endogénéité
Le test de Hausman permet de vérifier s’il existe bel et bien une différence entre l’estimateur
VI et l’estimateur MCO, vérifiant ainsi s’il y a bel et bien endogénéité des variables (si les
deux estimateurs sont consistants, ils seront asymptotiquement égaux). Sous H0 , la statis-
tique de Hausman est:
H = [β̂(V I) − b]0 [σ̂ 2 [(X 0 Z(Z 0 Z)−1 Z 0 X]−1 − σ̂ 2 (X 0 X)−1 ]−1 [β̂(V I) − b] ∼ χ2 (J)
hausman
Effectue le test de spécification d’Hausman.
Estimation du modèle moins efficient, mais convergent (VI ici)
hausman, save
Estimation du modèle efficient, mais peut-être pas convergent (MCO ici)
hausman
Options: constant (c), indique que la constante doit être inclue dans la comparaison des
deux modèles.
ex:
ivreg y1 z1 z2 (y2=x1)
hausman, save
reg y1 z1 z2 y2
hausman, c
23
Chapitre 7
Estimateur du Maximum de
Vraissemblance (EMV)
La fonction de vraisemblance est la probabilité jointe des observations étant donné les
paramètres d’intérêts, i.e.:
n
Y
L(θ|y) = f (y1 , . . . , yn |θ) = f (yi |θ)
i=1
L’estimateur du maximum de vraisemblance (EMV) a pour but de choisir le vecteur

de paramètres θ qui maximise la fonction de vraisemblance, i.e. pour lequel les données
observées sont les plus probables. Pour simplifier les choses, la fonction de log-vraisemblance,
L(θ|y), est généralement utilisée1 .
Prenons l’exemple d’un échantillon normalement distribué, de moyenne 0 et de variance σ 2 :
T
Y
f (y|X, β, σ 2 ) = (2πσ 2 )−1/2 exp[(yt − x0t β)2 ]
t=1
(y − Xβ)0 (y − Xβ)

2 −T /2
= (2πσ ) exp − .
2σ 2
La log-vraisemblance est
T T (y − Xβ)0 (y − Xβ)
L(β, σ 2 ) = − log(2π) − log σ 2 − .
2 2 2σ 2
Les CPO sont:
δlnL (y − Xβ)(y − Xβ)
=
δβ 2σ 2
1
Le logarithme étant une fonction montone, la valeur qui maximise L(θ|y) est la même que celle qui
maximise L(θ|y).
24
δlnL T (y − Xβ)0 (y − Xβ)
= − +
δσ 2 2σ 2 2σ 4
Ce qui nous permet de trouver
β̂ = (X 0 X)X 0 y
(y − Xβ)0 (y − Xβ) ê0 ê
σˆ2 = =
T T
ml
Permet de faire une estimation par maximum de vraisemblance pour une équation donnée.
Cette fonction étant fort complexe et très peu utilisée dans le cadre des problèmes abordés
dans ce guide, il est laissé à la discrétion du lecteur le soin de consulter l’aide de Stata à son
sujet.
Stata estime automatiquement par maximum de vraisemblance les régressions qui doivent
être traitées par EMV. Les modèles à variable dépendante qualitative, les modèles de durée
et les ARIMA sont des exemples de tels cas.
25
Chapitre 8
Moindres Carrés Généralisés
La méthode des moindres carrés généralisés (MCG) cherche à modéliser la fonction de

la variance. Nous obtenons alors l’estimateur MCG
β̂ M CG = (X 0 V −1 X)−1 X 0 V −1 y
ou encore
β̂ M CG = (X 0 W −1 X)−1 W 0 V −1 y
et sa variance est
var[β̂] = σ 2 (X 0 V −1 X)−1 .
où V et W sont égaux à
 
x1 0 · · · 0
 0 x2 · · · 0 
2 2
W = σ  .. ..  ≡ σ V

.. . .
. . . .
0 0 · · · xn
vwls
permet de faire une régression linéaire pondérée par la variance.
vwls variable dependante variables independantes [poids], options
Options: sd(nom variable) fournit une estimation de l’écart-type de la variable dépendante.
ex:
vwls y x1 x2, sd(sigma2ch)
où sigma2ch est une estimation de l’écart-type de y.
predict peut être utilisé après vwls
26
Chapitre 9
Variables dépendantes qualitatives
9.1 Probit/Logit
Un probit et un logit s’appuient en fait sur le même principe, ils ne diffèrent que dans la
forme de la fonction de répartition qu’ils utilisent pour calculer l’effet sur la probabilité
d’une variation de la variable latente. En effet, lorsque la variable dépendante ne prend que
des valeurs qualitatives (oui ou non par exemple), l’effet d’une variable indépendante sur la
probabilité de dire oui doit être “traduit” par une fonction de répartition. Cette dernière
nous donne la probabilité associée à une valeur donnée de la valeur latente exprimée par la
combinaison linéaire des variables indépendantes.
probit (prob)
Estime un modèle probit.
probit variable dépendante variable indépendante
Options: probit possède en grande partie les mêmes options que regress.
Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire, il faut
préciser xt dans les options de predict.
logit
Permet d’estimer un modèle logit.
logit variable dépendante variable indépendante
Options: logit possède en grande partie les mêmes options que regress.
27
9.2 Probit/Logit ordonné
9.3 Tobit
Un tobit est essentiellement un modèle dont les données sont censurées. Comme le probit,
le tobit suit une loi normale.
tobit
Permet d’estimer un modèle tobit.
logit variable dépendante variable indépendante
Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à gauche
ou à droite. Une ou les deux de ces options doivent être spécifiées. # indique le point de
troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit respectivement de la valeur
minimum et de la valeur maximum.
Les autres options de tobit sont en grande partie commune avec regress.
ex:
tobit y x1 x2 x3 x4, ll(0)
9.4 Biais de sélection: Heckit
28
Chapitre 10
Modèles de durée
29
Chapitre 11
Séries Chronologiques
11.1 Opération sur les variables dans le cadre de séries

chronologiques
tsset
Lorsqu’on travaille avec des séries chronologiques dans Stata, il est nécessaire de l’en informer
par la commande tsset.
tsset variable de temps
ex:
generate t = n
tsset = t
11.2 Opérateurs de séries temporelles

Voici comment reproduire l’équivalent des opérateurs Avance et Retard dans Stata pour
travailler sur les séries chronologiques.
l
L’opérateur l est l’opérateur Retard de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
l#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre de retards à
appliquer. Si # est omis, un seul retard est appliqué (équivalent à l1.variable).
tsset t
* un modèle AR2
30
regress y l.y l2.y
f
L’opérateur f est l’opérateur Avance de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
f#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre d’avance à
appliquer. Si # est omis, une seule avance est appliquée (équivalent à f1.variable).
tsset t
* une autre formulation pour un modèle AR2
regress f.y y l.y
11.3 Tests d’autocorrélation

Inutile de mentionner que l’autocorrélation est un problème qui n’est pertinent que dans le
cas des séries temporelles. . .
Le test ρ est le test le plus simple à effectuer pour tester la présence d’autocorrélation:
1. récupérer les résidus de la régression qu’on désire tester;
2. régresser ût sur ût−1 à ût−n et X
3. Tester la signification conjointe des coefficients de cette régression par un test F.
Choisissons n égal à 3.
reg y x1 x2
predict u, r
reg u l.u l2.u l3.u
Il suffit alors de regarder la statistique F donnée par Stata.
Le test de Durbin-Watson est aussi utilisé pour tester la présence d’autocorrélation, mais
comme il est moins précis et ne considère qu’une seule période, nous ne le couvrirons pas ici.
31
11.4 Méthode de Box-Jenkins
Ce qu’il est important de comprendre, à mon avis, dans la méthode de Box-Jenkins, c’est que
l’objectif de toutes les opérations que nous effectuons est de se retrouver avec un résidu qui
est un bruit-blanc. Le but ultime étant de modéliser la série afin de faire des prédictions,
nous pouvons seulement être certain d’avoir tout extrait lorsqu’il nous reste seulement un
bruit-blanc: un processus qui est par définission impossible à prédire.
11.4.1 Stationnarité des données

La première étape de la méthode de Box-Jenkins consiste à effectuer les transformations
nécessaires afin de s’assurer que notre série est stationnaire, si elle ne l’est pas, il nous sera
impossible de travailler dessus.
Première question à se poser: doit-on travailler en log ou pas? Si la variable croı̂t à un
taux constant, elle sera linéaire en log. De plus, les propriétés du logarithme font en sorte
qu’il “écrase” une variance croissante. Outre la transformation logarithmique, il existe trois
cas possibles de non-stationnarité qui impliqueront des changements dans la série (ou sa
modélisation):
• Changement structurel
• Tendance déterministe
• Racine unitaire
Changement structurel
Les changement structurels peuvent être détectés à l’aide du Test de Chow (voir section 5.2).
Malheureusement, rien ne peut généralement être fait pour stationnariser une série dans le
cas d’un changement structurel.
Tendance déterministe
Afin de régler le problème de la présence d’une tendance temporelle, il suffit de la modéliser.
Il faut faire attention de bien choisir la tendance la mieux adaptée à nos données: linéaire,
quadratique, logarithmique, etc.
ex: tendance quadratique

t= n
t2 = t^2
tsset t
regress y t t2
32
Racines Unitaires
On fait face à un problème de racine unitaire lorsque ρ = 1 dans le modèle suivant:
yt = α + ρyt−1 + et
Afin de régler le problème de racine unitaire, il faut différencier la série, i.e. travailler sur
∆yt = yt − yt−1 plutôt que yt . Le modèle devient donc:
∆yt = α + θyt−1 + t
La différenciation d’une série est effectuée automatiquement dans Stata lors de l’utilisation
de la fonction arima.
Tester pour la présence d’une racine unitaire se fait par un test t où H0 est θ = 0.
Malheureusement, sous l’hypothèse nulle, la statistique t ne suit pas la loi asymptotique
habituelle. Il faut plutôt utiliser la loi de Dickey-Fuller. S’il y a corrélation des termes
d’erreur, il faut plutôt utiliser une loi de Dickey-Fuller augmentée.
dfuller
Effectue un test de Dickey-Fuller augmenté sur la variable spécifiée.
dfuller nom de variable, options
Options:
• lags(#): spécifie le nombre de retards à utiliser pour le calcul de la variance estimée

Newey-West.
• trend: incluera une variable de tendance dans la régression.

pperron
Possède exactement la même structure et les mêmes options que dfuller, mais effectue un
test de Phillips-Perron plutôt qu’un test de Dickey-Fuller augmenté.
11.4.2 Modélisation des cycles: Modèles AR, MA, ARMA, ARIMA

arima
Permet d’estimer un modèle AR, MA, ARMA ou ARIMA par maximum de vraisemblance.
arima variable dépendante variable indépendante, arima(p,d,q)
où p est le nombre de AR, d le nombre de différenciation et q le nombre de MA.
Il n’est pas nécessaire de préciser de variables indépendates.
33
ex: AR(1)
arima t, arima(1,0,0)
ex: MA(1)
ex: ARIMA(1,1,2)
Pour choisir p et q, il est bon de regarder l’autocorrélogramme partiel (nombre de AR) et

l’autocorrélogramme (nombre de MA) de la variable qui nous intéresse.
corrgram
Construit une table des autocorrélations et des autocorrélations partielles. Permet de tracer
l’autocorrélogramme et l’autocorrélogramme partiel.
corrgram nom de variable, option
Options: lags(#): spécifie le nombre de retards à calculer.
corrgran peut être suivi de deux autres fonctions:
ac
Produit un autocorrélogramme.
ac nom de variable, options
Options:
• lags(#): spécifie le nombre de retards à calculer.

• level(#): spécifie le niveau de confiance à utiliser dans le calcul des bandes
de confiances.
• Toutes les options standards d’un graphique sont également admissible.
pac
Produit un autocorrélogramme partiel. Même structure et mêmes options que ac.
11.4.3 Sélection de Modèle

À chaque étape de la modélisation de notre série chronologique, il est important de choisir
le meilleur des choix qui s’offre à nous: tendance quadratique ou logarithmique? AR(2) ou
AR(3)?
Plusieurs critères existent pour nous aider dans nos choix, nous en explorerons trois qui se
basent tous sur le principe de pénalité pour le nombre de variables.
34
R-carré ajusté
Le R-carré ajusté (R̄2 ) est donné par la formule suivante:
n−1
R̄2 = 1 − (1 − R2 )
n−K
Akaike information criterion (AIC)

Voici la formule habituelle du critère d’Akaike:
e0 e 2K
AIC(K) = log( )+
n n
Bayesian information criterion (BIC)

Voici la formule habituelle du critère de Schwartz ou Bayesien:
e0 e Klogn
BIC(K) = log( )+
n n
Ces critères doivent être construits manuellement.
35
Chapitre 12
Données longitudinales (Panel)
Il existe bon nombre de méthodes pour traiter les données en Panel et la littérature sur le
sujet est très exhaustive, nous ne traiterons donc dans ce chapitre que des méthodes de base.
12.1 Effets Fixes et Effets Aléatoires

Lorsqu’on a des données longitudinales, on voudra souvent isoler l’effet associé à chaque
année, à chaque individu ou aux deux. Il existe deux façons de modéliser ces effets, soit
comme des effets fixes, soit comme des effets aléatoires.
Effets fixes (αi , µt ):
yit = αi + µt + Xit β + eit

Effets aléatoires (αi , µt ):
yit = Xit β + eit

eit = αi + µt + εit
Les effets fixes ont l’avantage de permettre une corrélation avec les variables explicatives,
mais imposent une structure aux effets. À l’inverse, les effets aléatoires seront biaisés s’il y a
corrélation avec certaines varibles explicatives, mais permettent beaucoup plus de flexibilité.
12.1.1 Variables binaires

Dans le cas d’un effet fixe, la méthode la plus simple de capter cet effet est de supposer
qu’il existe pour chacun de nos groupes et, ainsi, d’ajouter une variable binaire par groupe
(sans oublier, comme d’habitude, d’en laisser tomber une). Donc si nous avons cinq groupes
et quatre périodes de temps, nous aurons un total de sept variables binaires. Il peut être
36
préférable dans certains cas de ne pas inclure de constante pour comparer tous les groupes
entre eux. Dans le dernier exemple, on pourrait ainsi laisser tomber la constante et inclure
cinq variables binaires pour les groupes et trois variables binaires pour les annés.
Ajout manuellement de variables binaires pour chaque groupe et chaque année.
ex: Régression sur cinq échantillons tirés de 1980,81,82 et 83.

* création des variables binaires
a81 = (annee == 1981)
a82 = (annee == 1982)
a83 = (annee == 1983)
g2 = (groupe == 2)
g3 = (groupe == 3)
g4 = (groupe == 4)
g5 = (groupe == 5)
* régression
regress y x1 x2 a81 a82 a83 g2 g3 g4 g5
12.1.2 Fonctions pour données longitudinales

Il est aussi possible d’indiquer à Stata que l’on travaille avec des données en Panel afin
d’automatiser le processus de calcul des effets fixes ou aléatoires:
tsset
Cette fonction déjà vue dans le chapitre 11 permet également de déclarer nos données comme
un panel de séries temporelles. Il suffit pour ça d’ajouter la variable de panel (de groupe)
avant la variable de temps.
tsset variable de panel variable de temps
ex:
gt= n
tsset groupe t
Une fois tsset déclaré pour des données panel, il est possible de travailler avec la famille
de fonctions xt de Stata. Il existe une telle fonction pour chacun des types de régression:
xtreg, xtlogit, xprobit, xttobit, xtgls, etc. Nous ne couvrirons ici que sommaire-
ment xtreg et nous vous référons à l’aide de Stata pour plus de détails sur cette famille de
fonctions.
xtreg
37
Permet de faire des régressions sur des données en Panel.
Effet fixe: xtreg variable dépendante variable indépendante, fe
Effet aléatoire estimé par MCG: xtreg variable dépendante variable indépendante, re
Effet aléatoire estimé par EMV: xtreg variable dépendante variable indépendante, mle
ex:
tsset groupe annee
xtreg y x1 x2, fe
38
Chapitre 13
Interaction avec les tableurs et les

traitements de texte
13.1 Remarques
Quelques remarques importantes lorsque vous travaillez avec des données numériques:
• Pour être utilisables, les données numériques doivent être séparées par variable et par
observation, chaque valeur étant séparée de la suivante par un ‘séparateur’.
• Généralement, il est plus facile de travailler si les variables constituent les colonnes et
les observations les rangées.
• Comme les logiciels sont (tous?) américains, le séparateur de décimales doit être un
point (‘.’) et non pas une virgule (‘,’). Si ce n’est pas le cas, ceci peut facilement être
changé par la commande replace du menu Edit de Excel.
• Assurez-vous que le séparateur de valeurs est compatible avec la méthode utilisée pour
importer les données dans le logiciel économétrique.
• Assurez-vous également que si vous avez du texte dans vos observations, cela est permis
par votre méthode d’importation.
• Évitez les lignes de commentaire ou de texte avant vos données ou le nom de vos
variables. Bien qu’il soit possible de contourner cette difficulté, ça évite souvent des
problèmes.
13.2 Tableur
Cette section est surtout orientée vers Excel puisque c’est le tableur le plus utilisé sur le
marché.
39
• Exportation des données: Dans le menu Fichier, Sauvegarder sous, sélectionnez un
format text avec séparateur: soit des tabulations (.txt ou .tab), soit des virgules (.txt
ou .csv).
• Importation de données: En ouvrant un fichier ASCII (sans formatage), l’assistant

importation-données de Excel devrait s’ouvir automatiquement. Vous devrez alors
seulement sélectionner le type de séparateur (étape 2) et le type de données (étape 3:
optionnel) pour pouvoir accéder à votre fichier.
13.3 Traitement de texte

Cette section est surtout orientée vers Word puisque c’est le traitement de texte le plus
utilisé sur le marché.
• Création de Tableau: Le copier-coller est la solution de choix ici. L’idéal est de passer
par Excel après avoir importer le fichier de données (sélectionnez les cases désirées,
copier, coller...). Sinon, vous pouvez également copier directement les résultats à partir
du gestionnaire de données.
• Insertion de Graphique: Menu insertion, objet, du fichier.... Trouvez l’image qui vous
sert de graphique et appuyez sur OK.
• Transcription de résultats: Malheureusement, il n’existe pas de moyen rapide de tran-

scrire vos résultats s’ils ne peuvent pas être mis en tableau. Copier-coller ou la
transcription manuelle demeurent les seuls moyens d’effectuer ce travail... faites des
tableaux!
40
Chapitre 14
Où trouver ses données et comment

les extraires
14.1 Liens utiles
14.1.1 À l’Université
Votre premier arrêt pour trouver des données se doit d’être sur le site web de la bib-
liothèque des sciences humaines au:
http://www.bib.umontreal.ca/SB/num/
Cette page vous donne accès aux plus importantes sources officielles de données numériques,
notamment, Statistiques Canada (E-STAT et CHASS), l’institut de la statistique du
Québec et l’OCDE. La majorité de ces données sont des séries chronologiques ou des
données en panel.
Pour obtenir des données d’enquêtse, il faut se tourner vers Sherlock (aussi accessible
par cette page) ou vers des organismes privés. Certaines données d’enquêtes sont
également accessible par l’institut de la statistique du Québec.
14.1.2 À l’Extérieur
Google www.google.ca
Moteur de recherche très puissant qui devrait vous aider pour toutes vos requêtes.
Gouvernement du Québec www.gouv.qc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.
41
Gouvernement du Canada www.gc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.
Eurostat http://europa.eu.int/comm/eurostat/
Plusieurs indicateurs économiques et sociaux de l’Union Européenne.
US Census Bureau http://www.census.gov/
Données des recensement américains.
Agences Nationales de Statistiques http://www.census.gov/main/www/stat int.html
Liens vers toutes les agences nationales de statistiques.
Fedstat http://www.fedstats.gov/
Liens vers la majorité des organismes fédéraux américains produisant des données
qui son accessibles.
Données Spatiales http://data.geocomm.com/catalog/
Plusieurs liens vers des données codées géographiquement.
DataLinks http://www.econ-datalinks.org/
Une foule de liens vers des données économiques et financières.
Cette liste est très très loin d’être exhaustive, donc n’hésitez pas à pousser vos
recherches sur internet plus loin. Si vous trouver des liens intéressant, envoyez-les moi
et je me ferrai un plaisir de les ajouter aux versions futures de ce guide.
Un conseil: Les sites gouvernementaux et ministériels au niveau national et sous-
national sont souvent des mines d’or de données!
14.2 Accès au Données

Cette section décrit seulement comment accéder et télécharger les données de quelques
sources particulièrement importantes.
14.2.1 Statcan
http://www.bib.umontreal.ca/SB/num/statcan.htm
Vous avez deux choix pour accéder aux séries chronologiques de Statistiques Canada:
E-Stat Accès à la grande majorité des données de Statistiques Canada, environnement

très convivial.
42
CHASS Accès à envrions 600 000 séries de plus qu’avec E-Stat, mais environnement
de navigation moins convivial.
Nous décrirons seulement l’usage de E-Stat ici.
1. Trouvez le tableau qui vous intéresse en effectuant une recherche par sujet ou par
mot-clé.
2. Une fois dans le tableau de votre choix, vous aurez généralement à sélectionner des
séries spécifiques en choisissant parmis une liste déroulante et ce, pour plusieurs
catégories (ex: géographie, fréquence, sexe, dates, etc.).
Choisissez les séries désirés (tenez la touche ctrl enfoncée pour sélectionner
plusieurs items dans une même liste) et appuyez sur série chronologiques.
3. Choisissez votre format de sortie parmis les choix offerts (suggestion: CSV ou
PRN, périodes = lignes).
4. Appuyez sur extraire et sauvegarder le fichier qui apparaitra sous le nom désiré.
14.2.2 OCDE
http://www.sourceoecd.org/ (doit être accédé par l’UdeM)
Généralement, les données les plus intéressantes se trouvent dans statistiques de l’OCDE
/ Perspectives Économiques.
1. Une fois dans Perspectives Économiques, appuyez sur Bases de données statis-
tiques puis, à la page suivante, sur tableaux, puis sur données et, enfin, sur accès
aux données.
2. Vous devrez ensuite sélectionner dans l’ordre vos Pays, vos Variables et votre
Période de couverture.
3. La dernière étape consiste à sauvegarder vos données dans le format désiré.
14.2.3 Sherlock
1. Une fois votre enquête sélectionnée, cliquez dessus.
2. Choisissez le format d’extraction. À moins que vous connaissiez SAS ou SPSS, il
vous est suggéré de choisir Extraction par variables et un fichier .tab.
3. Vous devrez ensuite sélectionner les variables désirées en cochant les cases corre-
spondantes.
43
4. Finalement, vous devez choisir les valeurs des variables que vous désirées.
5. Pour extraire les données, entrez votre adresse courriel et appuyez sur Extraire.
Les données vous seront envoyées en différé à l’adresse spécifiée.
44
45
Annexe A
Tableaux Récapitulatifs
A.1 Fonctions de Stata

Fonction Abréviation Description Forme
Importation de Données
infile inf Importe les données d’un infile nom des variables
fichier. using nomdef ichier
insheet Importe les données d’un insheet using
fichier (séparateurs: tabula- nom de f ichier
tions ou virgules).
Transformation de Variables
generate g Crée une nouvelle variable. generate
nouvelle variable =
expression
replace Remplace une variable exis- replace variable existante
tante. = expression
abs Valeur absolue. abs(x)
exp Exponentiel. exp(x)
log Logarithme naturel. log(x)
max Renvoie l’argument max(x1 , ..., xn )
possédant la valeur la
plus élevée.
min Renvoie l’argument min(x1 , ..., xn )
possédant la valeur la
moins élevée.
mod Modulo de x par rapport à mod(x,y)
y.
sqrt Racine carrée. sqrt(x)
sum Somme de tous les éléments sum(x)
de x. 46
Fonctions Matricielles
matrix mat Crée ou modifie une ma- matrix nom de la matrice
trice. = expression
matrix get Permet d’obtenir copie matrix variable =
d’une matrice système. get(matrice système)
mkmat Transforme des variables en mkmat
vecteurs/matrice. nom(s) de variable(s),
matrix
[(nomdelanouvellematrice)]
svmat Transforme les colonnes svmat matrice,
d’une matrice en variables. [names(nom col1, nom col2, . . . )]
colsof nombre de colonnes d’une colsof(A)
matrice.
det Déterminant d’une matrice. det(A)
diag Matrice diagonale n × n, diag(V )
avec pour diagonale les
éléments de V .
el Élément aij d’une matrice. el(A,i,j)
I Matrice identité n × n. I(n):
inv Inverse d’une matrice inv(A)
carrée.
rowsof Nombre de rangées d’une rowsof(A)
matrice.
vecdiag Extrait la diagonale d’une vecdiag(A)
matrice carrée sous forme de
vecteur.
Fonctions Diverses
graph gr Trace un graphique. graph nomdesvariables,
[typedegraphique,
autresoptions]
list Affiche à l’écran les vari- list
ables spécifiées. [nom(s) de variable(s)]
log Enregistre la session. log using nom de f ichier
more Active ou désactive more on/off
l’affichage de --more--.
set matsize set mat Fixe la taille maximale des set matsize #
matrices.
47
Fonctions Diverses (suite)
uniform Donne une valeur aléatoire uniform()
entre 0 et 1 (ditribution uni-
forme sur [0,1)).
tsset Déclaration de séries tem- tsset variable de temps
porelles/Données pannel.
l Opérateur retard. l#.variable
f Opérateur avance. f#.variable
Fonctions Économétriques
regress reg Effectue une régression regress vard ep [vars inds]
linéaire par MCO.
predict Calcule les valeurs prédites, predict nouvelle variable,
les résidus, etc. options
test t Effectue des tests test [expression1 =
d’hypothèse. expression2]
ivreg Effectue une régression par ivreg var dep vars inds
DMCO. (var dep = V I), options
hausman Effectue le test de hausman / hausman, save
spécification d’Hausman.
vwls Effectue une régression vwls vard ep vars inds
pondérée par la variance [poids], options
(FGLS).
probit prob Estime un modèle probit. probit var dep vars inds
logit Estime un modèle logit. logit var dep vars inds
tobit Estime un modèle tobit. tobit var dep vars inds,
[ll(#)] [ul(#)]
dfuller Effectue le test de Dickey- dfuller nom de variable,
Fuller augmenté. options
pperron Effectue le test de Phillips- pperron nom de variable,
Perron. options
corrgram Produit une table des au- corrgram
tocorrélations et des auto- nom de variable, option
corrélations partielles.
xtreg Effectue une régression sur xtreg var dep vars inds,
des données panel. [fe] [re] [mle]
48
A.2 Opérateurs
Description Forme
Opérateurs Mathématiques
Addition +
Soustraction -
Multiplication *
Division /
Puissance ^
Opérateurs Logiques
ET &
OU |
Non (¬) ~
Opérateurs de Comparaison
Égal ==
Différent ~=
Plus grand >
Plus petit <
Plus grand ou égal >=
Plus petit ou égal <=
A.3 Symboles Mathématiques
Symbole Description Symbole Description Symbole Description

P
Q somme ! factoriel ⊥ perpendiculaire
R produit |x| valeur absolue k parallèle
intégrale kxk norme de x bcp plus petit
∂ dérivée partielle ≺ précède, préféré bcp plus grand
6= différent ∅ ensemble vide ∀ pour tout

≡ équivalent ⊂ sous-ensemble ∃ il existe
de (inclus dans)
≈ approximative- ∈ élément de ¬ non (négation)
ment égal à
∼
= congruent, iso-
T
intersection ⇒ implique
morphique S
∝ proportionel union ⇔ équivalent
∼ similaires (géométrie), asymptotiquement, suit (une loi)
49
A.4 Alphabet Grec
minuscule majuscule nom minuscule majuscule nom
α alpha ν nu
β beta ξ Ξ xi
γ Γ gamma o o
δ ∆ delta π, $ Π pi
, ε epsilon ρ, % rho
ζ zeta σ, ς Σ sigma
η eta τ tau
θ, ϑ Θ theta υ Υ upsilon
ι iota φ, ϕ Φ phi
κ kappa χ chi
λ Λ lambda ψ Ψ psi
µ mu ω Ω omega
50

Guide Econo Me Tries Tata

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Guide Econo Me Tries Tata

Transféré par

Droits d'auteur :

Formats disponibles

Guide d’économétrie appliquée pour Stata

2 Commandes générales importantes 7

3 Visualisation des données 13

6 Variables instrumentales et Doubles Moindres Carrés 21

7 Estimateur du Maximum de Vraissemblance (EMV) 24

9 Variables dépendantes qualitatives 27

12 Données longitudinales (Panel) 36

13 Interaction avec les tableurs et les traitements de texte 39

14 Où trouver ses données et comment les extraires 41

Les fonctions sont présentées dans le format suivant:

La nomenclature suivante est suivie dans ce guide:

Commandes générales importantes

2.1 Importation des données

si le fichier ne contient pas le nom des données:

ex: observation sur la première, la deuxième et la quatrième ligne. . .

2.2 Manipulation des données

ex: replace x2 = x/2

2.2.1 Opérateurs mathématiques

2.2.3 Manipulations des matrices

ex: mkmat x1 x2 x3 x4, mat(X)

• b: coefficients après une estimation

• VCE: matrice de variance-covariance après une estimation

matrix variable = get(matrice système)

ex: matrix beta = get( b)

ex: * Ceci est un commentaire.

set matsize (set mat)

ex: replace x = y if x < y

2.5 Exemples et résultats pour le Chapitre 2

set more off

Visualisation des données

3.1 Impression/Exportation des données

log using ”c:\mes documents\ExChap2.log”, replace

• bar (b): graphique à barres

• pie (p): graphique en pointe de tartes

• xline, yline: spécifie qu’une grille en x ou en y respectivement devrait être affichée.

• connect(option) (c(option)): spécifie si les points devraient être connectés/. option

– .: non-connectés; valeur par défaut

• symbol(option) (s(options)): spécifie le symbole que doivent prendre les points.

– O: grand cercles; valeur par défaut

• saving(nomdef ichier), [replace]: sauvegarde le graphique dans le fichier spécifié,

4.1 Exemples et résultats pour le Chapitre 4

Dans ce chapitre nous considérerons le modèle suivant:

• robust (r): calcule des variances robustes par la méthode de Eicker-White.

ex: reg y x1 x2 x3 if x1==1, r

• residuals (r): calcule les résidus

• stdp: calcule les écarts-types des valeurs prédites

5.1 Tests d’hétéroscédasticité

2. générer le carré des résidus;

4. tester si les coefficients sont conjointement significatifs (test F ou test LM).

• Calculer des variances robustes par la méthode de White1

• Estimer le modèle par MCG, i.e. modéliser la forme d’hétéroscédasticité (voir le

5.2 Test de Changement structurel (Test de Chow)

yˆ1 = β10 + β11 x11 + β12 x12

puis de tester si les coefficient sont statistiquement différents par un test F :

Rappel: q est le nombre de contraintes et k le nombre de coefficients, ici q = k = 3

Soit δ la variable binaire:

Variables instrumentales et Doubles

6.1 Estimateur Variables Instrumentales

et l’estimateur VI de la covariance par:

σ̂ 2 (Z 0 X)−1 (Z 0 Z)(X 0 Z)−1

σ̂ 2 [X 0 Z(Z 0 Z)−1 Z 0 X]−1 .

predict peut être utilisé après ivreg

Comme leur nom l’indique, les DMCO se font en deux étapes.

1. Estimation de la variable endogène: