Vous êtes sur la page 1sur 51

Guide d’économétrie appliquée pour Stata

Simon Leblond1
Université de Montréal
simon.leblond@umontreal.ca

26 décembre 2003

1 Merci à William McCausland, François Vaillancourt et Benoit Perron pour leurs commentaires
utiles dans l’élaboration de ce document. Je demeure seul responsable de toutes les erreurs.
Table des Matières

1 Introduction à Stata 6

2 Commandes générales importantes 7


2.1 Importation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Manipulation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.1 Opérateurs mathématiques . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Opérateurs logiques et de comparaison . . . . . . . . . . . . . . . . . 9
2.2.3 Manipulations des matrices . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Autres transformations des variables . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Divers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.5 Exemples et résultats pour le Chapitre 2 . . . . . . . . . . . . . . . . . . . . 12

3 Visualisation des données 13


3.1 Impression/Exportation des données . . . . . . . . . . . . . . . . . . . . . . 13
3.1.1 Impression à l’écran . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.2 Exportation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.1.3 Impression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Exemples et résultats pour le Chapitre 3 . . . . . . . . . . . . . . . . . . . . 14

4 Graphiques 15
4.1 Exemples et résultats pour le Chapitre 4 . . . . . . . . . . . . . . . . . . . . 16

5 Régressions Simples 17
5.1 Tests d’hétéroscédasticité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
5.2 Test de Changement structurel (Test de Chow) . . . . . . . . . . . . . . . . 19

6 Variables instrumentales et Doubles Moindres Carrés 21


6.1 Estimateur Variables Instrumentales . . . . . . . . . . . . . . . . . . . . . . 21
6.2 DMCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.3 Tests d’endogénéité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

7 Estimateur du Maximum de Vraissemblance (EMV) 24

1
8 Moindres Carrés Généralisés 26

9 Variables dépendantes qualitatives 27


9.1 Probit/Logit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
9.2 Probit/Logit ordonné . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.3 Tobit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
9.4 Biais de sélection: Heckit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

10 Modèles de durée 29

11 Séries Chronologiques 30
11.1 Opération sur les variables dans le cadre de séries chronologiques . . . . . . . 30
11.2 Opérateurs de séries temporelles . . . . . . . . . . . . . . . . . . . . . . . . . 30
11.3 Tests d’autocorrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
11.4 Méthode de Box-Jenkins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.1 Stationnarité des données . . . . . . . . . . . . . . . . . . . . . . . . 32
11.4.2 Modélisation des cycles: Modèles AR, MA, ARMA, ARIMA . . . . . 33
11.4.3 Sélection de Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

12 Données longitudinales (Panel) 36


12.1 Effets Fixes et Effets Aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.1.1 Variables binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
12.1.2 Fonctions pour données longitudinales . . . . . . . . . . . . . . . . . 37

13 Interaction avec les tableurs et les traitements de texte 39


13.1 Remarques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13.2 Tableur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
13.3 Traitement de texte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

14 Où trouver ses données et comment les extraires 41


14.1 Liens utiles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.1.1 À l’Université . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.1.2 À l’Extérieur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
14.2 Accès au Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
14.2.1 Statcan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
14.2.2 OCDE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
14.2.3 Sherlock . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

A Tableaux Récapitulatifs 45
A.1 Fonctions de Stata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
A.2 Opérateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
A.3 Symboles Mathématiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

2
A.4 Alphabet Grec . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3
Introduction

Ce manuel ne vient pas se substituer à vos notes de cours, mais plutôt les compléter en vous
donnant un guide pour l’utilisation de Stata. À ce titre, bien que vous trouverez quelques fois
des explications plus importantes sur la nature d’un problème économétrique, la majorité
du temps on supposera que vous possédez déjà les connaissances liées à la section consultée.
Chaque section présente rapidement le but de l’opération qui y est traité. Les commandes
appropriées sont ensuite présentées, d’abord individuellement, puis dans le cadre d’exemples
concrets. Il existe deux versions de ce guide, celle-ci pour Stata et une autre pour Matlab.
Notez que ce manuel couvre la version 7 de Stata, la version 8 sera intégrée peu à peu pendant
l’année qui vient. Comme il s’agit d’un manuel encore en développement, des changements
lui seront constamment apportés en cours de session et la version distribuée sera toujours la
plus récente. Tout commentaire, suggestion ou correction sera bienvenu et apprécié.
Prenez note que ce texte décrit seulement certaines fonctions ainsi que leurs options
les plus souvent utilisées pour le genre de recherches effectuées au bac et à la maı̂trise en
économie, il n’est donc pas du tout exhaustif. Un conseil: apprenez à utiliser l’aide de Stata.
Il s’agit là d’un outil fort utile pour découvrir de nouvelles fonctions ou pour connaı̂tre
l’ensemble des options disponibles pour les fonctions décrites dans ce guide.

Les fonctions sont présentées dans le format suivant:


1. Le nom de la fonction et, entre paranthèses, le nom abrgégé de la fonction;
2. Sa description;
3. Le format d’entrée;
4. Ses options (s’il y en a);
5. Un exemple court.
La majorité des chapitres se terminent par une section donnant un exemple plus long et plus
concret d’applications des informations présentés dans le chapitre.

La nomenclature suivante est suivie dans ce guide:


• Le texte en machine à écrire désigne les fonctions dans leur forme générique.

4
• Le texte en italique désigne les variables et autres chaı̂nes de caractères qui doivent
être remplacées.

• Le texte en sans serif désigne le texte tel qu’il serait entré à l’ordinateur.

Les chapitres 1 à 4 font le tour des commandes de base, ainsi que leur format de saisie. À
la suite de ces chapitres vous devriez être en mesure d’importer, de manipuler, puis d’exporter
vos données et de tracer des graphiques.
Les chapitres 5 à 12 abordent quant à eux chacun un sujet spécifique de l’économétrie. Ils
prennent donc une approche quelque peu différente puisqu’ils introduisent peu de nouvelles
fonctions, se concentrant plutôt sur la démarche à adopter pour effectuer l’opération en
question.
Finalement, les deux derniers chapitres (13 et 14) sortent quelque peu du cadre de ce
guide en abordant respectivement la manipulation des données par Word et Excel et la
recherche de données. Ces chapitres ont pour but de vous aider dans le cadre plus général
de la production d’un travail de recherche.

5
Chapitre 1

Introduction à Stata

Ce guide s’appuie sur la construction d’un do-file (.do), plutôt que sur l’entrée directe de
commandes. Les avantages du do-file sont nombreux. Entre autres, il vous d’entrer les
commandes à nouveau si le travail s’étend sur plusieurs séances, il permet de garder une trace
du travail effectuer et il permet de garder une vue d’ensemble des étapes du programme.
Pour créer un do-file, il faut entrer dans le do-file editor. Vous pouvez également construire
un fichier texte (.txt) avec un traitement de texte quelconque auquel vous donnerez une
extension ‘.do’. Notez que vous n’êtes pas du tout obligés d’avoir recours à un do-file, vous
pouvez entrez directement dans la boı̂te de commande toutes les fonctions mentionnées dans
ce guide.
La version 8 de Stata permet d’utiliser les fonctions en les sélectionnant directement des
menus. Ce guide n’abordera pas du tout cette approche et ce concentrera sur l’utilisation
“manuelle” (entrée directe) des fonctions.

6
Chapitre 2

Commandes générales importantes

2.1 Importation des données


Note importante sur l’importation de données:
Lorsque vous faites le transfert des données, vous devez vous assurer que le format de celles-ci
est compatible avec Stata. Outre les séparateurs de données qui doivent correspondre à la
commande choisie, il faut aussi s’assurer que le séparateur de décimales soit un point (.) et
que les milliers ne soient pas séparés par un espace. Consultez la section 13 pour plus de
détails à ce sujet.

insheet
Rapide et efficace, insheet permet d’importer les données d’un fichier texte possédant une
observation par ligne et dont les données sont séparées par des tabulations ou des vir-
gules.
si le nom des données sont sur la première ligne:
insheet using nomdef ichier1

si le fichier ne contient pas le nom des données:


insheet [nom des variables]2 using nom de f ichier

options3 : clear, spécifie que les données en mémoires peuvent être remplacées par les nou-
velles données importées.
1
À moins de précisions contraires, nomdef ichier indique le nom complet, donc avec le chemin d’accès et
l’extension (a : \test.txt par exemple).
2
La nomenclature de l’aide de Stata est conservée tout au long de ce guide, ainsi les arguments entre “[
]” désignent des arguments facultatifs.
3
Les options dans stata sont séparés du reste de la commande par une virgule. Par exemple, dans le cas
présent: insheet using ”c:\ test.txt”, clear

7
infile (inf)4
Permet plus de flexibilité que insheet en permettant que les observations soient sur plusieurs
lignes ou que les données soient séparées par des espaces.
une observation par ligne: infile nom des variables using nom de f ichier
observations sur plusieurs lignes:
infile nom des variables [ skip(#) nom des variables] using ‘‘nom de f ichier’’;
où # désigne le nombre de ligne à sauter pour continuer la lecture de l’observation.
options: clear, voir insheet

ex: observation sur la première, la deuxième et la quatrième ligne. . .


infile var1 var2 skip var3 var4 skip(1) var5 var6 using “a:\ test.raw”

2.2 Manipulation des données


Stata

generate (g)
Probablement la commande la plus utile (et utilisée) dans Stata, elle permet de créer des
nouvelles variables.
generate nouvelle variable = expression

ex: g x2 = x^2
replace
Même idée que generate, mais pour une variable existante.
replace variable existante = expression

ex: replace x2 = x/2

2.2.1 Opérateurs mathématiques


Addition: +
Soustraction: -
Multiplication: *
Division: /
Puissance: ^
4
Le nom entre paranthèses qui suit le nom de la fonction désigne l’abréviation que l’on peut utiliser dans
le code.

8
2.2.2 Opérateurs logiques et de comparaison
ET: &
OU: |
Non (¬): ~

Égal: ==
Différent: ~=
Plus grand: >
Plus petit: <
Plus grand ou égal: >=
Plus petit ou égal: <=

2.2.3 Manipulations des matrices


matrix (mat)
L’équivalent de generate pour les matrices, permet de créer des nouvelles matrices ou de
modifier des matrices existantes.
matrix nom de la matrice = expression

ex:
Création d’une matrice: mat A = B*C
Modification d’une matrice existante: mat A = A*2
Construction d’une matrice: mat D = (1,0,0\0,1,0); où les virgules séparent les
colonnes et les \ séparent les rangées (matrice 2 × 3).
Extraction d’une sous-matrice: mat A = B(1..4,2...); se lit rangées 1 à 4, colonne
2 à N.
Remplacement d’un élément: mat A(1,1) = 3; remplace l’élément a11 par 3.

mkmat
Permet de transformer des variables existantes en vecteurs du même nom ou en une nouvelle
matrice.
Transformation en vecteurs: mkmat nom(s) de variable(s)
Transformation en matrice: mkmat nom(s) de variable(s), matrix [(nom de la nouvelle matrice)]

ex: mkmat x1 x2 x3 x4, mat(X)


svmat
Inverse de mkmat, transforme les colonnes d’une matrice en vecteurs.
svmat matrice, [names(nom col1, nom col2, . . . )]; names peut aussi s’écrire n

9
ex: svmat X, n(x1,x2,x3,x4)

matrix get
Sert à obtenir une copie d’une matrice système5
Quelques matrices systèmes:

• b: coefficients après une estimation

• VCE: matrice de variance-covariance après une estimation

matrix variable = get(matrice système)

ex: matrix beta = get( b)

Fonctions matricielles
det(A): déterminant de A
rowsof(A): nombre de rangées de A
colsof(A): nombre de colonnes de A
el(A,i,j): élément aij de A
I(n): matrice identité n × n
inv(A): inverse de la matrice carrée A
diag(V ): matrice diagonale n × n, avec pour diagonale les éléments de V , où V est un
vecteur n × 1 ou 1 × n
vecdiag(A): extrait la diagonale d’une matrice carrée A sous forme de vecteur

Opérateurs matriciel
Soit A et B, deux matrices carrées définies positives n × n et C, une matrice définie positive
t × n:
Transposée: A0 (n × n)
Somme: A + B (n × n)
Différence: A - B (n × n)
Produit vectoriel: B*C 0 (n × n)
Division par un scalaire: A/k (n × n)
Empiler les rangées horizontalement: A ((n + t) × n)
Empiler les colonnes verticalement: A,B (n × 2n)

5
Les variables et les matrices systèmes sont stockés par Stata dans des noms prédéfinis après une opération
donnée.

10
2.3 Autres transformations des variables
log(x): logarithme naturel de x, équivalent à ln(x)
exp(x): exponentiel de x, i.e. ex
mod(x,y): partie entière de x par rapport à y, par exemple: mod(5,26) = 5
abs(x): valeur absolue de x
sqrt(x): racine carrée de x, équivalent à x^1/2
max(x1 , ..., xn ): renvoie l’argument possédant la valeur la plus élevée
min(x1 , ..., xn ): renvoie l’argument possédant la valeur la moins élevée
sum(x): somme de tous les éléments de x
uniform(): donne une valeur aléatoire entre 0 et 1 (ditribution uniforme sur [0,1))

2.4 Divers
Commentaires
Il est possible d’insérer des commentaires dans son programme en prenant soin de débuter
la ligne de commentaire par le symbole ‘*’.

ex: * Ceci est un commentaire.

more
Avez-vous déjà rencontré le message --more-- qui fait une pause dans l’affichage de vos
données? Si ça vous énerve, vous pouvez enlever ce message en spécifiant set more off au
début de votre programme.

set matsize (set mat)


La taille maximale des matrices est fixée par défaut à 40 × 40 dans Stata. Pour utiliser des
matrices plus grandes vous devez utiliser la fonction set matsize.
set matsize #; où # est un nombre entre 10 et 800 qui indique la taille maximale des
matrices.

if
La majorité des fonctions peuvent être suivies de la commande if qui permet de spécifier
une condition pour que l’expression soit executée. if est placé après la fonction, mais avant
les options
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande if expression

ex: replace x = y if x < y

11
in
La majorité des fonctions peuvent être suivies de la commande in qui permet de spécifier
l’étendue des données affectées par la fonction. in est placé après la fonction, mais avant les
options.
Cette option ne sera pas mentionnée pour chaque fonction puisqu’elle est présente très sou-
vent.
commande in étendue; où étendue peut prendre la forme # ou #/#, et # peut-être un
nombre positif, l (dernière observation), f (première observation) ou un nombre négatif (dis-
tance par rapport à la dernière observation).

ex:
regress y x1 x2 in f /60; équivalent à regress y x1 x2 in 1/60: les 60 premières
observations.
list y in -10/l: les 10 dernières observations.

2.5 Exemples et résultats pour le Chapitre 2


Lecture des données à partir du fichier Donnees.dat et manipulation des variables dans le
but de faire une régression. Le fichier Donnees.dat contient 5 variables, comptant chacune
100 observations.

set more off


infile px qt var3 var4 var5 ”c:\mes documents\Donnees.dat”, clear
* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit
* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale
* à 1 pour que la variable binaire égale 1.
g bin = (0.25 = var3/var4 = 0.5 var5==1)
* Création d’une variable indice.
g no = n

12
Chapitre 3

Visualisation des données

3.1 Impression/Exportation des données


3.1.1 Impression à l’écran
list
Affiche à l’écran la valeur des variables spécifées.
list [nom(s) de variable(s)]; si aucun nom de variable est spécifié, Stata affiche toutes les
variables.

ex:
list y in -10/l: affiche les 10 dernières observations de y.

3.1.2 Exportation
log using
Permet de sauvegarder une copie de sa session dans le fichier spécifié. Doit être suivi de log
off à la fin du programme.
log using nom de f ichier
programme
log off
Options: replace, indique à Stata de remplacer le fichier existant.

3.1.3 Impression
La façon la plus pratique d’imprimer ses résultats est d’utiliser la fonction log, puis de traiter
le fichier “.log” avec son traitement de texte préféré.

13
3.2 Exemples et résultats pour le Chapitre 3
Reprenons l’exemple du chapitre 1, en incluant cette fois les fonctions du chapitre 2.

log using ”c:\mes documents\ExChap2.log”, replace


set more off
infile px qt var3 var4 var5 ”c:documents.dat”, clear
* Construction d’une variable binaire: le rapport de la 3e sur la 4e variable doit
* être inclu dans l’ensemble [0,25;0,5] et la 5e variable doit être égale
* à 1 pour que la variable binaire égale 1.
g bin = (0.25 = var3/var4 = 0.5 & var5 ==1)
list px qt bin
* Création d’une variable indice.
g no = n
log close

14
Chapitre 4

Graphiques

graph (gr)
Trace des graphiques.
graph nom des variables, [type de graphique, autres options]
Où type de graphique peut prendre les valeurs suivantes:
• histogram (h): histogramme

• twoway (t): nuage de points à deux axes; valeur par défaut si plusieurs variables sont
affichés. La première variable spécifiée est toujours la variable dépendante.

• bar (b): graphique à barres

• pie (p): graphique en pointe de tartes


Voici certaines des options supplémentaires les plus utiles:
• xlog, ylog: spécifie que l’axe des x ou des y respectivement doit être en échelle
logarithmique.

• xline, yline: spécifie qu’une grille en x ou en y respectivement devrait être affichée.

• connect(option) (c(option)): spécifie si les points devraient être connectés/. option


peut prendre les valeurs suivantes:

– .: non-connectés; valeur par défaut


– l: lignes droites entre les points
– s: traces des lignes courbes entre les points

• symbol(option) (s(options)): spécifie le symbole que doivent prendre les points.


option peut prendre les valeurs suivantes:

– O: grand cercles; valeur par défaut

15
– o: petits cercles
– .: points
– i: invisibles

• saving(nomdef ichier), [replace]: sauvegarde le graphique dans le fichier spécifié,


si aucune extension n’est spécifiée, Stata ajoute par défaut “.gph”.
replace indique que le fichier existant peut être remplacé.

4.1 Exemples et résultats pour le Chapitre 4


log using ”e:\ExChap3.log”, replace
set more off
* Fixer le nombre d’observations à 100.
set obs 100
* création d’un indice de temps commençant à 4.
g t = n+3
* création du log de cet indice.
g lnt = log(t)
graph lnt t, saving(”e:1”, replace)
graph lnt t, yline saving(”e:2”, replace)
graph lnt t, yline c(s) saving(”e:3”, replace)
graph lnt t, yline s(.) saving(”e:4”, replace)
graph lcrd t, xlog yline c(s) s(i) saving(”e:5”, replace)
log off

16
Chapitre 5

Régressions Simples

Dans ce chapitre nous considérerons le modèle suivant:

y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u
y = Xβ + u

regress (reg)
Incontournable si on désire faire des régressions par MCO. Effectue la régression de la variable
dépendante sur la ou les variables indépendantes spécifiées.
regress variable dépendante [variables indépendantes]
Options:
• level(#) (l(#)): permet de spécifier le niveau de confiance pour les intervalles et le
p-value (# doit être un entier); si level() n’est pas spécifié, # prend la valeur 95, i.e.
le niveau de confiance est fixé à 95%.

• robust (r): calcule des variances robustes par la méthode de Eicker-White.

ex: reg y x1 x2 x3 if x1==1, r

predict
Permet de calculer les valeurs prédites, les résidus, etc. pour toutes les observations.
predict nom de nouvelle variable; sans aucune option calcule les valeurs prédites (ŷ).
Options:
• xb: calcule X 0 β, la valeur linéaire prédite

• residuals (r): calcule les résidus

• stdp: calcule les écarts-types des valeurs prédites

17
ex: calcule les ŷ hors-échantillon
reg y x1 x2 x3 in 1/100
predict y hat if ~e(sample)

test (t)
test permet d’effectuer des tests d’hypothèses après une estimation. Il prend principalement
deux formes:
test [expression1 = expression2]: test que l’expression1 n’est pas statistiquement différente
de l’expression2
test liste de coef f icients: test que les coefficients ne sont pas conjointements statistique-
ment différents de zéro.

ex:
reg y x1 x2 x3
test x1 = x2
test x2 x3

5.1 Tests d’hétéroscédasticité


La présence d’hétéroscédasticité ne vient pas biaiser vos résultats, elle biaise plutôt les écarts-
types obtenus par MCO. Il existe plusieurs méthodes similaires de tester pour la présence
d’hétéroscédasticité. La plus simple est le test de Breusch-Pagen:
1. récupérer les résidus de la régression qu’on désire tester;

2. générer le carré des résidus;

3. régresser la carré des résidus sur les variables dépendantes de la régression originale;

4. tester si les coefficients sont conjointement significatifs (test F ou test LM).

reg y x1 x2
predict u, r
g u2 = u2̂
reg u2 x1 x2
Il suffit alors de regarder la statistique F donnée par Stata.

La faiblesse du test de Breusch-Pagan est qu’il suppose les erreurs normalement dis-
tribuées. Afin de laisser tomber cette hypothèse, il suffit d’ajouter le carré des variables
dépendantes et leurs produits croisés dans la régression de l’étape 3, il s’agı̂t là du test

18
de White. Afin de limiter le nombre de régresseurs, on peut utiliser un test de White
légèrement modifié:
u2 = β0 + β1 ŷ + β2 ŷ 2 + e
On procède pour le reste exactement de la même façon que pour le test de Breusch-Pagan.

Que faire lorsque vous trouvez la présence d’hétéroscédasticité? Deux options s’offrent à
vous:

• Calculer des variances robustes par la méthode de White1

• Estimer le modèle par MCG, i.e. modéliser la forme d’hétéroscédasticité (voir le


chapitre 8).

5.2 Test de Changement structurel (Test de Chow)


Considérez le modèle suivant:

y = β0 + β1 x1 + β2 x2 + u

Le test de Chow sert à vérifier s’il existe une différence dans l’influence d’une variable
dépendante entre deux groupes de données, i.e. si le coefficient est statistiquement différent.
Les deux groupes de données pourraient être deux séries d’observations ou deux périodes de
temps par exemple.
La façon “classique” d’effectuer le test de Chow est d’effectuer la régression du modèle pour
les deux groupes de façon indépendante et pour les deux groupes ensemble:

yˆ1 = β10 + β11 x11 + β12 x12


yˆ2 = β20 + β21 x21 + β22 x22
ŷ = β0 + β1 x1 + β2 x2

puis de tester si les coefficient sont statistiquement différents par un test F :


ˆ y − SSR
(SSR ˆ y1 − SSRˆ y2 )/q
F =
(SSRˆ y1 − SSR
ˆ y2 )/n1 + n2 − 2k)

Rappel: q est le nombre de contraintes et k le nombre de coefficients, ici q = k = 3


Une autre façon plus rapide d’effectuer ce test est de construire une variable binaire égale à
1
Il peut-être bien tentant de procéder systématiquement avec les variances robustes Eicker-White pour
éviter de faire le test d’hétéroscédasticité, mais cette façon de faire réduit la précision de vos résultats (i.e.
gonfle les écarts-types et réduit la puissance des tests) lorsque les données sont homoscédastiques.

19
un pour les observations du deuxième groupe et de faire une seule régression sur les variables
originales et sur les termes d’interaction avec la variable binaire2 :

Soit δ la variable binaire:

ŷ = β0 + β1 x1 + β2 x2 + β3 δ + β4 x1 δ + β5 x2 δ
On désire maintenant tester si β0 = (β0 + β3 ), si β1 = (β1 + β4 ) et si β2 = (β2 + β5 ). Ce qui
revient à tester si β3 , β4 et β5 sont conjointement différent de 0. Ceci peut être facilement
effectué par un test de F .

ex:

g g2 = (groupe == 2)
g g2x1 = g2*x1
g g2x2 = g2*x2
reg y x1 x2 g2 g2x1 g2x2
test g2 g2x1 g2x2

2
Cette section et l’exemple qui la suit sont inspirés de la rubrique de l’aide de Stata: How can I compute
the Chow test statistic? par Bill Gould.

20
Chapitre 6

Variables instrumentales et Doubles


Moindres Carrés

Lorsqu’une variable “indépendante” est corrélée avec le terme d’erreur, les hypothèses clas-
siques du modèle linéaire sont violées et on se retrouve face à un problème d’endogénéité.
Dans ces cas, on peut faire appel à l’estimateur de variables instrumentales (VI) ou
aux doubles moindres carrés ordinaires (DMCO).

6.1 Estimateur Variables Instrumentales


Soit Z, une matrice de VI et X, la matrice originale. L’estimateur VI est donné par:

β̂(V I) = (Z 0 X)−1 Z 0 y

et l’estimateur VI de la covariance par:

σ̂ 2 (Z 0 X)−1 (Z 0 Z)(X 0 Z)−1

où
1
σ̂ 2 = (y − X β̂(IV ) )0 (y − X β̂(IV ) ).
T
ou, lorsque J > K (J étant le nombre de VI et K le nombre de variables indépendantes),
par:
β̂(IV ) = [X 0 Z(Z 0 Z)−1 Z 0 X]−1 X 0 Z(Z 0 Z)−1 Z 0 y.

σ̂ 2 [X 0 Z(Z 0 Z)−1 Z 0 X]−1 .

ivreg
ivreg permet de faire directement une régression par DMCO.

21
ivreg variable dependante variables independantes (variable dependante = variable(s) intrumentale(
options
où options peut prendre les mêmes valeurs que pour regress, ainsi que first qui affiche
les résultats de la première régression.

ex:
ivreg y1 z1 z2 (y2=x1), r first

predict peut être utilisé après ivreg

6.2 DMCO
Le principe des doubles moindres carrés ordinaires est d’utiliser une estimation de la variable
endogène qui ne soit pas corrélée avec le terme d’erreur pour effectuer la régression.
Soit le modèle suivant:

y1 = β0 + β1 x1 + β2 x2 + β3 y2 + u
et soit z une VI de y2 .

Comme leur nom l’indique, les DMCO se font en deux étapes.

1. Estimation de la variable endogène:


Régression de y2 sur toutes les variables indépendantes (x1 et x2 ici) et la/les VI
pour y2 (z ici).
On récupère yˆ2 , l’estimation linéaire de y2 .

2. Régression du modèle avec yˆ2 :


Régression de y1 sur une constante, x1 , x2 et yˆ2 .

Cette dernière régression ne souffrant plus d’endogénéité, les β̂ ainsi obtenus sont
non-biaisés.

Vous pouvez effectuer les deux régressions par vous même ou utiliser la fonction ivreg à la
section précédente.

22
6.3 Tests d’endogénéité
Le test de Hausman permet de vérifier s’il existe bel et bien une différence entre l’estimateur
VI et l’estimateur MCO, vérifiant ainsi s’il y a bel et bien endogénéité des variables (si les
deux estimateurs sont consistants, ils seront asymptotiquement égaux). Sous H0 , la statis-
tique de Hausman est:

H = [β̂(V I) − b]0 [σ̂ 2 [(X 0 Z(Z 0 Z)−1 Z 0 X]−1 − σ̂ 2 (X 0 X)−1 ]−1 [β̂(V I) − b] ∼ χ2 (J)

hausman
Effectue le test de spécification d’Hausman.
Estimation du modèle moins efficient, mais convergent (VI ici)
hausman, save
Estimation du modèle efficient, mais peut-être pas convergent (MCO ici)
hausman
Options: constant (c), indique que la constante doit être inclue dans la comparaison des
deux modèles.

ex:
ivreg y1 z1 z2 (y2=x1)
hausman, save
reg y1 z1 z2 y2
hausman, c

23
Chapitre 7

Estimateur du Maximum de
Vraissemblance (EMV)

La fonction de vraisemblance est la probabilité jointe des observations étant donné les
paramètres d’intérêts, i.e.:
n
Y
L(θ|y) = f (y1 , . . . , yn |θ) = f (yi |θ)
i=1

L’estimateur du maximum de vraisemblance (EMV) a pour but de choisir le vecteur


de paramètres θ qui maximise la fonction de vraisemblance, i.e. pour lequel les données
observées sont les plus probables. Pour simplifier les choses, la fonction de log-vraisemblance,
L(θ|y), est généralement utilisée1 .
Prenons l’exemple d’un échantillon normalement distribué, de moyenne 0 et de variance σ 2 :
T
Y
f (y|X, β, σ 2 ) = (2πσ 2 )−1/2 exp[(yt − x0t β)2 ]
t=1
(y − Xβ)0 (y − Xβ)
 
2 −T /2
= (2πσ ) exp − .
2σ 2

La log-vraisemblance est
T T (y − Xβ)0 (y − Xβ)
L(β, σ 2 ) = − log(2π) − log σ 2 − .
2 2 2σ 2
Les CPO sont:
δlnL (y − Xβ)(y − Xβ)
=
δβ 2σ 2
1
Le logarithme étant une fonction montone, la valeur qui maximise L(θ|y) est la même que celle qui
maximise L(θ|y).

24
δlnL T (y − Xβ)0 (y − Xβ)
= − +
δσ 2 2σ 2 2σ 4
Ce qui nous permet de trouver
β̂ = (X 0 X)X 0 y
(y − Xβ)0 (y − Xβ) ê0 ê
σˆ2 = =
T T

ml
Permet de faire une estimation par maximum de vraisemblance pour une équation donnée.
Cette fonction étant fort complexe et très peu utilisée dans le cadre des problèmes abordés
dans ce guide, il est laissé à la discrétion du lecteur le soin de consulter l’aide de Stata à son
sujet.

Stata estime automatiquement par maximum de vraisemblance les régressions qui doivent
être traitées par EMV. Les modèles à variable dépendante qualitative, les modèles de durée
et les ARIMA sont des exemples de tels cas.

25
Chapitre 8

Moindres Carrés Généralisés

La méthode des moindres carrés généralisés (MCG) cherche à modéliser la fonction de


la variance. Nous obtenons alors l’estimateur MCG

β̂ M CG = (X 0 V −1 X)−1 X 0 V −1 y

ou encore
β̂ M CG = (X 0 W −1 X)−1 W 0 V −1 y
et sa variance est
var[β̂] = σ 2 (X 0 V −1 X)−1 .
où V et W sont égaux à
 
x1 0 · · · 0
 0 x2 · · · 0 
2 2
W = σ  .. ..  ≡ σ V

.. . .
. . . .
0 0 · · · xn

vwls
permet de faire une régression linéaire pondérée par la variance.
vwls variable dependante variables independantes [poids], options
Options: sd(nom variable) fournit une estimation de l’écart-type de la variable dépendante.

ex:
vwls y x1 x2, sd(sigma2ch)
où sigma2ch est une estimation de l’écart-type de y.

predict peut être utilisé après vwls

26
Chapitre 9

Variables dépendantes qualitatives

9.1 Probit/Logit
Un probit et un logit s’appuient en fait sur le même principe, ils ne diffèrent que dans la
forme de la fonction de répartition qu’ils utilisent pour calculer l’effet sur la probabilité
d’une variation de la variable latente. En effet, lorsque la variable dépendante ne prend que
des valeurs qualitatives (oui ou non par exemple), l’effet d’une variable indépendante sur la
probabilité de dire oui doit être “traduit” par une fonction de répartition. Cette dernière
nous donne la probabilité associée à une valeur donnée de la valeur latente exprimée par la
combinaison linéaire des variables indépendantes.

probit (prob)
Estime un modèle probit.
probit variable dépendante variable indépendante
Options: probit possède en grande partie les mêmes options que regress.
Note: Ici predict donne par défaut la probabilité. Pour avoir l’estimation linéaire, il faut
préciser xt dans les options de predict.

logit
Permet d’estimer un modèle logit.
logit variable dépendante variable indépendante
Options: logit possède en grande partie les mêmes options que regress.

27
9.2 Probit/Logit ordonné
9.3 Tobit
Un tobit est essentiellement un modèle dont les données sont censurées. Comme le probit,
le tobit suit une loi normale.

tobit
Permet d’estimer un modèle tobit.
logit variable dépendante variable indépendante
Options: ll(#), ul(#): indiquent respectivement que les données sont tronquées à gauche
ou à droite. Une ou les deux de ces options doivent être spécifiées. # indique le point de
troncation. Si # n’est pas précisé, Stata suppose qu’il s’agit respectivement de la valeur
minimum et de la valeur maximum.
Les autres options de tobit sont en grande partie commune avec regress.

ex:
tobit y x1 x2 x3 x4, ll(0)

9.4 Biais de sélection: Heckit

28
Chapitre 10

Modèles de durée

29
Chapitre 11

Séries Chronologiques

11.1 Opération sur les variables dans le cadre de séries


chronologiques
tsset
Lorsqu’on travaille avec des séries chronologiques dans Stata, il est nécessaire de l’en informer
par la commande tsset.
tsset variable de temps
ex:
generate t = n
tsset = t

11.2 Opérateurs de séries temporelles


Voici comment reproduire l’équivalent des opérateurs Avance et Retard dans Stata pour
travailler sur les séries chronologiques.

l
L’opérateur l est l’opérateur Retard de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
l#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre de retards à
appliquer. Si # est omis, un seul retard est appliqué (équivalent à l1.variable).

tsset t
* un modèle AR2

30
regress y l.y l2.y

f
L’opérateur f est l’opérateur Avance de stata. Il peut être utilisé avec toutes les fonctions
qui acceptent les séries temporelles une fois que la déclaration de séries temporelles à été
faite.
f#.variable
où variable est la variable sur laquelle l’opérateur doit agir et # est le nombre d’avance à
appliquer. Si # est omis, une seule avance est appliquée (équivalent à f1.variable).

tsset t
* une autre formulation pour un modèle AR2
regress f.y y l.y

11.3 Tests d’autocorrélation


Inutile de mentionner que l’autocorrélation est un problème qui n’est pertinent que dans le
cas des séries temporelles. . .
Le test ρ est le test le plus simple à effectuer pour tester la présence d’autocorrélation:

1. récupérer les résidus de la régression qu’on désire tester;

2. régresser ût sur ût−1 à ût−n et X

3. Tester la signification conjointe des coefficients de cette régression par un test F.

Choisissons n égal à 3.

reg y x1 x2
predict u, r
reg u l.u l2.u l3.u
Il suffit alors de regarder la statistique F donnée par Stata.

Le test de Durbin-Watson est aussi utilisé pour tester la présence d’autocorrélation, mais
comme il est moins précis et ne considère qu’une seule période, nous ne le couvrirons pas ici.

31
11.4 Méthode de Box-Jenkins
Ce qu’il est important de comprendre, à mon avis, dans la méthode de Box-Jenkins, c’est que
l’objectif de toutes les opérations que nous effectuons est de se retrouver avec un résidu qui
est un bruit-blanc. Le but ultime étant de modéliser la série afin de faire des prédictions,
nous pouvons seulement être certain d’avoir tout extrait lorsqu’il nous reste seulement un
bruit-blanc: un processus qui est par définission impossible à prédire.

11.4.1 Stationnarité des données


La première étape de la méthode de Box-Jenkins consiste à effectuer les transformations
nécessaires afin de s’assurer que notre série est stationnaire, si elle ne l’est pas, il nous sera
impossible de travailler dessus.
Première question à se poser: doit-on travailler en log ou pas? Si la variable croı̂t à un
taux constant, elle sera linéaire en log. De plus, les propriétés du logarithme font en sorte
qu’il “écrase” une variance croissante. Outre la transformation logarithmique, il existe trois
cas possibles de non-stationnarité qui impliqueront des changements dans la série (ou sa
modélisation):
• Changement structurel
• Tendance déterministe
• Racine unitaire

Changement structurel
Les changement structurels peuvent être détectés à l’aide du Test de Chow (voir section 5.2).
Malheureusement, rien ne peut généralement être fait pour stationnariser une série dans le
cas d’un changement structurel.

Tendance déterministe
Afin de régler le problème de la présence d’une tendance temporelle, il suffit de la modéliser.
Il faut faire attention de bien choisir la tendance la mieux adaptée à nos données: linéaire,
quadratique, logarithmique, etc.

ex: tendance quadratique


t= n
t2 = t^2
tsset t
regress y t t2

32
Racines Unitaires
On fait face à un problème de racine unitaire lorsque ρ = 1 dans le modèle suivant:

yt = α + ρyt−1 + et

Afin de régler le problème de racine unitaire, il faut différencier la série, i.e. travailler sur
∆yt = yt − yt−1 plutôt que yt . Le modèle devient donc:

∆yt = α + θyt−1 + t

La différenciation d’une série est effectuée automatiquement dans Stata lors de l’utilisation
de la fonction arima.

Tester pour la présence d’une racine unitaire se fait par un test t où H0 est θ = 0.
Malheureusement, sous l’hypothèse nulle, la statistique t ne suit pas la loi asymptotique
habituelle. Il faut plutôt utiliser la loi de Dickey-Fuller. S’il y a corrélation des termes
d’erreur, il faut plutôt utiliser une loi de Dickey-Fuller augmentée.

dfuller
Effectue un test de Dickey-Fuller augmenté sur la variable spécifiée.
dfuller nom de variable, options
Options:

• lags(#): spécifie le nombre de retards à utiliser pour le calcul de la variance estimée


Newey-West.

• trend: incluera une variable de tendance dans la régression.


pperron
Possède exactement la même structure et les mêmes options que dfuller, mais effectue un
test de Phillips-Perron plutôt qu’un test de Dickey-Fuller augmenté.

11.4.2 Modélisation des cycles: Modèles AR, MA, ARMA, ARIMA


arima
Permet d’estimer un modèle AR, MA, ARMA ou ARIMA par maximum de vraisemblance.
arima variable dépendante variable indépendante, arima(p,d,q)
où p est le nombre de AR, d le nombre de différenciation et q le nombre de MA.
Il n’est pas nécessaire de préciser de variables indépendates.

33
ex: AR(1)
arima t, arima(1,0,0)
ex: MA(1)
arima t, arima(0,0,1)
ex: ARIMA(1,1,2)
arima t, arima(1,1,2)

Pour choisir p et q, il est bon de regarder l’autocorrélogramme partiel (nombre de AR) et


l’autocorrélogramme (nombre de MA) de la variable qui nous intéresse.

corrgram
Construit une table des autocorrélations et des autocorrélations partielles. Permet de tracer
l’autocorrélogramme et l’autocorrélogramme partiel.
corrgram nom de variable, option
Options: lags(#): spécifie le nombre de retards à calculer.

corrgran peut être suivi de deux autres fonctions:

ac
Produit un autocorrélogramme.
ac nom de variable, options
Options:

• lags(#): spécifie le nombre de retards à calculer.


• level(#): spécifie le niveau de confiance à utiliser dans le calcul des bandes
de confiances.
• Toutes les options standards d’un graphique sont également admissible.

pac
Produit un autocorrélogramme partiel. Même structure et mêmes options que ac.

11.4.3 Sélection de Modèle


À chaque étape de la modélisation de notre série chronologique, il est important de choisir
le meilleur des choix qui s’offre à nous: tendance quadratique ou logarithmique? AR(2) ou
AR(3)?
Plusieurs critères existent pour nous aider dans nos choix, nous en explorerons trois qui se
basent tous sur le principe de pénalité pour le nombre de variables.

34
R-carré ajusté
Le R-carré ajusté (R̄2 ) est donné par la formule suivante:
n−1
R̄2 = 1 − (1 − R2 )
n−K

Akaike information criterion (AIC)


Voici la formule habituelle du critère d’Akaike:
e0 e 2K
AIC(K) = log( )+
n n

Bayesian information criterion (BIC)


Voici la formule habituelle du critère de Schwartz ou Bayesien:

e0 e Klogn
BIC(K) = log( )+
n n

Ces critères doivent être construits manuellement.

35
Chapitre 12

Données longitudinales (Panel)

Il existe bon nombre de méthodes pour traiter les données en Panel et la littérature sur le
sujet est très exhaustive, nous ne traiterons donc dans ce chapitre que des méthodes de base.

12.1 Effets Fixes et Effets Aléatoires


Lorsqu’on a des données longitudinales, on voudra souvent isoler l’effet associé à chaque
année, à chaque individu ou aux deux. Il existe deux façons de modéliser ces effets, soit
comme des effets fixes, soit comme des effets aléatoires.
Effets fixes (αi , µt ):

yit = αi + µt + Xit β + eit


Effets aléatoires (αi , µt ):

yit = Xit β + eit


eit = αi + µt + εit

Les effets fixes ont l’avantage de permettre une corrélation avec les variables explicatives,
mais imposent une structure aux effets. À l’inverse, les effets aléatoires seront biaisés s’il y a
corrélation avec certaines varibles explicatives, mais permettent beaucoup plus de flexibilité.

12.1.1 Variables binaires


Dans le cas d’un effet fixe, la méthode la plus simple de capter cet effet est de supposer
qu’il existe pour chacun de nos groupes et, ainsi, d’ajouter une variable binaire par groupe
(sans oublier, comme d’habitude, d’en laisser tomber une). Donc si nous avons cinq groupes
et quatre périodes de temps, nous aurons un total de sept variables binaires. Il peut être

36
préférable dans certains cas de ne pas inclure de constante pour comparer tous les groupes
entre eux. Dans le dernier exemple, on pourrait ainsi laisser tomber la constante et inclure
cinq variables binaires pour les groupes et trois variables binaires pour les annés.

Ajout manuellement de variables binaires pour chaque groupe et chaque année.

ex: Régression sur cinq échantillons tirés de 1980,81,82 et 83.


* création des variables binaires
a81 = (annee == 1981)
a82 = (annee == 1982)
a83 = (annee == 1983)
g2 = (groupe == 2)
g3 = (groupe == 3)
g4 = (groupe == 4)
g5 = (groupe == 5)
* régression
regress y x1 x2 a81 a82 a83 g2 g3 g4 g5

12.1.2 Fonctions pour données longitudinales


Il est aussi possible d’indiquer à Stata que l’on travaille avec des données en Panel afin
d’automatiser le processus de calcul des effets fixes ou aléatoires:

tsset
Cette fonction déjà vue dans le chapitre 11 permet également de déclarer nos données comme
un panel de séries temporelles. Il suffit pour ça d’ajouter la variable de panel (de groupe)
avant la variable de temps.
tsset variable de panel variable de temps

ex:
gt= n
tsset groupe t

Une fois tsset déclaré pour des données panel, il est possible de travailler avec la famille
de fonctions xt de Stata. Il existe une telle fonction pour chacun des types de régression:
xtreg, xtlogit, xprobit, xttobit, xtgls, etc. Nous ne couvrirons ici que sommaire-
ment xtreg et nous vous référons à l’aide de Stata pour plus de détails sur cette famille de
fonctions.

xtreg

37
Permet de faire des régressions sur des données en Panel.
Effet fixe: xtreg variable dépendante variable indépendante, fe
Effet aléatoire estimé par MCG: xtreg variable dépendante variable indépendante, re
Effet aléatoire estimé par EMV: xtreg variable dépendante variable indépendante, mle

ex:
tsset groupe annee
xtreg y x1 x2, fe

38
Chapitre 13

Interaction avec les tableurs et les


traitements de texte

13.1 Remarques
Quelques remarques importantes lorsque vous travaillez avec des données numériques:
• Pour être utilisables, les données numériques doivent être séparées par variable et par
observation, chaque valeur étant séparée de la suivante par un ‘séparateur’.
• Généralement, il est plus facile de travailler si les variables constituent les colonnes et
les observations les rangées.
• Comme les logiciels sont (tous?) américains, le séparateur de décimales doit être un
point (‘.’) et non pas une virgule (‘,’). Si ce n’est pas le cas, ceci peut facilement être
changé par la commande replace du menu Edit de Excel.
• Assurez-vous que le séparateur de valeurs est compatible avec la méthode utilisée pour
importer les données dans le logiciel économétrique.
• Assurez-vous également que si vous avez du texte dans vos observations, cela est permis
par votre méthode d’importation.
• Évitez les lignes de commentaire ou de texte avant vos données ou le nom de vos
variables. Bien qu’il soit possible de contourner cette difficulté, ça évite souvent des
problèmes.

13.2 Tableur
Cette section est surtout orientée vers Excel puisque c’est le tableur le plus utilisé sur le
marché.

39
• Exportation des données: Dans le menu Fichier, Sauvegarder sous, sélectionnez un
format text avec séparateur: soit des tabulations (.txt ou .tab), soit des virgules (.txt
ou .csv).

• Importation de données: En ouvrant un fichier ASCII (sans formatage), l’assistant


importation-données de Excel devrait s’ouvir automatiquement. Vous devrez alors
seulement sélectionner le type de séparateur (étape 2) et le type de données (étape 3:
optionnel) pour pouvoir accéder à votre fichier.

13.3 Traitement de texte


Cette section est surtout orientée vers Word puisque c’est le traitement de texte le plus
utilisé sur le marché.

• Création de Tableau: Le copier-coller est la solution de choix ici. L’idéal est de passer
par Excel après avoir importer le fichier de données (sélectionnez les cases désirées,
copier, coller...). Sinon, vous pouvez également copier directement les résultats à partir
du gestionnaire de données.

• Insertion de Graphique: Menu insertion, objet, du fichier.... Trouvez l’image qui vous
sert de graphique et appuyez sur OK.

• Transcription de résultats: Malheureusement, il n’existe pas de moyen rapide de tran-


scrire vos résultats s’ils ne peuvent pas être mis en tableau. Copier-coller ou la
transcription manuelle demeurent les seuls moyens d’effectuer ce travail... faites des
tableaux!

40
Chapitre 14

Où trouver ses données et comment


les extraires

14.1 Liens utiles

14.1.1 À l’Université
Votre premier arrêt pour trouver des données se doit d’être sur le site web de la bib-
liothèque des sciences humaines au:
http://www.bib.umontreal.ca/SB/num/
Cette page vous donne accès aux plus importantes sources officielles de données numériques,
notamment, Statistiques Canada (E-STAT et CHASS), l’institut de la statistique du
Québec et l’OCDE. La majorité de ces données sont des séries chronologiques ou des
données en panel.
Pour obtenir des données d’enquêtse, il faut se tourner vers Sherlock (aussi accessible
par cette page) ou vers des organismes privés. Certaines données d’enquêtes sont
également accessible par l’institut de la statistique du Québec.

14.1.2 À l’Extérieur
Google www.google.ca
Moteur de recherche très puissant qui devrait vous aider pour toutes vos requêtes.
Gouvernement du Québec www.gouv.qc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.

41
Gouvernement du Canada www.gc.ca
Plusieurs ministères ont des données télćhargeables qui sont accessibles par leur
site web.
Eurostat http://europa.eu.int/comm/eurostat/
Plusieurs indicateurs économiques et sociaux de l’Union Européenne.
US Census Bureau http://www.census.gov/
Données des recensement américains.
Agences Nationales de Statistiques http://www.census.gov/main/www/stat int.html
Liens vers toutes les agences nationales de statistiques.
Fedstat http://www.fedstats.gov/
Liens vers la majorité des organismes fédéraux américains produisant des données
qui son accessibles.
Données Spatiales http://data.geocomm.com/catalog/
Plusieurs liens vers des données codées géographiquement.
DataLinks http://www.econ-datalinks.org/
Une foule de liens vers des données économiques et financières.

Cette liste est très très loin d’être exhaustive, donc n’hésitez pas à pousser vos
recherches sur internet plus loin. Si vous trouver des liens intéressant, envoyez-les moi
et je me ferrai un plaisir de les ajouter aux versions futures de ce guide.
Un conseil: Les sites gouvernementaux et ministériels au niveau national et sous-
national sont souvent des mines d’or de données!

14.2 Accès au Données


Cette section décrit seulement comment accéder et télécharger les données de quelques
sources particulièrement importantes.

14.2.1 Statcan
http://www.bib.umontreal.ca/SB/num/statcan.htm

Vous avez deux choix pour accéder aux séries chronologiques de Statistiques Canada:

E-Stat Accès à la grande majorité des données de Statistiques Canada, environnement


très convivial.

42
CHASS Accès à envrions 600 000 séries de plus qu’avec E-Stat, mais environnement
de navigation moins convivial.

Nous décrirons seulement l’usage de E-Stat ici.

1. Trouvez le tableau qui vous intéresse en effectuant une recherche par sujet ou par
mot-clé.
2. Une fois dans le tableau de votre choix, vous aurez généralement à sélectionner des
séries spécifiques en choisissant parmis une liste déroulante et ce, pour plusieurs
catégories (ex: géographie, fréquence, sexe, dates, etc.).
Choisissez les séries désirés (tenez la touche ctrl enfoncée pour sélectionner
plusieurs items dans une même liste) et appuyez sur série chronologiques.
3. Choisissez votre format de sortie parmis les choix offerts (suggestion: CSV ou
PRN, périodes = lignes).
4. Appuyez sur extraire et sauvegarder le fichier qui apparaitra sous le nom désiré.

14.2.2 OCDE
http://www.sourceoecd.org/ (doit être accédé par l’UdeM)

Généralement, les données les plus intéressantes se trouvent dans statistiques de l’OCDE
/ Perspectives Économiques.

1. Une fois dans Perspectives Économiques, appuyez sur Bases de données statis-
tiques puis, à la page suivante, sur tableaux, puis sur données et, enfin, sur accès
aux données.
2. Vous devrez ensuite sélectionner dans l’ordre vos Pays, vos Variables et votre
Période de couverture.
3. La dernière étape consiste à sauvegarder vos données dans le format désiré.

14.2.3 Sherlock
1. Une fois votre enquête sélectionnée, cliquez dessus.
2. Choisissez le format d’extraction. À moins que vous connaissiez SAS ou SPSS, il
vous est suggéré de choisir Extraction par variables et un fichier .tab.
3. Vous devrez ensuite sélectionner les variables désirées en cochant les cases corre-
spondantes.

43
4. Finalement, vous devez choisir les valeurs des variables que vous désirées.
5. Pour extraire les données, entrez votre adresse courriel et appuyez sur Extraire.
Les données vous seront envoyées en différé à l’adresse spécifiée.

44
45
Annexe A

Tableaux Récapitulatifs

A.1 Fonctions de Stata


Fonction Abréviation Description Forme
Importation de Données
infile inf Importe les données d’un infile nom des variables
fichier. using nomdef ichier
insheet Importe les données d’un insheet using
fichier (séparateurs: tabula- nom de f ichier
tions ou virgules).
Transformation de Variables
generate g Crée une nouvelle variable. generate
nouvelle variable =
expression
replace Remplace une variable exis- replace variable existante
tante. = expression
abs Valeur absolue. abs(x)
exp Exponentiel. exp(x)
log Logarithme naturel. log(x)
max Renvoie l’argument max(x1 , ..., xn )
possédant la valeur la
plus élevée.
min Renvoie l’argument min(x1 , ..., xn )
possédant la valeur la
moins élevée.
mod Modulo de x par rapport à mod(x,y)
y.
sqrt Racine carrée. sqrt(x)
sum Somme de tous les éléments sum(x)
de x. 46
Fonctions Matricielles
matrix mat Crée ou modifie une ma- matrix nom de la matrice
trice. = expression
matrix get Permet d’obtenir copie matrix variable =
d’une matrice système. get(matrice système)
mkmat Transforme des variables en mkmat
vecteurs/matrice. nom(s) de variable(s),
matrix
[(nomdelanouvellematrice)]
svmat Transforme les colonnes svmat matrice,
d’une matrice en variables. [names(nom col1, nom col2, . . . )]
colsof nombre de colonnes d’une colsof(A)
matrice.
det Déterminant d’une matrice. det(A)
diag Matrice diagonale n × n, diag(V )
avec pour diagonale les
éléments de V .
el Élément aij d’une matrice. el(A,i,j)
I Matrice identité n × n. I(n):
inv Inverse d’une matrice inv(A)
carrée.
rowsof Nombre de rangées d’une rowsof(A)
matrice.
vecdiag Extrait la diagonale d’une vecdiag(A)
matrice carrée sous forme de
vecteur.
Fonctions Diverses
graph gr Trace un graphique. graph nomdesvariables,
[typedegraphique,
autresoptions]
list Affiche à l’écran les vari- list
ables spécifiées. [nom(s) de variable(s)]
log Enregistre la session. log using nom de f ichier
more Active ou désactive more on/off
l’affichage de --more--.
set matsize set mat Fixe la taille maximale des set matsize #
matrices.

47
Fonctions Diverses (suite)
uniform Donne une valeur aléatoire uniform()
entre 0 et 1 (ditribution uni-
forme sur [0,1)).
tsset Déclaration de séries tem- tsset variable de temps
porelles/Données pannel.
l Opérateur retard. l#.variable
f Opérateur avance. f#.variable
Fonctions Économétriques
regress reg Effectue une régression regress vard ep [vars inds]
linéaire par MCO.
predict Calcule les valeurs prédites, predict nouvelle variable,
les résidus, etc. options
test t Effectue des tests test [expression1 =
d’hypothèse. expression2]
ivreg Effectue une régression par ivreg var dep vars inds
DMCO. (var dep = V I), options
hausman Effectue le test de hausman / hausman, save
spécification d’Hausman.
vwls Effectue une régression vwls vard ep vars inds
pondérée par la variance [poids], options
(FGLS).
probit prob Estime un modèle probit. probit var dep vars inds
logit Estime un modèle logit. logit var dep vars inds
tobit Estime un modèle tobit. tobit var dep vars inds,
[ll(#)] [ul(#)]
dfuller Effectue le test de Dickey- dfuller nom de variable,
Fuller augmenté. options
pperron Effectue le test de Phillips- pperron nom de variable,
Perron. options
corrgram Produit une table des au- corrgram
tocorrélations et des auto- nom de variable, option
corrélations partielles.
xtreg Effectue une régression sur xtreg var dep vars inds,
des données panel. [fe] [re] [mle]

48
A.2 Opérateurs
Description Forme
Opérateurs Mathématiques
Addition +
Soustraction -
Multiplication *
Division /
Puissance ^
Opérateurs Logiques
ET &
OU |
Non (¬) ~
Opérateurs de Comparaison
Égal ==
Différent ~=
Plus grand >
Plus petit <
Plus grand ou égal >=
Plus petit ou égal <=

A.3 Symboles Mathématiques

Symbole Description Symbole Description Symbole Description


P
Q somme ! factoriel ⊥ perpendiculaire
R produit |x| valeur absolue k parallèle
intégrale kxk norme de x  bcp plus petit
∂ dérivée partielle ≺ précède, préféré  bcp plus grand

6= différent ∅ ensemble vide ∀ pour tout


≡ équivalent ⊂ sous-ensemble ∃ il existe
de (inclus dans)
≈ approximative- ∈ élément de ¬ non (négation)
ment égal à

= congruent, iso-
T
intersection ⇒ implique
morphique S
∝ proportionel union ⇔ équivalent
∼ similaires (géométrie), asymptotiquement, suit (une loi)

49
A.4 Alphabet Grec
minuscule majuscule nom minuscule majuscule nom
α alpha ν nu
β beta ξ Ξ xi
γ Γ gamma o o
δ ∆ delta π, $ Π pi
, ε epsilon ρ, % rho
ζ zeta σ, ς Σ sigma
η eta τ tau
θ, ϑ Θ theta υ Υ upsilon
ι iota φ, ϕ Φ phi
κ kappa χ chi
λ Λ lambda ψ Ψ psi
µ mu ω Ω omega

50

Vous aimerez peut-être aussi