Académique Documents
Professionnel Documents
Culture Documents
Plan de la présentation
I. Commandes de base
II. Modèles linéaires
III. Modèles à variables instrumentales
IV. Modèles à variables dépendantes limitées
V. Les commandes indispensables
2
I. Commandes de base
Préparation des données
Augmenter la mémoire allouée par Stata:
set mem 1000m (parfois plus!)
Ouvrir ou importer le fichier de données:
use "Donnees college 1999-2010.dta", clear
Les données doivent être organisées selon le format
« long » : chaque observation (ligne) correspond à la paire
(individu , temps).
Nécessité de changer de format avec la commande
reshape long prop_f age_moy anc_moy eleve_clas eleve_ens
pCOL_xt pCOL_rt trCOL, i(cd_etab) j(annee)
Créer un identifiant pour pouvoir utiliser les données de panel
egen id=group(cd_etab)
Déclarer les données comme étant des données de panel (afin de
pouvoir utiliser les commandes xt):
xtset id annee 4
Description des données
. describe
6
Variation within et between
. xtsum annee trCOL
7
Courbes individuelles
. xtline trCOL if id<=10, overlay
Taux de redoublement collégial total corrigé
0 .1 .2 .3 .4
id = 1 id =2
id = 3 id =4
id = 5 id =6
id = 7 id =8
id = 9 id = 10
8
Autocorrélation d’ordre 1
. sort id annee
. correlate trCOL L.trCOL L2.trCOL L3.trCOL L4.trCOL
trCOL
--. 1.0000
L1. 0.4745 1.0000
L2. 0.4356 0.5023 1.0000
L3. 0.4077 0.4551 0.4978 1.0000
L4. 0.3714 0.4194 0.4356 0.4974 1.0000
9
II. Modèles linéaires
Estimateur MCO sur des données
de panel (pooled)
Variables du modèle
Yit : taux de redoublement au collège (trCOL)
Xit : - taille moyenne de la classe (eleve_clas)
- proportion d’élèves à l’âge normal (pCOL_xt)
- nombre moyen d’années d’ancienneté
des enseignants (anc_moy)
- indicatrices des années 2000 à 2010 (t00 à t09)
La méthode des MCO suppose que
les erreurs sont indépendantes et homoscédastiques
et ne tient pas compte de l’hétérogénéité individuelle
non observée.
11
Estimateur MCO sur des données
de panel (pooled)
. regress trCOL eleve_clas pCOL_xt anc_moy t00 t01 t02 t03
t04 t05 t06 t07 t08 t09
Source SS df MS Number of obs = 15863
F( 13, 15849) = 159.24
Model 7.1766752 13 .552051938 Prob > F = 0.0000
Residual 54.9441365 15849 .003466726 R-squared = 0.1155
Adj R-squared = 0.1148
Total 62.1208117 15862 .003916329 Root MSE = .05888
Robust
trCOL Coef. Std. Err. t P>|t| [95% Conf. Interval]
F(13,1902) = 35.71
sd(u_i + avg(e_i.))= .0467003 Prob > F = 0.0000
14
Estimateur à effets aléatoires (RE)
. xtreg trCOL eleve_clas pCOL_xt anc_moy t00 t01 t02 t03 t04
t05 t06 t07 t08 t09, re vce(robust) theta
Random-effects GLS regression Number of obs = 15863
Group variable: id Number of groups = 1916
theta
min 5% median 95% max
0.2451 0.2451 0.6721 0.6721 0.6721
Robust
trCOL Coef. Std. Err. z P>|z| [95% Conf. Interval]
sigma_u .04135501
sigma_e
rho
.0476047
.43009198 (fraction of variance due to u_i) 15
Estimateur à effets fixes (FE)
. xtreg trCOL eleve_clas pCOL_xt anc_moy t00 t01 t02 t03 t04
t05 t06 t07 t08 t09, fe vce(robust)
Fixed-effects (within) regression Number of obs = 15863
Group variable: id Number of groups = 1916
F(13,1915) = 43.55
corr(u_i, Xb) = 0.0926 Prob > F = 0.0000
Robust
trCOL Coef. Std. Err. t P>|t| [95% Conf. Interval]
sigma_u .0506961
sigma_e .0476047
rho .5314173 (fraction of variance due to u_i) 16
Estimateur en différences
premières (FD)
. reg D.(trCOL eleve_clas pCOL_xt anc_moy t00 t01 t02 t03
t04 t05 t06 t07 t08 t09), noconstant vce(cluster id)
Linear regression Number of obs = 13930
F( 13, 1776) = 31.02
Prob > F = 0.0000
R-squared = 0.0165
Root MSE = .06179
Robust
D.trCOL Coef. Std. Err. t P>|t| [95% Conf. Interval]
eleve_clas
D1. -.000593 .0002007 -2.95 0.003 -.0009866 -.0001993
pCOL_xt
D1. .0266515 .0057948 4.60 0.000 .0152861 .0380169
anc_moy
D1. .0001294 .000173 0.75 0.455 -.00021 .0004688
t00
D1. .0026476 .0016004 1.65 0.098 -.0004913 .0057865
t01
D1. .0093361 .0018627 5.01 0.000 .0056827 .0129895
t02
D1. .006807 .0020602 3.30 0.001 .0027662 .0108477
t03
D1. .0005984 .0022323 0.27 0.789 -.0037798 .0049766
t04
D1. -.0075412 .0024314 -3.10 0.002 -.0123099 -.0027724
t05
D1. -.0151721 .0025477 -5.96 0.000 -.0201689 -.0101754
t06
D1. -.0196973 .0026587 -7.41 0.000 -.0249119 -.0144827
t07
D1. -.0213714 .0027941 -7.65 0.000 -.0268515 -.0158913
t08
D1. -.0331748 .0029741 -11.15 0.000 -.0390079 -.0273417
t09
D1. -.0228282 .0028729 -7.95 0.000 -.0284627 -.0171936 17
Comparaison des estimateurs
• global xvar eleve_clas pCOL_xt anc_moy t00 t01 t02 t03 t04
t05 t06 t07 t08 t09
• quietly regress trCOL $xvar, vce(cluster id)
• estimates store MCO
• quietly xtreg trCOL $xvar, be
• estimates store BE
• quietly xtreg trCOL $xvar, re vce(robust)
• estimates store RE
• quietly xtreg trCOL $xvar, fe vce(robust)
• estimates store FE
• estimates table MCO BE RE FE, b(%9.4f) se stats(N)
18
Comparaison des estimateurs
Variable MCO BE RE FE
F(3,3567) = 2273.74
corr(u_i, Xb) = -0.9107 Prob > F = 0.0000
sigma_u 1.0362039
sigma_e .15220316
rho .97888036 (fraction of variance due to u_i)
F test that all u_i=0: F(594, 3567) = 40.17 Prob > F = 0.0000 23
Modèle à variables instrumentales
de Hausman-Taylor (HT)
. xthtaylor lwage occ south smsa ind exp exp2 wks ms union
fem blk ed, endog(exp exp2 wks ms union ed)
Hausman-Taylor estimation Number of obs = 4165
Group variable: id Number of groups = 595
TVexogenous
occ -.0207047 .0137809 -1.50 0.133 -.0477149 .0063055
south .0074398 .031955 0.23 0.816 -.0551908 .0700705
smsa -.0418334 .0189581 -2.21 0.027 -.0789906 -.0046761
ind .0136039 .0152374 0.89 0.372 -.0162608 .0434686
TVendogenous
exp .1131328 .002471 45.79 0.000 .1082898 .1179758
exp2 -.0004189 .0000546 -7.67 0.000 -.0005259 -.0003119
wks .0008374 .0005997 1.40 0.163 -.0003381 .0020129
ms -.0298508 .01898 -1.57 0.116 -.0670508 .0073493
union .0327714 .0149084 2.20 0.028 .0035514 .0619914
TIexogenous
fem -.1309236 .126659 -1.03 0.301 -.3791707 .1173234
blk -.2857479 .1557019 -1.84 0.066 -.5909179 .0194221
TIendogenous
ed .137944 .0212485 6.49 0.000 .0962977 .1795902
sigma_u .94180304
sigma_e .15180273
rho .97467788 (fraction of variance due to u_i)
WC-Robust
lwage Coef. Std. Err. z P>|z| [95% Conf. Interval]
lwage
L1. .611753 .0373491 16.38 0.000 .5385501 .6849559
L2. .2409058 .0319939 7.53 0.000 .1781989 .3036127
wks
--. -.0159751 .0082523 -1.94 0.053 -.0321493 .000199
L1. .0039944 .0027425 1.46 0.145 -.0013807 .0093695
ms .1859324 .144458 1.29 0.198 -.0972 .4690649
union -.1531329 .1677842 -0.91 0.361 -.4819839 .1757181
occ -.0357509 .0347705 -1.03 0.304 -.1038999 .032398
south -.0250368 .2150806 -0.12 0.907 -.446587 .3965134
smsa -.0848223 .0525243 -1.61 0.106 -.187768 .0181235
ind .0227008 .0424207 0.54 0.593 -.0604422 .1058437
_cons 1.639999 .4981019 3.29 0.001 .6637377 2.616261
26
Description des données
Nom: Rand Health Insurance Experiment data
Source : "The Structure of Demand for Medical Care:
Latent Class versus Two-Part Models", Journal of
Health Economics, 21, 601-625
Chaque observation est une mesure d’un individu en
une année.
Les individus peuvent apparaître dans au plus 5
années.
27
Modèle logit
. use mus18data.dta, clear
. xtset id year
. xtdescribe
. xtsum age lfam child
. xtsum dmdu
. logit dmdu lcoins ndisease female age lfam child, vce(cluster
id) nolog
. xtlogit dmdu lcoins ndisease female age lfam child, pa
corr(exch) vce(robust) nolog
. xtlogit dmdu lcoins ndisease female age lfam child, re nolog
. xtlogit dmdu lcoins ndisease female age lfam child, fe nolog
28
Modèle tobit à effets aléatoires
. xtsum med
. xttobit med lcoins ndisease female age lfam child, ll(0) nolog
Random-effects tobit regression Number of obs = 20186
Group variable: id Number of groups = 5908