Académique Documents
Professionnel Documents
Culture Documents
Bellavista - Callao
2011 - A
Indice general
1. Entorno de Stata
1.1. Elementos B
asicos . . . . . . . . . . . . . . .
1.1.1. Ventanas . . . . . . . . . . . . . . . .
1.1.2. Tipos de Archivos . . . . . . . . . . .
1.1.3. Recursos y Documentos de ayuda . . .
1.2. Sintaxis de Comandos y Expresiones Logicas
1.3. Organizando un Proyecto . . . . . . . . . . .
1.3.1. Memoria de trabajo . . . . . . . . . .
1.3.2. Fijando Directorio (path) . . . . . . .
1.3.3. Do-file and Log-file . . . . . . . . . . .
1.4. Aplicaci
on . . . . . . . . . . . . . . . . . . . .
1.4.1. Mi Primer Do . . . . . . . . . . . . . .
1.4.2. Mi Primer Log . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
5
6
7
8
8
8
8
9
9
9
2. Gesti
on de Datos
2.1. Iniciando Stata . . . . . . . .
2.2. Importando Datos . . . . . .
2.2.1. Desde Excel . . . . . .
2.2.2. Stat-Transfer . . . . .
2.3. Reconociendo Base de Datos
2.4. Explorando Datos . . . . . .
2.4.1. Medidas de Resumen .
2.4.2. Tablas y Estadsticos .
2.5. Generando Variables . . . . .
2.6. Etiquetado . . . . . . . . . .
2.7. Append, Merge y Collapse . .
2.7.1. Append . . . . . . . .
2.7.2. Merge . . . . . . . . .
2.7.3. Collapse . . . . . . . .
2.8. Aplicaci
on . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10
10
11
11
11
11
11
11
11
12
13
15
15
16
17
18
.
.
.
.
.
.
.
.
20
21
21
21
22
23
23
24
24
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3. An
alisis de Regresi
on Linal
3.1. Un primer An
alisis de Regresion . .
3.2. Examinando la Base de Datos . . . .
3.3. Regresi
on Lineal . . . . . . . . . . .
3.3.1. Prueba de Hipotesis . . . . .
3.3.2. Correlaci
on . . . . . . . . . .
3.3.3. Distribuci
on . . . . . . . . . .
3.4. Diagn
ostico de la Regresi
on . . . . .
3.4.1. Datos Originales e Influyentes
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Referencias
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
28
28
29
30
34
36
Captulo
Entorno de Stata
1.1.
Elementos B
asicos
1.1.1.
Ventanas
1.1.2.
Tipos de Archivos
1.1.3.
Manueales de Stata:
Stata posee (como cualquier soft) una gua de usuario muy u
til, podremos revisar Getting
Started with Stata que es un estupendo manual para nuevos usuarios. A la que puden
acceder por: Help PDF documentation.
Recursos Adicionales:
El Stata Journal (SJ) y su predecesor, el Stata Technical Bulletin (STB), presenta ejemplos y c
odigos que van m
as all
a de los que vienen con la intalacion del Stata. SJ habilita
artculos con m
as de tres a
nos de publicacion que estan disponibles en la web, todos los
artculos STB est
an disponibles online desde el sitio web de Stata. El sitio web de STATA
tiene una gran cantidad de informacion, esto incluye un resumen de lo que Stata hace.
Un buen lugar para comenzar es http://www.stata.com/support/.
En particular, consulte la respuestas a las preguntas mas frecuentes (FAQ). La Web de la
1.2.
Describe la estructura b
asica de los comandos del lenguaje de programacion de Stata.
. help language
Syntax
With few exceptions, the basic language syntax is
[prefix :] command [varlist] [=exp] [if] [in] [weight]
[using filename] [, options]
Utilizando el comando help podemos obtener mayor informacion de cada uno de sus componentes.
see
language element
description
-----------------------------------------------------------------help prefix
prefix :
prefix command
help command
command
Stata command
help varlist
varlist
variable list
help exp
=exp
expression
help if
if
if exp qualifier
help in
in
in range qualifier
help weight
weight
weight
help using
using filename
using filename modifier
help options
options
options
-----------------------------------------------------------------Todo lo que aparece entre corchetes es opcional, tanto el comando in como el comando if nos
permiten seleccionar una submuestra de nuestra base de datos. Con esto podemos delimitar el
tama
no de la muestra en un rango y/o tambien podemos seleccionar los datos que satisfacen
ciertas condiciones, para ello podemos utilizar expresiones logicas como:
1.3.
Organizando un Proyecto
1.3.1.
Memoria de trabajo
El tama
no de la memoria con la que se trabaja es de vital importancia, habran situaciones en
que stata no les permita abrir una base de datos debido a que el uso de memoria es insuficiente,
para modificar el tama
no de memoria utilizamos el comando set mem seguido por la capacidad
1
a asignar . ejm:
. set mem 100m
1.3.2.
Esta herramienta nos permite fijar nuestra carpeta de trabajo2 , es en ella donde almacenaremos
todos nuestros archivos .dta, .log, .do, etc.
. cd "D:\Junior\Desktop\Econometria II""
1.3.3.
Do-File:
Es una serie de comandos a ser ejecutado de manera conjunta y de manera ordenada. Sirve como
registro de lo que se hizo o ejecut
o y a su vez ir haciendo aclaraciones de lo que se esta haciendo.
Abriendo un Do:
La ventana Do-dile Editor (ver figura 1.3) se abre con la siguiente ruta:
Windows Do-file Editor New Do-file EditorLa forma mas sencilla es utilizar Ctrl+8
Running Do-file:
Estos archivos pueden ser ejecutados directamente desde la ventana del Do-File Editor o
ingresando en la barra de comandos el comando do seguido por la ruta donde se encuentra
el archivo, ejemplo:
do "D:\Junior\Desktop\EconometriaII\mi primer do"
Otra forma es utilizar Ctrl+D. Si solo se desea correr algunas lneas, primero las seleccionamos y presionamos Ctrl+D.
Log-File:
Los resultados que salen en la ventana Stata Results, puden ser almacenadas en un archivo
.log y se guardan en formato SMCL o ASCII.
1
Una regla practica dice que se debe fijar como memoria un 50 % adicional al tama
no de la bade de datos a
trabajar.
2
Nota: Hay muchos comandos en Stata que requieren las especificaci
on de un path. Por ello es necesario saber
que cuando el nombre de una carpeta o archivo incluido en el path lleva espacio entre caracteres, el path debe ir
entre comillas.
1.4.
1.4.1.
using auto
using auto, replace
using auto.log
off
on
close
Aplicaci
on
Mi Primer Do
1.4.2.
Mi Primer Log
Captulo
Gesti
on de Datos
2.1.
Iniciando Stata
10
2.2.
2.2.1.
Importando Datos
Desde Excel
Para importar datos desde el Excel podemos proceder a copiar los datos de la hoja Excel y
pegarlos en el Data Editor que se abre con el comando edit.
Otra forma es grabar el archivo de Excel en el formato Texto (delimitado por tabulaciones) (que
es un archivo ASCII creado por una spreadsheet) e ir a Stata y llamarlo como:
insheet using "D:\Junior\Desktop\Econometria II\muestra.txt" ,tab
2.2.2.
Stat-Transfer
Ingresar a Microdatos en la p
agina del INEI, bajar la base sumaria-2009. Transferir la base
sumaria de SPSS (.sav) a STATA(.dta)
2.3.
describe
codebook conglome
lookfor gashog2d
list gashog2d in 110
list gashog2d in 110
list gashog2d in 51
sort conglome
list conglome
gsort- conglome
list conglome
2.4.
Explorando Datos
2.4.1.
Medidas de Resumen
inspect gashog2d
summarize gashog2d
summarize gashog2d, detail
summarize gashog2d if gashog2d>10000
bys dominio: summarize gashog2d if gashog2d>1000
2.4.2.
Tablas y Estadsticos
tabulate dominio
tabulate dominio ,sum(gashog2d)
tab dominio if gashog2d>6000
tab dominio pobreza
tab dominio pobreza, colum
tab dominio pobreza, row
1
11
mean
count
n
sum
max
min
range
sd
var
cv
semean
skewness
kurtosis
median
p25
p50
p75
2.5.
media aritm
etica
n
umero de valores no perdidas
n
umero de casos
suma de valores
m
aximo valor
m
nimo valor
rango = m
aximo - m
nimo
desviaci
on est
andar
varianza
coeficiente de variaci
on (var/mean^2)
error est
andar de la media igual a (sd/sqrt(n))
ndice de sesgo, respecto a la normal con par
Generando Variables
Trabajemos con la base de datos auto, y con la variable length (longitud del auto en pulgadas)
use auto, clear
summarize length
generate length_feet = length / 12
generate length_feet = length / 12
replace length_feet = length / 12
summarize length lenght_feet
generate length2 = length^2
summarize length2
generate loglen = log(length)
summarize loglen
summarize length
generate zlength = (length - 187.93) / 22.27
summarize zlength
Observemos la variable mpg (millaje por galon)
tabulate mpg
De esta manera no nos es muy f
acil el analisis de esta variable, podramos mejorar su presentaci
on
si la clasificaramos en intervalos.
12
generate mpg1 = .
replace mpg1 = 1 if (mpg <= 18)
replace mpg1 = 2 if (mpg >= 19) & (mpg <=23)
replace mpg1 = 3 if (mpg >= 24) & (mpg <.)
tabulate mpg mpg1
Si queremos crear una variable que tenga el valor de 1 para los autos con un consumo de
conbustible mayor a 20 galones por milla y 0 en caso contrario.
generate D = .
replace D = 1 if mpg > 20
replace D = 0 if mpg <= 20
Una forma mas eficiente de realizar la misma tarea es:
generate D1 = mpg > 20
list D D1
Veamos un ejemplo con categoras, ahora deseamos crear una variable que nos muestre el millaje
de los carros respecto a su origen, esta tomara el valor de 0 para valores por debajo de la media
de mpg en el grupo domestico y extranjero y 1 para valores por encima de la media de mpg en
los grupos domestico y extranjero.
sort foreign
by foreign: summarize mpg, detail
generate mpg2 = mpg
recode mpg2 min/18=0 19/max=1 if foreign==0
recode mpg2 min/24=0 25/max=1 if foreign==1
by foreign: tabulate mpg mpg2
Tambien podemos usar una extensi
on del commando generate, egen nos permitira crear expresiones mas complejas, tales como medias, desviaciones estandar, maximos, mnimos, etc.
egen minimo_p=min(price)
egen median_p=median(price)
egen std_p=std(price), mean(0) std(1)
2.6.
Etiquetado
13
describe
label define foreignl 0 "domestico" 1 "extranjero"
label values foreign foreignl
describe
table foreign
Ejercicio:
Usando la Base de Datos Iraninos
clear
use iraninos.dta
set more off
label define sexow 0 "mujer"
label define sexow 1 "hombre", add
describe
browse
label values sexo sexow
describe
browse
label drop sexow
label
label
label
label
label
define
define
define
define
values
getareow 0 "prematuro"
getareow 1 "rec.nac.", add
getareow 2 "lactante", add
getareow 3 "escolares", add
getareo getareow
define
define
define
define
values
14
2.7.
El comando append y merge nos ayudara a unir bases de datos integrandolas en una sola.
Append, pegara hacia abajo o verticalmente y Merge, pegara hacia el costado o de forma horizontal.
2.7.1.
Append
Vamos a empezar observando cada una de las bases de datos que tenemos, veamos la figura 2.1.
clear
use base1,
list
use base2,
list
use base3,
list
use base4,
list
clear
clear
clear
clear
15
2.7.2.
Merge
16
2.7.3.
Collapse
El comando collapse sirve para convertir una base de datos que contiene variables para diversas
unidades de estudio, en una base de datos que contiene estadsticos de dichas variables (medias,
medianas, sumas etc). Permite obtener estadsticos para unidades mas grandes (en un sentido
jerarquico), como por ejemplo, pasar de datos por individuo a datos por hogar, de datos por
distritos a datos por provincia (agregacion).
En el comando se especifican aquellas variables que se colapsan y las condiciones que se imponen
para dicha transformaci
on. Algunas variables pueden ser colapsadas seg
un su suma, otras seg
un
su media, etc.
Aquellas variables que no se especifican desaparecen automaticamente de la base de datos. Este
comando crea una nueva base de datos y cierra la base de partida. Si deseamos quedarnos con
esta base debemos grabarla.
17
2.8.
Aplicaci
on
**COLLAPSE
*PARTE 1
* Cambie el directorio de trabajo
cd "D:\Junior\Desktop\Econometria II"
* "Importe" los datos del archivo ingreso.xlsx
* Grabe la informaci
on:
save ejemplo_collapse, replace
18
*PARTE 2
preserve
collapse (sum) ingreso,by(id_hogar)
save collapse_suma_ingresos,replace
restore
*PARTE 3
preserve
collapse (mean) ingreso,by(id_hogar)
save collapse_media_ingresos,replace
restore
*PARTE 4
use collapse_suma_ingresos,clear
brow
*PARTE 5
use collapse_media_ingresos,clear
brow
*PARTE 6: SUMA DE INGRESOS Y N
UMERO DE PERSONAS EN CADA HOGAR
use ejemplo_collapse, clear
collapse (sum) ingreso (count) id_persona,by(id_hogar)
save collapse_suma_contador_ingresos,replace
br
19
Captulo
An
alisis de Regresi
on Linal
20
3.1.
Un primer An
alisis de Regresi
on
Realizado un an
alisis de regresi
on utilizando las variables api00 , acsk 3 , meals y full. Estos
miden el rendimiento academico de la escuela ( api00 ), el tama
no promedio de clase de kindergarten al 3er grado ( acsk 3 ), el porcentaje de estudiantes que reciben comidas gratis ( meals )
- que es un indicador de la pobreza, y el porcentaje de profesores que han la ense
nanza de credenciales completas ( full ). Esperamos que la mejora de rendimiento academico se asocia con el
tama
no de clase baja, menos los estudiantes que reciben comidas gratis, y un mayor porcentaje
de docentes que la ense
nanza de credenciales completas. A continuacion, se muestra el comando
de Stata para probar este modelo de regresion seguido de la salida de Stata.
regress api00 acs_k3 meals full
Source |
SS
df
MS
-------------+-----------------------------Model | 2634884.26
3 878294.754
Residual | 1271713.21
309 4115.57673
-------------+-----------------------------Total | 3906597.47
312 12521.1457
Number of obs
F( 3,
309)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
313
213.41
0.0000
0.6745
0.6713
64.153
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 | -2.681508
1.393991
-1.92
0.055
-5.424424
.0614073
meals | -3.702419
.1540256
-24.04
0.000
-4.005491
-3.399348
full |
.1086104
.090719
1.20
0.232
-.0698947
.2871154
_cons |
906.7392
28.26505
32.08
0.000
851.1228
962.3555
------------------------------------------------------------------------------
3.2.
describe
list api00 acs_k3 meals full in 1/10
codebook api00 acs_k3 meals full yr_rnd
summarize api00 acs_k3 meals full
summarize acs_k3, detail
tabulate acs_k3
list snum dnum acs_k3 if acs_k3 < 0
list dnum snum api00 acs_k3 meals full if dnum == 140
histogram acs_k3
graph box acs_k3
tabulate dnum if full <= 1
3.3.
Regresi
on Lineal
regress api00 ell meals yr_rnd mobility acs_k3 acs_46 full emer enroll
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------F( 9,
385) =
Model | 6740702.01
9
748966.89
Prob > F
=
Residual | 1240707.78
385 3222.61761
R-squared
=
21
395
232.41
0.0000
0.8446
-------------+-----------------------------Total | 7981409.79
394 20257.3852
Adj R-squared =
Root MSE
=
0.8409
56.768
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
Beta
-------------+---------------------------------------------------------------ell | -.8600707
.2106317
-4.08
0.000
-.1495771
meals | -2.948216
.1703452
-17.31
0.000
-.6607003
yr_rnd | -19.88875
9.258442
-2.15
0.032
-.0591404
mobility | -1.301352
.4362053
-2.98
0.003
-.0686382
acs_k3 |
1.3187
2.252683
0.59
0.559
.0127287
acs_46 |
2.032456
.7983213
2.55
0.011
.0549752
full |
.609715
.4758205
1.28
0.201
.0637969
emer | -.7066192
.6054086
-1.17
0.244
-.0580132
enroll |
-.012164
.0167921
-0.72
0.469
-.0193554
_cons |
778.8305
61.68663
12.63
0.000
.
-----------------------------------------------------------------------------listcoef
regress (N=395): Unstandardized and Standardized Estimates
Observed SD: 142.32844
SD of Error: 56.768104
--------------------------------------------------------------------------api00 |
b
t
P>|t|
bStdX
bStdY
bStdXY
SDofX
---------+----------------------------------------------------------------ell | -0.86007
-4.083
0.000 -21.2891 -0.0060 -0.1496
24.7527
meals | -2.94822 -17.307
0.000 -94.0364 -0.0207 -0.6607
31.8960
yr_rnd | -19.88875
-2.148
0.032 -8.4174 -0.1397 -0.0591
0.4232
mobility | -1.30135
-2.983
0.003 -9.7692 -0.0091 -0.0686
7.5069
acs_k3 |
1.31870
0.585
0.559
1.8117
0.0093
0.0127
1.3738
acs_46 |
2.03246
2.546
0.011
7.8245
0.0143
0.0550
3.8498
full |
0.60972
1.281
0.201
9.0801
0.0043
0.0638
14.8924
emer | -0.70662
-1.167
0.244 -8.2569 -0.0050 -0.0580
11.6851
enroll | -0.01216
-0.724
0.469 -2.7548 -0.0001 -0.0194
226.4732
3.3.1.
Prueba de Hipotesis
Prueba individual
test ell==0
( 1)
ell = 0.0
F(
1,
385) =
Prob > F =
16.67
0.0001
Prueba Conjunta
test acs_k3 acs_46
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
22
( 1)
( 2)
acs_k3 = 0.0
acs_46 = 0.0
F(
3.3.2.
2,
385) =
Prob > F =
3.95
0.0200
Correlaci
on
correlate api00 ell meals yr_rnd mobility acs_k3 acs_46 full emer enroll
(obs=395)
|
api00
ell
meals
yr_rnd mobility
acs_k3
acs_46
-------------+--------------------------------------------------------------api00 |
1.0000
ell | -0.7655
1.0000
meals | -0.9002
0.7711
1.0000
yr_rnd | -0.4831
0.5104
0.4247
1.0000
mobility | -0.2106 -0.0149
0.2207
0.0321
1.0000
acs_k3 |
0.1712 -0.0553 -0.1888
0.0222
0.0397
1.0000
acs_46 |
0.2340 -0.1743 -0.2137 -0.0419
0.1280
0.2708
1.0000
full |
0.5759 -0.4867 -0.5285 -0.4045
0.0235
0.1611
0.1212
emer | -0.5902
0.4824
0.5402
0.4401
0.0612 -0.1111 -0.1283
enroll | -0.3221
0.4149
0.2426
0.5920
0.1007
0.1084
0.0281
|
full
emer
enroll
-------------+--------------------------full |
1.0000
emer | -0.9059
1.0000
enroll | -0.3384
0.3417
1.0000
3.3.3.
Distribuci
on
histogram enroll
histogram enroll, normal bin(20)
histogram enroll, normal bin(20) xlabel(0(100)1600)
kdensity enroll, normal
graph box enroll
symplot enroll
qnorm api00
pnorm enroll
ladder enroll
gladder enroll
generate lenroll = log(enroll)
hist lenroll, normal
23
3.4.
Diagn
ostico de la Regresi
on
En la seccion anterior, hemos aprendido como hacer la regresion lineal ordinaria con Stata, concluyendo con los metodos de examen de la distribucion de nuestras variables. Sin verificar que
sus datos han cumplido con los supuestos subyacentes el modelo de regresion, los resultados
pueden ser enga
nosos. En este captulo se estudiara como se puede utilizar Stata para comprobar de que tan bien los datos cumplen los supuestos de regresion por mnimos cuadrados. En
particular, vamos a considerar los siguientes supuestos.
Linealidad - las relaciones entre los predictores y la variable de resultado debe ser lineal
La normalidad - los errores deben tener una distribucion normal - tecnicamente la normalidad es necesario s
olo para las pruebas de hipotesis sea valida
Estimaci
on de los coeficientes s
olo requiere que los errores sean de forma identica e independientemente distribuidos
La homogeneidad de varianza (homocedasticidad) - la varianza del error debe ser constante
Independencia - los errores asociados a una observacion no estan correlacionados con los
errores de cualquier otra observacion
Los errores en las variables - variables de prediccion se miden sin error
las especificaciones del modelo - el modelo debe estar debidamente especificado (incluyendo
todas las variables relevantes, y excluyendo las variables irrelevantes)
Ademas, hay cuestiones que pueden surgir durante el analisis que, aunque estrictamente hablando no son supuestos de la regresi
on, no dejan de ser, de gran preocupacion para los analistas de
datos.
observaciones individuales que ejercen una influencia indebida sobre los coeficientes - Influencia
Colinealidad - predictores que estan muy alineados, es decir, una relacion lineal, puede
causar problemas en la estimaci
on de los coeficientes de regresion.
Muchos metodos gr
aficos y an
alisis numericos se han desarrollado a lo largo de los a
nos para el diagnostico de regresi
on. Stata tiene muchos de estos metodos integrados, y otros estan disponibles
que se pueden descargar a traves de Internet. En particular, Nicholas J. Cox (Universidad de
Durham) ha producido una colecci
on de comandos de la comodidad que se puede descargar de
SSC (ssc install commandname). Estos comandos incluyen indexplot, rvfplot2, rdplot, qfrplot and ovfplot. En este captulo, vamos a explorar estos metodos y mostrar como verificar
los supuestos de regresi
on y detectar posibles problemas usando Stata.
3.4.1.
Una u
nica observaci
on que es sustancialmente diferente de todas las otras observaciones puede
hacer una gran diferencia en los resultados de su analisis de regresion. Si una u
nica observaci
on
(o peque
no grupo de observaciones) cambia sustancialmente los resultados, usted quiere saber
acerca de esto y seguir investigando. Hay tres formas de que una observacion puede ser inusual.
24
Outliers: En la regresi
on lineal, un valor atpico es una observacion con grandes residual.
En otras palabras, es una observacion cuyo valor de la variable dependiente es inusual
debido a su valores en las variables predictoras. Un valor atpico puede indicar una particularidad de la muestra o puede indicar un error de entrada de datos o cualquier otro
problema.
Apalancamiento: Una observacion con un valor extremo en una variable explicativa se
llama un punto con un alto apalancamiento. El apalancamiento es una medida de hasta
que punto una variable independiente se desva de su media. Estos puntos de influencia
puede tener un efecto en la estimacion de los coeficientes de regresion.
Influencia: Una observaci
on se dice que es influyente, si la eliminacion de la observaci
on
cambia sustancialmente la estimacion de los coeficientes. La influencia se puede considerar
como el producto de apalancamiento y outlierness.
Como podemos identificar estos tres tipos de observaciones? los Veamos a un conjunto de datos
de ejemplo llamada crime . Este conjunto de datos aparece en Metodos Estadsticos para las
Ciencias Sociales, Tercera Edici
on de Alan Agresti y Barbara Finlay (Prentice Hall, 1997). Las
variables son el estado Identificaci
on ( sid ), nombre del estado ( state ), los crmenes violentos por
cada 100.000 personas (crime), los asesinatos por millon (munder), el porcentaje de la poblaci
on
que vive en las
areas metropolitanas ( pctmetro ), el porcentaje de la poblacion que es de color
blanco ( pctwhite ), el porcentaje de poblacion con educacion secundaria o superior ( pcths ), el
porcentaje de poblaci
on que vive bajo la lnea de pobreza (poverty), y porcentaje de poblaci
on
que son las familias monoparentales (simgle).
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/crime
(crime data from agresti & finlay - 1997)
describe
Contains data from crime.dta
obs:
51
vars:
11
size:
2,295 (98.9% of memory free)
------------------------------------------------------------------------------1. sid
float %9.0g
2. state
str3
%9s
3. crime
int
%8.0g
violent crime rate
4. murder
float %9.0g
murder rate
5. pctmetro float %9.0g
pct metropolitan
6. pctwhite float %9.0g
pct white
7. pcths
float %9.0g
pct hs graduates
8. poverty
float %9.0g
pct poverty
9. single
float %9.0g
pct single parent
------------------------------------------------------------------------------Sorted by:
summarize crime murder pctmetro pctwhite pcths poverty single
Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
25
crime
murder
pctmetro
pctwhite
pcths
poverty
single
|
|
|
|
|
|
|
51
51
51
51
51
51
51
612.8431
8.727451
67.3902
84.11569
76.22353
14.25882
11.32549
441.1003
10.71758
21.95713
13.25839
5.592087
4.584242
2.121494
82
1.6
24
31.8
64.3
8
8.4
2922
78.5
100
98.5
86.6
26.4
22.1
Number of obs
F( 3,
47)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
51
82.16
0.0000
0.8399
0.8296
182.07
-----------------------------------------------------------------------------crime |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------pctmetro |
7.828935
1.254699
6.240
0.000
5.304806
10.35306
poverty |
17.68024
6.94093
2.547
0.014
3.716893
31.64359
single |
132.4081
15.50322
8.541
0.000
101.2196
163.5965
_cons | -1666.436
147.852
-11.271
0.000
-1963.876
-1368.996
-----------------------------------------------------------------------------Vamos a examinar los residuos estudentizados como un primer medio de identificacion de valores atpicos. A continuaci
on se utiliza la prediccion de comandos con el rstudent opcion para
generar residuos estudentizados y nombre de los residuos r . Podemos elegir cualquier nombre
que queramos, siempre y cuando se trata de una variable de nombre legal de Stata. residuos estudentizado son un tipo de residuo estandarizado que puede ser utilizado para identificar valores
atpicos.
predict r, rstudent
sort r
list sid state r in 1/10
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
26
display (2*3+2)/51
.15686275
list crime pctmetro poverty single state lev if lev >.156
5.
48.
49.
50.
51.
crime
208
761
434
1062
2922
pctmetro
41.8
41.8
30.7
75
100
poverty
22.2
9.1
24.7
26.4
26.4
single
9.4
14.3
14.7
14.9
22.1
state
wv
ak
ms
la
dc
lev
.1802005
.2606759
.191012
.1652769
.536383
lvr2plot, mlabel(state)
list state crime pctmetro poverty single if state=="dc" | state=="ms"
predict d, cooksd
list crime pctmetro poverty single state d if d>4/51
predict dfit, dfits
list crime pctmetro poverty single state dfit if abs(dfit)>2*sqrt(3/51)
dfbeta
DFpctmetro:
DFpoverty:
DFsingle:
DFbeta(pctmetro)
DFbeta(poverty)
DFbeta(single)
27
3.4.2.
Number of obs =
F( 3,
396)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
400
673.00
0.0000
0.8360
0.8348
57.82
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------meals | -3.159189
.1497371
-21.098
0.000
-3.453568
-2.864809
ell | -.9098732
.1846442
-4.928
0.000
-1.272878
-.5468678
emer | -1.573496
.293112
-5.368
0.000
-2.149746
-.9972456
_cons |
886.7033
6.25976
141.651
0.000
874.3967
899.0098
-----------------------------------------------------------------------------predict r, resid
kdensity r, normal
pnorm r
qnorm r
swilk r
jb r
3.4.3.
Uno de los principales supuestos de la regresion por mnimos cuadrados ordinarios es la homogeneidad de varianza de los residuales. Si el modelo esta bien equipada, no debera haber ning
un
patron para los residuos conspir
o contra los valores ajustados. Si la varianza de los residuos no
es constante, entonces la varianza residual se dice que es heterocedasticos. Hay y no metodos
28
*Descomposici
on de Cameron and Trivedi
*test de breuch-pagan
3.4.4.
Comprobando Colinealidad
29
Number of obs
F( 4,
393)
Prob > F
R-squared
Adj R-squared
=
=
=
=
=
398
107.12
0.0000
0.5216
0.5167
Total |
8014207.14
397
20186.9197
Root MSE
98.772
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.196
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.298
0.000
4.733937
6.535588
col_grad |
2.479916
.3395548
7.303
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.862
0.000
1.28559
3.030952
_cons |
283.7446
70.32475
4.035
0.000
145.4849
422.0044
-----------------------------------------------------------------------------vif
Variable |
VIF
1/VIF
---------+---------------------col_grad |
1.28
0.782726
grad_sch |
1.26
0.792131
some_col |
1.03
0.966696
acs_k3 |
1.02
0.976666
---------+---------------------Mean VIF |
1.15
collin acs_k3 avg_ed grad_sch col_grad some_col
Collinearity Diagnostics
SQRT
Cond
Variable
VIF
VIF
Tolerance Eigenval
Index
------------------------------------------------------------acs_k3
1.03
1.01
0.9719
2.4135
1.0000
avg_ed
43.57
6.60
0.0230
1.0917
1.4869
grad_sch
14.86
3.86
0.0673
0.9261
1.6144
col_grad
14.78
3.84
0.0677
0.5552
2.0850
some_col
4.07
2.02
0.2460
0.0135
13.3729
------------------------------------------------------------Mean VIF
15.66
Condition Number
13.3729
collin acs_k3 grad_sch col_grad some_col
Collinearity Diagnostics
SQRT
Cond
Variable
VIF
VIF
Tolerance Eigenval
Index
------------------------------------------------------------acs_k3
1.02
1.01
0.9767
1.5095
1.0000
grad_sch
1.26
1.12
0.7921
1.0407
1.2043
col_grad
1.28
1.13
0.7827
0.9203
1.2807
some_col
1.03
1.02
0.9667
0.5296
1.6883
------------------------------------------------------------Mean VIF
1.15
Condition Number
1.6883
3.4.5.
Errores de Especificaci
on
Un error de especificaci
on del modelo se puede producir cuando una o mas variables relevantes
se omiten en el modelo o una o m
as variables irrelevantes se incluyen en el modelo. Si se omiten
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
30
acs_k3
Source |
SS
df
MS
-------------+-----------------------------Model | 234353.831
1 234353.831
Residual | 7779853.31
396 19646.0942
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 1,
396)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
11.93
0.0006
0.0292
0.0268
140.16
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
17.75148
5.139688
3.45
0.001
7.646998
27.85597
_cons |
308.3372
98.73085
3.12
0.002
114.235
502.4393
-----------------------------------------------------------------------------Hay un par de metodos para detectar errores de especificacion. El linktest comando realiza una
prueba de especificaci
on de enlace del modelo para la ecuacion de modelos individuales. linktest
se basa en la idea de que si una regresion esta correctamente especificado, no se debe ser capaz
de encontrar cualquier independientes variables adicionales que son significativos, excepto por
casualidad. linktest crea dos nuevas variables, la variable de prediccion, h at , y la variable de
prediccion al cuadrado, h atsq . El modelo se vuelva a colocar utilizando estas dos variables como
predictores. h at debe ser significativo, ya que es el valor predicho. Por otra parte, h atsq no debe,
porque si nuestro modelo se ha especificado correctamente, las predicciones cuadrado no tienen
mucho poder explicativo. Es decir no podemos esperar h atsq ser un factor importante para
predecir si nuestro modelo se ha especificado correctamente. As que vamos a estar buscando en
el valor de p para h atsq.
linktest
Source |
SS
df
MS
-------------+-----------------------------Model | 277705.911
2 138852.955
Residual | 7736501.23
395 19586.0791
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
7.09
0.0009
0.0347
0.0298
139.95
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
31
_hat | -11.05006
8.104639
-1.36
0.174
-26.98368
4.883562
_hatsq |
.0093318
.0062724
1.49
0.138
-.0029996
.0216631
_cons |
3884.48
2617.695
1.48
0.139
-1261.877
9030.837
-----------------------------------------------------------------------------De lo anterior linktest , la prueba de h atsq no es significativa. Esto quiere decir que linktest no
ha podido rechazar la hip
otesis de que el modelo se ha especificado correctamente. Por lo tanto,
nos parece que no tenemos un error de especificacion. Pero ahora, vamos a ver otra prueba antes
de saltar a la conclusi
on.
El ovtest comando realiza otra prueba del modelo de especificacion de la regresion. Se realiza
una regresion de la prueba de error (RESET) para las variables omitidas. La idea detras de
ovtest es muy similar a linktest . Tambien crea nuevas variables sobre la base de los predictores
y reinstala el modelo utilizando las nuevas variables para ver si alguno de ellos sera significativo.
Vamos a intentar ovtest en nuestro modelo.
ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 393) =
4.13
Prob > F =
0.0067
El ovtest comando indica que hay variables omitidas. As que hemos tratado tanto en el linktest
y ovtest , y uno de ellos ( ovtest ) nos dice que tenemos un error de especificacion. Por tanto,
tenemos que reconsiderar nuestro modelo.
Vamos a intentar agregar la variable full con el modelo. Ahora, tanto el linktest y ovtest son
significativos, lo que indica que tenemos un error de especificacion.
regress api00 acs_k3 full
Source |
SS
df
MS
-------------+-----------------------------Model | 2715101.89
2 1357550.95
Residual | 5299105.24
395 13415.4563
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
101.19
0.0000
0.3388
0.3354
115.83
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
8.355681
4.303023
1.94
0.053
-.1040088
16.81537
full |
5.389788
.3963539
13.60
0.000
4.610561
6.169015
_cons |
32.21346
84.07525
0.38
0.702
-133.0775
197.5044
-----------------------------------------------------------------------------linktest
Source |
SS
df
MS
-------------+------------------------------
32
Number of obs =
F( 2,
395) =
398
108.32
Model | 2838564.40
2 1419282.20
Residual | 5175642.74
395
13102.893
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
0.0000
0.3542
0.3509
114.47
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_hat | -1.868895
.9371889
-1.99
0.047
-3.711397
-.0263936
_hatsq |
.0023436
.0007635
3.07
0.002
.0008426
.0038447
_cons |
858.8726
283.4594
3.03
0.003
301.5948
1416.15
-----------------------------------------------------------------------------ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 392) =
4.09
Prob > F =
0.0071
Vamos a intentar a
nadir una variable mas, las meals , con el modelo anterior.
regress api00
Source |
SS
df
MS
-------------+-----------------------------Model | 6604966.18
3 2201655.39
Residual | 1409240.96
394
3576.7537
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 3,
394)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
615.55
0.0000
0.8242
0.8228
59.806
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 | -.7170622
2.238821
-0.32
0.749
-5.118592
3.684468
full |
1.327138
.2388739
5.56
0.000
.857511
1.796765
meals | -3.686265
.1117799
-32.98
0.000
-3.906024
-3.466505
_cons |
771.6581
48.86071
15.79
0.000
675.5978
867.7184
-----------------------------------------------------------------------------linktest
Source |
SS
df
MS
-------------+-----------------------------Model | 6612479.76
2 3306239.88
Residual | 1401727.38
395 3548.67691
-------------+-----------------------------Total | 8014207.14
397 20186.9197
Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE
=
=
=
=
=
=
398
931.68
0.0000
0.8251
0.8242
59.571
-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas
33
-------------+---------------------------------------------------------------_hat |
1.42433
.2925374
4.87
0.000
.849205
1.999455
_hatsq | -.0003172
.000218
-1.46
0.146
-.0007458
.0001114
_cons | -136.5102
95.05904
-1.44
0.152
-323.3951
50.3747
-----------------------------------------------------------------------------ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 391) =
2.56
Prob > F =
0.0545
El linktest es una vez m
as no significativa, mientras que el valor de p para ovtest es ligeramente
superior a 0,05. Tenga en cuenta que despues de incluir las variables full and meals , el coeficiente
para el tama
no de la clase ya no es significativa. Mientras acsk 3 tiene una relacion positiva con
api00 cuando no hay otras variables en el modelo, cuando se incluye, y por lo tanto el control
de otras variables importantes, acsk 3 ya no esta significativamente relacionado con api00 y su
relacion con api00 ya no es positivo .
linktest y ovtest herramientas disponibles en Stata para el control de errores de especificacion,
aunque linktest en realidad puede hacer mas que comprobar las variables omitidas ya que aqu se
utiliza, por ejemplo, comprobar la correccion de la funcion de especificacion de enlace. Para m
as
detalles sobre estas pruebas, por favor consulte el manual de Stata.
3.4.6.
Independencia
La declaraci
on de esta suposici
on de que los errores asociados a una observacion no estan correlacionados con los errores de cualquier otra observacion cubrir varias situaciones diferentes.
Consideremos el caso de la recogida de datos de los estudiantes de ocho escuelas primarias diferentes. Es probable que los estudiantes en cada escuela tienden a ser mas parecidas entre s que los
estudiantes de diferentes escuelas, es decir, sus errores no son independientes. Nos ocuparemos
de este tipo de situaciones en otro manual cuando se demuestra la regresion de comandos con
la opcion cl
uster.
Otra forma en que la independencia puede ser el supuesto se rompe cuando se recogen datos
sobre las mismas variables en el tiempo. Digamos que se recogen datos absentismo escolar cada
semestre durante 12 a
nos. En esta situacion, es probable que los errores de observacion entre
semestres adyacentes ser
a m
as alta correlacion de las observaciones mas separadas en el tiempo.
Esto se conoce como autocorrelaci
on. Cuando haya datos que pueden ser considerados como de
series de tiempo que debe utilizar el dwstat comando que realiza una prueba de Durbin-Watson
de coeficiente de correlaci
on.
No tenemos ninguna serie de datos en tiempo, as que vamos a utilizar el elemapi2 conjunto
de datos y pretender que snum indica el momento en que se recogieron los datos. Tambien
tendra que usar el tsset comando para que Stata saber que variable es la variable tiempo.
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2
tsset snum
time variable: snum, 58 to 6072, but with gaps
34
400) =
.2892712
35
Bibliografa
[1] Baum, C. (2006). An Introduction to Modern Econometrics Using Stata . Stata Press
[2] Cameron, A., and Trivedi, P., (2009). Microeconometrics Using Stata . Stata Press.
[3] Hamilton, L., (2006). Statistics with Stata . Thomson.
[4] Rabe-Hesketh, S. and Everitt, B. (2000). A Handbook of Statistical Analyses using Stata .
Second Edition. Chapman and Hall/CRC.
[5] Torres/Reyna, O. (2009). Getting Started in Data Analysis using Stata . Princeton University.
[6] Regresion whit Stata. UCLA: Academic Technology Services, Statistical Consulting Group
. from http://www.ats.ucla.edu/stat/stata/webbooks/(accessed May 02, 2011).
36