Vous êtes sur la page 1sur 36

Universidad Nacional de Callao

Escuela Profesional de Economa


Centro de Investigacion
Documento de apoyo para las
sesiones aplicativas del curso de
Econometra II

Profesor del Curso : MSc. Carlos I. Palomares

Manejo de Datos y Analisis Econometrico con STATA


Junior Urtecho Baca
jr.urtecho@gmail.com

Bellavista - Callao
2011 - A

Indice general
1. Entorno de Stata
1.1. Elementos B
asicos . . . . . . . . . . . . . . .
1.1.1. Ventanas . . . . . . . . . . . . . . . .
1.1.2. Tipos de Archivos . . . . . . . . . . .
1.1.3. Recursos y Documentos de ayuda . . .
1.2. Sintaxis de Comandos y Expresiones Logicas
1.3. Organizando un Proyecto . . . . . . . . . . .
1.3.1. Memoria de trabajo . . . . . . . . . .
1.3.2. Fijando Directorio (path) . . . . . . .
1.3.3. Do-file and Log-file . . . . . . . . . . .
1.4. Aplicaci
on . . . . . . . . . . . . . . . . . . . .
1.4.1. Mi Primer Do . . . . . . . . . . . . . .
1.4.2. Mi Primer Log . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

4
4
4
5
6
7
8
8
8
8
9
9
9

2. Gesti
on de Datos
2.1. Iniciando Stata . . . . . . . .
2.2. Importando Datos . . . . . .
2.2.1. Desde Excel . . . . . .
2.2.2. Stat-Transfer . . . . .
2.3. Reconociendo Base de Datos
2.4. Explorando Datos . . . . . .
2.4.1. Medidas de Resumen .
2.4.2. Tablas y Estadsticos .
2.5. Generando Variables . . . . .
2.6. Etiquetado . . . . . . . . . .
2.7. Append, Merge y Collapse . .
2.7.1. Append . . . . . . . .
2.7.2. Merge . . . . . . . . .
2.7.3. Collapse . . . . . . . .
2.8. Aplicaci
on . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

10
10
11
11
11
11
11
11
11
12
13
15
15
16
17
18

.
.
.
.
.
.
.
.

20
21
21
21
22
23
23
24
24

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

3. An
alisis de Regresi
on Linal
3.1. Un primer An
alisis de Regresion . .
3.2. Examinando la Base de Datos . . . .
3.3. Regresi
on Lineal . . . . . . . . . . .
3.3.1. Prueba de Hipotesis . . . . .
3.3.2. Correlaci
on . . . . . . . . . .
3.3.3. Distribuci
on . . . . . . . . . .
3.4. Diagn
ostico de la Regresi
on . . . . .
3.4.1. Datos Originales e Influyentes

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

Manejo de Datos y Analisis Econometrico con STATA


Econometra II
3.4.2.
3.4.3.
3.4.4.
3.4.5.
3.4.6.

Comprobando la Normalidad de los Residuos . .


Comprobando Homocedasticidad de los Residuos
Comprobando Colinealidad . . . . . . . . . . . .
Errores de Especificacion . . . . . . . . . . . . .
Independencia . . . . . . . . . . . . . . . . . . .

Referencias

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

28
28
29
30
34
36

Junior Urtecho Baca


jr.urtecho@gmail.com

Captulo

Entorno de Stata

1.1.

Elementos B
asicos

1.1.1.

Ventanas

El programa presenta las siguientes ventanas:

Figura 1.1: Stata SE 11.1


Stata Results: Situada en la parte superior derecha, presenta los resultados de cada orden.
Stata Command: Se encuentra en la parte inferior derecha, es ah donde se digitan todos
los comandos.
Review: Situada en la parte superior izquierda, es la bitacora de los comandos.
Variables: Situada en la parte inferior izquierda, es donde se ubica la base de datos con la
que se est
a trabajando.
Ademas existen otras ventanas como:
4

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Viewer Windows (VW): Sirve para ver los resultados de las b


usquedas con help y search

Figura 1.2: Viewer Windows


Do File Editor: Es el entorno de programacion agrupada.

Figura 1.3: Do File


Data Window: Esta ventana tiene una apariencia similar a un libro Excel, es aqu donde
se introducen y editan los datos.

Figura 1.4: Data Window

1.1.2.

Tipos de Archivos

.dta: Identifica las bases de datos.


Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

.do: Identifica los do-file.


.log: Es la extensi
on que almacena las salidas en la ventana Stata Result de la figura 1.1,
tambien llamado bit
acora.
.gph: Almacena los gr
aficos creados con stata.

1.1.3.

Recursos y Documentos de ayuda

Manueales de Stata:
Stata posee (como cualquier soft) una gua de usuario muy u
til, podremos revisar Getting
Started with Stata que es un estupendo manual para nuevos usuarios. A la que puden
acceder por: Help PDF documentation.
Recursos Adicionales:
El Stata Journal (SJ) y su predecesor, el Stata Technical Bulletin (STB), presenta ejemplos y c
odigos que van m
as all
a de los que vienen con la intalacion del Stata. SJ habilita
artculos con m
as de tres a
nos de publicacion que estan disponibles en la web, todos los
artculos STB est
an disponibles online desde el sitio web de Stata. El sitio web de STATA
tiene una gran cantidad de informacion, esto incluye un resumen de lo que Stata hace.
Un buen lugar para comenzar es http://www.stata.com/support/.
En particular, consulte la respuestas a las preguntas mas frecuentes (FAQ). La Web de la

Universidad de California - Los Angeles


(UCLA) http://www.ats.ucla.edu/STAT/stata/
proporciona muchos tutoriales Stata.
Comando Help:
Esta es una de las grandes ventajas que posee Stata, ya que nos permitira obtener informacion inmediata de los comandos que vamos a utilizar, y es mucho mas u
til si conocemos
el nombre el comando por ejemplo:
. help table
. help function
. help help
Los comandos search, findit:
Son comandos de b
usqueda que no requieren el conocimiento previo del nombre del comando, por ejemplo el comando search es u
til si no conocemos el nombre del comando de stata
y deseamos buscar informaci
on de las direfentes formas en las que se puede utilizar un
comando o metodo. Por default encontraremos informacion de sitios oficiales, que vienen
ya instalados con el programa.
En cambio el comando findit busca informacion tanto en la memoria de instalacion del programa como en internet, lo cual nos proporciona una gran herramienta de actualizaci
on
personalizada, por lo que podremos descargar e instalar comandos creados por otros usuarios. Ejemplos:
. findit ols
. search mean

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

1.2.

Sintaxis de Comandos y Expresiones L


ogicas

Describe la estructura b
asica de los comandos del lenguaje de programacion de Stata.

. help language
Syntax
With few exceptions, the basic language syntax is
[prefix :] command [varlist] [=exp] [if] [in] [weight]
[using filename] [, options]
Utilizando el comando help podemos obtener mayor informacion de cada uno de sus componentes.
see
language element
description
-----------------------------------------------------------------help prefix
prefix :
prefix command
help command
command
Stata command
help varlist
varlist
variable list
help exp
=exp
expression
help if
if
if exp qualifier
help in
in
in range qualifier
help weight
weight
weight
help using
using filename
using filename modifier
help options
options
options
-----------------------------------------------------------------Todo lo que aparece entre corchetes es opcional, tanto el comando in como el comando if nos
permiten seleccionar una submuestra de nuestra base de datos. Con esto podemos delimitar el
tama
no de la muestra en un rango y/o tambien podemos seleccionar los datos que satisfacen
ciertas condiciones, para ello podemos utilizar expresiones logicas como:

Figura 1.5: Expresiones Logicas

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

1.3.

Organizando un Proyecto

1.3.1.

Memoria de trabajo

El tama
no de la memoria con la que se trabaja es de vital importancia, habran situaciones en
que stata no les permita abrir una base de datos debido a que el uso de memoria es insuficiente,
para modificar el tama
no de memoria utilizamos el comando set mem seguido por la capacidad
1
a asignar . ejm:
. set mem 100m

1.3.2.

Fijando Directorio (path)

Esta herramienta nos permite fijar nuestra carpeta de trabajo2 , es en ella donde almacenaremos
todos nuestros archivos .dta, .log, .do, etc.
. cd "D:\Junior\Desktop\Econometria II""

1.3.3.

Do-file and Log-file

Do-File:
Es una serie de comandos a ser ejecutado de manera conjunta y de manera ordenada. Sirve como
registro de lo que se hizo o ejecut
o y a su vez ir haciendo aclaraciones de lo que se esta haciendo.
Abriendo un Do:
La ventana Do-dile Editor (ver figura 1.3) se abre con la siguiente ruta:
Windows Do-file Editor New Do-file EditorLa forma mas sencilla es utilizar Ctrl+8
Running Do-file:
Estos archivos pueden ser ejecutados directamente desde la ventana del Do-File Editor o
ingresando en la barra de comandos el comando do seguido por la ruta donde se encuentra
el archivo, ejemplo:
do "D:\Junior\Desktop\EconometriaII\mi primer do"
Otra forma es utilizar Ctrl+D. Si solo se desea correr algunas lneas, primero las seleccionamos y presionamos Ctrl+D.
Log-File:
Los resultados que salen en la ventana Stata Results, puden ser almacenadas en un archivo
.log y se guardan en formato SMCL o ASCII.
1

Una regla practica dice que se debe fijar como memoria un 50 % adicional al tama
no de la bade de datos a
trabajar.
2
Nota: Hay muchos comandos en Stata que requieren las especificaci
on de un path. Por ello es necesario saber
que cuando el nombre de una carpeta o archivo incluido en el path lleva espacio entre caracteres, el path debe ir
entre comillas.

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Para abrir un log file:


log
log
log
log
log
log

1.4.
1.4.1.

using auto
using auto, replace
using auto.log
off
on
close

Aplicaci
on
Mi Primer Do

*Mi primer DO*


* Una forma de pone comentarios en una sola l
nea
/* para poner comentarios en
varias filas */
clear
cd "D:\Junior\Desktop\Econometria II"
set mem 100m
use sumaria-2009
describe
lookfor gashog2d
sum gashog2d

1.4.2.

*Fijando la carpeta de trabajo (path)


*Fijando memoria
*Abriendo una base de datos

Mi Primer Log

log using ejemplo,text


use sumaria_2008
log close
log using ejemplo,text append
tab dominio
clear
log close

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

Junior Urtecho Baca


jr.urtecho@gmail.com

Captulo

Gesti
on de Datos

2.1.

Iniciando Stata

Abriendo una base de datos


Supongamos que tenemos una base de datos .dta de nombre sumaria-2009 y ruta:
D:\Junior\Desktop\EconometriaII\
Para abrir la base de datos desde Stata:
use "D:\Junior\Desktop\Econometria II\sumaria-2009.dta"
Antes de usar este comando nos tenemos que fijar si hay otra base abierta, de lo contrario no se
ejecutara. Podemos usar clear antes de use para limpiar la memoria o en todo caso al final de
comando agregar ,clear.

Seleccionando una submuestra


Si solo queremos ver las familias que con mas de 8 miembros:
use "D:\Junior\Desktop\Econometria II\sumaria-2009" if mieperho>8
Si solo queremos las primeras 100 observaciones
use "D:\Junior\Desktop\Econometria II\sumaria-2009" in 1/100
Una vez ya fijado el path podemos abrilo de la siguiente forma:
use sumaria-2009
Si solo queremos trabajar con un subconjunto de variables: conglome vivienda hogar ubigeo
use conglome vivienda hogar ubigeo using sumaria-2009
Esta sentencia no abrir
a completa nuestra base de datos, solo abrira las variables conglome
vivienda hogar ubigeo.
Tambien se pueden abrir base de datos directamente desde internet, por ejemplo:
use http://wps.aw.com/wps/media/objects/284/291498/caschool.dta

10

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

2.2.
2.2.1.

Importando Datos
Desde Excel

Para importar datos desde el Excel podemos proceder a copiar los datos de la hoja Excel y
pegarlos en el Data Editor que se abre con el comando edit.
Otra forma es grabar el archivo de Excel en el formato Texto (delimitado por tabulaciones) (que
es un archivo ASCII creado por una spreadsheet) e ir a Stata y llamarlo como:
insheet using "D:\Junior\Desktop\Econometria II\muestra.txt" ,tab

2.2.2.

Stat-Transfer

Ingresar a Microdatos en la p
agina del INEI, bajar la base sumaria-2009. Transferir la base
sumaria de SPSS (.sav) a STATA(.dta)

2.3.

Reconociendo Base de Datos

Comandos iniciales para hacer el reconocimiento previo de nuestra base de datos1 .

describe
codebook conglome
lookfor gashog2d
list gashog2d in 110
list gashog2d in 110
list gashog2d in 51
sort conglome
list conglome
gsort- conglome
list conglome

2.4.

Explorando Datos

2.4.1.

Medidas de Resumen

inspect gashog2d
summarize gashog2d
summarize gashog2d, detail
summarize gashog2d if gashog2d>10000
bys dominio: summarize gashog2d if gashog2d>1000

2.4.2.

Tablas y Estadsticos

tabulate dominio
tabulate dominio ,sum(gashog2d)
tab dominio if gashog2d>6000
tab dominio pobreza
tab dominio pobreza, colum
tab dominio pobreza, row
1

Utilizando la base de datos sumaria-2009

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

11

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

tab dominio pobreza, cell


tabstat gashog2d, statistic(mean median cv sd min max skewness kurtosis)
tabstat gashog2d, statistic(mean median) by(dominio)
histogram gashog2d
histogram gashog2d, normal
Estadsticos que se pueden obtener con la opcion statistic

mean
count
n
sum
max
min
range
sd
var
cv
semean
skewness
kurtosis
median
p25
p50
p75

2.5.

media aritm
etica
n
umero de valores no perdidas
n
umero de casos
suma de valores
m
aximo valor
m
nimo valor
rango = m
aximo - m
nimo
desviaci
on est
andar
varianza
coeficiente de variaci
on (var/mean^2)
error est
andar de la media igual a (sd/sqrt(n))
ndice de sesgo, respecto a la normal con par

ametros mean y var.


kurtosis, respecto a la normal con par
ametros mean y var
mediana (muestra el percentile 50)
percentil 25
percentil 50 (mediana)
percentil 75

Generando Variables

Trabajemos con la base de datos auto, y con la variable length (longitud del auto en pulgadas)
use auto, clear
summarize length
generate length_feet = length / 12
generate length_feet = length / 12
replace length_feet = length / 12
summarize length lenght_feet
generate length2 = length^2
summarize length2
generate loglen = log(length)
summarize loglen
summarize length
generate zlength = (length - 187.93) / 22.27
summarize zlength
Observemos la variable mpg (millaje por galon)
tabulate mpg
De esta manera no nos es muy f
acil el analisis de esta variable, podramos mejorar su presentaci
on
si la clasificaramos en intervalos.

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

12

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

generate mpg1 = .
replace mpg1 = 1 if (mpg <= 18)
replace mpg1 = 2 if (mpg >= 19) & (mpg <=23)
replace mpg1 = 3 if (mpg >= 24) & (mpg <.)
tabulate mpg mpg1
Si queremos crear una variable que tenga el valor de 1 para los autos con un consumo de
conbustible mayor a 20 galones por milla y 0 en caso contrario.
generate D = .
replace D = 1 if mpg > 20
replace D = 0 if mpg <= 20
Una forma mas eficiente de realizar la misma tarea es:
generate D1 = mpg > 20
list D D1
Veamos un ejemplo con categoras, ahora deseamos crear una variable que nos muestre el millaje
de los carros respecto a su origen, esta tomara el valor de 0 para valores por debajo de la media
de mpg en el grupo domestico y extranjero y 1 para valores por encima de la media de mpg en
los grupos domestico y extranjero.
sort foreign
by foreign: summarize mpg, detail
generate mpg2 = mpg
recode mpg2 min/18=0 19/max=1 if foreign==0
recode mpg2 min/24=0 25/max=1 if foreign==1
by foreign: tabulate mpg mpg2
Tambien podemos usar una extensi
on del commando generate, egen nos permitira crear expresiones mas complejas, tales como medias, desviaciones estandar, maximos, mnimos, etc.
egen minimo_p=min(price)
egen median_p=median(price)
egen std_p=std(price), mean(0) std(1)

2.6.

Etiquetado

Es una herramienta muy u


til para la identificacion de base de datos o de variables, que permite
un trabajo ordenado.
use auto.dta
describe
label data "Este archivo contiene datos de autos para el a~
no 1978"
describe
label variable rep78 "Record de reparaci
on en 1978"
label variable price "Precio del carro en 1958"
label variable mpg "Millas por galon para el carro"
label variable foreign "Origen del carro, extranjero o domestico"
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

13

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

describe
label define foreignl 0 "domestico" 1 "extranjero"
label values foreign foreignl
describe
table foreign

Ejercicio:
Usando la Base de Datos Iraninos
clear
use iraninos.dta
set more off
label define sexow 0 "mujer"
label define sexow 1 "hombre", add
describe
browse
label values sexo sexow
describe
browse
label drop sexow
label
label
label
label
label

define
define
define
define
values

getareow 0 "prematuro"
getareow 1 "rec.nac.", add
getareow 2 "lactante", add
getareow 3 "escolares", add
getareo getareow

label define oliguriaw 0 "no oliguria"


label define oliguriaw 1 "oliguria", add
label values oliguria oliguriaw
label define congenitow 0 "no congenito"
label define congenitow 1 "congenito", add
label values congenito congenitow
label define sepsisw 0 "no sepsis"
label define sepsisw 1 "sepsis", add
label values sepsis sepsisw
label
label
label
label
label

define
define
define
define
values

tipodaow 0 "asfixia neonat"


tipodaow 1 "nta", add
tipodaow 2 "nti", add
tipodaow 3 "nefro tox", add
tipodao tipodaow

label define finalw 0 "vivo"


label define finalw 1 "muerto", add
label values final finalw

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

14

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

2.7.

Append, Merge y Collapse

El comando append y merge nos ayudara a unir bases de datos integrandolas en una sola.
Append, pegara hacia abajo o verticalmente y Merge, pegara hacia el costado o de forma horizontal.

2.7.1.

Append

Vamos a empezar observando cada una de las bases de datos que tenemos, veamos la figura 2.1.
clear
use base1,
list
use base2,
list
use base3,
list
use base4,
list

clear
clear
clear
clear

Figura 2.1: Base de Datos


Empecemos nuestra tarea en Stata,
Podemos observar que la base de datos Base1 tiene los mismos campos (columnas) que la base
de datos Base2, pero diferentes filas, seria u
til, unir ambas bases. Abramos entonces, la base de
datos Base1 y peguemosla con la base de datos Base2, una union vertical
use base1.dta, clear
list
append using base2
list
save base12.dta, replace
list
Hagamos lo mismo con las bases de datos Base3 y Base4 y observemos los resultados:
use base3.dta, clear
list
append using base4
list
save base34.dta, replace
list
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

15

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Por que la variable la variable sexo se a


nadio 2 veces como columna y por que no se unio en una
sola columna?
use base3.dta, clear
list
rename Sexo sexo
list
save base03.dta, replace
use base03.dta, clear
list
append using base4
list
save base034.dta, replace

2.7.2.

Merge

Figura 2.2: Merge: Idea Basica


Ahora si result
o bien la uni
on vertical. Veamos la base12 que tenamos antes. Ahora nuestro
interes es fusionar ambas bases de datos de manera horizontal, para ello, primero debemos
ordenar ambas bases seg
un la variable con la que vamos a fusionar (la variable com
un).
use base034.dta, clear
list
sort nombre
list
save base034s.dta, replace
use base12.dta, clear
list
sort nombre
list
save base12s.dta, replace
Ya tenemos las 2 bases de datos ordenadas, ahora vamos a fusionarlas.
clear
use base12s.dta, clear
list

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

16

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

merge nombre using base034s.dta


list
save basetotal.dta, replace

2.7.3.

Collapse

El comando collapse sirve para convertir una base de datos que contiene variables para diversas
unidades de estudio, en una base de datos que contiene estadsticos de dichas variables (medias,
medianas, sumas etc). Permite obtener estadsticos para unidades mas grandes (en un sentido
jerarquico), como por ejemplo, pasar de datos por individuo a datos por hogar, de datos por
distritos a datos por provincia (agregacion).
En el comando se especifican aquellas variables que se colapsan y las condiciones que se imponen
para dicha transformaci
on. Algunas variables pueden ser colapsadas seg
un su suma, otras seg
un
su media, etc.
Aquellas variables que no se especifican desaparecen automaticamente de la base de datos. Este
comando crea una nueva base de datos y cierra la base de partida. Si deseamos quedarnos con
esta base debemos grabarla.

Figura 2.3: Collapse: Idea Basica

use kids, clear


list
collapse age
list
use kids, clear
collapse age, by(famid)
list
use kids, clear
collapse(mean) avgage=age, by(famid)
list
use kids, clear
collapse (mean) avgage=age avgwt=wt, by(famid)
list
use kids, clear

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

17

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

collapse (mean) avgage=age avgwt=wt (count) numkids=birth, by(famid)


list
use kids, clear
tabulate sex, generate(sexdum)
list famid sex sexdum1 sexdum2
collapse (count) numkids=birth (sum) girls=sexdum1 boys=sexdum2, by(famid)
list famid boys girls numkids

2.8.

Aplicaci
on

Utilizando el do-file merge


*EJEMPLO DE APLICACI
ON.
***********************
**MERGE
/*1. Se abre la base de donde va a importar variables a
nuestra base master y se ordena seg
un los identificadores..*/
clear
cd "D:\Junior\Desktop\Econometria II"
use enaho01-2009-100.dta
sort conglome vivienda hogar
save, replace
/*2. Se abre la base master, se ordena seg
un los
identificadores y se aplica el merge.*/
use sumaria-2009.dta
sort conglome vivienda hogar
save, replace
merge conglome vivienda hogar using enaho01-2009-100.dta
ta _merge

**COLLAPSE

*PARTE 1
* Cambie el directorio de trabajo
cd "D:\Junior\Desktop\Econometria II"
* "Importe" los datos del archivo ingreso.xlsx
* Grabe la informaci
on:
save ejemplo_collapse, replace

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

18

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

*PARTE 2
preserve
collapse (sum) ingreso,by(id_hogar)
save collapse_suma_ingresos,replace
restore
*PARTE 3
preserve
collapse (mean) ingreso,by(id_hogar)
save collapse_media_ingresos,replace
restore
*PARTE 4
use collapse_suma_ingresos,clear
brow
*PARTE 5
use collapse_media_ingresos,clear
brow
*PARTE 6: SUMA DE INGRESOS Y N
UMERO DE PERSONAS EN CADA HOGAR
use ejemplo_collapse, clear
collapse (sum) ingreso (count) id_persona,by(id_hogar)
save collapse_suma_contador_ingresos,replace
br

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

19

Junior Urtecho Baca


jr.urtecho@gmail.com

Captulo

An
alisis de Regresi
on Linal

En este captulo se tratar


an temas de regresion simple y m
ultiple, as como las tareas de apoyo
que son importantes en la preparaci
on para analizar sus datos, por ejemplo, la comprobaci
on
de datos, familiariz
andose con su archivo de datos, y examinar la distribucion de las variables.
Vamos a ilustrar los conceptos b
asicos de la regresion simple y m
ultiple y demostrar la importancia de la inspecci
on, comprobaci
on y verificacion de sus datos antes de aceptar los resultados
de su analisis. En general, esperamos demostrar que los resultados de su analisis de regresi
on
puede ser enga
noso sin m
as de sondeo de los datos, que podran revelar las relaciones que un
analisis informal puede pasar por alto.
En este captulo, y en los captulos siguientes, vamos a utilizar un archivo de datos que fue creado
por un muestreo aleatorio de 400 escuelas primarias del Departamento de Educacion de California API 2000 conjunto de datos. Este archivo de datos contiene una medida del rendimiento
academico, as como otros atributos de las escuelas primarias, como por ejemplo, tama
no de las
clases, la matriculaci
on, la pobreza, etc.
Puede acceder a este archivo de datos a traves de la web de Stata con el uso de comandos como
se muestra a continuaci
on1 :
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi
Una vez que haya cargado el archivo, es probable que desee guardar una copia del mismo en el
equipo (por lo que no es necesario cargarlode la web cada vez que deseamos usarla). Digamos
que usted est
a usando Windows y desea almacenar el archivo en una carpeta llamada
"D:\Junior\Desktop\Econometria II".
En primer lugar, usted puede guardar este archivo dentro de la carpeta con el comando mkdir.
mkdir "D:\Junior\Desktop\Econometria II"
Y a continuaci
on, si guarda el archivo en
"D:\Junior\Desktop\Econometria II"
. Vamos a guardar el archivo como elemapi.
save elemapi
A partir de ahora podemos abrir el archivo de la forma tradicional usando el comando use.
1

Nota: No escriba el punto inicial en el comando - el punto es una convenci


on para indicar que la declaraci
on
es un comando de Stata.

20

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

3.1.

Un primer An
alisis de Regresi
on

Realizado un an
alisis de regresi
on utilizando las variables api00 , acsk 3 , meals y full. Estos
miden el rendimiento academico de la escuela ( api00 ), el tama
no promedio de clase de kindergarten al 3er grado ( acsk 3 ), el porcentaje de estudiantes que reciben comidas gratis ( meals )
- que es un indicador de la pobreza, y el porcentaje de profesores que han la ense
nanza de credenciales completas ( full ). Esperamos que la mejora de rendimiento academico se asocia con el
tama
no de clase baja, menos los estudiantes que reciben comidas gratis, y un mayor porcentaje
de docentes que la ense
nanza de credenciales completas. A continuacion, se muestra el comando
de Stata para probar este modelo de regresion seguido de la salida de Stata.
regress api00 acs_k3 meals full
Source |
SS
df
MS
-------------+-----------------------------Model | 2634884.26
3 878294.754
Residual | 1271713.21
309 4115.57673
-------------+-----------------------------Total | 3906597.47
312 12521.1457

Number of obs
F( 3,
309)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

313
213.41
0.0000
0.6745
0.6713
64.153

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 | -2.681508
1.393991
-1.92
0.055
-5.424424
.0614073
meals | -3.702419
.1540256
-24.04
0.000
-4.005491
-3.399348
full |
.1086104
.090719
1.20
0.232
-.0698947
.2871154
_cons |
906.7392
28.26505
32.08
0.000
851.1228
962.3555
------------------------------------------------------------------------------

3.2.

Examinando la Base de Datos

describe
list api00 acs_k3 meals full in 1/10
codebook api00 acs_k3 meals full yr_rnd
summarize api00 acs_k3 meals full
summarize acs_k3, detail
tabulate acs_k3
list snum dnum acs_k3 if acs_k3 < 0
list dnum snum api00 acs_k3 meals full if dnum == 140
histogram acs_k3
graph box acs_k3
tabulate dnum if full <= 1

3.3.

Regresi
on Lineal

regress api00 ell meals yr_rnd mobility acs_k3 acs_46 full emer enroll
Source |
SS
df
MS
Number of obs =
-------------+-----------------------------F( 9,
385) =
Model | 6740702.01
9
748966.89
Prob > F
=
Residual | 1240707.78
385 3222.61761
R-squared
=

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

21

395
232.41
0.0000
0.8446

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

-------------+-----------------------------Total | 7981409.79
394 20257.3852

Adj R-squared =
Root MSE
=

0.8409
56.768

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
Beta
-------------+---------------------------------------------------------------ell | -.8600707
.2106317
-4.08
0.000
-.1495771
meals | -2.948216
.1703452
-17.31
0.000
-.6607003
yr_rnd | -19.88875
9.258442
-2.15
0.032
-.0591404
mobility | -1.301352
.4362053
-2.98
0.003
-.0686382
acs_k3 |
1.3187
2.252683
0.59
0.559
.0127287
acs_46 |
2.032456
.7983213
2.55
0.011
.0549752
full |
.609715
.4758205
1.28
0.201
.0637969
emer | -.7066192
.6054086
-1.17
0.244
-.0580132
enroll |
-.012164
.0167921
-0.72
0.469
-.0193554
_cons |
778.8305
61.68663
12.63
0.000
.
-----------------------------------------------------------------------------listcoef
regress (N=395): Unstandardized and Standardized Estimates
Observed SD: 142.32844
SD of Error: 56.768104
--------------------------------------------------------------------------api00 |
b
t
P>|t|
bStdX
bStdY
bStdXY
SDofX
---------+----------------------------------------------------------------ell | -0.86007
-4.083
0.000 -21.2891 -0.0060 -0.1496
24.7527
meals | -2.94822 -17.307
0.000 -94.0364 -0.0207 -0.6607
31.8960
yr_rnd | -19.88875
-2.148
0.032 -8.4174 -0.1397 -0.0591
0.4232
mobility | -1.30135
-2.983
0.003 -9.7692 -0.0091 -0.0686
7.5069
acs_k3 |
1.31870
0.585
0.559
1.8117
0.0093
0.0127
1.3738
acs_46 |
2.03246
2.546
0.011
7.8245
0.0143
0.0550
3.8498
full |
0.60972
1.281
0.201
9.0801
0.0043
0.0638
14.8924
emer | -0.70662
-1.167
0.244 -8.2569 -0.0050 -0.0580
11.6851
enroll | -0.01216
-0.724
0.469 -2.7548 -0.0001 -0.0194
226.4732

3.3.1.

Prueba de Hipotesis

Prueba individual
test ell==0
( 1)

ell = 0.0
F(

1,
385) =
Prob > F =

16.67
0.0001

Prueba Conjunta
test acs_k3 acs_46
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

22

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

( 1)
( 2)

acs_k3 = 0.0
acs_46 = 0.0
F(

3.3.2.

2,
385) =
Prob > F =

3.95
0.0200

Correlaci
on

correlate api00 ell meals yr_rnd mobility acs_k3 acs_46 full emer enroll
(obs=395)
|
api00
ell
meals
yr_rnd mobility
acs_k3
acs_46
-------------+--------------------------------------------------------------api00 |
1.0000
ell | -0.7655
1.0000
meals | -0.9002
0.7711
1.0000
yr_rnd | -0.4831
0.5104
0.4247
1.0000
mobility | -0.2106 -0.0149
0.2207
0.0321
1.0000
acs_k3 |
0.1712 -0.0553 -0.1888
0.0222
0.0397
1.0000
acs_46 |
0.2340 -0.1743 -0.2137 -0.0419
0.1280
0.2708
1.0000
full |
0.5759 -0.4867 -0.5285 -0.4045
0.0235
0.1611
0.1212
emer | -0.5902
0.4824
0.5402
0.4401
0.0612 -0.1111 -0.1283
enroll | -0.3221
0.4149
0.2426
0.5920
0.1007
0.1084
0.0281
|
full
emer
enroll
-------------+--------------------------full |
1.0000
emer | -0.9059
1.0000
enroll | -0.3384
0.3417
1.0000

3.3.3.

Distribuci
on

histogram enroll
histogram enroll, normal bin(20)
histogram enroll, normal bin(20) xlabel(0(100)1600)
kdensity enroll, normal
graph box enroll
symplot enroll
qnorm api00
pnorm enroll
ladder enroll
gladder enroll
generate lenroll = log(enroll)
hist lenroll, normal

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

23

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

3.4.

Diagn
ostico de la Regresi
on

En la seccion anterior, hemos aprendido como hacer la regresion lineal ordinaria con Stata, concluyendo con los metodos de examen de la distribucion de nuestras variables. Sin verificar que
sus datos han cumplido con los supuestos subyacentes el modelo de regresion, los resultados
pueden ser enga
nosos. En este captulo se estudiara como se puede utilizar Stata para comprobar de que tan bien los datos cumplen los supuestos de regresion por mnimos cuadrados. En
particular, vamos a considerar los siguientes supuestos.
Linealidad - las relaciones entre los predictores y la variable de resultado debe ser lineal
La normalidad - los errores deben tener una distribucion normal - tecnicamente la normalidad es necesario s
olo para las pruebas de hipotesis sea valida
Estimaci
on de los coeficientes s
olo requiere que los errores sean de forma identica e independientemente distribuidos
La homogeneidad de varianza (homocedasticidad) - la varianza del error debe ser constante
Independencia - los errores asociados a una observacion no estan correlacionados con los
errores de cualquier otra observacion
Los errores en las variables - variables de prediccion se miden sin error
las especificaciones del modelo - el modelo debe estar debidamente especificado (incluyendo
todas las variables relevantes, y excluyendo las variables irrelevantes)
Ademas, hay cuestiones que pueden surgir durante el analisis que, aunque estrictamente hablando no son supuestos de la regresi
on, no dejan de ser, de gran preocupacion para los analistas de
datos.
observaciones individuales que ejercen una influencia indebida sobre los coeficientes - Influencia
Colinealidad - predictores que estan muy alineados, es decir, una relacion lineal, puede
causar problemas en la estimaci
on de los coeficientes de regresion.
Muchos metodos gr
aficos y an
alisis numericos se han desarrollado a lo largo de los a
nos para el diagnostico de regresi
on. Stata tiene muchos de estos metodos integrados, y otros estan disponibles
que se pueden descargar a traves de Internet. En particular, Nicholas J. Cox (Universidad de
Durham) ha producido una colecci
on de comandos de la comodidad que se puede descargar de
SSC (ssc install commandname). Estos comandos incluyen indexplot, rvfplot2, rdplot, qfrplot and ovfplot. En este captulo, vamos a explorar estos metodos y mostrar como verificar
los supuestos de regresi
on y detectar posibles problemas usando Stata.

3.4.1.

Datos Originales e Influyentes

Una u
nica observaci
on que es sustancialmente diferente de todas las otras observaciones puede
hacer una gran diferencia en los resultados de su analisis de regresion. Si una u
nica observaci
on
(o peque
no grupo de observaciones) cambia sustancialmente los resultados, usted quiere saber
acerca de esto y seguir investigando. Hay tres formas de que una observacion puede ser inusual.

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

24

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Outliers: En la regresi
on lineal, un valor atpico es una observacion con grandes residual.
En otras palabras, es una observacion cuyo valor de la variable dependiente es inusual
debido a su valores en las variables predictoras. Un valor atpico puede indicar una particularidad de la muestra o puede indicar un error de entrada de datos o cualquier otro
problema.
Apalancamiento: Una observacion con un valor extremo en una variable explicativa se
llama un punto con un alto apalancamiento. El apalancamiento es una medida de hasta
que punto una variable independiente se desva de su media. Estos puntos de influencia
puede tener un efecto en la estimacion de los coeficientes de regresion.
Influencia: Una observaci
on se dice que es influyente, si la eliminacion de la observaci
on
cambia sustancialmente la estimacion de los coeficientes. La influencia se puede considerar
como el producto de apalancamiento y outlierness.
Como podemos identificar estos tres tipos de observaciones? los Veamos a un conjunto de datos
de ejemplo llamada crime . Este conjunto de datos aparece en Metodos Estadsticos para las
Ciencias Sociales, Tercera Edici
on de Alan Agresti y Barbara Finlay (Prentice Hall, 1997). Las
variables son el estado Identificaci
on ( sid ), nombre del estado ( state ), los crmenes violentos por
cada 100.000 personas (crime), los asesinatos por millon (munder), el porcentaje de la poblaci
on
que vive en las
areas metropolitanas ( pctmetro ), el porcentaje de la poblacion que es de color
blanco ( pctwhite ), el porcentaje de poblacion con educacion secundaria o superior ( pcths ), el
porcentaje de poblaci
on que vive bajo la lnea de pobreza (poverty), y porcentaje de poblaci
on
que son las familias monoparentales (simgle).
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/crime
(crime data from agresti & finlay - 1997)
describe
Contains data from crime.dta
obs:
51

crime data from agresti &


finlay - 1997
6 Feb 2001 13:52

vars:
11
size:
2,295 (98.9% of memory free)
------------------------------------------------------------------------------1. sid
float %9.0g
2. state
str3
%9s
3. crime
int
%8.0g
violent crime rate
4. murder
float %9.0g
murder rate
5. pctmetro float %9.0g
pct metropolitan
6. pctwhite float %9.0g
pct white
7. pcths
float %9.0g
pct hs graduates
8. poverty
float %9.0g
pct poverty
9. single
float %9.0g
pct single parent
------------------------------------------------------------------------------Sorted by:
summarize crime murder pctmetro pctwhite pcths poverty single
Variable |
Obs
Mean
Std. Dev.
Min
Max
---------+----------------------------------------------------Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

25

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

crime
murder
pctmetro
pctwhite
pcths
poverty
single

|
|
|
|
|
|
|

51
51
51
51
51
51
51

612.8431
8.727451
67.3902
84.11569
76.22353
14.25882
11.32549

441.1003
10.71758
21.95713
13.25839
5.592087
4.584242
2.121494

82
1.6
24
31.8
64.3
8
8.4

2922
78.5
100
98.5
86.6
26.4
22.1

Digamos que queremos predecir la delincuencia por pctmetro , la pobreza , y la u


nica . Es decir,
queremos construir un modelo de regresion lineal entre la variable de respuesta de la delincuencia
y las variables independientes pctmetro , la pobreza y u
nica . En primer lugar, se vera en los
graficos de dispersi
on de los delitos contra cada una de las variables de prediccion antes de que
el analisis de regresi
on, as que tendremos algunas ideas acerca de posibles problemas. Podemos
crear una matriz de dispersi
on de estas variables como se muestra a continuacion
graph matrix crime pctmetro poverty single
scatter crime pctmetro, mlabel(state)
scatter crime poverty, mlabel(state)
scatter crime single, mlabel(state)
Ahora vamos a intentar el comando de regresion para crime pctmetro poverty and single. Vamos
a ir paso a paso para identificar todos los puntos inusuales o potencialmente influyentes.
regress crime pctmetro poverty single
Source |
SS
df
MS
---------+-----------------------------Model | 8170480.21
3 2723493.40
Residual | 1557994.53
47 33148.8199
---------+-----------------------------Total | 9728474.75
50 194569.495

Number of obs
F( 3,
47)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

51
82.16
0.0000
0.8399
0.8296
182.07

-----------------------------------------------------------------------------crime |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------pctmetro |
7.828935
1.254699
6.240
0.000
5.304806
10.35306
poverty |
17.68024
6.94093
2.547
0.014
3.716893
31.64359
single |
132.4081
15.50322
8.541
0.000
101.2196
163.5965
_cons | -1666.436
147.852
-11.271
0.000
-1963.876
-1368.996
-----------------------------------------------------------------------------Vamos a examinar los residuos estudentizados como un primer medio de identificacion de valores atpicos. A continuaci
on se utiliza la prediccion de comandos con el rstudent opcion para
generar residuos estudentizados y nombre de los residuos r . Podemos elegir cualquier nombre
que queramos, siempre y cuando se trata de una variable de nombre legal de Stata. residuos estudentizado son un tipo de residuo estandarizado que puede ser utilizado para identificar valores
atpicos.
predict r, rstudent
sort r
list sid state r in 1/10
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

26

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

list sid state r in -10/l


hilo r state
list r crime pctmetro poverty single if abs(r) > 2
predict lev, leverage
stem lev
hilo lev state, show(5) high

display (2*3+2)/51
.15686275
list crime pctmetro poverty single state lev if lev >.156

5.
48.
49.
50.
51.

crime
208
761
434
1062
2922

pctmetro
41.8
41.8
30.7
75
100

poverty
22.2
9.1
24.7
26.4
26.4

single
9.4
14.3
14.7
14.9
22.1

state
wv
ak
ms
la
dc

lev
.1802005
.2606759
.191012
.1652769
.536383

lvr2plot, mlabel(state)
list state crime pctmetro poverty single if state=="dc" | state=="ms"
predict d, cooksd
list crime pctmetro poverty single state d if d>4/51
predict dfit, dfits
list crime pctmetro poverty single state dfit if abs(dfit)>2*sqrt(3/51)
dfbeta
DFpctmetro:
DFpoverty:
DFsingle:

DFbeta(pctmetro)
DFbeta(poverty)
DFbeta(single)

list state DFpctmetro DFpoverty DFsingle in 1/5


scatter DFpctmetro DFpoverty DFsingle sid, ylabel(-1(.5)3) yline(.28 -.28)
scatter DFpctmetro DFpoverty DFsingle sid, ylabel(-1(.5)3) yline(.28 -.28) ///
mlabel(state state state)
list DFsingle state crime pctmetro poverty single if abs(DFsingle) > 2/sqrt(51)
avplot single, mlabel(state)
avplots
regress
regress crime pctmetro poverty single if state!="dc"
regress crime pctmetro poverty single
avplot pctwhite
regress crime pctmetro pctwhite poverty single

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

27

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

3.4.2.

Comprobando la Normalidad de los Residuos

Muchos investigadores creen que la regresion m


ultiple requiere la normalidad. Este no es el caso.
La normalidad de los residuos s
olo se requiere para la prueba de hipotesis validas, es decir, la
suposicion de normalidad asegura que el p-valores para el t-test y la prueba de F-sera valida. La
normalidad no es necesaria para obtener estimaciones no sesgadas de los coeficientes de regresion. el modelo de regresi
on se limita a exigir que los residuales (errores) que de forma identica
e independientemente distribuidos. Ademas, no hay ninguna hipotesis o requisito de que las
variables predictoras una distribuci
on normal. Si este fuera el caso de lo que no sera capaz de
utilizar las variables dummy codificada en nuestros modelos.
Despues de realizar un an
alisis de regresion, podemos utilizar la prediccion de comandos para
crear los residuos y luego usar comandos como kdensity , qnorm y pnorm para comprobar la
normalidad de los residuos.
Vamos a utilizar el elemapi2 archivo de datos que vimos anteriormente para estos analisis. Vamos
a predecir el rendimiento academico ( api00 ) de por ciento de recibir comidas gratis ( meals ), el
porcentaje de estudiantes del idioma Ingles ( ell ), y el porcentaje de maestros con credenciales
de emergencia ( emer ).
use elemapi2
regress api00 meals ell emer
Source |
SS
df
MS
---------+-----------------------------Model | 6749782.75
3 2249927.58
Residual | 1323889.25
396 3343.15467
---------+-----------------------------Total | 8073672.00
399 20234.7669

Number of obs =
F( 3,
396)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=

400
673.00
0.0000
0.8360
0.8348
57.82

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------meals | -3.159189
.1497371
-21.098
0.000
-3.453568
-2.864809
ell | -.9098732
.1846442
-4.928
0.000
-1.272878
-.5468678
emer | -1.573496
.293112
-5.368
0.000
-2.149746
-.9972456
_cons |
886.7033
6.25976
141.651
0.000
874.3967
899.0098
-----------------------------------------------------------------------------predict r, resid
kdensity r, normal
pnorm r
qnorm r
swilk r
jb r

3.4.3.

*Prueba de normalidad de Shapiro-Wilk con H0 = normalidad


*Prueba de Jarque-Bera

Comprobando Homocedasticidad de los Residuos

Uno de los principales supuestos de la regresion por mnimos cuadrados ordinarios es la homogeneidad de varianza de los residuales. Si el modelo esta bien equipada, no debera haber ning
un
patron para los residuos conspir
o contra los valores ajustados. Si la varianza de los residuos no
es constante, entonces la varianza residual se dice que es heterocedasticos. Hay y no metodos

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

28

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

graficos grafica para la detecci


on de heterocedasticidad. Un metodo com
unmente utilizado grafica es graficar los residuos contra equipada (prevista) valores. Hacemos esto mediante la emisi
on
de la rvfplot comando. A continuaci
on se utiliza el rvfplot comando con el yline (0) opcion de
poner una lnea de referencia en y = 0. Vemos que el patron de los puntos de datos es cada vez
un poco mas estrecha hacia el extremo derecho, que es una indicacion de heterocedasticidad.
rvfplot, yline (0)
estat imtest
hettest estat

*Descomposici
on de Cameron and Trivedi
*test de breuch-pagan

La primera prueba de heteroscedasticidad propuesta es por el comando imest y la segunda


propuesta por hettest es la prueba de Breusch-Pagan. Tanto la hipotesis nula de que la varianza
de los residuales es homogenea. Por lo tanto, si el p-valor es muy peque
no, habra que rechazar
la hipotesis y aceptar la hip
otesis alternativa de que la variacion no es homogenea. As que en
este caso, la evidencia est
a en contra de la hipotesis nula de que la varianza es homogenea. Estas
pruebas son muy sensibles a los supuestos del modelo, como el supuesto de normalidad. Por lo
tanto, es una pr
actica com
un de combinar los ensayos con parcelas de diagnostico para emitir
un juicio sobre la gravedad de la heterocedasticidad y decidir si es necesaria una correccion para
la heterocedasticidad. En nuestro caso, el argumento anterior no muestra una evidencia muy
fuerte. As que no vamos a entrar en detalles sobre como corregir heterocedasticidad a pesar de
que existen metodos disponibles.

3.4.4.

Comprobando Colinealidad

Cuando existe una relaci


on lineal perfecta entre las variables predictoras, las estimaciones de
un modelo de regresi
on no puede ser u
nica calculada. La colinealidad termino implica que dos
variables son casi perfectas combinaciones lineales de unos a otros. Cuando mas de dos variables
estan implicados a menudo se denomina multicolinealidad, aunque los dos terminos se usan indistintamente.
La principal preocupaci
on es que a medida que aumenta el grado de multicolinealidad, las estimaciones del modelo de regresi
on de los coeficientes se vuelven inestables y los errores estandar
para los coeficientes se pueden obtener muy exagerados. En esta seccion, exploraremos algunos
comandos de Stata que ayudan a detectar la multicolinealidad.
Podemos utilizar el comando vif despues de la regresion para comprobar si hay multicolinealidad.
vif es sinonimo de factor de inflaci
on de varianza. Como regla general, una variable cuyo VIF
valores son mayores de 10 pueden merecer una mayor investigacion. Tolerancia, definida como
1/VIF, es utilizado por muchos investigadores para comprobar el grado de colinealidad. Un
valor de tolerancia m
as bajo que 0.1 es comparable a un VIF de 10. Esto significa que la variable
puede considerarse como una combinacion lineal de otras variables independientes. Vamos a
mirar primero la regresi
on en la que hicimos a partir de la u
ltima seccion, el modelo de regresi
on
predecir api00 de comidas, codo y la emergencia y luego emitir el comando vif.
regress api00 acs_k3 grad_sch col_grad some_col
Source |
SS
df
MS
---------+-----------------------------Model | 4180144.34
4 1045036.09
Residual | 3834062.79
393 9755.88497
---------+------------------------------

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

29

Number of obs
F( 4,
393)
Prob > F
R-squared
Adj R-squared

=
=
=
=
=

398
107.12
0.0000
0.5216
0.5167

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Total |

8014207.14

397

20186.9197

Root MSE

98.772

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
---------+-------------------------------------------------------------------acs_k3 |
11.7126
3.664872
3.196
0.002
4.507392
18.91781
grad_sch |
5.634762
.4581979
12.298
0.000
4.733937
6.535588
col_grad |
2.479916
.3395548
7.303
0.000
1.812345
3.147487
some_col |
2.158271
.4438822
4.862
0.000
1.28559
3.030952
_cons |
283.7446
70.32475
4.035
0.000
145.4849
422.0044
-----------------------------------------------------------------------------vif
Variable |
VIF
1/VIF
---------+---------------------col_grad |
1.28
0.782726
grad_sch |
1.26
0.792131
some_col |
1.03
0.966696
acs_k3 |
1.02
0.976666
---------+---------------------Mean VIF |
1.15
collin acs_k3 avg_ed grad_sch col_grad some_col
Collinearity Diagnostics
SQRT
Cond
Variable
VIF
VIF
Tolerance Eigenval
Index
------------------------------------------------------------acs_k3
1.03
1.01
0.9719
2.4135
1.0000
avg_ed
43.57
6.60
0.0230
1.0917
1.4869
grad_sch
14.86
3.86
0.0673
0.9261
1.6144
col_grad
14.78
3.84
0.0677
0.5552
2.0850
some_col
4.07
2.02
0.2460
0.0135
13.3729
------------------------------------------------------------Mean VIF
15.66
Condition Number
13.3729
collin acs_k3 grad_sch col_grad some_col
Collinearity Diagnostics
SQRT
Cond
Variable
VIF
VIF
Tolerance Eigenval
Index
------------------------------------------------------------acs_k3
1.02
1.01
0.9767
1.5095
1.0000
grad_sch
1.26
1.12
0.7921
1.0407
1.2043
col_grad
1.28
1.13
0.7827
0.9203
1.2807
some_col
1.03
1.02
0.9667
0.5296
1.6883
------------------------------------------------------------Mean VIF
1.15
Condition Number
1.6883

3.4.5.

Errores de Especificaci
on

Un error de especificaci
on del modelo se puede producir cuando una o mas variables relevantes
se omiten en el modelo o una o m
as variables irrelevantes se incluyen en el modelo. Si se omiten
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

30

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

variables relevantes del modelo, la varianza com


un que comparten con las variables incluidas
pueden ser err
oneamente atribuidos a esas variables, y el termino de error se infla. Por otro
lado, si se incluyen variables irrelevantes en el modelo, la varianza com
un que comparten con
las variables se pueden incluir err
oneamente se les atribuye. errores de especificacion del modelo
puede afectar sustancialmente la estimacion de los coeficientes de regresion.
Considere el siguiente modelo. Esta regresion sugiere que a medida que aumenta el tama
no de
las clases aumenta el rendimiento academico. Antes de publicar los resultados diciendo que el
aumento de tama
no de clase se asocia con un mejor desempe
no academico, vamos a comprobar
la especificaci
on del modelo.
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2
regress api00

acs_k3

Source |
SS
df
MS
-------------+-----------------------------Model | 234353.831
1 234353.831
Residual | 7779853.31
396 19646.0942
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 1,
396)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
11.93
0.0006
0.0292
0.0268
140.16

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
17.75148
5.139688
3.45
0.001
7.646998
27.85597
_cons |
308.3372
98.73085
3.12
0.002
114.235
502.4393
-----------------------------------------------------------------------------Hay un par de metodos para detectar errores de especificacion. El linktest comando realiza una
prueba de especificaci
on de enlace del modelo para la ecuacion de modelos individuales. linktest
se basa en la idea de que si una regresion esta correctamente especificado, no se debe ser capaz
de encontrar cualquier independientes variables adicionales que son significativos, excepto por
casualidad. linktest crea dos nuevas variables, la variable de prediccion, h at , y la variable de
prediccion al cuadrado, h atsq . El modelo se vuelva a colocar utilizando estas dos variables como
predictores. h at debe ser significativo, ya que es el valor predicho. Por otra parte, h atsq no debe,
porque si nuestro modelo se ha especificado correctamente, las predicciones cuadrado no tienen
mucho poder explicativo. Es decir no podemos esperar h atsq ser un factor importante para
predecir si nuestro modelo se ha especificado correctamente. As que vamos a estar buscando en
el valor de p para h atsq.
linktest
Source |
SS
df
MS
-------------+-----------------------------Model | 277705.911
2 138852.955
Residual | 7736501.23
395 19586.0791
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
7.09
0.0009
0.0347
0.0298
139.95

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

31

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

_hat | -11.05006
8.104639
-1.36
0.174
-26.98368
4.883562
_hatsq |
.0093318
.0062724
1.49
0.138
-.0029996
.0216631
_cons |
3884.48
2617.695
1.48
0.139
-1261.877
9030.837
-----------------------------------------------------------------------------De lo anterior linktest , la prueba de h atsq no es significativa. Esto quiere decir que linktest no
ha podido rechazar la hip
otesis de que el modelo se ha especificado correctamente. Por lo tanto,
nos parece que no tenemos un error de especificacion. Pero ahora, vamos a ver otra prueba antes
de saltar a la conclusi
on.
El ovtest comando realiza otra prueba del modelo de especificacion de la regresion. Se realiza
una regresion de la prueba de error (RESET) para las variables omitidas. La idea detras de
ovtest es muy similar a linktest . Tambien crea nuevas variables sobre la base de los predictores
y reinstala el modelo utilizando las nuevas variables para ver si alguno de ellos sera significativo.
Vamos a intentar ovtest en nuestro modelo.
ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 393) =
4.13
Prob > F =
0.0067
El ovtest comando indica que hay variables omitidas. As que hemos tratado tanto en el linktest
y ovtest , y uno de ellos ( ovtest ) nos dice que tenemos un error de especificacion. Por tanto,
tenemos que reconsiderar nuestro modelo.
Vamos a intentar agregar la variable full con el modelo. Ahora, tanto el linktest y ovtest son
significativos, lo que indica que tenemos un error de especificacion.
regress api00 acs_k3 full
Source |
SS
df
MS
-------------+-----------------------------Model | 2715101.89
2 1357550.95
Residual | 5299105.24
395 13415.4563
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
101.19
0.0000
0.3388
0.3354
115.83

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 |
8.355681
4.303023
1.94
0.053
-.1040088
16.81537
full |
5.389788
.3963539
13.60
0.000
4.610561
6.169015
_cons |
32.21346
84.07525
0.38
0.702
-133.0775
197.5044
-----------------------------------------------------------------------------linktest
Source |
SS
df
MS
-------------+------------------------------

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

32

Number of obs =
F( 2,
395) =

398
108.32

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

Model | 2838564.40
2 1419282.20
Residual | 5175642.74
395
13102.893
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=

0.0000
0.3542
0.3509
114.47

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------_hat | -1.868895
.9371889
-1.99
0.047
-3.711397
-.0263936
_hatsq |
.0023436
.0007635
3.07
0.002
.0008426
.0038447
_cons |
858.8726
283.4594
3.03
0.003
301.5948
1416.15
-----------------------------------------------------------------------------ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 392) =
4.09
Prob > F =
0.0071
Vamos a intentar a
nadir una variable mas, las meals , con el modelo anterior.
regress api00

acs_k3 full meals

Source |
SS
df
MS
-------------+-----------------------------Model | 6604966.18
3 2201655.39
Residual | 1409240.96
394
3576.7537
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 3,
394)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
615.55
0.0000
0.8242
0.8228
59.806

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
-------------+---------------------------------------------------------------acs_k3 | -.7170622
2.238821
-0.32
0.749
-5.118592
3.684468
full |
1.327138
.2388739
5.56
0.000
.857511
1.796765
meals | -3.686265
.1117799
-32.98
0.000
-3.906024
-3.466505
_cons |
771.6581
48.86071
15.79
0.000
675.5978
867.7184
-----------------------------------------------------------------------------linktest
Source |
SS
df
MS
-------------+-----------------------------Model | 6612479.76
2 3306239.88
Residual | 1401727.38
395 3548.67691
-------------+-----------------------------Total | 8014207.14
397 20186.9197

Number of obs
F( 2,
395)
Prob > F
R-squared
Adj R-squared
Root MSE

=
=
=
=
=
=

398
931.68
0.0000
0.8251
0.8242
59.571

-----------------------------------------------------------------------------api00 |
Coef.
Std. Err.
t
P>|t|
[95% Conf. Interval]
Universidad Nacional del Callao
Facultad de Ciencias Econ
omicas

33

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

-------------+---------------------------------------------------------------_hat |
1.42433
.2925374
4.87
0.000
.849205
1.999455
_hatsq | -.0003172
.000218
-1.46
0.146
-.0007458
.0001114
_cons | -136.5102
95.05904
-1.44
0.152
-323.3951
50.3747
-----------------------------------------------------------------------------ovtest
Ramsey RESET test using powers of the fitted values of api00
Ho: model has no omitted variables
F(3, 391) =
2.56
Prob > F =
0.0545
El linktest es una vez m
as no significativa, mientras que el valor de p para ovtest es ligeramente
superior a 0,05. Tenga en cuenta que despues de incluir las variables full and meals , el coeficiente
para el tama
no de la clase ya no es significativa. Mientras acsk 3 tiene una relacion positiva con
api00 cuando no hay otras variables en el modelo, cuando se incluye, y por lo tanto el control
de otras variables importantes, acsk 3 ya no esta significativamente relacionado con api00 y su
relacion con api00 ya no es positivo .
linktest y ovtest herramientas disponibles en Stata para el control de errores de especificacion,
aunque linktest en realidad puede hacer mas que comprobar las variables omitidas ya que aqu se
utiliza, por ejemplo, comprobar la correccion de la funcion de especificacion de enlace. Para m
as
detalles sobre estas pruebas, por favor consulte el manual de Stata.

3.4.6.

Independencia

La declaraci
on de esta suposici
on de que los errores asociados a una observacion no estan correlacionados con los errores de cualquier otra observacion cubrir varias situaciones diferentes.
Consideremos el caso de la recogida de datos de los estudiantes de ocho escuelas primarias diferentes. Es probable que los estudiantes en cada escuela tienden a ser mas parecidas entre s que los
estudiantes de diferentes escuelas, es decir, sus errores no son independientes. Nos ocuparemos
de este tipo de situaciones en otro manual cuando se demuestra la regresion de comandos con
la opcion cl
uster.
Otra forma en que la independencia puede ser el supuesto se rompe cuando se recogen datos
sobre las mismas variables en el tiempo. Digamos que se recogen datos absentismo escolar cada
semestre durante 12 a
nos. En esta situacion, es probable que los errores de observacion entre
semestres adyacentes ser
a m
as alta correlacion de las observaciones mas separadas en el tiempo.
Esto se conoce como autocorrelaci
on. Cuando haya datos que pueden ser considerados como de
series de tiempo que debe utilizar el dwstat comando que realiza una prueba de Durbin-Watson
de coeficiente de correlaci
on.
No tenemos ninguna serie de datos en tiempo, as que vamos a utilizar el elemapi2 conjunto
de datos y pretender que snum indica el momento en que se recogieron los datos. Tambien
tendra que usar el tsset comando para que Stata saber que variable es la variable tiempo.
use http://www.ats.ucla.edu/stat/stata/webbooks/reg/elemapi2
tsset snum
time variable: snum, 58 to 6072, but with gaps

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

34

Junior Urtecho Baca


jr.urtecho@gmail.com

Manejo de Datos y Analisis Econometrico con STATA


Econometra II

regress api00 enroll


( output omitted )
dwstat
Number of gaps in sample: 311
Durbin-Watson d-statistic( 2,

400) =

.2892712

El estadstico de Durbin-Watson tiene un rango de 0 a 4 con un punto medio de 2. El valor


observado en nuestro ejemplo es muy peque
no, cercano a cero, lo cual no es sorprendente, ya
que nuestros datos no son realmente de series de tiempo. Un control visual simple sera para
trazar los residuos contra la variable tiempo.
. predict r, resid
scatter r snum

Universidad Nacional del Callao


Facultad de Ciencias Econ
omicas

35

Junior Urtecho Baca


jr.urtecho@gmail.com

Bibliografa
[1] Baum, C. (2006). An Introduction to Modern Econometrics Using Stata . Stata Press
[2] Cameron, A., and Trivedi, P., (2009). Microeconometrics Using Stata . Stata Press.
[3] Hamilton, L., (2006). Statistics with Stata . Thomson.
[4] Rabe-Hesketh, S. and Everitt, B. (2000). A Handbook of Statistical Analyses using Stata .
Second Edition. Chapman and Hall/CRC.
[5] Torres/Reyna, O. (2009). Getting Started in Data Analysis using Stata . Princeton University.
[6] Regresion whit Stata. UCLA: Academic Technology Services, Statistical Consulting Group
. from http://www.ats.ucla.edu/stat/stata/webbooks/(accessed May 02, 2011).

36

Vous aimerez peut-être aussi