Vous êtes sur la page 1sur 151

Anlisis de regresin para

socilogos
con aplicaciones en R
Registro de propiedad intelectual N 192374, CHILE.
Christian Castro Navarro
Socilogo U. de Chile
Santiago, 11 de Junio del 2010
christiancastro@vtr.net
Prefacio.
El anlisis de regresin es una herramienta estadstica tradicionalmente utilizada por los economistas. Sin
embargo, la utilidad de esta tcnica trasciende disciplinas y resulta clave para el socilogo-investigador al
ayudarlo a predecir dentro de cierto rango de probabilidad la ocurrencia de alguna situacin social o bien,
determinar la influencia que mltiples variables ejercen sobre otra. La utilidad del anlisis de regresin en
sociologa es amplia, siendo aplicable al estudio de los mercados, del comportamiento desviado, la ciencia
poltica, la demografa, la epidemiologa y la pobreza, entre otros (gran parte de los ejemplos se han hecho sobre
estos temas).
Siendo esto as, este texto intenta ser una referencia para estudiantes y profesionales de las ciencias
sociales que en sus investigaciones necesiten aplicar un anlisis de regresin a la multiplicidad de problemas que
el complejo mundo social nos ofrece.
El presente trabajo se divide en cuatro secciones. La primera aborda el anlisis de regresin simple,
explicndolo paso a paso junto con los diferentes test asociados a l. La segunda seccin generaliza este anlisis
al modelo de regresin mltiple. La tercera seccin est dedicada al estudio de los problemas que con ms
frecuencia se presentan en el anlisis de regresin (autocorrelacin, heterocedasticidad y multicolinealidad) y la
final, desarrolla 3 aplicaciones (formas funcionales, variables dummy y modelos de regresin con respuesta
cualitativa).
El nico requisito para comprender a cabalidad este texto es el conocimiento de las matemticas y
estadstica elemental entregado en la enseanza media (herramientas de clculo slo han sido utilizadas al
derivar las ecuaciones normales y al describir la distribucin acumulativa normal como la integral de la funcin
gaussiana).
Hemos utilizado para el tratamiento computacional de datos el paquete estadstico R (de libre
distribucin en la pgina http://www.r-project.org). Se ha elegido porque es tanto un paquete estadstico como
un lenguaje de programacin, con lo que su versatilidad es amplia, su capacidad para generar grficas de
calidad es enorme y es gratuito. En negrita de color azul se han sealado todas las instrucciones con R as como
tambin los ejemplos.
Christian Castro Navarro
Santiago, 11 de Junio del 2010
A G.N.S., G.C.T. y G.C.N.
ndice
NDICE Pp
1 EL ANLISIS DE REGRESIN SIMPLE (ARS) 1
1.1 INTRODUCCIN 1
1.1.1 Las presunciones del modelo de regresin. 1
1.2 PRIMERAS CONSIDERACIONES 2
Ejemplo N1: Esperanza de vida y su relacin con el PIB PPA para el ao 2005 en 174 pases. 2
1.2.1 Primera interpretacin de resultados. 3
1.2.2 Linealizacin de variables. 4
1.3 ESTIMACIN DE LOS PARMETROS POR EL MTODO DE MNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES 7
Ejemplo N2: Robos por cada 1000 habitantes y % de poblacin viviendo bajo la pobreza en condados
con una poblacin superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. 7
1.3.1 Graficando los residuos estandarizados. 9
1.3.2 La varianza residual o cuadrado medio del error (CME): S
2
9
1.3.3 Algunas propiedades de la regresin obtenida por MCO. 10
1.4 TEST DE SIGNIFICACIN PARA LOS PARMETROS ESTIMADOS 10
1.4.1 Varianza de los estimadores por MCO de los parmetros estimados

b
0
y de

b
1
10
Ejemplo N3: Suicidio y desempleo en Japn (1953-2004). 12
1.4.2 Test de significacin para los parmetros estimados. 13
1.4.3 Demostracin de que los parmetros estimados por MCO son estimadores no sesgados de
los parmetros reales. 14
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE 14
1.5.1 Intervalos de confianza para los parmetros estimados. 14
Ejemplo N4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporcin de nios
viviendo en familias lideradas por un solo padre (2004). 15
1.5.2 Estimacin del intervalo de confianza para los valores promedios de la variable respuesta. 16
1.5.3 Estimacin del intervalo de prediccin de los valores particulares de la variable respuesta. 18
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIN 19
1.6.1 El coeficiente de determinacin:
R
2
19
Ejemplo N5: Nivel de pobreza y aos de escolaridad para las comunas del Gran Santiago (2006). 20
1.6.2 El coeficiente de correlacin r. 21
1.6.3 Uso del anlisis de varianza. 21
1.6.4 La estadstica F. 22
1.7 PROPIEDADES DE LOS PARMETROS ESTIMADOS BAJO EL MTODO DE MNIMOS CUADRADOS
ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia. 24
1.7.1 Sesgo. 24
1.7.2 Eficiencia. 24
1.7.3 Consistencia. 25
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE 25
2 EL ANLISIS DE REGRESIN MLTIPLE (ARM) 27
2.1 INTRODUCCIN 27
2.1.1 Obtencin de los estimadores por MCO de los parmetros con dos variables
independientes o explicativas. 28
2.1.2 Desarrollo de tcnicas de regresin para el ARM utilizando el lgebra de matrices. 29
2.1.3 Ejemplo y trabajo con matrices en R. 30
Ejemplo N6: Regresin lineal de los aos de escolaridad sobre el % de pobreza, el resultado del SIMCE
en matemticas para los segundos medios y el % de desocupacin para las comunas de
Santiago el ao 2006. 30
2.2 INTERVALOS DE CONFIANZA 31
2.2.1 La varianza residual: S
2
31
2.2.2 La varianza de los parmetros estimados. 32
2.2.3 Los valores t de los parmetros estimados. 32
2.2.4 Construccin de los intervalos de confianza para los parmetros estimados. 33
2.3 EL COEFICIENTE DE DETERMINACIN MLTIPLE 33
2.3.1
R
2
ajustado o
R
2
34
2.4 PREDICCIN 35
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de prediccin
toman los valores especficos [1, X
1i
, X
2i
, , X
ki
] 35
2.4.1.1 Clculo de los intervalos de confianza usando el lgebra de matrices con R. 35
Ejemplo N7: El ndice de desarrollo humano. 35
2.4.2 Intervalo de prediccin para la respuesta particular cuando las k variables de prediccin
toman los valores especficos [1, X
1i
, X
2i
, , X
ki
] 36
2.4.2.1 Clculo de los intervalos de prediccin usando el lgebra de matrices con R. 37
i
2.5 EL TEST DE SIGNIFICACIN GENERAL DE LA REGRESIN: LA ESTADSTICA F 38
2.5.1 La estadstica F. 38
Ejemplo N8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU. 38
2.5.2 Tabla ANOVA para el modelo lineal general. 40
2.5.3 Clculo de la tabla ANOVA utilizando el lgebra de matrices en R. 40
2.6 LOS COEFICIENTES DE CORRELACIN PARCIAL (CCP) 41
2.7 ANLISIS DE LOS RESIDUOS 42
3.1 AUTOCORRELACIN 44

3.1.1 QU ES LA AUTOCORRELACIN? 44
3.1.1.1 Autocorrelacin en datos de seccin transversal. 45
3.1.1.2 Autocorrelacin en series de tiempo. 45
3.1.1.3 Algunos patrones de autocorrelacin. 45
3.1.2 POR QU OCURRE LA AUTOCORRELACIN? 46
3.1.3 CMO SE IDENTIFICA UNA AUTOCORRELACIN? 47
3.1.3.1 La estadstica d de Durbin-Watson. 47
3.1.3.1.1 Los pasos para aplicar la prueba d. 49
3.1.3.2 Mtodo informal (grfico) para la autocorrelacin de primer orden negativa. 49
3.1.3.3 Mtodo informal (grfico) para la autocorrelacin de primer orden positiva. 51
Ejemplo N9: Suicidio y desempleo en Japn (1953-2004). 52
3.1.4 SOLUCIONANDO LA AUTOCORRELACIN 54
3.1.4.1 Correccin de la autocorrelacin de primer orden positiva. 55
3.2 HETEROCEDASTICIDAD 57
3.2.1 QU ES LA HETEROCEDASTICIDAD? 57
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad. 57
3.2.2 CMO SE IDENTIFICA LA HETEROCEDASTICIDAD? 58
3.2.2.1 Mtodo informal (grfico). 58
3.2.2.2 Mtodos formales. 59
3.2.2.2.1 El test de Park. 59
Ejemplo N10 Relacin entre la tasa de robos y de robo de vehculos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007. 59
3.2.2.2.2 El test de Goldfeld-Quandt. 60
Ejemplo N11: Tasa de crmenes violentos versus crmenes contra la propiedad para los departamentos
de polica de California durante el ao 2007. 61
3.2.2.2.3 El test de Koenker-Bassett. 63
Ejemplo N12: Obesos versus actividad fsica. 63
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD 64
Ejemplo N13: Solucin de la heterocedasticidad del ejemplo 10. 65
3.3 MULTICOLINEALIDAD 66
3.3.1 QU ES LA MULTICOLINEALIDAD? 66
3.3.1.1 Por qu se produce? 67
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD. 67
3.3.3 CMO SE IDENTIFICA LA MULTICOLINEALIDAD? 68
3.3.3.1 El factor de inflacin de la varianza. 68
Ejemplo N14: ndice de marginacin, poblacin indgena y % de analfabetismo en los municipios del
Estado de Chiapas, Mxico. 69
Ejemplo N15: Funcin Cobb-Douglas de la economa chilena (1986-2000). 71
Ejemplo N16: Crmenes contra la propiedad y crmenes violentos en el Estado de Nevada, EE.UU. (1960-1980). 72
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD 74
4.1 FORMAS FUNCIONALES 76
4.1.1 INTRODUCCIN 76
4.1.2 FORMA DOBLE-LOG 76
4.1.2.1 La funcin Cobb-Douglas. 78
4.1.2.2 La definicin de la elasticidad. 78
Ejemplo N17: Funcin Cobb-Douglas de la economa chilena (1986-2000). 79
4.1.3 FORMA SEMI-LOG 80
Ejemplo N18: La explosin demogrfica en EE.UU. entre 1790 y 1960. 82
4.1.4 FORMA POLINOMIAL 83
Ejemplo N19: Diagnosticados con VIH en Norteamrica entre 1987 y el 2000. 85
Ejemplo N20: Evolucin de los detenidos por drogas por la DEA en los EE.UU (1994-2004). 86
4.1.5 FORMA RECPROCA 87
Ejemplo N21: Tasa de mortalidad infantil y el PIB per cpita ajustado a paridad de poder adquisitivo
para 42 pases. 89
ii
ndice
4.2 VARIABLES DUMM 91
4.2.1 INTRODUCCIN 91
4.2.2 MODELOS SLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA). 91
4.2.2.1 Modelos con solo una variable predictora cualitativa. 91
Ejemplo N22: % de poblacin latina y su ubicacin geogrfica en el Estado de Texas, EE.UU. 91
4.2.2.2 Modelos con dos variables predictoras cualitativas. 93
Ejemplo N23: % de pobreza, ubicacin geogrfica y densidad de poblacin latina en el Estado de Texas. 93
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA) 94
Ejemplo N24: % de pobreza, ubicacin geogrfica y % de poblacin latina en el Estado de Texas. 94
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL 95
Ejemplo N25: Los efectos diferenciados para frica y el resto del mundo de la correlacin entre
la esperanza de vida y el PIB. 96
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES DUMMY 98

4.3 MODELOS DE ELECCIN BINARIOS 99
4.3.1 INTRODUCCIN 99
4.3.2 EL MODELO LOGIT 99
Ejemplo N26: Pobreza y religin en Irlanda del Norte. 100
4.3.2.1 Interpretacin de los coeficientes. 101
4.3.2.2 Intervalos de confianza para los coeficientes estimados. 101
4.3.2.3 Significacin estadstica de los coeficientes. 101
4.3.2.4 Contraste de hiptesis para los coeficientes. 102
4.3.2.4.1 La funcin de verosimilitud. 102
4.3.2.4.2 Estadstico de la Razn de Verosimilitud o chi
2
. 102
4.3.2.4.3 Bondad del ajuste. 103
4.3.2.5 Caractersticas del modelo Logit. 103
4.3.2.6 Algunas observaciones para el modelo Logit. 103
4.3.3 EL MODELO PROBIT 104
Ejemplo 27: Satisfaccin con la vida y PIB PPA per cpita para 30 pases. 104
4.3.3.1 Interpretacin de los coeficientes. 105
4.3.3.2 Intervalos de confianza para los parmetros estimados. 106
4.3.3.3 Contraste de hiptesis del modelo. 106
4.3.4 Modelos logit y probit. Cul es preferible? 107
! BIBLIOGRAF"A 108
# BASE DE DATOS i
iii
Anlisis de regresin simple
EL ANLISIS DE REGRESIN SIMPLE (ARS)
1.1 INTRODUCCIN
El Anlisis de Regresin Simple es el estudio de la influencia cuantitativa que sobre una variable
dependiente (regresando o respuesta) denominada Y
1
, ejerce otra independiente X (regresor o estmulo).
De lo que se trata es extraer de grandes cantidades de datos las caractersticas esenciales de una
relacin que no es evidente, ajustando a ellos una ecuacin emprica que sea razonablemente precisa para
entre otras cosas, poder predecir el comportamiento de Y segn vare el de X.
Suponemos esta relacin lineal (asume la forma de la ecuacin clsica de una lnea recta) a la cual le
adjuntamos un error asociado.
Como no se espera que estas variables hayan sido observadas bajo condiciones completamente
controladas, para el anlisis de regresin existen una multiplicidad de tests que prueban la confiabilidad de los
resultados obtenidos. En esta seccin y en la siguiente, dedicada al Anlisis de Regresin Mltiple, los
estudiaremos uno a uno.
La ecuacin de regresin simple se define de la siguiente manera: Y
i
= b
0
+b
1
X
i
+j
i
(1)
GRFICA N1
sta es la ecuacin real a la cual sin embargo slo nos
podemos aproximar aplicando una metodologa. sta son los
Mnimos Cuadrados Ordinarios (MCO), con los cuales podemos
hacer una estimacin de los parmetros o coeficientes reales
b
0
y b
1
. Estos parmetros estimados se denominan

b
0
y

b
1
.
La ecuacin de regresin estimada resulta entonces:

Y
i
=

b
0
+

b
1
X
i
+e
i
(2)
donde e
i
se denomina residuo. Ms adelante lo estudiaremos
en profundidad.
El mtodo de MCO es una tcnica que nos permite
encontrar las estimaciones de los parmetros en la ecuacin de
regresin, minimizando la suma de los cuadrados
2
de las
diferencias entre los valores observados de la variable respuesta
Y
i
y aquellos proporcionados por la ecuacin de prediccin

Y
i
, esto es, minimizando la sumatoria de los cuadrados de los
residuos. Lo que se busca es ajustar la mejor lnea recta a la
muestra de observaciones X e Y. Involucra minimizar la suma
vertical
3
de los cuadrados de las desviaciones de los puntos hacia la lnea de regresin
4
.
1.1.1 Las presunciones del modelo de regresin.
El modelo de regresin lineal clsico (MRLC) necesita de 10 presunciones bsicas:
Supuesto 1: El modelo de regresin es lineal en los parmetros (los b
i
de la ecuacin de regresin), esto
es, ningn parmetro en el modelo aparece como un exponente ni es multiplicado o dividido por cualquier otro
parmetro.
Supuesto 2: Se asume que X no es aleatorio.
Supuesto 3: El error j
i
correspondiente a cualquier valor X
i
, posee media condicional cero. De esta
manera, Y
i
= b
0
+b
1
X
i
nos da el valor promedio de Y.
Supuesto 4: Existe homocedasticidad, esto es, dado un valor de X
i
, la varianza condicional de j
i
es
1 El estudio de la regresin sobre una variable dependiente cualitativa lo haremos en la seccin 4, captulo 3: 'Modelos de eleccin binarios'.
2 Consideramos los cuadrados en el mtodo de MCO, pues de lo contrario las desviaciones de igual tamao pero opuestas en signo se anularan.
Adems, con esto a las grandes desviaciones les entregamos un mayor peso que a las pequeas.
3 Se consideran las desviaciones verticales porque intentamos explicar o predecir los movimientos en la variable dependiente Y, los cuales se
miden a lo largo del eje vertical.
4 Con la instruccin segments graficamos en R las lneas de los puntos a la recta de regresin estimada:
>a1<-lm(a$V2~ a$V1)
>segments(a$V1, fitted(a1), a$V1, a$V2, col="red")
1
la misma para todas las observaciones. Las poblaciones Y
i
correspondientes a los diversos valores X
i
tienen
la misma varianza: Var (j
i
)= c
2
con lo que los coeficientes de la regresin son eficientes
5
y los test de hiptesis
estadsticas sobre ellos no sesgados
6
.
Los supuestos 3 y 4 nos indican que el error j
i
se distribuye normalmente: j-N( 0;c
2
) . Esto implica
que tambin Y
i
y los parmetros de la regresin se distribuyen normalmente, lo que nos permite hacer pruebas
de significacin estadstica.
Supuesto 5: No existe autocorrelacin entre los errores. Esto es, dado dos valores X cualquiera X
i
y X
j
, la covarianza
7
entre j
i
y j
j
es cero: E( j
i
j
j
)= 0 i j
Supuesto 6: j
i
y X
i
no estn correlacionados. As suponemos que cada Y se compone de un valor
real y otro aleatorio no observable.
Supuesto 7: El nmero de observaciones n debe ser mayor que el nmero de parmetros a ser estimados.
Alternativamente, el nmero de observaciones n debe ser mayor que el nmero de variables independientes.
Supuesto 8: Debe existir una suficiente variabilidad en los valores tomados por los regresores.
Supuesto 9: El modelo de regresin est correctamente especificado, esto es, posee una forma funcional
correcta. As, cualquier variacin en Y que no pueda explicarse por medio de la ecuacin de regresin es
exclusiva responsabilidad de un error aleatorio.
Supuesto 10: No existe ninguna relacin lineal casi perfecta entre ningn regresor con otro. Caso contrario
estamos en presencia de multicolinealidad, que implica una casi perfecta relacin lineal entre las variables
independientes. Esto es un problema del anlisis de regresin con varias variables independientes que veremos
en detalle en la seccin 3, captulo 4: 'Problemas en el anlisis de regresin: Multicolinealidad'.
1.2 PRIMERAS CONSIDERACIONES
Supongamos dos conjuntos: Y
1,
Y
2
, ..., Y
n
y X
1,
X
2
, ... , X
n
que representan n mediciones de una
variable respuesta ( Y
i
) que se han observado bajo un grupo de n mediciones de una variable de prediccin
( X
i
) . El ARS se inicia con la conjetura de que existe linealidad en la relacin entre Y
i
y X
i
, por lo que lo
primero que haremos en el ARS, ya que nos es posible
8
, ser graficar las Y
i
versus las X
i
para verificar este
supuesto inicial y fundamental
9
.
Ejemplo N1: Esperanza de vida y su relacin con el PIB PPA para el ao 2005 en 174 pases.
Existe una relacin entre el Producto Interno Bruto (PIB) per cpita de un pas y la esperanza de vida para
el mismo en periodos de tiempo prximos, pues a mayor PIB per cpita, y suponiendo una distribucin
razonablemente justa del ingreso, tenemos razones para creer que existe una mejor calidad y cobertura de la
atencin mdica, que las condiciones de salubridad son mayores y que las necesidades de alimentacin estn
bien cubiertas para una amplia mayora de la poblacin.
La base de datos N1 nos entrega los valores de la esperanza de vida en aos al momento de nacer
( Y
i
) y el PIB (corregido a paridad de poder adquisitivo) per cpita en US$ ( X
i
) al 2005 para 174 pases.
Leamos los datos en R (que hemos almacenado bajo un editor de textos con el nombre a.txt en C:) y
grafiquemos la esperanza de vida como variable dependiente y el PIB PPA per cpita como variable
independiente:
Los parmetros a$V1 y a$V2 representan las variables de las columnas Y y X respectivamente, col lo
usamos para asignar a los puntos color, xlab e ylab los utilizamos para asignar nombres a las variables del grfico
y main lo utilizamos para el ttulo del mismo.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cpita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>jpeg(file='a.jpeg', width=500, height=500)
5 Sus varianzas son mnimas en torno al valor verdadero b
i
.
6 El promedio de los

b
i
nos da el valor de b
i
.
7 La covarianza refleja la relacin lineal que existe entre dos variables y se define como: Cov( XY)=

x
i
y
i
n1
=

(X
i
X) (Y
i
Y)
n1
8 Si bien se puede en el anlisis de regresin mltiple tener una representacin grfica de dos variables independientes en un espacio
tridimensional, esto ya resulta imposible para tres o ms.
9 Es importante que el lector est consciente de que no es posible establecer una relacin causa-efecto entre las Y y las X.
2
Anlisis de regresin simple
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cpita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>dev.off()
10
GRFICA N2

GRFICA N3
Observemos que tenemos dos datos aberrantes:
Guinea Ecuatorial y Luxemburgo
Excluymoslos, grafiquemos nuevamente, tracemos la
lnea de regresin asociada a las variables y apliquemos nuestro
primer anlisis de regresin a estos datos (con la instruccin lwd
asignamos el grosor a una lnea):
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<-lm(a$V1~ a$V2)
>summary(a1)
1.2.1 Primera interpretacin de resultados.
1. Los valores que nos entrega R como coeficientes
estimados (Coefficients Estimate) nos dan la intercepcin de la
recta de regresin con el eje Y (o lo que es lo mismo, cuando X=
0) que R denomina (Intercept) y el valor de la pendiente de la
recta, denominado por R en este caso a$V2.
En nuestro ejemplo, el coeficiente estimado de
intercepcin con el eje Y es 60,15 y el coeficiente estimado de
la pendiente de la recta es 0,0007062. Este ltimo valor es clave, pues nos indica la razn de cambio en la
variable dependiente por cada cambio en el valor de una unidad de la independiente. As por cada cambio en
US$ 1 del PIB PPA per cpita, los pases del mundo aumentan 0,0007062 aos su espectativa de vida al nacer
(0,2578 dias o 6 horas). Para verlo de manera mas clara, por cada aumento de US$ 10000, la esperanza de vida
aumenta 7,062 aos.
60,15 y 0,0007062 son los parmetros estimados

b
0
y

b
1
respectivamente.
2. Los valores t (Coefficients t value) son importantes porque nos permiten probar la significacin
estadstica de los coeficientes estimados. Este valor debe compararse con el valor lmite de la estadstica t
asociada a los grados de libertad
11
y el nivel de significacin elegido.
10 De ahora en adelante omitiremos las ltimas 3 lneas, pues slo nos sirven para guardar nuestros grficos en C:.
11 n-k donde n es el nmero de casos y k el nmero de parmetros a estimar.
3
FUENTES:
PIB PPA per cpita 2005:
http://www.imf.org/external/data.htm
Espectativa de vida al nacer 2005:
http://hdrstats.undp.org/es/indicators/2.html
BASE DE DATOS N1
PAS
Albania 76,2 5323,118
Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390



Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
Y
i
X
i
Para nuestro ejemplo, a un 95% de significacin y
con 172 grados de libertad (Hacemos un test de dos
colas, con lo que 1o/2 = 1 0,05/2 = 0,975)
calculando con R obtenemos:
>qt(0.975,172)
[1] 1.973852
Vemos que ambos valores de t (69,51 y 11,9),
superan este valor, siendo por tanto ambos parmetros
estimados significativos al 95%
3. El valor R
2
(Multiple R-squared) mide el grado
de asociacin lineal entre variables. Si todos los puntos de
yacieran sobre la lnea de regresin estimada este valor
valdra 1. Para nuestro ejemplo: R
2
= 0,4546
De ahora en adelante asociaremos los tres
primeros resultados de la siguiente manera:

Y= 60,15+0,0007062X
R
2
= 0,4546
( 69,51) ( 11,9)
4. La estadstica F es un mtodo para probar la hiptesis nula : H
0
: b
1
= 0 , esto es, que no existe una
relacin lineal entre X e Y, contra la alternativa H
1
: b
1
0 . Un valor pequeo de F implicar un ajuste pobre y
sugerir la ausencia de una asociacin lineal entre X e Y. Un valor alto de F implicar que una porcin
considerable de la variacin en las observaciones es atribuble a un efecto lineal de X sobre Y. De todas formas,
debe compararse nuestro valor F con el valor lmite tabulado al nivel de significacin elegido y los grados de
libertad determinados por el modelo, en este caso 1 y n-2 (mas adelante explicaremos el porqu estos valores).
En nuestro ejemplo: F-statistic: 141,7. Calculemos F con R:
>qf(0.95,1,172)
[1] 3.896092 3,896 141,7 con lo que rechazamos la hiptesis nula.
5. Los valores Pr(>|t|) nos indican el nivel de significacin que posee cada parmetro estimado. Por
ejemplo para el coeficiente 0,0007062 su Pr(>|t|) asociado es <2e-16, lo que significa que este parmetro es
significativo hasta un (1-2e-16)100%. Prcticamente un 100%.
Observemos que el modelo a pesar de poseer coeficientes estimados extremadamente significativos
estadsticamente, posee un R
2
demasiado bajo debido a que los puntos no presentan un claro patrn lineal. A
continuacin vamos a solucionar este problema.
1.2.2 Linealizacin de variables.
Podemos solucionar el problema de la no linealidad de los datos de este ejemplo, transformndolos
segn alguna forma funcional del tipo recproco Y= b
0
+(
b
1
X
)+j o bien del tipo semi-log: Y= b
0
+b
1
ln X+j ,
pues el patrn de los puntos as nos lo sugiere.
En el primer captulo de la seccin tercera: 'Formas funcionales' trataremos con detalle estas
transformaciones. Por el momento, slo realicemos regresiones lineales segn las dos transformaciones expuestas
e interpretmoslas. Decidiremos cul de las dos resulta la mejor forma funcional.
a) Y= b
0
+(
b
1
X
)+j Forma funcional recproca.
Grafiquemos los puntos de la tabla N1 y la recta de regresin a ellos asociada:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='1/PIB PPA per cpita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre 1/PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
4
SALIDA N1
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-22.904 -3.692 1.841 5.999 12.295
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.015e+01 8.653e-01 69.51 <2e-16 ***
a$V2 7.062e-04 5.933e-05 11.90 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 8.072 on 170 degrees of freedom
Multiple R-squared: 0.4546, Adjusted R-squared: 0.4514
F-statistic: 141.7 on 1 and 170 DF, p-value: < 2.2e-16
Anlisis de regresin simple
GRFICA N4
Observemos que
ahora las variables
lucen mucho ms
linealizadas, aunque a
medida que aumenta
la variable
independiente mayor
es la dispersin de la
dependiente. ste es el
fenmeno de la
heterocedasticidad del
cual ya hemos
hablado.
Apliquemos un
anlisis de regresin:
>a1<-lm(a$V1~ a$V2)
>summary(a1)
Nuestra ecuacin de regresin resulta entonces:

Y= 74,7423790Z
i
R
2
= 0,5703
( 101,89) (15,02)
Donde Z
i
=
1
X
i
El valor R
2
est mas cerca de 1 (0,5703), por lo
que conclumos que la forma funcional recproca
propone una mejor linealizacin de las variables que el
caso original, pero contina siendo regular.
Grafiquemos nuestras variables originales
(excluyendo los dos datos aberrantes) y la curva que se
obtiene de la expresin:

Y= 74,7423790
1
X
i
GRFICA N5


>a <- read.table('a.txt')
>x <- seq( 0 ,50000,length = 100)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cpita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(x, 74.74 -23790* 1/x, type='l', col= 'red', lwd=3)

La curva obtenida nos da informacin precisa del
comportamiento de Y
i
a medida que varan las X
i
. Existe
una lnea asinttica representada por la recta Y= 74,74 (

b
0
)
sobre la cual el valor de la esperanza de vida no es superado.
5
TABLA N1
PAS
Albania 76,2 0,00018786
Algeria 71,7 0,00013936
Angola 41,7 0,00035350
Antigua y Barbuda 73,9 0,00008617
Argentina 74,8 0,00007603



Venezuela 73,2 0,00017237
Vietnam 73,7 0,00035943
Yemen 61,5 0,00134196
Zambia 40,5 0,00109727
Zimbabwe 40,9 0,00041448
Y
i
1/ X
i
SALIDA N2
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-29.249 -2.076 1.453 4.588 18.680
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.474e+01 7.336e-01 101.89 <2e-16 ***
a$V2 -2.379e+04 1.584e+03 -15.02 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 7.164 on 170 degrees of freedom
Multiple R-squared: 0.5703, Adjusted R-squared: 0.5678
F-statistic: 225.6 on 1 and 170 DF, p-value: < 2.2e-16
b) Y= b
0
+b
1
ln X+j Forma funcional semi-log.
Grafiquemos los puntos de la tabla N2 y la recta de regresin a ella
asociada:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Ln PIB PPA per cpita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el Ln PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
Y apliquemos un anlisis de regresin:
>a1<-lm(a$V1~ a$V2)
>summary(a1)
GRFICA N6


GRFICA N7
Nuestra ecuacin de regresin resulta entonces:

Y= 0,2074+7,7435 Z
i
R
2
= 0,644 Donde
Z
i
= ln X
i
( 0,054) (17,535)
Grafiquemos nuestras variables originales (excluyendo
los dos datos aberrantes) y la curva que se obtiene de la
expresin:

Y= 0,2074+7,7435 lnX
i
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cpita', ylab='Esperanza de vida',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el PIB PPA per cpita", "y la esperanza de
vida",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(x, 0.2074+7.7435*log(x), type='l', col= 'red', lwd=3)
El valor R
2
est ms cerca que el ejemplo anterior a 1
(0,644), por lo que conclumos que la forma funcional semi-log
es una mejor linealizacin del modelo original que la recproca.
6
SALIDA N3
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-25.5378 -2.2021 0.8045 4.0142 12.0787
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2074 3.8633 0.054 0.957
a$V2 7.7435 0.4416 17.535 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 6.522 on 170 degrees of freedom
Multiple R-squared: 0.644, Adjusted R-squared: 0.6419
F-statistic: 307.5 on 1 and 170 DF, p-value: < 2.2e-16
TABLA N2
PAS
Albania 76,2 8,580
Algeria 71,7 8,878
Angola 41,7 7,948
Antigua y Barbuda 73,9 9,359
Argentina 74,8 9,484



Venezuela 73,2 8,666
Vietnam 73,7 7,931
Yemen 61,5 6,614
Zambia 40,5 6,815
Zimbabwe 40,9 7,788
Y
i
lnX
i
Anlisis de regresin simple
1.3 ESTIMACIN DE LOS PARMETROS POR EL MTODO DE MNIMOS CUADRADOS ORDINARIOS (MCO)
PARA EL MODELO LINEAL SIMPLE: LAS ECUACIONES NORMALES
Consideremos un modelo de la forma Y
i
= b
0
+b
1
X
i
+j
i
donde i= 1,2,... , n y b
0
y b
1
son los
parmetros reales pero desconocidos.
Y
i
es una variable aleatoria que es la suma de dos componentes, el trmino no aleatorio b
0
+b
1
X
i
y
la componente aleatoria j
i
.
La sumatoria del cuadrado de la i-sima desviacin o error j
i
= Y
i
(b
0
+b
1
X
i
) es:

j
i
2
=

( Y
i
b
0
b
1
X
i
)
2
(3)
Los estimadores por MCO de b
0
y b
1
se obtienen derivando parcialmente la ecuacin anterior
respecto a b
0
y b
1
e igualando a cero cada una.
Primera ecuacin normal:

j
i
2


b
0
=

( Y
i


b
0


b
1
X
i
)
2


b
0
= 0 2( Y
i


b
0


b
1
X
i
)= 0 Y
i
= n

b
0
+

b
1
X
i
(4)
Segunda ecuacin normal:

j
i
2


b
1
=

( Y
i


b
0


b
1
X
i
)
2


b
1
= 0 2X
i
(Y
i


b
0


b
1
X
i
)= 0

X
i
Y
i
=

b
0

X
i
+

b
1

X
i
2
(5)
Sustituyendo una ecuacin normal dentro de la otra obtenemos el valor de los parmetros estimados.
Despejemos

b
0
de la primera ecuacin normal:
Y
i
= n

b
0
+

b
1
X
i
-

b
0
=

Y
i
n


b
1

X
i
n
Esta expresin tambin puede escribir:

b
0
=

Y

b
1

X (6)
Sustituyendo el valor de

b
0
en la segunda ecuacin normal obtenemos:

X
i
Y
i
=

b
0

X
i
+

b
1

X
i
2
X
i
Y
i
= |

Y
i
n


b
1

X
i
n
X
i
+

b
1
X
i
2

X
i
Y
i
=
Y
i
X
i
n


b
1
(X
i
)
2
n
+

b
1

X
i
2
-

b
1
|

X
i
2

(X
i
)
2
n
=

X
i
Y
i

Y
i
X
i
n
y as:

b
1
=
X
i
Y
i

Y
i

X
i
n
X
i
2

X
i
)
2
n
(7)
Ejemplo N2: Robos por cada 1000 habitantes y % de poblacin viviendo bajo la pobreza en
condados con una poblacin superior a 50.000 personas en el Estado de Illinois, EE.UU. en el 2007. (excluyendo
los 6 condados ms atpicos) (23 casos).
La Teora de la Economa Alternativa Informal e ilegal (Cooper: 2000), afirma que los trabajos informales
alternativos e ilegales surgen en la medida en que la economa formal no es capaz de otorgar los puestos
laborales formales necesarios para un nmero importante de personas. Es as que la economa informal
alternativa e ilegal es una forma de obtener ingresos que permiten una subsistencia inalcanzable por otros
medios, esto al menos, en el caso de los ladrones comunes.
La base de datos N2 nos entrega informacin del nmero de robos cada 1000 habitantes ( Y
i
) y el %
de poblacin pobre ( X
i
) en condados con una poblacin superior a 50.000 personas en el Estado de Illinois,
EE.UU. en el 2007. (excluyendo los 6 condados ms atpicos)
Para orientarnos, grafiquemos los puntos, la recta de regresin a ellos asociada y corramos una regresin
lineal de la tasa de delitos sobre el % de poblacin pobre.
7
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='% de poblacin pobre', ylab='Tasa de robos',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre el % de poblacin pobre", "y la tasa de
robos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<-lm(a$V1~ a$V2)
>summary(a1)
GRFICA N8
Calculemos los coeficientes con nuestras frmulas:

b
1
=
X
i
Y
i

Y
i

X
i
n
X
i
2

X
i
)
2
n

b
1
=
245,555
19,135 237,79
23
2763,834
(237,79)
2
23

b
1
=
245,555197,831
2763,832458,438

b
1
=
47,724
305,392

b
1
= 0,156

b
0
= 0,8320,156 10,339

b
0
= 0,781

b
0
=

Y

b
1

X
Y vemos que coinciden con los datos
entregados por R.
8
SALIDA N4
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-0.7010 -0.3391 -0.1666 0.3231 1.0298
Coefficients:
Estimate Std. Error t value Pr(>|t|)
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.5321 on 21 degrees of freedom
Multiple R-squared: 0.5564, Adjusted R-squared: 0.5353
F-statistic: 26.34 on 1 and 21 DF, p-value: 4.391e-05
(Intercept) -0.78355 0.33377 -2.348 0.0288 *
a$V2 0.15626 0.03045 5.132 4.39e-05 ***
BASE DE DATOS N2
CONDADO
Adams County 0,285 11,324
Boone County 0,150 9,790
DeKalb County 0,428 10,454
DuPage County 0,277 4,725
Kane County 0,538 7,782



Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624
Y
i
X
i
FUENTES:
Poblaci n viviendo bajo el nivel de la pobreza al 2007 en el Estado de Illinois:
http://www.ers.usda.gov/Data/PovertyRates/Povlistnum.asp?TheState=IL%2CIllinois
Tasa de robos por cada 100.000 en el Estado de Illinois al 2007:
http://www.isp.state.il.us/crime/cii2007.cfm
Estimaci n de la poblaci n de los condados de Illinois al 1 de Julio del 2007:
http://www.census.gov/popest/counties/CO-EST2008-01.html
TABLA N3
CONDADO
Adams County 0,285 11,324 3,222 128,243
Boone County 0,150 9,790 1,471 95,838
DeKalb County 0,428 10,454 4,473 109,296
DuPage County 0,277 4,725 1,311 22,322
Kane County 0,538 7,782 4,187 60,555



Tazewell County 0,267 7,789 2,083 60,664
Vermilion County 1,762 17,839 31,428 318,213
Whiteside County 0,237 10,982 2,605 120,596
Will County 0,504 5,821 2,933 33,880
Winnebago County 2,329 13,624 31,727 185,605
19,135 237,790 245,555 2763,834
Y
i
X
i
X
i
Y
i
X
i
2

Y
i
= 0,832

X
i
= 10,339
Anlisis de regresin simple
1.3.1 Graficando los residuos estandarizados.
Los residuos (e
i
) son muy importantes debido a que proporcionan abundante informacin sobre lo que
puede fallar en el modelo de regresin estimado.
Con el siguiente comando graficamos los residuos estandarizados, pero antes debemos descargar la
librera MASS e instalarla
12
:
>library(MASS)
>a1 <- (lm(a$V1~a$V2))
>par(bg = "Ivory 2")
>plot(a$V2,stdres(a1), col=3, xlab='% de poblacin pobre', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados", "versus variable
independiente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( 3, 19, length = 100)
>lines(x, x-x, type="l", col= 'red', lwd=3)
GRFICA N9
El valor residual es la distancia vertical que existe entre
una observacin determinada y el punto sobre la recta
estimada de regresin para la misma observacin.
Un residuo representa la cantidad en la que un valor
estimado falla para predecir la media de la correspondiente
observacin. Por lo tanto, entre mayor sea un residuo, mayor
tendera a ser el efecto de la componente aleatoria en el
modelo.
1.3.2 La varianza residual o cuadrado medio del
error (CME): S
2
Segn los supuestos iniciales, la varianza de la variable
respuesta Var ( Y
i
)= c
2
es igual a la varianza del error, que es
constante para todos los valores de la variable de prediccin
X
i
. El estimador de esta varianza c
2
es S
2
y se
denomina varianza residual o cuadrado medio del error. Se
define formalmente como la sumatoria del cuadrado de los
residuos, dividido por la cantidad de datos menos los
parmetros a estimar (los grados de libertad). En el caso del ARS, el denominador es n-2 ya que se pierden dos
grados de libertad al tener que estimar los dos parmetros

b
0
y

b
1
antes de obtener

Y
i
:
S
2
=

( Y
i

Y
i
)
2
n2
=

e
i
2
n2
(8)
(donde S se denomina desviacin standard residual)
Calculemos el cuadrado medio del error para el
ejemplo ya visto:
S
2
=

e
i
2
n2
=
5,946
21
= 0,283 S= 0,532 Que vemos
coincide con la salida en R llamada error standard
residual.
Como

Y
i
estima la media de Y
i
, Y
i

Y
i
(el
residuo) es la desviacin de Y
i
respecto a su propia
media. Por lo anterior es que S
2
es una medida absoluta
de que tan bien se ajusta la recta estimada de regresin a
las medias de la observaciones de la variable respuesta.
Mientras ms pequeo sea el valor de S
2
, mayor ajuste
tendr el modelo.
12 Para instalar paquetes que an no se tienen en las libreras de R, escribimos >install.packages(), seleccionamos un espejo desde el cual bajar
los paquetes y lo llamamos con >library(packages).
9
TABLA N4
CONDADO
Adams County 0,285 11,324 0,986 0,701 0,492
Boone County 0,150 9,790 0,746 0,596 0,355
DeKalb County 0,428 10,454 0,850 0,422 0,178
DuPage County 0,277 4,725 -0,045 -0,323 0,104
Kane County 0,538 7,782 0,432 -0,106 0,011



Tazewell County 0,267 7,789 0,434 0,166 0,028
Vermilion County 1,762 17,839 2,004 0,242 0,059
Whiteside County 0,237 10,982 0,932 0,695 0,483
Will County 0,504 5,821 0,126 -0,378 0,143
Winnebago County 2,329 13,624 1,345 -0,983 0,967

e
i
2
= 5,946
Y
i
X
i

Y
i
e
i
e
i
2
S
2
es un estimador no sesgado de c
2
mientras la forma del modelo de regresin sea la correcta.
1.3.3 Algunas propiedades de la regresin obtenida por MCO.
1
e
i
= 0
pues e
i
= ( Y
i

Y
i
)= ( Y
i


b
0


b
1
X
i
)= Y
i
n

b
0


b
1
X
i
= n

Yn(

Y

b
1

X)

b
1
n

X= 0
2 Y
i
=

Y
i
ya que

Y
i
= (

b
0
+

b
1
X
i
)= n

b
0
+

b
1
X
i
y como ya hemos visto que la primera ecuacin normal es
Y
i
= n

b
0
+

b
1
X
i
, Y
i
=

Y
i
3
X
i
e
i
= 0
pues X
i
e
i
= ( X
i
( Y
i

Y
i
))= X
i
Y
i
X
i

Y
i
= X
i
Y
i
X
i
(

b
0
+

b
1
X
i
)
=

X
i
Y
i


b
0

X
i


b
1

( X
i
)
2
Recordemos que la forma de la segunda ecuacin normal es:

X
i
Y
i
=

b
0

X
i
+

b
1

( X
i
)
2
, por lo que
X
i
e
i
= 0
4

Y
i
e
i
= 0


Y
i
e
i
= (

b
0
+

b
1
X
i
) e
i
=

b
0
e
i
+

b
1
X
i
e
i
y ya hemos visto que estas dos ltimas expresiones son cero.
Las dos ltimas propiedades implican que los residuos no estn correlacionados ni con las variables
predictoras ni con la predicha.
Verifiquemos estas propiedades en nuestro
ejemplo:
1.4 TEST DE SIGNIFICACIN PARA LOS PARMETROS ESTIMADOS
En el modelo de regresin simple resulta ms o menos evidente saber si los parmetros estimados son
coherentes comparando la recta de regresin obtenida con los puntos de las variables originales. Sin embargo,
en el anlisis de regresin mltiple que trataremos en la siguiente seccin el problema no es tan trivial. En estos
casos no tenemos una representacin grfica con la cual comparar, por lo que debemos establecer un test que
evale la significacin estadstica de los estimadores de la regresin. Veamos esto para el caso del modelo lineal
simple. La pregunta clave es: son las estimaciones de los coeficientes obtenidos estadsticamente relevantes?
Para comenzar debemos obtener la varianza de

b
0
y de

b
1
1.4.1 Varianza de los estimadores por MCO de los parmetros estimados

b
0
y de

b
1
Definamos: x
i
= X
i

X y y
i
= Y
i

Y (9)
entonces:
10
TABLA N5
CONDADO
Adams County 0,285 11,324 0,986 0,701 7,944 0,692
Boone County 0,150 9,790 0,746 0,596 5,834 0,445
DeKalb County 0,428 10,454 0,850 0,422 4,414 0,359
DuPage County 0,277 4,725 -0,045 -0,323 -1,525 0,015
Kane County 0,538 7,782 0,432 -0,106 -0,822 -0,046



Tazewell County 0,267 7,789 0,434 0,166 1,293 0,072
Vermilion County 1,762 17,839 2,004 0,242 4,319 0,485
Whiteside County 0,237 10,982 0,932 0,695 7,635 0,648
Will County 0,504 5,821 0,126 -0,378 -2,200 -0,048
Winnebago County 2,329 13,624 1,345 -0,983 -13,399 -1,323
19,135 19,135 0,000 0,001 0,000
Y
i
X
i

Y
i
e
i
X
i
e
i

Y
i
e
i
Anlisis de regresin simple
a) Var (

b
0
)=
c
2

X
i
2
n

( X
i

X)
2
o bien
Var (

b
0
)=
c
2

X
i
2
nx
i
2
(10)
Donde c
2
es la varianza del error en la relacin real entre Y
i
y X
i
que como hemos visto puede
estimarse con la varianza residual S
2
.
Demostracin:
Hemos obtenido que:

b
1
=
X
i
Y
i

Y
i

X
i
n
|X
i
2

X
i
)
2
n

, pero lo anterior es equivalente a:

( X
i

X)( Y
i

Y)

( X
i

X)
2
13
Entonces, si definimos:
C
i
=
( X
i

X)
( X
i

X)
2
-

b
i
= C
i
Y
i
(11)
(Notemos que en la expresin anterior da lo mismo utilizar ( Y
i

Y)= y
i
o Y
i
, pues

( X
i

X)( Y
i

Y)=

( X
i

X) Y
i

( X
i

X)=

( X
i

X) Y
i
-Ya que
(X
i

X)= 0 -.
Por otro lado

b
0
=

Y

b
1

X , entonces Var (

b
0
)= Var(

Y

b
1

X) (12)
Var (

b
0
)= Var|

Y
i
n

XC
i
Y
i
= Var |(
Y
i
n

XC
i
Y
i
)= Var|(
1
n

XC
i
) Y
i
= (
1
n

XC
i
)
2
Var( Y
i
)
Puesto que: Var |X Y= X
2
Var Y
14
(13)
Var (

b
0
)= c
2
(
1
n
2

XC
i
n
+

X
2
C
i
2
)= c
2
(
1
n
2

C
i
n
+

X
2
C
i
2
)
Si
C
i
= 0
(Recordemos que
(X
i

X)= 0 ) y
C
i
2
=
1
( X
i

X)
2
y puesto que:
a= n siendo
a una constante:
1
n
2
=
1
n
2

1=
1
n
2
n=
1
n
Var (

b
0
)= c
2
(
1
n
+

X
2

( X
i

X)
2
)= c
2
(

( X
i

X)
2
+n

X
2
n

( X
i

X)
2
)
Ya que:
(X
i

X)
2
=

( X
i
2
2X
i

X+

X
2
)=

X
i
2
2

X
i
+

X
2
=

X
i
2
2n

X
2
+n

X
2
=

X
i
2
n

X
2
Var (

b
0
)= c
2
(

X
i
2
n

X
2
+n

X
2
n

( X
i

X)
2
)= c
2
(

X
i
2
n

(X
i

X)
2
)
13 Hagamos: |

X
i
Y
i

Y
i
X
i
n
|

( X
i
X)
2
= |

(X
i
X) ( Y
i
Y) |

X
i
2

( X
i
)
2
n

Desarrollemos la primera expresin para llegar a la segunda:
|

X
i
Y
i

X
i
Y|

( X
i
2
2 X
i
X+

X
2
) =
X
i
3
Y
i
Y

X
i
3
2 X

X
i
2
Y
i
+2 X Y

X
i
2
+

X
2

X
i
Y
i


X
2
Y

X
i
=

X
i
3
Y
i
Y

X
i
3
X

X
i
2
Y
i
+ X Y

X
i
2
X

X
i
2
Y
i
+X Y

X
i
2
+

X
2

X
i
Y
i


X
2
Y

X
i
= |X
i
2

XX
i
| X
i
Y
i

YX
i

XY
i
+

X

Y =
=
|X
i
2

(X
i
)
2
n
| ( X
i
Y
i

YX
i

X Y
i
+

X

Y)
=
|X
i
2

(X
i
)
2
n
| ( X
i

X)( Y
i

Y)
14 La demostracin de esta importante ecuacin excede los propsitos de este texto.
11
Como c
2
es la varianza del error en la relacin real entre X
i
y Y
i
que puede estimarse como
S
2
, un estimador de la desviacin standard de

b
0
es: S(

b
0
)= S
.
X
i
2
n( X
i

X)
2
(14)
b)
Var (

b
1
)=
c
2
x
i
2
o bien
Var (

b
1
)=
c
2
(X
i

X)
2
(15)
Demostracin:
Var (

b
1
)= Var (

C
i
Y
i
)=

C
i
2
Var (Y
i
)= c
2

C
i
2
c
2
C
i
2
= c
2
|

( X
i

X)
2
(( X
i

X)
2
)
2
=
c
2

( X
i

X)
2
Entonces:
S(

b
1
)=
S
.
(X
i

X)
2
(16)
es la desviacin standard del estimador de mnimos cuadrados de la pendiente.
Tenemos as que:
S
2
(

b
0
)=
S
2

X
i
2
nx
i
2
=

e
i
2

X
i
2
(n2)n

x
i
2
S
2
(

b
1
)=
S
2

x
i
2
=
e
i
2
(n2)x
i
2

(17)
Ntese que las varianzas de

b
0 y

b
1 son funciones de la variable X.
Calculemos las varianzas de los parmetros estimados para el siguiente ejemplo:
Ejemplo N3: Suicidio y desempleo en Japn (1953-2004).
Es conocido que el deterioro de algunos factores econmicos como la cada del
empleo o las recesiones pueden contribuir a un aumento de la tasa de suicidios.
Wasserman (1984) mostr que en los Estados Unidos desde 1947 a 1977 los periodos
recesivos se asocian a un aumento de tasa de suicidios y que existe una correlacin
estadstica entre los suicidios y la duracin promedio del desempleo. Stuckler (2009) hall
que por cada 1 por ciento de aumento del desempleo, existe casi un 0,8 por ciento de
incremento en las tasas de suicidio en menores de 65 aos estudiando 26 pases de la
Unin Europea.
Se debe tener en consideracin sin embargo, que si bien es probado que el
desempleo es un factor en la evolucin de la tasa de suicidio tambin es cierto que entre
los cesantes est sobrerepresentada la poblacin de enfermos mentales y drogadictos,
dado que ellos tienen mas dificultades para conservar su trabajo.
La base de datos N3 nos entrega informacin de la tasa de suicidios de hombres
( Y
i
) y la tasa de desempleo ( X
i
) entre los
aos 1953 y el 2003 en Japn.
Para orientarnos, grafiquemos los
puntos, la recta de regresin a ellos asociada y
ejecutemos una regresin lineal de la tasa de
suicidios sobre la tasa de desempleo en Japn.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre la tasa de desempleo", "y la tasa de suicidios en
Japn",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<-lm(a$V1~ a$V2)
>summary(a1)
12
FUENTES:
Nmero de suicidios de hombres en Japn (1953-2003):
http://www.stat.go.jp/english/data/chouki/02.htm
Poblacin japonesa entre (1953-2003):
http://www.stat.go.jp/english/data/chouki/02.htm
% de desempleo en Japn: (1953-2003) :
http://lysander.sourceoecd.org/vl=4326714/cl=22/nw=1/rpsv/factbook2009/06/02/01/index.htm
BASE DE DATOS N3
AO
1955 31,27 2,6
1956 29,85 2,3
1957 29,72 1,9
1958 30,82 2,2
1959 26,76 2,3



2000 34,87 4,9
2001 33,86 5,2
2002 34,80 5,5
2003 37,51 5,5
2004 35,20 4,9
Y
i
X
i
Anlisis de regresin simple
Calculemos S(

b
0
) y S(

b
1
)
De la salida de R tenemos que S
2
= 8,398 y como n= 50:
S
2
(

b
0
)=
S
2

X
i
2
nx
i
2
=
8,398 371,04
50 72,38
= 0,861 S(

b
0
)= 0,928
S
2
(

b
1
)=
S
2

x
i
2
=
8,398
72,38
= 0,116 S(

b
1
)= 0,341
GRFICA N10
1.4.2 Test de significacin para los parmetros estimados.
El test de significacin de los parmetros estimados consiste en comparar el valor del cuociente entre el
parmetro estimado y su respectiva desviacin standard con el valor de la t de student correspondiente a los
grados de libertad y el nivel de significacin elegido. El parmetro clave del modelo es

b
1
; la significacin
estadstica del parmetro estimado de la interseccin con Y no tiene mayor relevancia.
Nuestra hiptesis alternativa la establecemos as:
Si Y se encuentra relacionada en forma lineal con X, entonces b
1
0
Las variables aleatorias
t
0
=

b
0
b
0
S (

b
0
)
y
t
1
=

b
1
b
1
S(

b
1
)
(18)
tienen una distribucin t de student con n-2 grados de libertad, por lo que si queremos probar las hiptesis nulas
H
0
: b
0
= 0 y H
0
: b
1
= 0 , debemos comparar
t
0
=

b
0
S(

b
0
)
y t
1
=

b
1
S(

b
1
)
(19)
13
SALIDA N5
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.9885 -1.9864 -0.8444 1.3186 7.7696
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 13.7994 0.9280 14.87 <2e-16 ***
a$V2 4.2900 0.3407 12.59 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.898 on 48 degrees of freedom
Multiple R-squared: 0.7676, Adjusted R-squared: 0.7628
F-statistic: 158.6 on 1 and 48 DF, p-value: < 2.2e-16
TABLA N6
AO
1955 31,27 2,6 6,76 0,024
1956 29,85 2,3 5,29 0,021
1957 29,72 1,9 3,61 0,296
1958 30,82 2,2 4,84 0,060
1959 26,76 2,3 5,29 0,021



2000 34,87 4,9 24,01 6,032
2001 33,86 5,2 27,04 7,596
2002 34,80 5,5 30,25 9,339
2003 37,51 5,5 30,25 9,339
2004 35,20 4,9 24,01 6,032
371,04 72,38
x
i
2
X
i
2
X
i
Y
i


X= 2,444
con la t correspondiente a los grados de libertad y el nivel de significacin elegido.
Calculemos para nuestro ejemplo:
t
0
=

b
0
S(

b
0
)
=
13,799
0,928
= 14,872 t
1
=

b
1
S(

b
1
)
=
4,29
0,341
= 12,594
A un 95% de significacin y con 48 grados de libertad (hacemos un test de dos colas, con lo que
1o/2 = 1 0,05/2 = 0,975) calculando con R obtenemos nuestro t:
>qt(0.975,48)
[1] 2.010635
Si t
i
t o t t
i
, nuestro b
i
es estadsticamente significativo al nivel elegido, lo cual es nuestro
caso, pues: 2.01 14,872 y 2.01 12,594
As que se rechaza la hiptesis nula.
1.4.3 Demostracin de que los parmetros estimados por MCO son estimadores no sesgados de los
parmetros reales.
a) Demostracin de que

b
1
es un estimador no sesgado de b
1
: E(

b
1
)= b
1
(20)
Se deben demostrar dos cosas:
1 Que

b
1
es combinacin lineal de Y
1
, ..., Y
n

(X
i

X) ( Y
i

Y)=

( X
i

X) Y
i

( X
i

X)=

( X
i

X) Y
i
Por definicin

b
1
=

( X
i

X)( Y
i

Y)

(X
i

X)
2
=

( X
i

X) y
i

(X
i

X)
2
Si
C
i
=
( X
i

X)
( X
i

X)
2
entonces

b
1
= C
i
y
i
2 Que E(

b
1
)= b
1
E(

b
1
)= E(C
i
Y
i
)= C
i
E(Y
i
)= C
i
(b
0
+b
1
X
i
)= b
0
C
i
+b
1
C
i
X
i
2.1 C
i
=

( X
i

X)

( X
i

X)
2
= 0
2.2 C
i
X
i
=

( X
i

X) X
i

( X
i

X)
2
=

( X
i
2

XX
i
)

( X
i
2
2n

X
2
+n

X
2
)
= 1 ya que

X=

X
i
n
- X
i
= n

X y

(X
i

X)
2
=

( X
i
2
2X
i

X+

X
2
)=

X
i
2
2

X
i
+

X
2
=

X
i
2
2n

X
2
+n

X
2
=

X
i
2
n

X
2
Entonces queda as demostrado que E(

b
1
)= b
1
b) Demostracin de que

b
0
es un estimador no sesgado de b
0
E(

b
0
)= b
0
(21)
Dado que el estimador de MCO de b
0
es:

b
0
=

Y

b
1

X , como

b
1
es una combinacin lineal de
la observaciones Y
1,
Y
2,
... Y
n
entonces

b
0
tambin es combinacin lineal de las observaciones. Por otro lado:
E(

b
0
)= E(

Y

b
1

X)= E(

Y)

XE(

b
1
)=

( Y
i
)
n

Xb
1
=

(b
0
+b
1
X
i
)
n

Xb
1
nb
0
+b
1

X
i
n

Xb
1
= b
0
+b
1

Xb
1

X= b
0
1.5 INTERVALOS DE CONFIANZA PARA EL MODELO LINEAL SIMPLE
1.5.1 Intervalos de confianza para los parmetros estimados.
14
Anlisis de regresin simple
Un intervalo de confianza para los parmetros verdaderos b
0
y b
1
-esto es, la regin donde con
cierta probabilidad se encuentran, al nivel de significacin establecido y para cierto grado de libertad- se
construye sumando y restando al parmetro estimado su propia desviacin standard multiplicada por la
estadstica t asociada.
Para b
0
y b
1
los intervalos de confianza entonces quedan como:

b
0
! t S(

b
0
) y

b
1
! t S (

b
1
) (22)
Como ya lo hemos visto, la variable aleatoria

b
1
S (

b
1
)
tiene una distribucin t de student con n-2 grados
de libertad, por lo que la probabilidad de que b
1
se encuentre dentro del intervalo
|

b
1
t
1o/2, n2
S(

b
1
);

b
1
+ t
1o/ 2,n2
S (

b
1
) es P|

b
1
t
1o/ 2, n2
S (

b
1
) b
1

b
1
+ t
1o/2, n2
S(

b
1
)= 1o
As nuestro intervalo es

b
1
!t
1o/ 2, n2
S(

b
1
) (23)
Para el caso de b
0
procedemos de manera anloga.
Consideremos el siguiente ejemplo:
Ejemplo N4: Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU. y proporcin de nios
(bajo 18 aos) viviendo en familias lideradas por un solo padre (2004).
La presencia o ausencia relativa de figuras paternas en una comunidad, parece estar fuertemente
correlacionada con la tasa de criminalidad.
En los Estados Unidos el 70% de los delincuentes juveniles, de los homicidas menores de 20 aos y de los
individuos arrestados por violacin y otras ofensas sexuales graves crecieron sin padre.
La relacin entre ausencia del padre y delincuencia surge de numerosos trabajos de investigacin
(Adams, Milner & Schrepf, 1984; Anderson, 1968; Chilton & Markle, 1972; Monahan, 1972; Mosher, 1969; Robins & Hill,
1966; Stevenson & Black, 1988; Wilson & Herrnstein, 1985; Bohman, 1971; Kellam, Ensminger & Turner, 1977).
La base de datos N4 nos entrega la tasa de asesinatos por cada 100.000 habitantes al 2006 ( Y
i
) y la
proporcin de nios (menores de 18 aos) viviendo en familias uniparentales al 2004 ( X
i
) para los 50 Estados
norteamericanos (exclumos Washington D.C.)
Para orientarnos, grafiquemos los puntos, la recta de regresin a ellos asociada y corramos una regresin
de la tasa de asesinatos sobre la proporcin de familias uniparentales:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de familias uniparentales', ylab='Tasa de homicidios',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre la tasa de familias uniparentales", "y la tasa de
homicidios",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<-lm(a$V1~ a$V2)
>summary(a1)
15
FUENTES:
Proporcin de nios (bajo 18 aos) viviendo en familias lideradas por un solo padre (2004):
http://www.thenationalcampaign.org/
Tasa de crimen estatal cada 100.000 habitantes (2006) en EE.UU:
http://www.infoplease.com/ipa/A0004912.html
BASE DE DATOS N4
ESTADO
Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31



Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
Y
i
X
i
GRFICA N11


Ahora calculemos los intervalos de confianza para los parmetros estimados segn R:
>confint(a1, level= 0.95)
Hagamos nuestros propios clculos y verifiqumoslo:
Hemos visto que para un 95% de significacin y con 48 grados de libertad, calculando con R obtenemos:
>qt(0.975,48)
[1] 2.010635
As:

b
1
! t
1o/2, n2
S(

b
1
)= 0,39705! 2,010635 0,04786 -> [0,301; 0,493]
2.- De R obtenemos que

b
0
= 7,50664 y S(

b
0
)= 1,49841
As:

b
0
! t
1o/ 2, n2
S (

b
0
)= 7,50664!2,0106351,49841 -> [-10,519; -4,494]
Vemos que ambos resultados coinciden con los entregados por R.
1.5.2 Estimacin del intervalo de confianza para los valores promedios de la variable respuesta.
Un intervalo de confianza para los valores promedios de la variable respuesta es una regin, donde a un
nivel de significacin determinado, la variable independiente yace.
Para el modelo lineal simple, la recta de regresin estimada permite obtener un estimador para la media
de la variable respuesta para cada valor de la variable de prediccin X
i
:

Y
i
=

b
0
+

b
1
X
i
, por otro lado

Y=

b
0
+

b
1

X implica que

b
0
=

Y

b
1

X por lo que

Y
i
=

Y

b
1

X+

b
1
X
i
As:

Y
i
=

Y+

b
1
( X
i

X)
Entonces la varianza del estimador de la variable respuesta es: Var (

Y
i
)= S
2
(

Y
i
)= Var |

Y+

b
1
( X
i

X)
Ya hemos visto que

b
1
= C
i
y
i
entonces Var |

Y
i
n
+( X
i

X)C
i
Y
i
= Var |(
1
n
+C
i
( X
i

X)) Y
i

Observemos que: Var |

(
1
n
+C
i
( X
i

X)) Y
i
=

(
1
n
+C
i
( X
i

X))
2
Var( Y
i
) y desarrollemos:
16
SALIDA N6
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.7899 -1.0143 -0.2414 1.1005 4.5012
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -7.50664 1.49841 -5.010 7.80e-06 ***
a$V2 0.39705 0.04786 8.297 7.87e-11 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.669 on 48 degrees of freedom
Multiple R-squared: 0.5892, Adjusted R-squared: 0.5806
F-statistic: 68.83 on 1 and 48 DF, p-value: 7.873e-11
SALIDA N7
2,5% 97,5%
(Intercept) -10,5193867 -4,4938931
a$V2 0,3008243 0,4932663
Anlisis de regresin simple

|
1
n
+C
i
(X
i

X)
2
Var ( Y
i
)= c
2
|

1
n
2
+2
( X
i

X)
n

C
i
+( X
i

X)
2

C
i
2
Recordemos que
C
i
= 0 y

C
i
=
( X
i

X)
( X
i

X)
2
entonces: C
i
2
= |
( X
i

X)
2

( X
i

X)
4
=

( X
i

X)
2

( X
i

X)
4
=
1

( X
i

X)
2
Es as que la varianza del estimador de la variable respuesta resulta: S
2
(

Y
i
)= c
2
|
1
n
+
( X
i

X)
2

( X
i

X)
2
(24)
por lo que un estimador de la desviacin standard de

Y
i
est dado por: S(

Y
i
)=S
.
|
1
n
+
( X
i

X)
2
( X
i

X)
2
(25)
Tenemos entonces que

Y
i
es un estimador no sesgado de la media de Y
i
que tiene una distribucin
normal con:
media E( Y
i
)= b
0
+b
1
X
i
= E(

b
0
+

b
1
X
i
)= E(

Y
i
) y varianza S
2
(

Y
i
)= c
2
|
1
n
+
( X
i

X)
2

( X
i

X)
2

Por otro lado, la distribucin de muestreo de


|

Y
i
E( Y
i
)
S(

Y
i
)
(26)
es la t de student con n- 2 grados de libertad. Por lo anterior, la probabilidad de que E( Y
i
) se encuentre dentro
del intervalo aleatorio: |

Y
i
t
1o/ 2, n2
S(

Y
i
) ;

Y
i
+ t
1o/ 2, n2
S(

Y
i
) es 1o o bien, el intervalo de confianza
del 100( 1o)% para Y
i
es:

Y
i
! t
1o/ 2,n2
S (

Y
i
) (27)
Calculemos estos intervalos para el ejemplo N4:
Con la siguiente instruccin obtenemos los valores numricos de
los lmites superior e inferior del intervalo de confianza para el valor
promedio de Y al 95% de significacin:
>predict(a1,interval="confidence", level = 0.95)
Corroboraremos lo anterior calculando los

Y
i
! t
1o/2, n2
S(

Y
i
) y
graficando las curvas:
Y
i
( Superior , Inferior)=

b
0
+

b
1
X
i
! t S
.
1
n
+
( X
i

X)
2
( X
i

X)
2
para el rango de
X(15 ; 50). Como

b
0
= 7,50664 ;

b
1
= 0,39705 ; t= 2.010635; S= 1,669;
n= 50;

X= 30,92 y
(X
i

X)
2
= 1215,68 , los lmites superiores e
inferiores del intervalo de confianza para Y
i
son:
Y
i
( Superior , Inferior)= 7,50664+0,39705 X
i
! 2,010635 1,669
.
( 0,02+
( X
i
30,92)
2
1215,68
)
Introduciendo los datos de X
i
en la ecuacin anterior obtenemos los valores de la
tabla N7.
Grafiquemos estos intervalos haciendo los X
i
continuos:
>x <- seq( 15 ,50,length = 100)
>lines(x, -7.50664+0.39705 * x + 2.010635 * 1.669* ((0.02+ {(x-30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
>lines(x, -7.50664+0.39705 * x - 2.010635 * 1.669* ((0.02+ {(x-30.92)^2} /1215.68)^(1/2)), type='l', col= 'blue', lwd=3)
17
SALIDA N8
fit lwr upr
1 7,1840353 6,4308025 7,9372681
2 4,4047183 3,9220763 4,8873604
3 5,5958542 5,0809145 6,1107938
4 6,3899447 5,7741304 7,0057591
5 4,8017636 4,3272468 5,2762805



46 4,0076731 3,4985194 4,5168267
47 4,0076731 3,4985194 4,5168267
48 4,8017636 4,3272468 5,2762805
49 3,6106278 3,0592219 4,1620337
50 3,2135825 2,6074666 3,8196984
TABLA N7
Inf Sup
6,431 7,938
3,922 4,888
5,081 6,111
5,774 7,006
3,499 4,517



3,499 4,517
3,499 4,517
4,327 5,277
3,059 4,162
2,607 3,820
Y
i
Y
i
GRFICA N12
1.5.3 Estimacin del intervalo de prediccin de los
valores particulares de la variable respuesta.
Un intervalo de prediccin para los valores de la variable
respuesta es una regin, donde a un nivel de significacin
determinado, la variable independiente yace, pero esto,
ampliado a cualquier valor de la variable independiente.
Supongamos que un nuevo valor es observado despus
de que la regresin se ha ejecutado. Como la nueva
observacin es independiente de las observaciones que se
utilizaron para ajustar el modelo, el intervalo deber incluir el
error del modelo ajustado y el error asociado con
observaciones futuras, con lo que la varianza de este
estimador ser mayor. Los intervalos de prediccin para las
observaciones individuales de la respuesta son mas grandes
que los correspondientes intervalos de confianza para la media
de las mismas.
El valor estimado de la variable dependiente es el mismo
que para la estimacin del promedio y est dado por

Y
i
=

b
0
+

b
1
X
i
, pero la varianza incluye la variacin de una
observacin independiente.
Var (

Y
P
)= c
2
+c
2
|
1
n
+
( X
i

X)
2

( X
i

X)
2
= c
2
|1+
1
n
+
( X
i

X)
2

( X
i

X)
2
(28)
Y as: S(

Y
p
)= S
.
| 1+
1
n
+
( X
i

X)
2
( X
i

X)
2
(29)
Entonces, bajo la teora normal,
|

Y
p
E( Y
p
)
S(

Y
p
)
(30)
tiene una distribucin t de student con n- 2 grados de libertad, por lo que
para un o dado, el intervalo de prediccin para la observacin Y
p
ser: P|

Y
p
t
1o/ 2, n2
S (

Y
p
) Y
p

Y
p
+ t
1o/ 2, n2
S(

Y
p
) = 1o
Un intervalo de prediccin es anlogo a un intervalo de confianza. Uno
del 100( 1o)% para una observacin particular Y
p
es:

Y
p
!t
1o/ 2, n2
S(

Y
p
)
(31)
Con la siguiente instruccin obtenemos los valores
numricos de los lmites superior e inferior del intervalo de
confianza para el valor promedio de Y. Calculmoslo
para nuestro ejemplo:
>predict.lm(a1,interval="prediction", level = 0.95)
Los lmites superiores e inferiores del intervalo de prediccin para Y
i
son:
Y
i
( Superior , Inferior )= 7,50664+0,39705 X
i
! 2,0106351,669
.
( 1+0,02+
( X
i
30,92)
2
1215,68
)
Introduciendo los datos de X
i
en la ecuacin anterior obtenemos los valores de la
tabla N8:
18
SALIDA N9
fit lwr upr
1 7,1840353 3,7456187 10,6224520
2 4,4047183 1,0152800 7,7941570
3 5,5958542 2,2016662 8,9900420
4 6,3899447 2,9789953 9,8008940
5 4,8017636 1,4134728 8,1900540



46 4,0076731 0,6143581 7,4009880
47 4,0076731 0,6143581 7,4009880
48 4,8017636 1,4134728 8,1900540
49 3,6106278 0,2107164 7,0105390
50 3,2135825 -0,1956293 6,6227940
TABLA N8
Inf Sup
3,745 10,623
1,015 7,795
2,201 8,991
2,978 9,802
1,413 8,191



0,614 7,402
0,614 7,402
1,413 8,191
0,210 7,012
-0,196 6,624
Y
i
Y
i
Anlisis de regresin simple
Grafiquemos estos intervalos haciendo los X
i
continuos (Grfico N13):
>x <- seq( 15 ,50,length = 100)
>lines(x, -7.50664+0.39705 * x + 2.010635 * 1.669* ((1+0.02+ {(x-30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
>lines(x, -7.50664+0.39705 * x - 2.010635 * 1.669* ((1+0.02+ {(x-30.92)^2} /1215.68)^(1/2)), type='l', col= 'magenta 4', lwd=3)
Graficando los intervalos de confianza y de prediccin tenemos (Grfico N14):
GRFICA N13 GRFICA N14
1.6 TEST DE BONDAD DEL AJUSTE Y CORRELACIN
1.6.1 El coeficiente de determinacin: R
2
Consideremos la ecuacin fundamental del anlisis de regresin:
Variacin Variacin Variacin
total en Y explicada de Y residual de Y
( Y
i

Y)
2
= (

Y
i

Y)
2
+ (Y
i

Y
i
)
2
(32)
Suma total Suma de los Suma de los
de los cuadrados cuadrados de cuadrados
la regresin del error
STC SCR SCE /: STC
1=
SCR
STC
+
SCE
STC
o bien 1= R
2
+
SCE
STC
con lo que obtenemos R
2
= 1
SCE
STC
(33)
SCR es la porcin de la variacin atribuble a un efecto lineal de X sobre Y y R
2
es la proporcin de la
variacin en Y explicada por la regresin de Y sobre X.
Por otro lado: R
2
=

y
i
2

y
i
2
=
SCR
STC
= 1

e
i
2

y
i
2
= 1
SCE
STC
donde:

y
i
2
=

(

Y
i

Y)
2
0 R
2
1
La ecuacin de Todos los puntos
regresin estimada coinciden en la
no explica ninguna lnea de regresin
variacin en Y
R
2
no mide la validez del modelo de regresin propuesto, sino cuanto se explica de la variacin total
mediante la ecuacin de regresin estimada.
R
2
100 nos da el porcentaje en que la ecuacin de regresin explica la variacin total.
Calculemos R para el siguiente ejemplo. Para esto determinemos primero la suma total de los cuadrados
(STC), la suma de los cuadrados de la regresin (SCR) y la suma de los cuadrados del error (SCE).
19
Ejemplo N5: Nivel de pobreza y aos de escolaridad para las comunas
del Gran Santiago (2006)
Diversos estudios han establecido la clara correlacin entre el nivel
educativo de las personas con sus ingresos.
En Amrica Latina, los datos histricos son contundentes sobre la incidencia
de la educacin en la distribucin del ingreso. En Brasil, el 10 por ciento de la
poblacin con ms ingresos gana casi 60 veces ms que el 10 por ciento con
menos ingresos; en Uruguay, el pas con menor desigualdad, esa relacin es de 18
veces y en Mxico es de 40 veces. Todos los pases con menor desigualdad relativa
entre ellos Argentina, a pesar de la concentracin del ingreso-. son aquellos que
hicieron de la expansin educativa una prioridad poltica por lo menos durante los
ltimos 50 aos.
La base de datos N5 nos entrega informacin del % de pobres ( Y
i
) y los
aos de escolaridad ( X
i
) , para las comunas del gran Santiago al ao 2006.
Para orientarnos, grafiquemos los puntos, la recta de regresin a ellos
asociada y corramos una regresin lineal de la tasa de % de pobres sobre los
aos de escolaridad.
>a <-read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Aos de escolaridad', ylab='% de poblacin
pobre', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre los aos de escolaridad", "y el % de
poblacin pobre",
sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>a1<-lm(a$V1~ a$V2)
>summary(a1)
Calculemos la suma total de los cuadrados (STC), la
suma de los cuadrados de la regresin (SCR) y la suma de
los cuadrados del error (SCE) (Tabla N9).
Ahora calculemos R
2
:
R
2
= 1
SCE
STC
= 1
390,376
860,802
= 0,546
o bien
R
2
=
SCR
STC
=
470,436
860,802
= 0,546 que coincide con el 0,5465 que obtuvimos en nuestra salida en R.
GRFICA N15

20
SALIDA N10
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-6.8335 -3.2591 0.2868 2.2141 7.5117
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 38.1007 4.5262 8.418 1.28e-09 ***
a$V2 -2.5477 0.4103 -6.210 5.92e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 3.493 on 32 degrees of freedom
Multiple R-squared: 0.5465, Adjusted R-squared: 0.5323
F-statistic: 38.56 on 1 and 32 DF, p-value: 5.921e-07
BASE DE DATOS N5
COMUNA
Santiago 7,3 13,1
Cerrillos 8,3 10,4
Cerro Navia 17,5 9,1
Conchal 8,0 10,1
El Bosque 15,8 9,7



San Bernardo 20,9 9,7
San Joaqun 7,4 10,7
San Miguel 2,5 12,3
San Ramn 16,7 9,6
Vitacura 4,4 14,6
Y
i
X
i
FUENTES:
% de pobres 2006 y a os de escolaridad 2006:
http://www. bcn.cl/siit/comunas_cif ras
TABLA N9
COMUNA
Santiago 7,3 13,1 4,726 8,651 30,419 6,626
Cerrillos 8,3 10,4 11,605 3,768 1,859 10,921
Cerro Navia 17,5 9,1 14,917 52,690 21,860 6,674
Conchal 8,0 10,1 12,369 5,023 4,527 19,088
El Bosque 15,8 9,7 13,388 30,900 9,903 5,818



San Bernardo 20,9 9,7 13,388 113,610 9,903 56,430
San Joaqun 7,4 10,7 10,840 8,072 0,359 11,836
San Miguel 2,5 12,3 6,764 59,926 12,091 18,182
San Ramn 16,7 9,6 13,643 41,716 11,571 9,347
Vitacura 4,4 14,6 0,904 34,119 87,178 12,220

860,802 470,436 390,376
( Y
i


Y
i
)
2
(

Y
i

Y)
2
( Y
i

Y)
2
Y
i
X
i
Y
i

Y= 10,241
Anlisis de regresin simple
1.6.2 El coeficiente de correlacin r.
El coeficiente de correlacin mide el grado de asociacin entre variables. Supone que tanto X como Y
son variables aleatorias.
Sea la distribucin conjunta de X e Y la normal bivariada y sea ( X
1
, Y
1
) ;( X
2
, Y
2
) ; ...;( X
n
, Y
n
) una muestra
aleatoria de tamao n de esta distribucin. En el caso de dos variables r es:
r ( X, Y)=

(X
i

X)( Y
i

Y)
.
( X
i

X)
2
.
( Y
i

Y)
2
1 r 1 (34)
Para nuestro ejemplo:
r ( X, Y)=

(X
i

X)( Y
i

Y)
.
( X
i

X)
2
.
( Y
i

Y)
2
=
184,649
.72,478.860,802
= 0,739
La instruccin para obtener el coeficiente de
correlacin en R nos entrega el siguiente resultado (Salida n11):

>cor(a)
Como r mide el grado de asociacin lineal entre X e Y y
ya que

b
1
es el correspondiente estimador por MCO de la
pendiente para el modelo de regresin propuesto entre X e Y,
entonces debe existir una relacin entre r y

b
1
. Esa relacin
es la siguiente:

b
1
=
.
( Y
i

Y)
2
( X
i

X)
2
r ya que
.
( Y
i

Y)
2
( X
i

X)
2
( X
i

X)( Y
i

Y)
.
( X
i

X)
2
.
( Y
i

Y)
2
=
( X
i

X)( Y
i

Y)
( X
i

X)
2
=

b
1
(35)
El cuadrado del coeficiente de correlacin es el coeficiente de determinacin r= .R
2
donde:
r=-1: perfecta correlacin lineal negativa.
r= 1: perfecta correlacin lineal positiva.
Para nuestro ejemplo: R
2
= 0,5465 .R
2
= 0,739
Si bien r no indica causalidad o dependencia, no es slo un medida del grado de asociacin lineal entre
dos variables, sino que puede emplearse una funcin de r como una medida de la bondad del ajuste para una
ecuacin estimada de regresin.
r 0 Implica que X e Y se mueven en direcciones contrarias, mientras que r>0 Implica que X e Y se
mueven en la misma direccin.
r por s mismo no puede ni probar ni desmentir una relacin causal entre X e Y, an si r=!1 , lo cual es
slo posible a travs de la comprensin de la relacin natural que existente entre X e Y.
1.6.3 Uso del anlisis de varianza.
Esta tcnica es utilizada para probar la hiptesis nula de que la pendiente es cero, sin embargo, adems
permite una comprensin natural del problema, con lo que facilita el anlisis de modelos mucho ms
complicados que la regresin simple.
El objetivo es que la recta estimada de regresin explique la mayor cantidad posible de la variacin total,
por lo que la contribucin del trmino b
0
+b
1
X
i
debe ser substancial.
Consideremos la desviacin de Y
i
respecto a

Y . Si la magnitud de Y
i

Y> 0 , esta magnitud


debera atribuirse a las componentes del modelo.
21
SALIDA N11
V1 V2
V1 1 -0,73925480
V2 -0,73925480 1
TABLA N10
COMUNA
Santiago 7,3 13,1 4,686 8,651 -6,367
Cerrillos 8,3 10,4 0,287 3,768 1,039
Cerro Navia 17,5 9,1 3,368 52,690 -13,322
Conchal 8,0 10,1 0,698 5,023 1,872
El Bosque 15,8 9,7 1,526 30,900 -6,867



San Bernardo 20,9 9,7 1,526 113,610 -13,167
San Joaqun 7,4 10,7 0,055 8,072 0,669
San Miguel 2,5 12,3 1,862 59,926 -10,564
San Ramn 16,7 9,6 1,783 41,716 -8,624
Vitacura 4,4 14,6 13,430 34,119 -21,406
72,478 860,802 -184,649
( X
i

X)( Y
i

Y) ( Y
i

Y)
2
( X
i

X)
2
X
i
Y
i

Y= 10,241

X= 10,935

SALIDA N11
V1 V2
V1 1.0000000 -0.7392548
V2 -0.7392548 1.0000000
Deduzcamos la ecuacin fundamental del anlisis de varianza:
Y
i

Y= Y
i

Y+

Y
i

Y
i
= (

Y
i

Y)+( Y
i

Y
i
)/ ( )
2
- ( Y
i

Y)
2
= (

Y
i

Y)
2
+2(

Y
i

Y)( Y
i


Y
i
)+( Y
i

Y
i
)
2
/

()

(Y
i

Y)
2
=

(

Y
i

Y)
2
+2

(

Y
i

Y) ( Y
i

Y
i
)+

( Y
i


Y
i
)
2
Pero ya que (

Y
i

Y) (Y
i

Y
i
)= 0 puesto que
(

Y
i

Y) ( Y
i


Y
i
)=

Y
i
( Y
i

Y
i
)

Y( Y
i

Y
i
)=

Y
i
( Y
i


Y
i
) (ya hemos visto que la segunda expresin es 0) y


Y
i
( Y
i

Y
i
)= (

b
0
+

b
1
X
i
)( Y
i

Y
i
)=

b
0
e
i
+

b
1
X
i
e
i
= 0

( Y
i

Y)
2
=

(

Y
i

Y)
2
+

( Y
i


Y
i
)
2
STC SCR SCE
Suma total de Suma de los Suma de los
los cuadrados cuadrados de cuadrados del
la regresin error
Notemos que tambin podemos calcular STC como: STC=

( Y
i

Y)
2
=

Y
i
2
n(

Y)
2
ya que:

(Y
i

Y)
2
=

( Y
i
2
2Y
i

Y+

Y
2
)=

Y
i
2
2

Y
i
+n

Y
2
=

Y
i
2
2n

Y
2
+n

Y
2
=

Y
i
2
n

Y
2
SCR representa la variacin de la observacin que es atribuible al efecto lineal de X sobre Y. Si la
pendiente de la recta estimada de regresin es cero, entonces SCR=0
SCE es la variacin de las observaciones con respecto a la recta de regresin estimada. Si todas las
observaciones se encuentran sobre esta recta, SCE=0
GRFICA N16
Grados de libertad.
Para STC es n-1, para SCE es n-2 y y como los grados de
libertad son aditivos:
gl (SCR) = gl(STC) -gl(SCE) lo que implica que el grado
de libertad de SCR es 1.
1.6.4 La estadstica F
La estadstica F es utilizada en el anlisis de regresin
para probar la hiptesis nula : H
0
: b
1
= 0 , esto es, que no
existe una relacin lineal entre X e Y, contra la alternativa
H
1
: b
1
0 .
Si suponemos la existencia de normalidad, entonces
bajo H
0
las observaciones Y
i
son n variables aleatorias
independientes normalmente distribuidas con la misma media y
varianza c
2
.
Por lo anterior, puede demostrarse que:
SCR
c
2
y
SCE
c
2
son dos variables aleatorias independientes con una distribucin X
2
con 1 y n-2
grados de libertad respectivamente. De esta manera, la variable aleatoria:
SCR/c
2
1
SCE/c
2
n2
=
SCR/ 1
SCE/(n2)
=
CMR
CME
= F (36)
tiene una distribucin F con 1 y n-2 grados de libertad.
(CMR: Cuadrado medio de la regresin; CME: Cuadrado medio del error.) Notemos que el cuadrado
medio del error es igual a la varianza residual.
22
Anlisis de regresin simple
Un valor grande de CME comparado con CMR
implicar un ajuste pobre y sugerir la ausencia de una
asociacin lineal entre X e Y. Un valor pequeo de CME
implicar que una porcin considerable de la variacin
en las observaciones es atribuble a un efecto lineal de X
sobre Y.
H
0
ha de rechazarse cuando el valor de F
dado por el cuociente entre el cuadrado medio de la
regresin y el cuadrado medio del error se encuentra
dentro de la regin crtica superior a la distribucin F dada
con 1 y n-2 grados de libertad al nivel de significacin
deseado.
En nuestro ejemplo:
F=
CMR
CME
=
SCR/ 1
SCE/(n2)
=
470,4361/1
390,3759/ 32
= 38,563
Calculemos F con R:
>qf(0.95,1,32)
[1] 4.149097 4,149 38,563 con lo que rechazamos la hiptesis nula.
Tabla ANOVA para el modelo lineal simple:
Tabla ANOVA para nuestro ejemplo:
Aplicacin en R:
>anova(a1)
23
SALIDA N12
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-6.8335 -3.2591 0.2868 2.2141 7.5117
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 38.1007 4.5262 8.418 1.28e-09 ***
a$V2 -2.5477 0.4103 -6.210 5.92e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 3.493 on 32 degrees of freedom
Multiple R-squared: 0.5465, Adjusted R-squared: 0.5323
F-statistic: 38.56 on 1 and 32 DF, p-value: 5.921e-07
TABLA N11
Fuente de Grado de Suma de los Cuadrados
variacin libertad Cuadrados Medios

(

Y
i

Y)
2
( Y
i


Y
i
)
2
/(n2)
(

Y
i

Y)
2
( Y
i


Y
i
)
2
( Y
i

Y)
2
(

Y
i

Y)
2
( Y
i


Y
i
)
2
n2
Regresin
Error
Total
1
n2
n1
F
TABLA N12
Fuente de Grado de Suma de los Cuadrados
variacin libertad Cuadrados Medios

38,563 470,436
390,376
860,802
470,436
12,199
Regresin
Error
Total
1
32
33
F
SALIDA N13
Analysis of Variance Table
Response: a$V1
Df Sum Sq Mean Sq F value Pr(>F)
a$V2 1 470.43 470.43 38.562 5.921e-07 ***
Residuals 32 390.38 12.20
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Existe una relacin entre F con 1 y n-1 grados de libertad y la correspondiente estadstica t de student
para una hiptesis alternativa bilateral.
Considerando que la recta estimada es:

Y
i
=

Y+

b
1
( X
i

X) -

Y
i

Y=

b
1
( X
i

X) /

( )
2
-

(

Y
i

Y)
2
=

b
1
2

( X
i

X)
2
- SCR=

b
i
2

( X
i

X)
2
y que por otro lado:
S
2
(

b
1
)=
S
2
( X
i

X)
2
=
CME
( X
i

X)
2
=
SCE/( n2)
( X
i

X)
2
(pues el cuadrado medio del error es
igual a la varianza residual) tenemos que nuestra estadstica F es:
F=
CMR
CME
=
SCR/1
SCE/(n2)
=

b
1
2

( X
i

X)
2
/ 1
S
2
( b
1
)

( X
i

X)
2
= (

b
1
S( b
1
)
)
2
Verifiquemos esto en nuestro ejemplo: (37)
Tenemos que: S( b
1
)= 0,4103 y

b
1
= 2,5477 por lo tanto (

b
1
S(b
1
)
)
2
= (
2,5477
0,4103
)
2
= 38,556
De acuerdo con lo anterior, si una variable aleatoria tiene una distribucin F con 1 y n-2 grados de
libertad, entonces: F= t
2
Donde t es una variable aleatoria t de student con n-2 grados de libertad. La relacin
es: F
(1o , 1,n2)
= t
(1o/ 2, n2)
2
En nuestro ejemplo t para

b
1
es -6.210, As t
2
= 38,564 (38)
1.7 PROPIEDADES DE LOS PARMETROS ESTIMADOS BAJO EL MTODO DE MNIMOS CUADRADOS
ORDINARIOS Y LOS MEJORES ESTIMADORES LINEALES INSESGADOS (MELI). Sesgo, eficiencia y consistencia.
Consideremos todos los estimadores no sesgados de b
0
y b
1
(

b
0
y

b
1
) los cuales son
combinaciones lineales de las observaciones Y
1,
Y
2
, ..., Y
n
. Si entre todos estos estimadores existen algunos
cuyas varianzas son las ms pequeas de entre todos los dems estimadores no sesgados de b
0
y b
1
, stos
son denominados los mejores estimadores lineales insesgados (MELI) de b
0
y b
1
. Ahora, bajo los 10 supuestos
requeridos y expuestos al inicio de este captulo, los estimadores por MCO son los MELI. Lo anterior es conocido
como el teorema de Gauss-Markov y representa la justificacin ms importante para usar MCO.

1.7.1 Sesgo.
GRFICA N17
Un estimador es insesgado si el promedio de su distribucin
muestral es igual al parmetro verdadero.
Esto es: E(

b)=b (39)
El sesgo es definido como la diferencia entre el valor esperado
del estimador y el parmetro verdadero, as:
sesgo=E(

b)b (40)
GRFICA N18
1.7.2 Eficiencia.
El estimador eficiente o mejor insesgado se refiere al que tiene
la menor varianza de entre los estimadores insesgados. Otra manera de
decir esto es que un estimador eficiente tiene el menor intervalo de
confianza y est ms cercano a ser estadsticamente significativo que
cualquier otro estimador.
La grfica N18 muestra la distribucin de dos estimadores
insesgados, uno de los cuales es eficiente:
El estimador por MCO es frecuentemente usado porque es el
mejor estimador lineal insesgado, esto es, entre todos los estimadores
lineales insesgados, es el que tiene la menor varianza. Sin embargo, los
estimadores no lineales pueden ser superiores a los MCO.
24
Anlisis de regresin simple
1.7.3 Consistencia.
GRFICA N19
Un estimador es considerado consistente cuando ocurre que:
1 a medida que el tamao de la muestra se incrementa, el
estimador se aproxima ms y ms al parmetro real (esto se
denomina insesgacin asinttica).
2 Cuando el tamao de la muestra se aproxima al infinito en el
lmite, la distribucin muestral del estimador debe colapsar o
hacerse una lnea vertical de altura 1 sobre el valor del parmetro
verdadero.
1.8 EL ENFOQUE MATRICIAL PARA EL MODELO LINEAL SIMPLE
Para los n pares ( X
1
; Y
1
) ,( X
2
; Y
2
) , ...,( X
n
; Y
n
) , el modelo lineal:
Y
i
=b
0
+b
1
X
i
+j
i
i=1,2,... ,n son n ecuaciones lineales de la forma:
Y
1
= b
0
+b
1
X
1
+j
1
Y
2
= b
0
+b
1
X
2
+j
2
Y
n
= b
0
+b
1
X
n
+j
n
Si definimos:
Y=
|
Y
1
Y
2

Y
n

;
X=
|
1 X
1
1 X
2

1 X
n

; b=
|
b
0
b
1

; entonces:
Y = Xb=
|
b
0
b
1
X
1
b
0
b
1
X
2

b
0
b
1
X
n

Si asumimos la presencia de la normalidad, j es un vector de variables aleatorias normales tales que:


E( j)=0; Var (j)=c
2
I Donde:
I : vector de identidad
c
2
: varianza del error constante.
Las ecuaciones normales son:
Y
i
=n

b
0
+

b
1
X
i

X
i
Y
i
=

b
0
X
i
+

b
1
( X
i
)
2
lo que expresado en trminos matriciales resultara:
|

Y
i
X
i
Y
i

=
|

b
0

b
1
|
n

X
i

X
i

X
i
2

notemos que: (41)


|
n

X
i

X
i

X
i
2

=
|
1+1+...+1 X
1
+X
2
+... +X
n
X
1
+X
2
+...+X
n
X
1
2
+X
2
2
+... +X
n
2

=
|
1 1 1
X
1
X
2
X
n

|
1 X
1
1 X
2

1 X
n

= X
'
X
Adems notemos de que:
|

Y
i
X
i
Y
i

=
|
Y
1
+Y
2
+...+Y
n
X
1
Y
1
+X
2
Y
2
+...+X
n
Y
n

=
|
1 1 1
X
1
X
2
X
n

|
Y
1
Y
2

Y
n

= X
'
Y
25
Tenemos entonces que las ecuaciones normales en forma matricial son: ( X
'
X)

b= X
'
Y
Si suponemos que la matriz X
'
X tiene inversa, entonces: ( X
'
X)
1
( X
'
X)

b= ( X
'
X)
1
X
'
Y
I

b= ( X
'
X)
1
X
'
Y y el vector de parmetros estimados queda entonces como:

b= ( X
'
X)
1
X
'
Y (42)
Y la ecuacin de regresin queda:

Y= X

b (43)
26
Anlisis de regresin mltiple
EL ANLISIS DE REGRESIN MLTIPLE (ARM)
2.1 INTRODUCCIN
El anlisis de regresin mltiple (ARM) se utiliza para comprender la influencia de dos o ms variables
independientes X
ki
sobre una variable dependiente Y
i
. Es el caso general del ARS.
El modelo de regresin lineal con dos regresores puede escribirse como sigue:
Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+j
i
(i= 1,2,... , n) (44)
En trminos generales: sean | X
1i
, X
2i
, ... , X
ki
k variables de prediccin y Y
i
la i-sima observacin
respuesta asociada a ellas, j
i
el error aleatorio no observable asociado con Y
i
y | b
0
, b
1
, ... , b
k
k
parmetros lineales desconocidos. Entonces el modelo de regresin lineal mltiple (de primer orden) para k
variables de prediccin independientes es:
Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+...+b
k
X
ki
+j
i
(i= 1,2,. .. , n) (45)
Lo anterior es una forma abreviada de la expresin:
Y
1
= b
0
+b
1
X
11
+b
2
X
21
+...+b
k
X
k1
+j
1
Y
2
= b
0
+b
1
X
12
+b
2
X
22
+...+b
k
X
k2
+j
2
.
.
.
Y
n
= b
0
+b
1
X
1n
+b
2
X
2n
+...+b
k
X
kn
+j
n
Si suponemos presencia de normalidad, las Y
i
son variables aleatorias independientes con medias y
varianzas: E( Y
i
)= b
0
+b
1
X
1i
+... +b
k
X
ki
Var ( Y
i
)= c
2
(i= 1,2,... , n) (46)
y los errores aleatorios j
i
se distribuyen segn una curva normal j- N( 0, c
2
) siendo independientes
los unos de otros.
Los parmetros b
k
representan el cambio en la respuesta promedio para un cambio igual a una
unidad de la correspondiente variable de prediccin X
ki
, cuando todos los dems regresores se mantienen
constantes. b
k
representa el efecto parcial de X
ki
sobre la respuesta.
Si por ejemplo estamos en presencia de un modelo: Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+b
3
X
1i
X
2i
+j
i
, b
3
refleja la
influencia sobre la variable respuesta ejercida por la interaccin entre X
1i
y X
2i
.
El modelo lineal general necesita slo una restriccin funcional: que sea lineal en los parmetros
desconocidos.
As surgen muchas alternativas de modelos. Por ejemplo, si se define: X
3i
= X
1i
X
2i
(i= 1,2,. .. , n) la
ecuacin Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+b
3
X
1i
X
2i
+j
i
puede reescribirse como un modelo de primer orden:
Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+b
3
X
3i
+j
i
.
Otro caso se da cuando X
ji
= X
i
j
(i= 1,2,... , n) ( j= 1,2,... , k) . As el modelo lineal general toma la
forma:
Y
i
= b
0
+b
1
X
i
+b
2
X
i
2
+...+b
k
X
i
k
+j
i
que es llamado modelo polinomial. (47)
En el modelo polinomial lo que se busca es el grado k que mejor se ajusta la curva de regresin.
Muchas veces el modelo ms preciso es el que incluye estas dos caractersticas, la forma polinomial y la
interaccin entre las mltiples variables de prediccin. Por ejemplo, para 2 variables de prediccin tenemos:
Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+b
3
X
1i
2
+b
4
X
2i
2
+b
5
X
1i
X
2i
+j
i
(48)
que se denomina ecuacin completa de segundo orden.
Para k2 variables de prediccin distintas, una ecuacin de regresin completa de segundo orden
consiste en un trmino constante, k trminos lineales, k trminos cuadrticos y
k (k1)
2
trminos de interaccin.
Para el ARM existe un supuesto adicional que para el anlisis de regresin simple: no debe existir una
relacin lineal exacta entre las X
i
, pues de lo contrario las ecuaciones que constituyen el sistema de
ecuaciones normales construido por MCO no son independientes.
Si dos o ms X
i
estn alta pero no perfectamente correlacionados, los

b
i
pueden ser calculados por
MCO pero los efectos de cada X
k
respecto a Y no pueden ser aislados.
27
2.1.1 Obtencin de los estimadores por MCO de los parmetros con dos variables independientes o
explicativas.
El mtodo de MCO para obtener los parmetros estimados en el ARM opera, al igual que en el ARS,
minimizando la suma del cuadrado de los residuos:

e
i
2
=

( Y
i


Y
i
)
2
=

( Y
i


b
0


b
1
X
1i


b
2
X
2i
)
2
(49)
1

e
i
2


b
0
=

( Y
i


b
0


b
1
X
1i


b
2
X
2i
)
2


b
0
= 0 2( Y
i


b
0


b
1
X
1i


b
2
X
2i
)= 0
Y
i
= n

b
0
+

b
1
X
1i
+

b
2
X
2i
Primera ecuacin normal (50)
2

e
i
2


b
1
=

( Y
i


b
0


b
1
X
1i


b
2
X
2i
)
2


b
1
= 0 2X
1i
( Y
i


b
0


b
1
X
1i


b
2
X
2i
)= 0

Y
i
X
1i
=

b
0

X
1i
+

b
1

( X
1i
)
2
+

b
2

X
2i
X
1i
Segunda ecuacin normal (51)
3

e
i
2


b
2
=

( Y
i


b
0


b
1
X
1i


b
2
X
2i
)
2


b
2
= 0 2X
2i
( Y
i


b
0


b
1
X
1i


b
2
X
2i
)= 0

Y
i
X
2i
=

b
0

X
2i
+

b
2

( X
2i
)
2
+

b
1

X
1i
X
2i
Tercera ecuacin normal (52)
Para el caso del anlisis de regresin mltiple con dos variables independientes,

b
0
es el trmino
constante de la interseccin de la regresin y est dado por el valor estimado para Y
i
cuando X
1i
= X
2i
= 0 .

b
1
mide el cambio en Y
i
para cada cambio de 1 unidad en X
1i
, mientras X
2i
se mantiene constante. El
parmetro

b
1
es un coeficiente de regresin parcial porque corresponde a la derivada parcial de Y con
respecto a X
1i
(
Y
X
1i
)
. El caso de

b
2
es anlogo a

b
1
.
Al expresar las ecuaciones normales en forma de desviacin podemos obtener los parmetros estimados
un poco ms fcilmente:
Tenemos que

Y
i
=

b
0
+

b
1
X
1i
+

b
2
X
2i
y

Y=

b
0
+

b
1

X
1
+

b
2

X
2
, definamos
y
i
y y
i
:
y
i
=

Y
i

Y=

b
1
(X
1i

X
1
)+

b
2
( X
2i

X
2
) o lo que es lo mismo
y
i
=

b
1
x
1i
+

b
2
x
2i
y y
i
= Y
i

Y (53)
Por otro lado e
i
= y
i
y
i
= y
i


b
1
x
1i


b
2
x
2i
. Entonces la suma del cuadrado de los residuos es:

e
i
2
=

( y
i


b
1
x
1i


b
2
x
2i
)
2
(54)
Los parmetros estimados se obtienen derivando la expresin anterior respecto a

b
1
y

b
2
e
igualando a 0:
1.-

e
i
2


b
1
=

( y
i


b
1
x
1i


b
2
x
2i
)
2


b
1
= 0 2x
1i
( y
i


b
1
x
1i


b
2
x
2i
)= 0

x
1i
y
i
=

b
1

x
1i
2
+

b
2

x
1i
x
2i

b
1
=
x
1i
y
i


b
2
x
1i
x
2i

x
1i
2
Primera ecuacin normal (55)
2.-

e
i
2


b
2
=

( y
i


b
1
x
1i


b
2
x
2i
)
2


b
2
= 0 2x
2i
( y
i


b
1
x
1i


b
2
x
2i
)= 0

x
2i
y
i
=

b
2

x
2i
2
+

b
1

x
1i
x
2i

b
2
=
x
2i
y
i


b
1
x
1i
x
2i

x
2i
2
Segunda ecuacin normal (56)
Sustituyamos

b
1
=
x
1i
y
i


b
2
x
1i
x
2i

x
1i
2

en
x
2i
y
i
=

b
2

x
2i
2
+

b
1

x
1i
x
2i
y obviemos los sub-i:
28
Anlisis de regresin mltiple

x
2
y=

b
2

x
2
2
+(
x
1
y

b
2
x
1
x
2

x
1
2
)

x
1
x
2
x
2
y

x
1
2
=

b
2

x
2
2

x
1
2
+(

x
1
y

b
2

x
1
x
2
)

x
1
x
2
x
2
yx
1
2
= x
1
yx
1
x
2


b
2
|(x
1
x
2
)
2
+x
1
2
x
2
2
Y as:

b
2
=

x
2
y

x
1
2

x
1
y

x
1
x
2
x
1
2
x
2
2
( x
1
x
2
)
2
(57)
Sustituyamos

b
2
=
x
2i
y
i


b
1
x
1i
x
2i

x
2i
2
en
x
1i
y
i
=

b
1

x
1i
2
+

b
2

x
1i
x
2i
y obviemos los sub-i:

x
1
y=

b
1

x
1
2
+(
x
2
y

b
1
x
1
x
2

x
2
2
)

x
1
x
2 x
1
yx
2
2
=

b
1
x
1
2
x
2
2
+x
2
yx
1
x
2


b
1
(x
1
x
2
)
2
x
1
yx
2
2
= x
2
yx
1
x
2


b
1
|( x
1
x
2
)
2
x
1
2
x
2
2
Y as:

b
1
=

x
1
y

x
2
2

x
2
y

x
1
x
2
x
1
2
x
2
2
( x
1
x
2
)
2
(58)
Por otro lado con la ecuacin:

Y=

b
0
+

b
1

X
1
+

b
2

X
2
obtenemos

b
0
(59)
Hacer estos clculos suele ser un proceso engorroso. El lgebra de matrices simplifica enormemente la
situacin. As, lo anterior usando matrices en R se puede resumir con las siguientes instrucciones:
>a <- read.table('a.txt')
>am<-as.matrix(a)
>x<- cbind(1, am[,2],am[,3],am[,4])
>y<-cbind(am[,1])
>xt <- t(x)
>b<-solve(xt%*%x)%*%xt%*%y
>b
Ms adelante aplicaremos estas instrucciones en el ejemplo N6.
2.1.2 Desarrollo de tcnicas de regresin para el ARM utilizando el lgebra de matrices.
Dada una muestra aleatoria de observaciones | Y
1
, Y
2
, ... , Y
n
en los puntos de observacin:
| X
11
, X
21
, ... , X
k1
, X
12
, X
22
,... , X
k2
, ... , X
1n
, X
2n
,... , X
kn
respectivamente, se establecen las n ecuaciones
siguientes:
Y
1
= b
0
+b
1
X
11
+b
2
X
21
+...+b
k
X
k1
+j
1
Y
2
= b
0
+b
1
X
12
+b
2
X
22
+...+b
k
X
k2
+j
2
.
.
.
Y
n
= b
0
+b
1
X
1n
+b
2
X
2n
+...+b
k
X
kn
+j
n
Lo que en forma matricial se expresa: Y= Xb+, donde: (59)
Y=
|
Y
1
Y
2

Y
n

X=
|
1 X
11
X
21
X
k1
1 X
12
X
22
X
k2

1 X
1n
X
2n
X
kn

b=
|
b
0
b
1

b
k

j=
|
j
1
j
2

j
n

Si suponemos presencia de normalidad:


Y - N( Xb, c
2
I) y j- N( 0, c
2
I) donde: Var ( Y)= Var(j)= c
2
I (60)
Resulta entonces que Y y j son vectores
1
de variables aleatorias independientes normalmente
distribuidas.
La estimacin matricial de los parmetros por MCO, da para las ecuaciones normales la misma forma
que para el anlisis de regresin simple:
( X' X)

b= X' Y Si ( X' X) tiene inversa, entonces:

b= ( X' X)
1
X' Y (61)
1 Matrices de slo una columna.
29
Es as que la ecuacin estimada de regresin es:

Y= X

b (62)
Las propiedades de los estimadores por MCO |

b
0,

b
1
, ... ,

b
k
son extensiones de las propiedades de
los estimadores del modelo lineal simple.
2.1.3 Ejemplo y trabajo con matrices en R.
Ejemplo N6: Regresin lineal de los aos de escolaridad sobre el % de pobreza, el resultado del
SIMCE en matemticas para los segundos medios y el % de desocupacin para las comunas de Santiago el ao
2006.
Los aos de escolaridad son un indicador importante del nivel
de progreso cultural y econmico de una sociedad. Suponemos que
existen diversos factores que influyen en que una persona contine sus
estudios o los detenga, entre otros, el nivel de pobreza, los resultados
acadmicos a nivel de enseanza media y el porcentaje de
desocupacin en una poblacin.
La base de datos N6 nos entrega informacin de los aos de
escolaridad ( Y
i
) , el % de poblacin pobre ( X
1i
) , los resultados de
la prueba SIMCE en matemticas para los 2 medios ( X
2i
) y el % de
desocupacin ( X
3i
) para las comunas del gran Santiago el ao 2006.
Aplicaremos una regresin lineal de los aos de escolaridad
sobre las variables ya enunciadas.
Obtengamos los coeficientes de la regresin:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
Con lo que nuestra ecuacin de regresin mltiple
queda como:
Y
i
= 7,0040,112 X
1i
+0,025 X
2i
0,152X
3i
(4,089) (5) (2,251)
Probemos la significacin estadstica de nuestros
parmetros estimados:
Para un 95% de significacin
2
y con 30 grados de libertad
(n-k= 34-4= 30), calculando con R obtenemos:
>qt(0.975,30)
[1] 2.042272
Por lo que nuestros tres coeficientes son significativos al
95%.
Calcularemos ahora los parmetros estimados utilizando el lgebra de matrices en R, esto es,

b= ( X' X)
1
X' Y
Construimos la matriz X. Para esto convertimos el data.frame que se forma mediante la instruccin
read.table en una matriz con la instruccin as.matrix y aadimos una primera columna de 1's, tal como hemos
2 Hacemos un test de dos colas, con lo que 1
o
2
= 1 0,05/2 = 0,975.
30
SALIDA N14
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals:
Min 1Q Median 3Q Max
-1.7851 -0.3802 0.0646 0.3693 1.1437
Coefficients:
Estimate Std. Error t value Pr(>|t|)
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.6573 on 30 degrees of freedom
Multiple R-squared: 0.8212, Adjusted R-squared: 0.8033
F-statistic: 45.91 on 3 and 30 DF, p-value: 2.504e-11
(Intercept) 7.004017 1.572577 4.454 0.000108 ***
a$V2 -0.111553 0.027281 -4.089 0.000299 ***
a$V3 0.024663 0.004933 5.000 2.33e-05 ***
a$V4 -0.151626 0.067370 -2.251 0.031895 *
BASE DE DATOS N6
COMUNA
Santiago 13,1 7,3 283 6,2
Cerrillos 10,4 8,3 259 9,3
Cerro Navia 9,1 17,5 215 9,4
Conchal 10,1 8,0 236 4,9
El Bosque 9,7 15,8 231 10,3



San Bernardo 9,7 20,9 246 8,6
San Joaqun 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramn 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2
Y
i
X
1i
X
2i
X
3i
FUENTE:
Aos de escolaridad, % de poblacin pobre,
resultados simce en matemticas para los 2 medios y % desocupados al 2006:
http://www.bcn.cl/siit/comunas_cifras
Anlisis de regresin mltiple
definido nuestra matriz X:
>am<-as.matrix(a)
>x<- cbind(1, am[,2],am[,3],am[,4])
Construimos la matriz Y:
>y<-cbind(am[,1])
Calculamos la transpuesta de X:
>xt <- t(x)
Y conociendo que la inversa de una matriz la obtenemos con la instruccin solve, la expresin

b= ( X' X)
1
X' Y tiene su equivalente en R como sigue:
>b<-solve(xt%*%x)%*%xt%*%y
Y llamamos al objeto b, obteniendo (Salida n15):
>b
Que como vemos coincide con los resultados ya obtenidos.
2.2 INTERVALOS DE CONFIANZA
2.2.1 La varianza residual: S
2
La varianza residual en trminos matriciales se define como: S
2
=
Y' Y

b' X' Y
nk
(63)
donde de manera anloga al ARS, Y ' Y

b' X' Y es la suma del cuadrado de los residuos y n-k es igual al


nmero de observaciones menos el nmero de parmetros que figuran en el modelo.
Segn R, el error standard residual del ejemplo N6 es: 0,6573.
Segn la forma algebraica S
2
=

e
i
2
nk
. Verifiqumoslo: S
2
=
12,963
(344)
= 0,432 con lo que S= 0,657
Calculemos lo mismo pero en forma matricial con R:
Ya hemos construido nuestras matrices Y, la
transpuesta de X y b
Obtengamos la transpuesta de Y y de
b :
>yt <- t(y)
>bt <- t(b)
Entonces las instrucciones en R anlogas a
Y' Y

b' X' Y
nk
y
.
Y' Y

b' X' Y
nk
para los estimadores de
la varianza residual y la desviacin standard residual
respectivamente son
3
:
>(yt%*%y-bt%*%xt%*%y)/30 obteniendo:
3 R tambin es una calculadora.
31
SALIDA N 15
[,1]
[1,] 7.00401718
[2,] -0.11155272
[3,] 0.02466273
[4,] -0.15162602
TABLA N13
COMUNA
Santiago 13,1 7,3 283 6,2 12,229 0,758
Cerrillos 10,4 8,3 259 9,3 11,056 0,430
Cerro Navia 9,1 17,5 215 9,4 8,929 0,029
Conchal 10,1 8,0 236 4,9 11,189 1,186
El Bosque 9,7 15,8 231 10,3 9,377 0,104



San Bernardo 9,7 20,9 246 8,6 9,436 0,070
San Joaqun 10,7 7,4 233 7,4 10,803 0,011
San Miguel 12,3 2,5 237 4,6 11,873 0,183
San Ramn 9,6 16,7 245 7,9 9,986 0,149
Vitacura 14,6 4,4 325 3,2 14,043 0,310
Y
i
X
1i
X
2i
X
3i
e
i
e
i
2
e
i
2
= 12,963
SALIDA N16
[,1]
[1,] 0.4320875
y
>sqrt((yt%*% y-bt%*%xt%*%y)/30) obteniendo:
2.2.2 La varianza de los parmetros estimados
1. Cada

b
j
es un estimador insesgado de b
j
. E(

b
j
)= b
j
para j= 0,1,2,... , k y
2. La varianza de los parmetros verdaderos es: Var (b
j
)= C
( j +1)
c
2
para j= 0,1,2,... , k donde C
( j+1)

es el elemento de la diagonal (j+1) de ( X' X)
1
Para nuestro ejemplo:
>solve(xt%*%x) = ( X' X)
1
=
Ahora, la varianza de los parmetros estimados es: Var (

b
j
)= C
( j +1)
S
2
= S
2
(

b
j
) para j= 0,1,2,... , k (64)
Calculemos la desviacin standard para los parmetros estimados de nuestro ejemplo y comparemos
con los que obtuvimos con R
4
.
S
2
(

b
0
)= C
1
S
2
= 5,723371100,4320875= 2,47299711 S(

b
0
)= 1,57257658
S
2
(

b
1
)= C
2
S
2
= 0,00172251 0,4320875= 0,00074428 S(

b
1
)= 0,02728147
S
2
(

b
2
)= C
3
S
2
= 0,00005631 0,4320875= 0,00002433 S(

b
2
)= 0,00493255
S
2
(

b
3
)= C
4
S
2
= 0,010504280,4320875= 0,00453877 S(

b
3
)= 0,06737039
Como vemos, todas las desviaciones standard de los parmetros estimados coinciden con los
entregados por R.
2.2.3 Los valores t de los parmetros estimados.
(

b
j
b
j
)
S(

b
j
)
para j= 0,1,2,... , k (65)
es una variable aleatoria t de student con n-k grados de libertad.
La estadstica apropiada para probar la hiptesis nula: H
0
: b
j
=0 contra cualquier hiptesis alternativa,
es la t de student:
t=

b
j
b
j
S(

b
j
)
-

b
j
S(

b
j
)
para j= 0,1,2,... , k con n-k grados de libertad.
Calculemos y observemos que coinciden los valores obtenidos con R:
t
0
=

b
0
S(

b
0
)
=
7,00401718
1,57257658
= 4,454 t
1
=

b
1
S(

b
1
)
=
0,11155272
0,02728147
=4,089
t
2
=

b
2
S(

b
2
)
=
0,02466273
0,00493255
= 5 t
3
=

b
3
S(

b
3
)
=
0,15162602
0,06737039
=2,251
Ya hemos obtenido que para un 95% de significacin y con 30 grados de libertad:
t
(1
0.05
2
, 30)
= 2.042272
,
as los cuatros coeficientes estimados son estadsticamente significativos al 95%.
4 Para evitar errores de redondeo utilizaremos 8 decimales.
32
SALIDA N17
[,1]
[1,] 0.6573336
SALIDA N18
[1,] [2,] [3,] [4,]
[1,] 5,7233711000 -0,0333771990 -0,0173353265 -0,1389501476
[2,] -0,0333772000 0,0017225115 0,0001005538 -0,0012987022
[3,] -0,0173353300 0,0001005538 0,0000563115 0,0003028544
[4,] -0,1389501500 -0,0012987022 0,0003028544 0,0105042786
Anlisis de regresin mltiple
2.2.4 Construccin de los intervalos de confianza para los parmetros estimados.
El intervalo de confianza del 100( 1o) % para el parmetro

b
j
resulta:

b
j
!t
( 1
o
2
, nk)
S(

b
j
)
j= 0,1,2,. .. , k entonces, como
t
(1
0.005
2
, 30)
=2.042272
(66)

b
0
!t
( 1
0,05
2
, 30)
S(

b
0
)=
7,00401718!2,042272 1,57257658= | 3,792 ;10,216

b
1
!t
( 1
0,05
2
, 30)
S (

b
1
)=
0.11155272!2,042272 0,02728142= |0,167;0,056

b
2
!t
( 1
0,05
2
, 30)
S(

b
2
)=
0.02466273!2,042272 0,00493255= | 0,015 ;0,035

b
3
!t
( 1
0,05
2
, 30)
S(

b
3
)=
0.15162602!2,042272 0,06737039= |0,289 ;0,014
En R, la instruccin con la que se obtienen los intervalos de confianza es confint. Comparemos con los
resultados ya obtenidos.
>confint(a, level= 0.95)
Vemos que ambos resultados coinciden.
2.3 EL COEFICIENTE DE DETERMINACIN MLTIPLE
Es definido como la proporcin de la variacin total en Y
i
explicada por la regresin mltiple de Y
sobre X
1i
y X
2i
(para el caso de dos variables independientes) y se calcula de la siguiente manera:
Establezcamos las variables en forma de desviacin:
Sean:
x
i
= X
i

X
y
i
= Y
i

Y y
y
i
=

Y
i

Y
R
2
se define como
R
2
= 1

e
i
2

y
i
2
0 R
2
1
(67)
Existen varias equivalencias:
R
2
=

(

Y
i

Y)
2

( Y
i

Y)
2
=


y
i
2

y
i
2
=
SCR
STC
= 1

( Y
i


Y
i
)
2

( Y
i

Y)
2
= 1
SCE
STC
=

b
1

YX
1
+

b
2

Y X
2

Y
i
2
(68)
Demostremos la ltima relacin por ser la menos evidente:

e
i
2
=

e
i
( Y
i

Y
i
)=

e
i
( Y
i


b
1
X
1i


b
2
X
2i
)=

e
i
Y
i


b
1

e
i
X
1i


b
2

e
i
X
2i
Por el proceso de MCO:

e
i
2


b
1
= e
i
X
1i
= 0 y

e
i
2


b
2
= e
i
X
2i
= 0
Es entonces que:

e
i
2
=

e
i
Y
i
=

( Y
i

Y
i
) Y
i
=

Y
i
( Y
i


b
1
X
1i


b
2
X
2i
)=

Y
i
2


b
1

Y
i
X
1i


b
2

Y
i
X
2i
Sustituyendo en: R
2
= 1

e
i
2

y
i
2
obtenemos:
R
2
= 1
(

Y
i
2


b
1

Y
i
X
1i


b
2

Y
i
X
2i
)

Y
i
2
o lo que es lo mismo:
R
2
=

b
1
Y
i
X
1i
+

b
2
Y
i
X
2i

Y
i
2
33
SALIDA N19
2,5% 97,5%
(Intercept) 3,79238725 10,21564712
a$V2 -0,16726880 -0,05583663
a$V3 0,01458882 0,03473665
a$V4 -0,28921469 -0,01403736
La inclusin de variables independientes adicionales probablemente incremente el valor SCR para el
mismo STC lo que hace que R
2
aumente.
R
2
mide la proporcin de la variacin total de las observaciones con respecto a su media, atribuible a
la ecuacin de regresin estimada.
Por si solo, R
2
no puede validar el modelo propuesto, como tampoco un R
2
1 implica
necesariamente que la ecuacin de regresin estimada sea apropiada para predecir.
Para nuestro ejemplo:
Tenemos entonces que:
R
2
=


y
i
2

y
i
2
=
SCR
STC
= 1
SCE
STC
equivale
para nuestro ejemplo a:
59,516
72,477
= 1
12,963
72,477
= 0,821 que
coincide con el valor entregado por R.
2.3.1 R
2
ajustado o

R
2
El problema con R
2
es que no toma en consideracin los grados de libertad.
R
2
se usa para
incorporar el efecto tanto del tamao de la muestra como del nmero de parmetros del modelo.
R
2
siempre
es menor a R
2
y no puede forzarse hacia 1 slo por el hecho de agregar mas variables independientes al
modelo.
Por eso es preferible utilizar
R
2
que se define como:

R
2
= 1
( 1R
2
)( n1)
( nk)
donde: (69)
n : nmero de observaciones.
k: : nmero de parmetros estimados.
Para nuestro ejemplo:

R
2
= 1
(1R
2
)( n1)
(nk)
= 1
( 10,821)( 33)
( 30)
= 0,803 que coincide con el resultado
de R cuadrado ajustado entregado por R.
El rango de valores para

R
2
es:
cuando k=1,
(n1)
(nk )
= 1 y R
2
=

R
2
;
cuando k>1,
(n1)
(nk )
> 1 y R
2
>

R
2
;
cuando n es grande, frente a un k dado,
(n1)
(nk )
1 y R
2

R
2
y
cuando k es grande en relacin a n,
R
2
ser mucho menor que R
2
, pudiendo incluso ser negativo.
(an cuando 0 R
2
1 )
La suma del cuadrado de los residuos (

e
i
2
) , requerido para realizar los test de significacin, puede
ser determinado sin antes encontrar

Y
i
: Siendo
R
2
=

b
1
Y
i
X
1i
+

b
2
Y
i
X
2i

Y
i
2
, como R
2
= 1

e
i
2

y
i
2
;

e
i
2
= (1R
2
)

y
i
2
Este mtodo implica muchos menos clculos que utilizando

Y
i
.
34
TABLA N14
COMUNA
Santiago 13,1 7,3 283 6,2 12,229 1,674 0,758 -211,785
Cerrillos 10,4 8,3 259 9,3 11,056 0,015 0,430 53,816
Cerro Navia 9,1 17,5 215 9,4 8,929 4,025 0,029 186,898
Conchal 10,1 8,0 236 4,9 11,189 0,064 1,186 84,227
El Bosque 9,7 15,8 231 10,3 9,377 2,429 0,104 125,055



San Bernardo 9,7 20,9 246 8,6 9,436 2,249 0,070 125,055
San Joaqun 10,7 7,4 233 7,4 10,803 0,018 0,011 23,585
San Miguel 12,3 2,5 237 4,6 11,873 0,879 0,183 -134,608
San Ramn 9,6 16,7 245 7,9 9,986 0,902 0,149 135,312
Vitacura 14,6 4,4 325 3,2 14,043 9,661 0,310 -353,041
59,516 12,963 72,477

Y
i
X
1i
X
2i
X
3i

Y
i
(

Y
i

Y)
2
( Y
i


Y
i
)
2
( Y
i

Y)
2
Anlisis de regresin mltiple
2.4 PREDICCIN
2.4.1 Intervalo de confianza para la respuesta promedio cuando las k variables de prediccin toman
los valores especficos |1, X
1i
, X
2i
, , X
ki

Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuacin de


regresin estimada, entonces un vector particular
X
i
se puede denotar como |1, X
1i
, X
2i
, , X
ki
.
La respuesta promedio estimada

Y
i
= X
i

b ser por lo tanto:



b
0
+

b
1
X
1
+

b
2
X
2
+...+

b
k
X
k
y la estimacin
de la varianza real ( Var( Y
i
)= c
2
I) ser: S
2
|X
i
'
( X
'
X)
1
X
i
donde S
2
es , como ya hemos visto, la varianza
residual.
Asumiendo normalidad, un intervalo de confianza del 100(1o) % para la respuesta promedio en
X
i
es:

Y
i
!t
( 1
o
2
, nk)
S

.
| X
i
'
( X
'
X)
1
X
i
(70)
2.4.1.1 Clculo de los intervalos de confianza usando el lgebra de matrices con R.
La expresin que buscamos es:

Y
i
!t
( 1
o
2
, nk)
S

.
| X
i
'
( X
'
X)
1
X
i
. Consideremos el siguiente ejemplo:
Ejemplo N7: El ndice de desarrollo humano
El ndice de desarrollo humano (IDH) mide el nivel que ha alcanzado un pas en tres indicadores bsicos
de bienestar: una vida larga, educacin (ponderado en dos tercios la tasa de alfabetizacin y un tercio el
promedio de las tasas brutas de matrcula primaria, secundaria y terciaria) y un nivel de vida digno, medido por el
PIB per cpita
5
(estandarizado en paridad de poder adquisitivo en dlares norteamericanos). El valor de cada
componente se expresa como un valor entre 0 y 1 y se calcula el IDH como el promedio simple de estos
indicadores.
La base de datos N7 nos entrega los valores de la espectativa de vida al nacer en aos ( Y
i
) , el PIB
PPA per capita (US$) ( X
1i
) , y el ndice de educacin ( X
2i
) para 175 pases al 2007.
Ejecutemos una regresin lineal de la espectativa de vida al nacer sobre el PIB PPA per capita y el ndice
de educacin.
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
5 Se ajusta el ingreso debido a que para lograr un nivel digno de desarrollo humano no se requiere un ingreso ilimitado. En consecuencia, se utiliza
su logaritmo.
35
SALIDA N20
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-21.344 -2.199 1.216 3.632 12.576
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.680e+01 2.283e+00 16.120 < 2e-16 ***
a$V2 1.794e-04 3.701e-05 4.847 2.79e-06 ***
a$V3 3.665e+01 3.107e+00 11.794 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 6.07 on 172 degrees of freedom
Multiple R-squared: 0.6573,Adjusted R-squared: 0.6533
F-statistic: 164.9 on 2 and 172 DF, p-value: < 2.2e-16
BASE DE DATOS N7
PAS
Afghanistan 43,6 1054 0,35
Albania 76,5 7041 0,89
Algeria 72,2 7740 0,75
Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95



Vanuatu 69,9 3666 0,73
Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
Y
i
X
1i
X
2i
FUENTE:
http://hdrstats.undp.org/es/indicators
Nuestra ecuacin de regresin mltiple queda como:
Y
i
= 36,8+0,0001794 X
1i
+36,65 X
2i
(16,12) (4,847) (11,794)
Calculemos la estadstica t al 95% de significacin:
>qt(0.975,172)
[1] 1.973852
Con lo que nuestros parmetros estimados son estadsticamente significativos al 95%.
Obtengamos los valores de
.
| X
i
'
( X
'
X)
1
X
i
utilizando el lgebra de matrices en R. El
resultado de estas operaciones lo obtenemos en la salida N21.
>a <- read.table('a.txt')
>am<-as.matrix(a)
>x<- cbind(1, am[,2],am[,3])
>xt <- t(x)
>sqrt(x%*%solve(xt%*%x)%*%xt)
>ad<-diag(sqrt(x%*%solve(xt%*%x)%*%xt))
>adt<-t(ad)
>adt
Y conociendo que la inversa de una matriz la obtenemos con la instruccin solve, la
expresin

b= ( X' X)
1
X' Y tiene su equivalente en R como sigue:
Hemos obtenido que
t
(1
0.05
2
, 172)
= 1.973852
y de la salida de R S= 6,07
En la tabla N15 hemos hecho los clculos para obtener algebraicamente los valores de los intervalos de
confianza para la variable respuesta estimada

Y
i
:
La instruccin en R para obtener los intervalos de confianza bajo el contexto de un ARM al 95% de
confianza es: predict.lm(a1,interval="confidence", level = 0.95)
Comparemos con los resultados que ya hemos obtenido previamente:
>a<- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>predict.lm(a1,interval="confidence", level = 0.95)
2.4.2 Intervalo de prediccin para la respuesta particular cuando las k variables de prediccin toman
los valores especficos |1, X
1i
, X
2i
, , X
ki

Si X es la matriz de los valores de las variables independientes, la cual da origen a la ecuacin de


regresin estimada, entonces un vector particular X
i
se puede denotar como |1, X
1i
, X
2i
, , X
ki
.
36
TABLA N15
PAS
Afghanistan 43,6 1054 0,35 49,963 0,210 47,442 52,484
Albania 76,5 7041 0,89 70,535 0,107 69,257 71,813
Algeria 72,2 7740 0,75 65,603 0,080 64,642 66,564
Angola 46,5 5385 0,67 62,212 0,093 61,100 63,324
Argentina 75,2 13238 0,95 73,846 0,109 72,539 75,153



Vanuatu 69,9 3666 0,73 64,139 0,089 63,073 65,205
Venezuela 73,6 12156 0,92 72,735 0,101 71,524 73,947
Viet Nam 74,3 2600 0,81 66,953 0,102 65,735 68,171
Yemen 62,5 2335 0,57 58,256 0,122 56,799 59,713
Zambia 44,5 1358 0,68 62,039 0,098 60,870 63,207
Y
i
X
1i
X
2i

Y
i .
| X
i
'
( X
'
X)
1
X
i


Y
i
t
(1
o
2
,nk )
S
.
| X
i
'
( X
'
X)
1
X
i


Y
i
+t
(1
o
2
,nk )
S
.
| X
i
'
( X
'
X)
1
X
i

SALIDA N21
0,2104009
0,1066846
0,0802109
0,0928063
0,1091066

0,0889951
0,1010908
0,1016238
0,1215859
0,0975262
.
| X
i
'
( X
'
X)
1
X
i

Anlisis de regresin mltiple


La respuesta promedio estimada

Y
i
= X
i

b ser por lo tanto:

b
0
+

b
1
X
1
+

b
2
X
2
+...+

b
k
X
k
y la estimacin de la varianza real
( Var( Y
i
)= c
2
+c
2
I) ser: S
2
|1+X
i
'
( X
'
X)
1
X
i
donde S
2
es , como
ya hemos visto, la varianza residual.
Asumiendo normalidad, un intervalo de prediccin del 100(1o)
% para la respuesta promedio en X
i
es:

Y
i
!t
( 1
o
2
, nk)
S

.
|1+X
i
'
( X
'
X)
1
X
i
(71)
2.4.2.1 Clculo de los intervalos de prediccin usando el lgebra
de matrices con R.
La expresin que buscamos es:

Y
i
!t
( 1
o
2
, nk)
S

.
|1+X
i
'
(X
'
X)
1
X
i
.
Obtengamos los valores de
.
|1+X
i
'
(X
'
X)
1
X
i
utilizando el lgebra de matrices en R.
El resultado de esta operacin lo obtenemos en la salida N23.
>a <- read.table('a.txt')
>am<-as.matrix(a)
>x<- cbind(1, am[,2],am[,3])
>xt <- t(x)
>sqrt(1+x%*%solve(xt%*%x)%*%xt)
>ad<-diag(sqrt(1+x%*%solve(xt%*%x)%*%xt))
>adt<-t(ad)
>adt
En la tabla N16 hemos hecho los clculos para obtener algebraicamente los valores de
los intervalos de prediccin para la variable respuesta estimada

Y
i
:
La instruccin
en R para obtener
los intervalos de
confianza bajo el
contexto de un
ARM al 95% de
confianza es:
>predict.lm(a1,interval="p", level = 0.95)
Comparemos con los resultados que ya hemos obtenido
previamente:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>predict.lm(a1,interval="p", level = 0.95)
37
TABLA N16
PAS
Afghanistan 43,6 1054 0,35 49,963 1,022 37,720 62,207
Albania 76,5 7041 0,89 70,535 1,006 58,486 82,584
Algeria 72,2 7740 0,75 65,603 1,003 53,583 77,623
Angola 46,5 5385 0,67 62,212 1,004 50,179 74,244
Argentina 75,2 13238 0,95 73,846 1,006 61,793 85,898



Vanuatu 69,9 3666 0,73 64,139 1,004 52,110 76,168
Venezuela 73,6 12156 0,92 72,735 1,005 60,693 84,778
Viet Nam 74,3 2600 0,81 66,953 1,005 54,910 78,996
Yemen 62,5 2335 0,57 58,256 1,007 46,186 70,326
Zambia 44,5 1358 0,68 62,039 1,005 50,001 74,077

Y
i
t
(1
o
2
,nk)
S
.
|1+X
i
'
( X
'
X)
1
X
i


Y
i
+t
(1
o
2
,nk )
S
.
|1+X
i
'
( X
'
X)
1
X
i

.
| 1+X
i
'
( X
'
X)
1
X
i
Y
i
X
1i
X
2i

Y
i
SALIDA N22
fit lwr upr
1 49,81284 47,29185 52,33383
2 70,67753 69,39925 71,95580
3 65,67201 64,71094 66,63309
4 62,31759 61,20560 63,42958
5 73,98820 72,68090 75,29549



171 64,20817 63,14185 65,27450
172 72,69461 71,48336 73,90586
173 66,94889 65,73125 68,16653
174 58,10550 56,64868 59,56233
175 61,96166 60,79312 63,13021
SALIDA N24
fit lwr upr
1 49,81284 37,56866 62,05702
2 70,67753 58,62769 82,72736
3 65,67201 53,65169 77,69234
4 62,31759 50,28426 74,35092
5 73,98820 61,93525 86,04115



171 64,20817 52,17897 76,23737
172 72,69461 60,65170 84,73752
173 66,94889 54,90533 78,99244
174 58,10550 46,03542 70,17559
175 61,96166 49,92297 74,00035
SALIDA N23
1,0218950
1,0056750
1,0032120
1,0042970
1,0059350

1,0039520
1,0050970
1,0051500
1,0073640
1,0047440
.
| 1+X
i
'
( X
'
X)
1
X
i

2.5 EL TEST DE SIGNIFICACIN GENERAL DE LA REGRESIN: LA ESTADSTICA F


2.5.1 La estadstica F.
La significacin global para la regresin puede ser probada con la proporcin de varianza explicada
respecto a la inexplicada. sta sigue una distribucin F con (k-1) y (n-k) grados de libertad donde:
F
(k1, nk)
=

y
i
2
k1
e
i
2
nk
=
R
2
k1
1R
2
nk
demostremos la ltima igualdad. (72)
Consideremos las variables en forma de desviacin:
x
i
= X
i

X
y
i
= Y
i

Y
y
i
=

Y
i

Y
Resulta as que:

y
i
2
k1

e
i
2
nk
=

y
i
2
( nk)

e
i
2
(k1)
=

y
i
2

y
i
2
(nk)

e
i
2

y
i
2
( k1)
=
R
2
(1R
2
)
(nk)
( k1)
=
R
2
( k1)
(
1R
2
(nk)
)
Recordemos que: R
2
=

y
i
2

y
i
2
=
SCR
STC
y
SCE
STC
=

e
i
2

y
i
2
= 1R
2
donde:
n: nmero de observaciones.
k: nmero de parmetros estimados.
Se establece el siguiente set de hiptesis: H
0
: b
1
= b
2
= ...= b
k
= 0
La hiptesis nula H
0
implica que ninguna de las variables independientes ayuda a explicar la variacin
de la variable dependiente (referida a su media).
La hiptesis alternativa resulta entonces H
1
: b
i
0 al menos para un valor de b
i
Un valor alto de F sugiere una relacin significativa entre la variable dependiente y las independientes, lo
que nos lleva a rechazar H
0
.
Frmulas para las varianzas explicada e inexplicada (esta ltima tambin llamada varianza residual):
Varianza Explicada:

(

Y
i

Y)
2
k1
=
SCR
(k1)
=

y
i
2
(k1)
(73)
Varianza Inexplicada:

( Y
i


Y
i
)
2
nk
=
SCE
(nk)
=

e
i
2
(nk)
(74)
Ejemplo N8: Embarazo adolescente, abuso de alcohol y familias monoparentales en EE.UU
El embarazo adolescente es un problema mundial que acarrea mltiples consecuencias. Una de las ms
dramticas es que stas jvenes en su gran mayora debern tener la responsabilidad de mantener solas a sus
hijos bajo condiciones econmicas muchas veces precarias, negando su propia adolescencia.
El bajo nivel educativo de los padres, las limitadas aspiraciones profesionales de las jvenes, las actitudes
ambivalentes o positivas hacia el embarazo de las adolescentes, las estudiantes con las calificaciones ms bajas
y aquellas quienes se involucran en actividades delictivas han sido identificadas como factores claves al
momento de la iniciacin sexual y el primer embarazo.
38
Anlisis de regresin mltiple
Sin embargo, nosotros relacionaremos la tasa de embarazo
adolescente con otros dos factores quizs ms relevantemente asociados: el
consumo de alcohol y las familias monoparentales, pues se ha demostrado
que vivir en un hogar con un solo padre o la ausencia del padre aumenta el
riesgo de embarazo prematuro mientras que los hijos criados por ambos
padres disfrutan de estndares de bienestar ms altos en casi cualquier
aspecto. Por otro lado, asimismo el consumo inadecuado de alcohol es uno
de los factores claramente asociados al inicio temprano de relaciones
sexuales y por lo tanto al embarazo adolescente.
La base de datos N8 nos entrega los valores de la tasa de embarazo
adolescente para mujeres entre los 15 y los 19 aos para el ao 2000 (cada
1000 habitantes) ( Y
i
) , el % de personas entre los 12 y 17 aos que report
haber consumido alcohol el mes pasado para el ao 2002 ( X
1i
) , y el % de
nios bajo los 18 aos viviendo en familias con un solo padre al 2004 ( X
2i
) ,
para los 50 estados
norteamericanos ms Washington
D.C.
Primero ejecutemos una
regresin lineal para obtener los
parmetros estimados:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
Nuestra ecuacin de regresin mltiple queda como:
Y= 88,50122,7093 X
1
+1,1986 X
2
( 4,714) (3,311) (4,416)
F
(k1, nk)
=


y
i
2
k1
e
i
2
nk
= F
( 2,48)
=
8107.66
2
10368.736
48
= 18,766
Que vemos coincide con el resultado entregado por R:
Verifiquemos
algebraicamente las relaciones de F
para nuestro ejemplo (Tabla N17).
39
SALIDA N25
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-41.3044 -7.1242 -0.5424 11.4843 34.3829
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 88.5012 18.7750 4.714 2.12e-05 ***
a$V2 -2.7093 0.8183 -3.311 0.00177 **
a$V3 1.1986 0.2714 4.416 5.69e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 14.7 on 48 degrees of freedom
Multiple R-squared: 0.4388, Adjusted R-squared: 0.4154
F-statistic: 18.77 on 2 and 48 DF, p-value: 9.515e-07
TABLA N17
ESTADO
Alabama 90 15,73 37 90,232 153,490 0,054 147,793
Alaska 73 15,61 30 82,167 18,697 84,034 23,455
Arizona 104 18,47 33 78,014 0,029 675,260 684,189
Arkansas 93 15,65 35 88,052 104,217 24,486 229,735
California 96 15,24 31 84,368 42,577 135,302 329,677



Virginia 72 18,28 29 73,735 16,879 3,009 34,141
Washington 75 16,26 29 79,207 1,862 17,702 8,083
West Virginia 67 20,12 62 108,303 927,829 1705,961 117,571
Wisconsin 55 18,7 31 74,994 8,117 399,756 521,803
Wyoming 77 18,99 28 70,612 52,282 40,802 0,711
8107,660 10368,736 18476,745
( Y
i

Y)
2
( Y
i


Y
i
)
2
(

Y
i

Y)
2
Y
i
X
2i
X
1i
Y
i

Y= 77,843
FUENTES:
Tasa de embarazo adolescente en mujeres de 15- a 19 aos, 2000 (tasa por 1,000)
http://www.thenationalcampaign.org/state-data/state-comparisions.asp?id=3&sID=18
% de personas entre los 12 y 17 aos que report haber consumido alcohol el pasado mes el ao 2002
http://www.drugabusestatistics.samhsa.gov/2k2State/html/appA.htm
Porcentaje de ni os bajo 18 aos viviendo con familias lideradas por un solo padre 2004
http://www.thenationalcampaign.org/state-data/state-comparisions.asp?id=8&sID=5
BASE DE DATOS N8
ESTADO
Alabama 90 15,73 37
Alaska 73 15,61 30
Arizona 104 18,47 33
Arkansas 93 15,65 35
California 96 15,24 31



Virginia 72 18,28 29
Washington 75 16,26 29
West Virginia 67 20,12 62
Wisconsin 55 18,70 31
Wyoming 77 18,99 28
Y
i
X
1i
X
2i
Si el valor F calculado excede el valor tabulado de la F especfica al nivel de significacin elegido y los
grados de libertad dados, se acepta H
1
. En nuestro ejemplo, el valor F calculado para un 95% de significacin
con 2 y 48 grados de libertad es:
>qf(0.95,2,48)
[1] 3.190727 3,191 < 18,766 con lo que aceptamos la hiptesis alternativa.
F puede ser grande y sin embargo ninguno de los parmetros estimados ser estadsticamente
significativos. Esto puede ocurrir cuando las variables independientes estn altamente correlacionadas las unas
con las otras (este problema, denominado multicolinealidad, lo estudiaremos en la seccin 3, captulo 4:
Multicolinealidad).
2.5.2 Tabla ANOVA para el modelo lineal general.
2.5.3 Clculo de la tabla ANOVA utilizando el lgebra de matrices en R.
Calculemos la matriz X, la Y, la traspuesta de X, la transpuesta de Y, b
y la transpuesta de b:
>a <- read.table('a.txt')
>am<-as.matrix(a)
>x<- cbind(1, am[,2],am[,3])
>y<-cbind(am[,1])
>xt <- t(x)
>yt <- t(y)
>b<-solve(xt%*%x)%*%xt%*%y
>bt <- t(b)
Calculemos las siguientes expresiones para obtener los cuadrados medios:
Y'Y-b'X'Y = yt%*%y- bt%*%xt%*%y = 10368.74
b'X'Y = bt%*%xt%*%y = 317145.3
Y'Y = yt%*%y = 327514
Y como por otro lado obtenemos que:
(Y
i
)
2
n
= 309036,165
40
TABLA N19
Suma de los
cuadrados
= 18477,835
= 10368,74
= 8109,135
(Y
i
)
2
n
b' X' Y' SCR=
Y ' Yb' X' Y SCE=

(Y
i
)
2
n
Y ' Y STC=
TABLA N18
Fuente de Grado de Suma de los Cuadrados
variacin libertad Cuadrados Medios


SCR
(k1)
SCE
( nk)
=
CMR
CME
Regresin
Error
Total
k1
nk
n1
SCR=
SCE=
STC=
b' X' Y'
(Y
i
)
2
n
Y ' Yb' X' Y
Y ' Y
(Y
i
)
2
n
SCR
(k1)
SCE
(nk)
F
TABLA N20
Fuente de Grado de Suma de los Cuadrados
variacin libertad Cuadrados Medios


Regresin
Error
Total
F
2
48
50
8109,135
10368,74
18477,835
317026,486
2
10368,74
48
CMR
CME
= 18,77
Anlisis de regresin mltiple
Si un valor de F es lo suficientemente grande, entonces una porcin considerable de la variacin en las
observaciones puede atribuirse a la regresin de Y sobre las variables de prediccin tal como se encuentran
definidas por el modelo.
Hemos visto que F se relaciona con R de la siguiente manera: F=


y
i
2
k1
e
i
2
nk
=
R
2
k1
1R
2
nk
Para nuestro ejemplo: R
2
= 0,439
(
R
2
k1
)
(
1R
2
nk
)
=
0,439
2
0,561
48
=
0,2195
0,0116875
= 18,781= F
La estadstica F como una prueba de significacin del poder explicativo de todas las variables
independientes conjuntamente, es aproximadamente equivalente a probar la significacin de la estadstica
R
2
. Si H
1
es aceptada podramos esperar que R
2
y por lo tanto F sean altas.
2.6 LOS COEFICIENTES DE CORRELACIN PARCIAL (CCP)
Los CCP miden la correlacin entre la variable dependiente y una variable independiente despus de
excluir la influencia comn de las otras variables independientes en el modelo (mantenindolas constantes). Los
CCP son usados en el anlisis de regresin mltiple para determinar la importancia relativa de cada variable
independiente en el modelo. La variable independiente con el mayor CCP con respecto a la variable
dependiente es la que ms contribuye al poder explicativo del modelo.
Por ejemplo,
r
Y X
1
X
2
es la correlacin parcial entre Y y X
1
despus de remover la influencia de X
2
tanto de Y como de X
1
.
Para el caso de un modelo con dos variables independientes:
r
Y X
1
X
2
=
r
Y X
1
r
Y X
2
r
X
1
X
2
.
1r
X
1
X
2
2
.
1r
YX
2
2
y
r
Y X
2
X
1
=
r
YX
2
r
Y X
1
r
X
1
X
2
.
1r
X
1
X
2
2
.
1r
YX
1
2
Donde: (75)
r
Y X
1
es el coeficiente de correlacin simple entre Y y X
1
,
r
Y X
2
es el coeficiente de correlacin simple entre Y y X
2
y
r
X
1
X
2
es el coeficiente de correlacin simple entre X
1
y X
2
Los coeficientes de correlacin parcial varan de -1 a 1 (la misma variacin que los coeficientes de
correlacin simple) y tienen el signo del parmetro estimado correspondiente (
r
Y X
1
X
2
tiene el mismo signo que

b
1
y
r
Y X
2
X
1
tiene el mismo signo que

b
2
) La suma de los CCP entre las variables independientes y la
variable dependiente en el modelo no debe superar el valor de 1.
Para nuestro ejemplo calculemos los coeficientes de correlacin parcial:
La siguiente instruccin en R calcula una matriz de correlaciones con 1 en la diagonal, las correlaciones
simples en el tringulo inferior y las correlaciones parciales en el tringulo superior. (Debemos bajar y llamar la
librera ggm)
>a <- read.table('a.txt')
>library(ggm)
>correlations(a)
r
Y X
1
X
2
= -1 Se refiere al caso donde hay una perfecta relacin lineal negativa entre Y y X
1
despus de
remover la influencia comn de X
2
sobre Y y X
1
.
41
SALIDA N26
V1 V2 V3 V4
V1 1,0000000 -0,5982236 0,6741887 -0,3800718
V2 -0,7392548 1,0000000 0,2122357 -0,0010714
V3 0,8006118 -0,5062053 1,0000000 -0,0127640
V4 -0,6750090 0,4970814 -0,5462974 1,0000000
r
Y X
1
X
2
= 1 Se refiere al caso donde hay una perfecta relacin lineal positiva entre Y y X
1
despus de
remover la influencia comn de X
2
sobre Y y X
1
.
r
Y X
1
X
2
= 0 Se refiere al caso en el que no existe una relacin lineal entre Y y X
1
despus de remover la
influencia comn de X
2
sobre Y y X
1
. Por consiguiente X
1
puede ser omitido en la regresin.
Existe un mtodo para remover la influencia de X
2
tanto de Y como de X
1
al encontrar
r
Y X
1
X
2
.
Para remover la influencia de X
2
sobre Y, hacemos una regresin de Y sobre X
2
y encontramos el
residuo e
1
= Y

. Para remover la influencia de X


2
sobre X
1
, hacemos una regresin de X
1
sobre X
2
y
encontramos el residuo e
2
= X
1

y X
1

representan las variaciones en Y y X


1
respectivamente sin la influencia de X
2
. Por lo
tanto, el coeficiente de correlacin parcial es simplemente el coeficiente de correlacin simple entre los residuos
Y

y X
1

esto es,
r
Y X
1
X
2
= r
Y

X
1

.
2.7 ANLISIS DE LOS RESIDUOS
El anlisis de los residuos es el estudio ms importante dentro del modelo de regresin, pues de una
manera muy efectiva podemos detectar sus posibles deficiencias. Asimismo, con este anlisis podemos descubrir
violaciones de las suposiciones subyacentes al modelo.
4 son las deficiencias ms comunes en el anlisis de regresin:
1. Que estemos en presencia de una relacin no lineal.
2. Que la varianza del error c
2
no sea constante (heterocedasticidad).
3. Que una o ms de las variables de prediccin que ejercen una influencia importante no estn includas
en el modelo.
4. Que existan observaciones discrepantes o aberrantes (aquellas cuyos valores se encuentran alejados del
comportamiento general del resto de los datos).
Recordemos que un residuo se define como: e
i
= Y
i

Y
i
i= 1,2,... n donde e
i
es una estimacin
del verdadero error no observable j
i
Se grafican los valores de

Y
i
versus los residuos estandarizados: e
s
=
e
i
S
dado que la media de los
residuos es igual a cero y S es la desviacin standard residual:
.CME (el error cuadrtico medio es la varianza
de los residuos, que es una estimacin de c
i
2
)
El anlisis de los residuos es un anlisis de sus grficas. Una ecuacin de regresin correcta no develar
ningn patrn entre los e
s
y los

Y
i
, los e
s
tendern a encontrarse dentro de una banda horizontal centrada
alrededor del cero, sin ninguna tendencia a los positivos o los negativos y muy raramente ms all de !3 . Si n
es muy grande, la distribucin de los e
s
deber encontrarse aproximada a una distribucin normal standard.
Situacin contraria indicar una deficiencia en el modelo.
Examinemos tres casos: GRFICA N 20

1. Ac existe un efecto cuadrtico presente en una
variable de prediccin, por lo cual, esa variable
independiente debe introducirse como un trmino
cuadrtico en el modelo.
42
Anlisis de regresin mltiple
GRFICA N 21
2. Modelos con varianza del error no constante
(heterocedticos)
Deben emplearse mnimos cuadrados con factores de
peso (donde los pesos son inversamente proporcionales a la
varianza de los errores) para estimar los coeficientes de
regresin.
GRFICA N 22

3. Cuando una variable que se ha eliminado muestra
una fuerte asociacin lineal con los residuos debe incluirse
en el modelo de regresin.
Dos ideas importantes:
1. Una de las suposiciones de la estimacin por
mnimos cuadrados es que el conjunto de datos con los que
se trabaja es tpico de la situacin para la cual se intenta
identificar una buena ecuacin de prediccin.
2. En una ausencia clara de evidencia de error, la
observacin discrepante (aberrante) puede ser la nica
informacin con respecto a la respuesta y ser vital para el
entendimiento del fenmeno.
43
3.1 AUTOCORRELACIN GRFICA N23

3.1.1 QU ES LA AUTOCORRELACIN?
Si se observa la tasa de desempleo o las
semanas promedio en el desempleo en el mercado del
trabajo en una economa, es comn encontrar que esos
indicadores suban o bajen a lo largo de los meses en
sucesin. La grfica n23 nos entrega la tasa de
desempleo y la duracin en semanas del mismo para
EE.UU entre Enero de 1980 y Julio del 2009. Obviamente
en situaciones como sta, el supuesto de no correlacin
serial de los errores subyacente al mtodo de MCO no se
cumple.
El supuesto de no correlacin serial de los errores
establece que stos (o sus estimaciones, los residuos)
deben estar distribuidos aleatoriamente, esto es, cada
j
i
(e
i
) no est influenciado por el error (el residuo)
de cualquier otra observacin (Grfica n24). En
lenguaje formal, esto supone que la covarianza
1
entre
cualquier par de errores es 0:
E( j
t
j
t+s
)= 0 s0 (76)
GRFICA N24 Si estos errores (residuos) presentan algn tipo de patrn, se dice
que existe autocorrelacin, simblicamente expresada como:
E( j
t
j
t+s
) 0 s0 (77)
pudiendo existir tanto en series de tiempo (correlacin temporal),
como en datos de seccin transversal (correlacin espacial), siendo
el primer caso mucho mas comn que el segundo.
El problema es que cuando los estimadores de los parmetros
son obtenidos en presencia de autocorrelacin, dejan de ser
eficientes, es decir, dejan de ser los que ms cercanos estn a ser
estadsticamente significativos que cualquier otro estimador (grfica
n 25).
GRFICA N25


Se generan as errores standard sesgados
2
y por lo
tanto pruebas estadsticas e intervalos de confianza
incorrectos.
Cuando el supuesto de no autocorrelacin es violado
es necesario formular el modelo de regresin de modo ms
general prescindiendo de esta hiptesis. Este modelo se
denominar modelo de regresin lineal generalizado y su
estimacin se har aplicando mtodos distintos a los de los
MCO.
1 La covarianza refleja la relacin lineal que existe entre dos variables y se define como: Cov( XY)=

x
i
y
i
n1
=

( X
i
X) (Y
i
Y)
n1
2 Esto es porque : E(

b) b
44
Problemas en el anlisis de regresin: Autocorrelacin
3.1.1.1 Autocorrelacin en datos de seccin transversal.
La autocorrelacin espacial ocurre cuando los errores estn geogrficamente relacionados. Por ejemplo,
una ciudad ve un repunte en sus tasas de criminalidad por lo que decide aumentar su dotacin policiaca. Al ao
siguiente su tasa de criminalidad baja notoriamente. Una ciudad vecina, que no aument su dotacin policial,
encuentra que presenta un repunte de su tasa de criminalidad sobre el mismo periodo.
Otro ejemplo: tenemos datos de corte transversal que consideran el gasto en consumo sobre el ingreso
familiar. Un incremento del gasto de una familia puede afectar el gasto en consumo de otra, al estimular a esta
familia a incrementar sus gastos si quiere 'mantenerse a la altura' de la otra.
Es importante recordar que en los anlisis de seccin transversal, el orden de los datos debe obedecer a
cierta lgica para darle sentido sociolgico a cualquier decisin de si hay presencia de autocorrelacin espacial
o no.
3.1.1.2 Autocorrelacin en series de tiempo.
Consideremos la serie temporal del nmero de homicidios en una ciudad en un lapso de tiempo. Existen
razones para creer que la cantidad de estos delitos est influenciado por los que se han cometido en el pasado.
(una sociedad puede volverse mas 'anmica' en con el transcurso del tiempo). Para tablas en las cuales los datos
siguen un orden natural sobre el tiempo, las observaciones sucesivas tienen una alta probabilidad de exhibir
intercorrelacin, especialmente cuando el intervalo entre las sucesivas observaciones es corto, como un da, una
semana o un mes.
3.1.1.3 Algunos patrones de autocorrelacin:
Tendencia cuadrtica. Tendencia cclica.
GRFICA N26 GRFICA N27
Tendencia ascendente. Tendencias lineales y cuadrticas.
GRFICA N28 GRFICA N29
45
3.1.2 POR QU OCURRE LA AUTOCORRELACIN?
1.- Por inercia: En sociologa prcticamente no existen variables que cambien inmediatamente a medida
que cambia otra relacionada a ella. Existe una tendencia que se opone al cambio, una 'inercia' que hace que
valores pasados de un regresor influyan sobre los valores actuales del mismo, ya sea temporal o espacialmente.
2.- Cuando variables fundamentales en un modelo de regresin son excludas. Al inicio de un anlisis de
regresin el investigador debe poseer un modelo verosmil, pero que muchas veces resulta no ser el mejor. Si al
graficar los residuos (e
i
) obtenidos de la regresin ajustada, se observan patrones de autocorrelacin, esto
puede sugerir que importantes variables que quizs fueron candidatas pero que no fueron incluidas en el modelo
(por cualquier razn) deben ser includas.
A menudo la inclusin de aquellas variables remueve el patrn de correlacin observado entre los
residuos.
Por ejemplo, supongamos que tenemos el siguiente modelo vlido en una serie de tiempo (por ello el
subndice t):
Y
t
= b
0
+b
1
X
1t
+b
2
X
2t
+b
3
X
3t
+j
t
pero que por alguna razn consideramos el siguiente:
Y
t
= b
0
+b
1
X
1t
+b
2
X
2t
++
t
donde +
t
= b
3
X
3t
+j
t
El error +
t
revelar un patrn sistemtico, ya que los valores de X
3t
afectan a Y
t
, creando una
autocorrelacin falsa que desaparece al correr el modelo correcto.
3.- Cuando no aplicamos una forma funcional correcta. Consideremos el siguiente modelo de regresin
lineal:
Y
t
= b
0
+b
1
X
1t
+b
2
X
1t
2
+j
t
pero errneamente ajustamos el modelo siguiente: Y
t
= b
0
+b
1
X
1t
++
t
GRFICA N30 donde +
t
= b
2
X
1t
2
+j
t
La curva que corresponde al modelo verdadero se muestra junto a la
errnea recta de regresin asociada (grfica n30).
Entre A y B la la recta de regresin sobreestima el valor Y
t
, como as
ms all de esos puntos lo subestima. Esto es esperado, puesto que el error
es +
t
= b
2
X
1t
2
+j
t
y por lo tanto captura el efecto sistemtico del trmino
b
2
X
1t
2
en el valor de
Y
t
. En este caso,
+
t
presentar
autocorrelacin por el uso de una incorrecta forma funcional.
4.- Decisiones implementadas en el regresando, producto de la influencia del comportamiento de los
regresores
3
. Consideremos el modelo:
Q
t
= b
0
+b
1
P
t1
+j
t
donde Q es la cantidad y P es el precio de una mercanca.
Supngase que al final del periodo t, el precio P
t
resulta ser inferior al P
t1
, por lo tanto, en el periodo
t+1 los productores pueden decidir producir menos de lo que produjeron en el periodo t.
Obviamente, en esta situacin no se espera que los errores j
t
estn distribuidos aleatoriamente porque
si los productores sobreproducen en el ao t es probable que reduzcan su produccin en t+1, lo que lleva a un
patrn autorregresivo
4
.
5.- Rezagos: Se ha observado que las ventas de una mercanca dependen, adems del gasto en
publicidad, de las ventas del periodo previo, esto es: V
t
= b
0
+b
1
P
t
+b
2
V
t1
+j
t
donde V
t
y P
t
son las ventas
y el gasto en publicidad en el periodo t, y V
t1
las ventas en el periodo t-1. (Esquema autorregresivo)
Si no consideramos el trmino retrasado, el error resultante reflejar un patrn sistemtico debido a la
influencia de la propaganda de las ventas pasadas sobre las ventas actuales.
3 Este fenmeno es conocido como el efecto cobweb.
4 En modelos autorregresivos el error del modelo de regresin lineal esta relacionado con su valor pasado de la manera:: j
t
= jj
t1
+c
46
Problemas en el anlisis de regresin: Autocorrelacin
6.- 'Manipulacin' de los datos.
En anlisis empricos, los datos en bruto son a menudo 'manipulados'. Por ejemplo, en regresiones de
series de tiempo que involucran datos trimestrales, tales datos son usualmente derivados desde los datos
mensuales por la suma simple de tres observaciones mensuales divididas por 3.
Este promedio introduce suavizamientos en las fluctuaciones existentes en los meses. Por lo tanto, el
grfico de los datos trimestrales luce mucho mas suave que los datos mensuales y este suavizamiento podr
provocar un patrn sistemtico en los errores, introduciendo as autocorrelacin.
Otra forma de manipulacin es la interpolacin o extrapolacin de datos. Por ejemplo, cada 10 aos se
practica un censo de poblacin. Supongamos el ltimo en el 2000 y el anterior en 1990. Si hay necesidad de
obtener datos de algunos de los aos del periodo intercensal (1990; 2000) una prctica comn es interpolar sobre
la base de un supuesto ad-hoc.
Todas estas tcnicas de manipulacin de datos pueden imponer sobre los datos patrones sistemticos
que podran no existir en los datos originales.
7.- La autocorrelacin puede ser inducida como resultado de la transformacin del modelo original.
Consideremos el siguiente modelo:
Y
t
= b
0
+b
1
X
t
+j
t
donde: Y
t
= Gastos en consumo y X
t
= Ingreso (78)
Si la ecuacin planteada resulta vlida, tambin lo ser para un periodo anterior, esto es, para (t-1).
Entonces la ecuacin queda como:
Y
t1
= b
0
+b
1
X
t1
+j
t1
(Forma de nivel) (79)
Si restamos a la primera expresin la segunda tenemos:
Y
t
Y
t1
= b
1
( X
t
X
t1
)+( j
t
j
t1
)= AY
t
= b
1
AX
t
+Aj
t
(Primera forma de diferencia), donde:
A : Primer operador de diferencia.
Para nuestros propsitos podemos escribir lo anterior como: AY
t
= b
1
AX
t
++
t
Si en Y
t1
= b
0
+b
1
X
t1
+j
t1
X e Y representan los logaritmos del gasto en consumo e ingreso, entonces
en: AY
t
= b
1
AX
t
+Aj
t
, AY y AX representarn cambios en sus respectivos logaritmos. Pero un cambio en
el logaritmo de una variable es un cambio relativo o porcentual, si aquel es multiplicado por 100. As en vez de
estudiar relaciones entre variables en la forma de nivel, quizs estemos ms interesados en sus relaciones en la
forma de diferencia.
Si el trmino del error en Y
t
= b
0
+b
1
X
t
+j
t
satisface los supuestos standard del mtodo de MCO
(especficamente el de no autocorrelacin) puede demostrarse que el error +
t
est autocorrelacionado
5
.
Modelos como AY
t
= b
1
AX
t
++
t
son conocidos como modelos de regresin dinmicos, esto es,
modelos que incluyen regresandos rezagados.
3.1.3 CMO SE IDENTIFICA UNA AUTOCORRELACIN?
Recordemos que el supuesto de no autocorrelacin del modelo clsico de regresin lineal se refiere a los
errores j
t
, los cuales no son directamente observables. Con lo que contamos en vez de ellos son sus
estimaciones, los residuos e
t
, que obtenemos por el procedimiento usual de MCO.
A pesar de no ser los e
t
lo mismo que los j
t
, muy a menudo un examen visual de los residuos nos da
algunas pistas sobre la probable presencia de autocorrelacin en los j
t
. Incluso, un examen visual de los e
t
o
e
t
2
puede entregar informacin til no solamente de autocorrelacin, sino que tambin de heterocedasticidad
(que veremos en el prximo captulo) y sesgo de especificacin
6
.
3.1.3.1 La estadstica d de Durbin-Watson.
El test mas famoso para detectar autocorrelacin es el Durbin-Watson, cuya gran ventaja es que se basa
en los
t
. Se define como como:
5 La demostracin de esto excede los propsitos de este libro.
6 Es el sesgo causado por la omisin de variables relevantes.
47
d=

t=2
n
( e
t
e
t1
)
2

t=1
n
e
t
2
(80)
d=

(
t

t1
)
2

t
2
=

t
2
+

t1
2
2

t1

t
2
Como

t
2
y

t1
2
difieren slo en una observacin,
podemos considerarlos aproximadamente iguales, por lo que:
d 2( 1

t1

t
2
) . Definamos: j=

t1

t
2
como un estimador del coeficiente de autocorrelacin
de primer orden j , entonces: d 2( 1 j) y como 1j1 , esto implica que 0d4
Si no hay correlacin lineal de primer orden j=0 y d= 2.
Si existe perfecta autocorrelacin de primer orden positiva j=1 y d= 0
Si existe perfecta autocorrelacin de primer orden negativa j=1 y d= 4
Debemos comparar la d que obtenemos con el valor tabulado de ella a los correspondientes grados de
libertad dados y significacin elegida.
Existen ciertos supuestos subyacentes a la estadstica d:
1. El modelo de regresin incluye el trmino de interseccin. Si este no est presente como en el caso de
una regresin a travs del origen, es esencial correr de nuevo la regresin incluyendo el trmino de interseccin
para obtener la suma de los cuadrados del error (SCE)
2. Las variables independientes son no estocsticas o ajustadas en muestras repetidas.
3. Los errores j
t
son generados por un patrn autorregresivo de primer orden:
j
t
= jj
t1
+c
t
(81)
Por lo tanto, la estadstica d no puede ser usada para detectar esquemas autorregresivos de
orden superior.
4. Se supone que los errores j
t
estn normalmente distribuidos.
5. El modelo de regresin no incluye el valor atrasado de la variable dependiente como una de las
variables de prediccin. As el test es inaplicable a modelos de regresin dinmicos del tipo:
Y
t
= b
0
+b
1
X
1t
+b
2
X
2t
+... +b
k
X
kt
+Y
t1
+j
t
(82)
donde Y
t1
es el valor de un atraso de Y
t
6.- No hay observaciones perdidas en los datos.
A diferencia de t, F o X
2
, no existe un nico valor crtico para aceptar o rechazar la hiptesis nula de
que no existe correlacin serial de primer orden en los errores j
i
.
Estos lmites slo dependen del nmero de observaciones n y el nmero de variables independientes k.
Si existe autocorrelacin positiva, los
t
estarn agrupados y sus diferencias por lo tanto tendern a ser
pequeas. Por el contrario, si existe autocorrelacin negativa, un
t
positivo ser seguido por un
t1
negativo
con mucho mas frecuencia que en el caso anterior, lo que hara ms grande el numerador que el denominador.
Recordemos que d=

(
t

t1
)
2

t
2
48
Problemas en el anlisis de regresin: Autocorrelacin
3.1.3.1.1 Los pasos para aplicar la prueba d:
1. Se corre una regresin por MCO y se obtienen los residuos.
2. Se calcula d.
3. Para el tamao de la muestra y el nmero de variables independiente dados, se encuentran los valores
crticos d
Inferior
y d
Superior
4. Se toman decisiones de acuerdo a los siguientes sets de hiptesis:
4.1.
H
0
: j= 0
H
1
: j> 0
Se rechaza H
0
al nivel o si 0 d d
inferior
, esto es, si hay evidencia estadsticamente
significativa de una autocorrelacin positiva.
4.2.
H
0
: j= 0
H
1
: j 0
Se rechaza H
0
al nivel o si 4d
inferior
d 4 , esto es, si hay evidencia
estadsticamente significativa de una autocorrelacin negativa.
Notemos que la zona de indecisin donde d no es concluyente se estrecha medida que el tamao de la
muestra se incrementa.
Si bien el test Durbin-Watson es un test cuantitativo para determinar la presencia de autocorrelacin de
primer orden, el mtodo grfico es poderoso y sugestivo -aunque por naturaleza subjetivo-.
3.1.3.2 Mtodo informal (grfico) para la autocorrelacin de primer orden negativa.
Al graficar los residuos versus el tiempo, si stos estn autocorrelacionados negativamente, se obtendr
una grfica como la que muestra la figura n31:
Autocorrelacin negativa:
GRFICA N31 GRFICA N32
Los signos de los residuos en el tiempo cambian
continuamente.
Si los residuos estn
correlacionados
negativamente, al graficar
los e
t
contra los e
t1
obtendremos una grfica
como la que muestra la
figura n32:
Notemos del grfico lo
siguiente: en el cuadrante I
se ubican los residuos que
en el tiempo pasan de ser negativos a positivos y en el III, los
que pasan de positivos a negativos.
La tabla n21 nos entrega los valores de residuos que
estn autocorrelacionados negativamente.
Asumamos que estos residuos estn estandarizados
7
,
para as trabajar con nmeros puros
8
. Grafiquemos estos
residuos contra el tiempo (grfica n33):
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados ","negativamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x <- seq( 0, 30, length = 100)
>lines(x, x-x, type="l", lwd=3, col= 'red')
7 Los residuos estandarizados son simplemente los e
t
divididos por el error standard de la regresin, es decir:
e
t
c
8 Tengamos en cuenta que e
t
y c estn medidos en las unidades en las cuales el regresando Y
i
es medido, por lo que los residuos
estandarizados son nmeros puros (desprovistos de unidad de medida) y pueden ser comparados con los residuos estandarizados de otras
regresiones.
49
GRFICA N33
Observemos que el signo de los residuos cambia
sucesivamente.
Ahora grafiquemos los e
t
versus los e
t1
para
nuestro ejemplo (tabla n22) -ntese que perdemos
una observacin-:

>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='e t-1', ylab='e t',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),
font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( -3, 3, length = 100)
>lines(x, x-x, type="l", lwd=3, col= 'red')
>lines(x-x, x, type="l", lwd=3, col= 'red')
GRFICA N34

Calculemos la estadstica Durbin-Watson para determinar la existencia de autocorrelacin en forma
algebraica (tabla n23):
d=

t=2
n
( e
t
e
t1
)
2

t=1
n
e
t
2
=
187,23
67,85
= 2,759
Ahora, el valor tabulado de D-W para el tamao n, el nmero de parmetros estimados y el nivel de
significacin elegido es:
n= 23, k= 1 al 95% de significacin: d
inf
= 1,257 y d
S up
= 1,437
0 1,257 1,437 2,563 2,743 4

Como 2,743 < 2.759 existe autocorrelacin negativa.
50
TABLA N23
1 0,7 0,49
2 -2,0 0,7 4,00 7,29
3 1,9 -2,0 3,61 15,21
4 -2,8 1,9 7,84 22,09
5 1,8 -2,8 3,24 21,16



19 -1,6 2,1 2,56 13,69
20 1,2 -1,6 1,44 7,84
21 -2,2 1,2 4,84 11,56
22 1,1 -2,2 1,21 10,89
23 -2,4 1,1 5,76 12,25
-2,4
67,85 187,23
(e
t
e
t1
)
2
e
t
2

t e
t1
e
t
TABLA N21
0,7 1
-2,0 2
1,9 3
-2,8 4
1,8 5



-1,6 19
1,2 20
-2,2 21
1,1 22
-2,4 23
e
t
t
TABLA N22
1 0,7
2 -2,0 0,7
3 1,9 -2,0
4 -2,8 1,9
5 1,8 -2,8



19 -1,6 2,1
20 1,2 -1,6
21 -2,2 1,2
22 1,1 -2,2
23 -2,4 1,1
-2,4
t e
t
e
t1
Problemas en el anlisis de regresin: Autocorrelacin
3.1.3.3 Mtodo informal (grfico) para la autocorrelacin de primer orden positiva.
GRFICA N35
Al graficar los residuos versus el tiempo, si stos estn autocorrelacionados
positivamente, se obtendr una grfica como la que muestra la n35:

GRFICA N36
Autocorrelacin positiva:
Los signos de los residuos en el tiempo cambian pocas
veces.
Si los residuos estn correlacionados positivamente, al
graficar los e
t
contra los e
t1
obtendremos una grfica
como la n36:
Notemos del grfico lo siguiente: en el cuadrante II se
ubican los residuos que permanecen positivos
secuencialmente y en el IV, los que permanecen negativos
secuencialmente.
La tabla n24 nos entrega los valores de residuos que
estn autocorrelacionados positivamente. Asumamos que
estn estandarizados. Grafiquemos estos residuos contra el
tiempo (grfica n37):
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Periodo de tiempo', ylab='Residuos', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos autocorrelacionados", "positivamente",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>lines(a$V1, lwd=3, col=4)
>x <- seq( 0, 30, length = 100)
>lines(x, x-x, type="l", lwd=3, col= 'red')
GRFICA N37
Observemos
que el signo de los
residuos permanece
agrupado a
intervalos.
Ahora
grafiquemos los e
t
versus los e
t1
para
nuestro ejemplo
(Tabla n25):
51
TABLA N25
1 -1,2
2 -1,9 -1,2
3 -2,4 -1,9
4 -0,3 -2,4
5 -1,6 -0,3



19 -2,2 -0,6
20 -1,3 -2,2
21 -0,9 -1,3
22 -2,1 -0,9
23 -0,3 -2,1
-0,3
t e
t
e
t1
TABLA N24
-1,2 1
-1,9 2
-2,4 3
-0,3 4
-1,6 5

-2,2 19
-1,3 20
-0,9 21
-2,1 22
-0,3 23
e
t
t
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='e t-1', ylab='e t', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( -3, 3, length = 100)
>lines(x, x-x, type="l", lwd=3, col= 'red')
>lines(x-x, x, type="l", lwd=3, col= 'red')
GRFICA N38

Calculemos
algebraicamente la
estadstica Durbin-Watson
para determinar la existencia
de autocorrelacin (tabla
n26):

d=

t=2
n
( e
t
e
t1
)
2

t=1
n
e
t
2
=
56,49
62,57
d= 0,903
Ahora, el valor tabulado de D-W para el tamao n, el nmero de parmetros estimados y el nivel de
significacin elegido es:
n= 23, k= 1 al 95% de significacin: d
inf
= 1,257 y d
S up
= 1,437
0 1,257 1,437 2,563 2,743 4
Como 0,903 < 1,257 existe autocorrelacin positiva.
Ejemplo N9: Suicidio y desempleo en Japn (1953-2004)
El suicidio en Japn, al contrario que en occidente, no es tratado como un tab,
es ms, muchas veces es considerado como un acto honorable, sobre todo en hombres
de mediana edad que ya no son capaces de mantener econmicamente a sus familias,
pues en esta sociedad la vergenza y la falta de prestigio asociadas al el hecho de no
tener trabajo es enorme.
Como causas del suicidio en este pas se pueden consideran las recesiones
econmicas -que generan desempleo-, el fin del modelo japons de bienestar, la crisis en
las estructuras familiares y la influencia de la cultura budista -imperante entre los
japoneses- que no estigmatiza el suicidio.
La base de datos n3 nos entrega los valores la tasa de suicidio en hombres por
cada 100.000 habitantes ( Y
i
) y la tasa de cesanta en % de la fuerza laboral para
hombres mayores de 15 aos ( X
i
) para Japn entre los aos 1948 y 2004.
Para orientarnos, grafiquemos estas variables y la recta de regresin asociada a
ellas (grfica n39):
52
FUENTE:
http://www.stat.go.jp/english/data/chouki/index.htm
TABLA N26
1 -1,2 1,44
2 -1,9 -1,2 3,61 0,49
3 -2,4 -1,9 5,76 0,25
4 -0,3 -2,4 0,09 4,41
5 -1,6 -0,3 2,56 1,69



19 -2,2 -0,6 4,84 2,56
20 -1,3 -2,2 1,69 0,81
21 -0,9 -1,3 0,81 0,16
22 -2,1 -0,9 4,41 1,44
23 -0,3 -2,1 0,09 3,24
-0,3
62,57 56,49

t e
t
e
t1
e
t
2
(e
t
e
t1
)
2
BASE DE DATOS N3
Ao
1948 18,7 0,7
1949 20,9 1,1
1950 24,1 1,3
1951 21,8 1,1
1952 21,8 1,3



2000 35,2 4.9
2001 34,2 5.2
2002 35,2 5.5
2003 38,0 5,5
2004 35,6 4,9
Y
i
X
i
Problemas en el anlisis de regresin: Autocorrelacin
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de desempleo', ylab='Tasa de suicidios', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Relacin entre las tasas de suicidio", "y desempleo en
Japn",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N39
Y determinemos la presencia de autocorrelacin:
>library(lmtest)
>library(MASS)
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
>dwtest (lm(a$V1~a$V2))
El valor tabulado para los valores lmites de la estadstica Durbin-Watson es para 50 grados de libertad, 1
variable independiente al 95% de significacin:

0 1,503 1.585 2,597 2,415 4
Como 0,4026 < 1,503 existe autocorrelacin positiva.
Grafiquemos los residuos estandarizados versus el tiempo (grfica n40):
>a <- read.table('a.txt')
9

>a1 <- (lm(a$V1~a$V2))
>par(bg = "Ivory 2")
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de desempleo', ylab='Residuos estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>lines(a$V2,stdres(a1), lwd=3, col=4)
>x <- seq( 0, 5.7, length = 100)
>lines(x, x-x, type="l", col= 'red', lwd=3)
>title(main=paste("Tasa de desempleo", "versus residuos estandarizados",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

Ahora grafiquemos los e
t
versus los e
t1
para la base datos n3 (grfica n41):
Para esto convirtamos nuestros datos que contienen los residuos en una matriz:
9 Para trazar las lineas entre los puntos segn un orden ascendente del valor X y no sobre el orden cronolgico de aos sucesivos, debemos
ordenar los datos segn las X en orden ascendente, sino las lneas se unirn por ao consecutivo.
53
SALIDA N27
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-4.4460 -2.2741 -0.7309 1.8405 7.5832
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.6590 0.8453 17.34 <2e-16 ***
a$V2 4.1432 0.3242 12.78 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.914 on 55 degrees of freedom
Multiple R-squared: 0.748,Adjusted R-squared: 0.7434
F-statistic: 163.3 on 1 and 55 DF, p-value: < 2.2e-16
SALIDA N28
Durbin-Watson test
data: lm(a$V1 ~ a$V2)
DW = 0.4026, p-value = 2.934e-15
alternative hypothesis: true autocorrelation is greater than 0
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>m<-as.matrix(stdres(a1))
Creemos dos vectores, uno que excluya la primera observacin y el otro que excluya la ltima:
>m1<-m[-c(1)]
>m2<-m[-c(50)]
Y grafiquemos:
>par(bg = "Ivory 2")
>plot(m1,m2, xlab='e t-1', ylab='e t', col=3, cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuo", "versus su residuo anterior",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( -2, 3, length = 100)
>lines(x, x-x, type="l", col= 'red', lwd=3)
>lines(x-x, x, type="l", col= 'red', lwd=3)
GRFICA N40 GRFICA N41

3.1.4 SOLUCIONANDO LA AUTOCORRELACIN
Tenemos 2 opciones dependiendo del caso:
La autocorrelacin surge por errores en el modelo o es pura?
1.- A veces se observan patrones en los residuos porque el modelo es errneo -esto es, se han
excludo importantes variables- o porque la forma funcional es incorrecta.
2.- Si se trata de autocorrelacin pura, podemos hacer las transformaciones apropiadas al modelo
original, para hacer que este modelo transformado no presente el problema de autocorrelacin (pura). Usamos
para esto el mtodo de mnimos cuadrados generalizados (MCG).
La solucin depende del conocimiento que tengamos de la naturaleza de la interdependencia entre los
errores, esto es, sobre la estructura de la autocorrelacin.
Consideremos el siguiente modelo de regresin de 2 variables:
Y
t
= b
0
+b
1
X
t
+j
t
y asumamos que j
t
sigue el siguiente patrn autorregresivo de primer orden :
j
t
= jj
t1
+c
t
1 j 1
Consideraremos slo el caso cuando j es conocido:
Ac, el problema de la autocorrelacin es fcil de resolver. Si Y
t
= b
0
+b
1
X
t
+j
t
es cierto, tambin lo es
que: Y
t1
= b
0
+b
1
X
t1
+j
t1
54
Problemas en el anlisis de regresin: Autocorrelacin
nuestro sistema de ecuaciones resulta entonces: Y
t
= b
0
+b
1
X
t
+j
t
Y
t1
= b
0
+b
1
X
t1
+j
t1
multipliquemos esta ltima expresin por j y restmosela a la primera. Nos queda:
Y
t
j Y
t1
= b
0
( 1j)+b
1
(X
t
jX
t1
)+c
t
donde: c
t
= (j
t
j j
t1
) (83)
La expresin anterior puede escribirse como:
Y
t

= b
0

+b
1
X
t

+c
t
(ecuacin de diferencias generalizada) (84)
Ya que c
t
satisface los supuestos usuales del mtodo de MCO, podemos aplicar este mtodo las
variables transformadas Y

y X

y obtener los mejores estimadores lineales insesgados (MELI).


En el proceso de diferencias perdemos una observacin, pues la primera no tiene un antecedente. Para
evitar perder esta primera observacin, las primeras Y
t

y X
t

se transforman como sigue (transformaciones


de Prais-Winsten):
Y
1

= Y
1
.1j
2
y X
1

= X
1
.1j
2
(85)
3.1.4.1 Correccin de la autocorrelacin de primer orden positiva.
Mtodo Durbin de dos etapas (un caso de mnimos cuadrados generalizados).
1 Se estima j aplicando una regresin:
Y
t
= b
0
(1j)+j Y
t1
+b
1
X
t
b
1
jX
t1
++
t
2 Se reestima la regresin con las variables transformadas:
Y
t
j Y
t1
= b
0
( 1 j)+b
1
(X
t
jX
t1
)+(o
t
jo
t1
)
Solucin de la autocorrelacin de nuestro ejemplo.
Corramos una regresin con los valores Y
t
, Y
t1
, X
t
y X
t1
de la tabla n27:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
Nuestra ecuacin de regresin estimada resulta entonces:

Y
t
= 2,7139+0.8015Y
t1
+4,5297X
t
3,6384 X
t1
++
t
( 9,594) ( 5.535) (3,884)
55
SALIDA N29
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals:
Min 1Q Median 3Q Max
-3.1328 -1.1761 -0.4511 0.7820 6.2941
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.71385 1.34622 2.016 0.048991 *
a$V2 0.80148 0.08354 9.594 4.27e-13 ***
a$V3 4.52956 0.81830 5.535 1.03e-06 ***
a$V4 -3.63840 0.93665 -3.884 0.000291 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.797 on 52 degrees of freedom
Multiple R-squared: 0.9079,Adjusted R-squared: 0.9026
F-statistic: 170.8 on 3 and 52 DF, p-value: < 2.2e-16
TABLA N27
18,7 0,7
20,9 18,7 1,1 0,7
24,1 20,9 1,3 1,1
21,8 24,1 1,1 1,3
21,8 21,8 1,3 1,1



35,2 36,5 4.9 4.8
34,2 35,2 5.2 4.9
35,2 34,2 5.5 5.2
38,0 35,2 5,5 5.5
35,6 38,0 4,9 5,5
35,6 4,9
Y
t
Y
t1
X
t
X
t1
Estimemos j

Y
t
=

b
0
(1 j)+ j Y
t1
+

b
1
X
t


b
1
jX
t1
++
t
j= 0,8015
Reestimemos la regresin con las variables
transformadas:
Y

= Y
t
jY
t1
X

= X
t
jX
t1
Para obtener las primeras observaciones que se pierden,
apliquemos la transformacin de Prais-Winsten:
Y
1

Y
1
.1

j
2
18,7.( 10,8015
2
)= 11,1825
X
1

X
1
.1

j
2
0,7.(10,8015
2
)= 0,4186
Ahora apliquemos una regresin lineal a la tabla n29:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
El valor tabulado para los valores lmites de la estadstica Durbin-Watson es para 57 grados de libertad, 1
variable independiente al 95% de significacin es:

0 1,528 1,601 2,399 2,472 4
Determinemos la estadstica d para la tabla n29 con R:
>library(lmtest)
>library(MASS)
>a <- read.table('a.txt')
>dwtest (lm(a$V1~a$V2))
Como 1,601 < 1,6798 ya no existe autocorrelacin.
56
SALIDA N30
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.2466 -1.3106 -0.5588 0.6792 6.4643
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.8666 0.4526 6.334 4.62e-08 ***
a$V2 4.4233 0.7076 6.251 6.31e-08 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.956 on 55 degrees of freedom
Multiple R-squared: 0.4154,Adjusted R-squared: 0.4047
F-statistic: 39.07 on 1 and 55 DF, p-value: 6.309e-08
TABLA N28

18,7 0,7
20,9 18,7 1,1 0,7 5,912 0,539
24,1 20,9 1,3 1,1 7,349 0,418
21,8 24,1 1,1 1,3 2,484 0,058
21,8 21,8 1,3 1,1 4,327 0,418



35,2 36,5 4.9 4.8 5,945 1,053
34,2 35,2 5.2 4.9 5,987 1,273
35,2 34,2 5.5 5.2 7,789 1,332
38,0 35,2 5,5 5.5 9,787 1,092
35,6 38,0 4,9 5,5 5,143 0,492
35,6 4,9
X
t1
X
t
Y
t1
Y
t
Y

= Y
t
j Y
t1
X

= X
t
jX
t1
TABLA N29
11,1825 0,4186
5,9120 0,5390
7,3487 0,4184
2,4839 0,0581
4,3273 0,4184



5,9453 1,0528
5,9872 1,2727
7,7887 1,3322
9,7872 1,0918
5,1430 0,4918
X

= X
t
jX
t1
Y

= Y
t
j Y
t1
SALIDA N31
Durbin-Watson test
data: lm(a$V1 ~ a$V2)
DW = 1.6798, p-value = 0.09426
alternative hypothesis: true autocorrelation is greater than 0
Problemas en el anlisis de regresin: Heterocedasticidad
3.2 HETEROCEDASTICIDAD
3.2.1 QU ES LA HETEROCEDASTICIDAD?
Un supuesto bsico del modelo clsico de regresin lineal seala que los errores j
i
deben ser
homocedticos, esto es, deben poseer igual varianza:
Var (j
i
)= c
2
i= 1,2,... , n (86)
GRFICA N42
Para un modelo de regresin de 2 variables:
Y
i
= b
0
+b
1
X
i
+j
i
en el que a medida que X aumenta, Y en
promedio tambin, la homocedasticidad es representada por la
grfica n 42, donde la varianza condicional de Y
i
(la cual es igual
a la de j
i
) sobre una X
i
dada, permanece constante a lo largo
de todas las X
i
. En otras palabras, la dispersin de los puntos sobre
la recta de regresin permanece constante.
En contraste, una situacin heterocedtica: Var (j
i
) c
2
i= 1,2,... , n (87)
se representa en las grficas n43 y n44:
La varianza de Y
i
se incrementa La varianza de Y
i
decrece
a medida que aumenta X
i
. a medida que aumenta X
i
.
GRFICA N43 GRFICA N44
3.2.1.1 Razones por las que puede ocurrir la heterocedasticidad.
Hay varias razones por las que Var (j
i
) c
2
, como por ejemplo:
1. En modelos de medicin del aprendizaje: En un proceso de aprendizaje, los errores de las personas
disminuyen a medida que avanza el tiempo; la dispersin de los errores tiende a disminuir. En este sentido, se
espera que Var (j
i
) decrezca (grfica n43).
2. En modelos economtricos del tipo: Y
i
= b
0
+b
1
X
i
+j
i
donde Y
i
representa el ahorro y X
i
representa los ingresos, a medida que el ingreso aumenta, las personas tienen mayor amplitud de decisin sobre
si ahorrar o gastar, por lo tanto, es probable que c
i
2
se incremente a mayor ingreso. En este ejemplo, la propia
teora sugiere la forma o pauta de la heterocedasticidad: la varianza del error depende positivamente de la
renta (grfica n44).
3. A medida que las tcnicas de recoleccin de datos hacen que estos aumenten, es probable que
c
i
2
decrezca.
4. La heterocedasticidad tambin se puede producir como resultado de la presencia de datos anmalos.
Un dato anmalo es aquel que difiere mucho en relacin al resto de los datos de la muestra.
La inclusin o exclusin de aquella observacin, especialmente si el tamao de la muestra es pequeo,
57
puede cambiar sustancialmente los resultados del anlisis de regresin.
5. Una forma funcional incorrecta puede ser una fuerte fuente de heterocedasticidad. Este problema
muy a menudo tiene que ver con el hecho de que variables importantes sean excludas en el modelo. As en una
funcin de demanda de una mercanca si no se incluyen los precios de las mercancas complementarias con la
mercanca en cuestin (sesgo de la variable omitida), los residuos obtenidos de la regresin quizs den la
impresin de que la varianza del error no sea constante. Pero si las variables que han sido omitidas son includas
en el modelo, esa impresin probablemente desaparecer.
En las formas funcionales vimos que, por ejemplo, si en una regresin de Y
i
sobre X
i
podemos
observar un patrn, pero al hacerla de Y
i
sobre X
i
y X
i
2
podemos ver otro, conclumos que es una forma
cuadrtica, por lo que X
i
2
debe incluirse en el modelo.
6. Otra fuente de heterocedasticidad es la asimetra en la distribucin de uno o ms regresores incluidos
en el modelo. Ejemplos de esto son las variables econmicas como el ingreso, la salud y la educacin. Es bien
conocida la desigualdad del ingreso o la calidad de la salud en la mayora de las sociedades, con el grueso del
ingreso y calidad de salud agrupndose en los quintiles ms acomodados.
El problema de la heterocedasticidad se da ms comnmente en datos de seccin transversal que en
series de tiempo.
3.2.2 CMO SE IDENTIFICA LA HETEROCEDASTICIDAD?
No se posee una nica y efectiva herramienta para detectar heterocedasticidad, sino unos cuantos
mtodos parciales. sta situacin es inevitable, porque c
i
2
slo puede ser conocida si conocemos toda la
poblacin Y
i
correspondiente a las X
i
elegidas. Pero esta situacin es mas bien la excepcin que la regla en
sociologa.
3.2.2.1 Mtodo informal (grfico).
En estudios de corte transversal que involucran unidades heterogneas es muy comn encontrar
heterocedasticidad, como es el caso de la regresin entre ingresos y escolaridad.
Si no hay informacin emprica o a priori sobre la naturaleza de la heterocedasticidad, en la prctica
podemos hacer un anlisis de regresin sobre la base de que no existe y entonces examinar el patrn en la
relacin de los residuos al cuadrado
1
con

Y
i
para ver si exhiben alguna sistematicidad.
En la grfica n 45 no se aprecia la existencia de una evidente heterocedasticidad, al contrario de lo que
muestran las grficas n46, 47 y 48.
GRFICA N45 GRFICA N46 GRFICA N47 GRFICA N48
GRFICA N49
Tambin se puede graficar e
i
2
versus X, que para el caso de una variable
independiente exhibe el mismo patrn que e
i
2
versus

Y
i
. Para el caso de dos o
ms variables independientes e
i
2
se puede graficar con cualquier regresor. Por
ejemplo, la grfica n49 sugiere que la varianza heterocedtica quizs sea
proporcional a la X
i
en cuestin. Saber esto nos puede ayudar para transformar los
datos de manera tal en la regresin, que en una nueva regresin sobre estos datos
transformados la varianza de los errores se vuelva homocedtica.
1 Utilizamos el cuadrado de los residuos para evitar consideraciones sobre sus posibles valores negativos.
58
Problemas en el anlisis de regresin: Heterocedasticidad
3.2.2.2 Mtodos formales.
3.2.2.2.1 El test de Park.
Park formaliz el mtodo grfico sugiriendo que c
i
2
es alguna funcin de las variables independientes
X
i
. La forma funcional que propuso fu:
c
i
2
= c
2
X
i

e
V
i
o bien lnc
i
2
= lnc
2
+ln X
i
+V
i
donde V
i
es el error. (88)
Como en general c
i
2
es desconocido, Park sugiri usar e
i
2
como una aproximacin y correr la
siguiente regresin: lne
i
2
= lnc
2
+lnX
i
+V
i
= o+lnX
i
+V
i
(89)
Si resulta ser estadsticamente significativo, se presume que hay presencia de heterocedasticidad en
los datos. Si no lo es, podemos aceptar el supuesto de homocedasticidad.
El test de Park es entonces un procedimiento de dos etapas. En la primera corremos la regresin por MCO
no considerando el problema de la heterocedasticidad. Obtenemos e
i
de esta regresin y en la segunda
etapa corremos la regresin siguiente: lne
i
2
= o+lnX
i
+V
i
Ejemplo N10: Relacin entre la tasa de robos y de robo de vehculos cada 100.000 habitantes en EE.UU
entre 1960 y el 2007.
La base de datos n9 nos entrega como variable dependiente ( Y
i
) la
cantidad total de robos de vehculos y como variable independiente ( X
i
) la
cantidad total de robos para EE.UU. entre los aos 1960 y 2007.
Grafiquemos los datos, la recta de regresin a ellos asociada y los residuos
versus la variable independiente:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Robos', ylab='Robo de vehculos', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Relacin de robos", "y robos de vehculos entre 1960 y el 2007 en
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>library(lmtest)
>library(MASS)
>par(bg = "Ivory 2")
>a1 <- (lm(a$V1~a$V2))
>plot(a$V2, stdres(a1), col=3, xlab='Robos', ylab='Residuos estandarizados',
cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados versus robos", "entre 1960 y el 2007 en
EE.UU.",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( 100000, 700000, length = 100)
>lines(x, x-x, type="l", col= 'red', lwd=3)
GRFICA N 50 GRFICA N 51
59
BASE DE DATOS N9
Ao
1960 328200 107840
1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390



2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125
Y
i
X
i
FUENTE:
http://www.disastercenter.com/crime/uscrime.htm
Obtengamos nuestra recta estimada:
>summary(a1)

Y= 200300+2,051X R
2
=0,8625
(3,719) (17,198)
Obtengamos los valores de e
i
, X
i
, lne
i
2
y
lnX
i
(tabla n30) y corramos una regresin de lne
i
2
sobre lnX
i
:
>a <- read.table('a.txt')
>a1 <- lm(a$V1~a$V2)
>summary(a1)
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,46)
[1] 2.012896 por lo que nuestro parmetro estimado es significativo al 5%: hay heterocedasticidad.
Aunque empricamente atractivo, el test de Park adolece de ciertos problemas. Goldfeld y Quandt han
argumentado que el error V
i
puede no satisfacer los supuestos del mtodo de MCO y puede ser l mismo
heterocedtico. No obstante, como un mtodo estrictamente exploratorio, el test de Park puede ser utilizado.
3.2.2.2.2 El test de Goldfeld-Quandt.
El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma de la
heterocedasticidad no es conocida, aunque se intuye que la varianza heterocedtica c
i
2
guarda una relacin
montona creciente o decreciente respecto a alguna variable exgena.
Por simplicidad consideremos el modelo de 2 variables usual: Y
i
= b
0
+b
1
X
i
+j
i
Supongamos que c
i
2
est relacionada positivamente con X
i
como sigue: c
i
2
= c
2
X
i
2
donde c
2
es una constante.
El supuesto anterior postula que c
i
2
es proporcional al cuadrado de X.
Para hacer este test explcito, Goldfeld y Quandt sugieren seguir los siguientes pasos:
60
SALIDA N32
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-328441 -83459 11419 99699 214231
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.003e+05 5.384e+04 3.719 0.000542 ***
a$V2 2.051e+00 1.193e-01 17.198 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 130500 on 46 degrees of freedom
Multiple R-squared: 0.8654,Adjusted R-squared: 0.8625
F-statistic: 295.8 on 1 and 46 DF, p-value: < 2.2e-16
SALIDA N33
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-4.9030 -0.4599 0.2472 1.1756 2.3182
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.422 6.120 0.886 0.3803
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.718 on 46 degrees of freedom
Multiple R-squared: 0.1449,Adjusted R-squared: 0.1263
F-statistic: 7.795 on 1 and 46 DF, p-value: 0.007607
a$V2 1.329 0.476 2.792 0.0076 **
TABLA N30
-83018,57 106670 22,654 11,577
-93218,1 107840 22,885 11,588
-60811,78 110860 22,031 11,616
-30817,25 116470 20,672 11,665
5134,42 130390 17,087 11,778



69653,62 618950 22,303 13,336
124579,61 639270 23,465 13,368
9531,37 659870 18,325 13,400
31369,69 672480 20,707 13,419
50993,68 687730 21,679 13,441
e
i
X
i
lne
i
2
lnX
i
Problemas en el anlisis de regresin: Heterocedasticidad
1. Hacer un ranking de las observaciones X
i
comenzando con su menor valor. Si estamos en presencia
de un modelo de regresin con 2 o ms variables independientes, el primer paso del test, el orden por ranking,
puede hacerse tomando cualquier X
i
. Si no estamos seguros cul variable X
i
es apropiada, podemos hacer
el test para cada una de las variables independientes.
2. Omitir c observaciones centrales, donde c se especifica a priori y divide las restantes (n-c)
observaciones en dos grupos, cada uno con (n-c)/2 observaciones. Las observaciones c son omitidas para
agudizar la diferencia entre el grupo de menor varianza (SCR
1
) y el grupo de mayor varianza (SCR
2
) . La
capacidad de xito del test Goldfeld-Quandt depende de como sea elegido el valor c. c=4 si n=30 y c=10 si n=60
ha sido en la prctica satisfactoriamente encontrado.
3. Aplicar regresiones por el mtodo de MCO a ambos grupos y obtener las respectivas sumas de los
cuadrados de los residuos SCR
1
(referido a los menores valores de X
i
-el grupo de menor varianza-) y
SCR
2
(referido a los mayores valores de X
i
-el grupo de mayor varianza-)
SCR
1
y SCR
2
tienen
(nc)
2
k grados de libertad (g.l.) siendo k es el nmero de parmetros a ser
estimado incluyendo la intercepcin y n el nmero de casos.
4 Calcular la siguiente fraccin: \=
SCR
2
SCR
1
(90)
Si suponemos a j
i
normalmente distribuido (lo que suele suceder), entonces puede demostrarse que
\ sigue una distribucin F con
(nc)
2
k grados de libertad tanto para el numerador como para el
denominador.
Si existe heterocedasticidad, con la ordenacin de la muestra, la varianza del error ser mayor hacia el
final de la muestra que al principio de la misma. Como el cuadrado de los residuos est asociado con la varianza
de los mismos, entonces (SCR
2
) debera ser sensiblemente mayor que (SCR
1
) . Por ello, se rechazar la
hiptesis nula de homocedasticidad siempre que el valor de \ exceda el valor tabulado al nivel de
significacin elegido y a los grados de libertad dados para F. en este caso se puede afirmar la existencia de
heterocedasticidad.
Ejemplo N11: Tasa de crmenes violentos versus crmenes contra la propiedad para los departamentos
de polica de California durante el ao 2007
La base de datos n10 nos entrega como variable dependiente ( Y
i
) la tasa de crmenes violentos y
como variable independiente ( X
i
) la tasa de crmenes contra la propiedad por cada 100.000 habitantes entre
los aos 1960 y 2007 para 396 agencias de polica del Estado de Texas.
Grafiquemos los datos y la recta de regresin a ellos asociada y tambin los residuos versus la variable
independiente:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Tasa de crmenes contra la propiedad', ylab='Tasa de
crmenes violentos', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Tasa de crmenes violentos", "versus crmenes contra la
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>library(lmtest)
>library(MASS)
>a1 <- (lm(a$V1~a$V2))
>par(bg = "Ivory 2")
>plot(a$V2, stdres(a1), col=3, xlab='Tasa de crmenes contra la propiedad', ylab='Residuos
estandarizados', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Residuos estandarizados versus ", "tasa de crmenes contra la
propiedad",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>x <- seq( 0, 9000, length = 100)
>lines(x, x-x, type="l", col= 'red', lwd=3)
61
BASE DE DATOS N10
Agencia
Adelanto Police Dept 532,7 2639,4
Agoura Hills 213,4 1515,3
Alameda County Sheriff Dept 562,1 2357,2
Alameda Police Dept 291 2805
Albany Police Dept 283,2 4883,9



Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
Y
i
X
i
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
GRFICA N 52 GRFICA N 53
Hagamos un ranking de las observaciones X
i
comenzando con sus menores valores (tabla n31) y
omitamos un sexto de las observaciones centrales (c=66) estableciendo dos grupos con 165 observaciones cada
uno ((n-c)/2).
Obtengamos las respectivas sumas de los cuadrados de los residuos SCR
1
referida a los menores
valores de X
i
-el grupo de menor varianza-, y SCR
2
, referida a los mayores valores de X
i
-el grupo de
mayor varianza-) (tabla n32 y n33 respectivamente):
Para SCR
1
:
>a<- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>anova(a1)
62
TABLA N31
Agencia
Laguna Woods 16,4 502,4
Avenal 256,2 774,4
Hillsborough Police Dept 18,7 888,1
Nevada County Sheriff Dept 197,1 891,3
Corcoran Police Dept 189,8 910,8



Desert Hot Springs 1155,3 7191,3
Palm Springs Police Dept 632,4 7249,4
Oroville Police Dept 1458,1 7570,5
Commerce 1089,8 8316,3
Santa Fe Springs 796,2 8804,6
Y
i
X
i
TABLA N32
Agencia
Laguna Woods 16,4 502,4
Avenal 256,2 774,4
Hillsborough Police Dept 18,7 888,1
Nevada County Sheriff Dept 197,1 891,3
Corcoran Police Dept 189,8 910,8



Duarte 377,4 2350
Fontana Police Dept 507,7 2352,5
Ridgecrest Police Dept 576,8 2356,6
Alameda County Sheriff Dept 562,1 2357,2
Farmersville Police Dept 538,2 2377,9
Y
i
X
i
TABLA N33
Agencia
Loma Linda 129,4 2832,6
Temecula 221 2833,5
Auburn Police Dept 374,8 2853,4
Paradise Police Dept 208,5 2861,9
Redding Police Dept 498,2 2896,2



Desert Hot Springs 1155,3 7191,3
Palm Springs Police Dept 632,4 7249,4
Oroville Police Dept 1458,1 7570,5
Commerce 1089,8 8316,3
Santa Fe Springs 796,2 8804,6
Y
i
X
i
SALIDA N34
Analysis of Variance Table
Response: a$V1
Df Sum Sq Mean Sq F value Pr(>F)
a$V2 1 1235655 1235655 43.577 5.468e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residuals 163 4621964 28356
Problemas en el anlisis de regresin: Heterocedasticidad
Para SCR
2
:
>a<- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>anova(a1)
siendo los grados de libertad de cada SCR:
(nc)
2
k=
( 39666)
2
2= 163
Calculemos la siguiente fraccin:
\=
SCR
2
SCR
1
=
12371907
4621964
= 2,677
Calculemos F con R con (k-1) y (n-k) grados de libertad:
>qf(0.95,1,394)
[1] 3.865169 2,677< 3,8652
As, con un 95% de confianza, no se puede afirmar la existencia de heteroscedasticidad.
3.2.2.2.3 El test de Koenker-Bassett.
El test de K-B se basa en el cuadrado de los residuos e
i
2
, pero en vez de correr la regresin sobre uno o
ms regresores, se hace sobre el cuadrado del valor estimado del regresando

Y
i
2
.
As, si el modelo original es: Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+...+b
k
X
ki
+j
i
Corremos una regresin obteniendo:

Y
i
=

b
0
+

b
1
X
1i
+

b
2
X
2i
+...+

b
k
X
ki
+e
i
Y corremos una regresin nuevamente pero de e
i
2
sobre

Y
i
2
obteniendo:

e
i
2
= o
1
+o
2
(

Y
i
)
2
+V
i
(91)
La hiptesis nula es o
2
= 0 . Si esta es rechazada entonces podemos concluir que hay
heterocedasticidad. Para el caso de una regresin lineal simple, la H
0
puede ser probada con los test t o F
(recordemos que F
1, k
= t
k
2
)
Una ventaja del test de K-B es que es aplicable incluso si el error en el modelo original (j
i
) no est
normalmente distribudo.
Ejemplo N12: Obesos versus actividad fsica.
La base de datos n11 nos entrega como variable dependiente, el
porcentaje de poblacin obesa ( Y
i
) y como independiente, el porcentaje de
poblacin que en una encuesta responde hacer ejercicios ( X
i
) para 53 Estados
Norteamericanos
2
para el ao 2008.
Grafiquemos los datos, la recta de regresin a ellos asociada y los residuos
versus la variable independiente:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Cantidad de gente que hace ejercicios %', ylab='Cantidad de obesos %',
cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Relacin ejercicio-
obesidad"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 <- (lm(a$V1~a$V2))
>plot(a$V2,residuals(a1), col=3, xlab='% de poblacin que hace ejercicios', ylab='Residuos',
main='Residuos versus % de poblacin que hace ejercicios')
2 Exclumos el Estado libre asociado de Puerto Rico.
63
SALIDA N35
Analysis of Variance Table
Response: a$V1
Df Sum Sq Mean Sq F value Pr(>F)
a$V2 1 3179031 3179031 41.884 1.085e-09 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residuals 163 12371907 75901
BASE DE DATOS N 11
Estado
Alabama 32,2 70,5
Alaska 27 75,9
Arizona 25,5 76,8
Arkansas 29,5 70,2
California 24,2 76,6



Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6
Y
i
X
i
FUENTE:
http://apps.nccd.cdc.gov/brfss
GRFICA N 54 GRFICA N 55
Determinemos los e
i
2
y los

Y
i
2
(tabla n34):
>residuals(a1)*residuals(a1)
>fitted(a1)*fitted(a1)
Corramos una regresin de e
i
2
sobre

Y
i
2
:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,51)
[1] 2.007584 Nuestro parmetro estimado no es significativo al 5%, por lo que hay homocedasticidad.
3.2.3 SOLUCIONANDO LA HETEROCEDASTICIDAD
GRFICA N56
La heterocedasticidad no acaba con las propiedades
insesgadas y consistentes de los estimadores por MCO, pero no los
hace los ms eficientes, ni siquiera asintticamente (por ejemplo
en una muestra de gran tamao). Esta ausencia de eficiencia
produce estimaciones sesgadas de los errores standard (lo que
provoca pruebas estadsticas e intervalos de confianza
incorrectos), por lo que esta situacin debe ser remediada.
Consideremos el modelo de regresin de dos variables
cuando la varianza no es conocida:
Y
i
= b
0
+b
1
X
i
+j
i
Supongamos que el patrn de heterocedasticidad sigue la forma: E( c
i
2
)= c
2
X
i
2
, esto es, la varianza
del error es proporcional a X
i
2
(grfica n57).
64
SALIDA N36
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-4.696 -3.512 -2.346 1.772 19.032
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.137880 4.669830 0.244 0.808
Residual standard error: 5.454 on 51 degrees of freedom
Multiple R-squared: 0.00782,Adjusted R-squared: -0.01163
F-statistic: 0.4019 on 1 and 51 DF, p-value: 0.5289
a$V2 0.004101 0.006468 0.634 0.529
TABLA N34
8,817 854,428
0,934 677,735
0,000 650,273
0,008 864,844
2,013 656,327



24,219 987,299
7,560 540,587
2,965 910,708
1,324 617,481
1,022 687,014
e
i
2
Y
i
2
Problemas en el anlisis de regresin: Heterocedasticidad
GRFICA N 57
Entonces podemos transformar el modelo original como sigue:
Y
i
= b
0
+b
1
X
i
+j
i
/X
i
Y
i
X
i
=
b
0
X
i
+b
1
+
j
i
X
i
=
b
0
X
i
+b
1
+V
i
(92)
donde V
i
es el trmino del error transformado, igual a
j
i
X
i
Resulta fcil verificar que: E( V
i
2
)= E(
j
i
X
i
)
2
=
1
X
i
2
E(j
i
2
)= c
2
Por lo tanto ahora V
i
es homocedtica y podemos aplicar el mtodo
de MCO a la ecuacin:
Y
i
X
i
=
b
0
X
i
+b
1
+
j
i
X
i
corriendo una regresin de
Y
i
X
i
sobre
1
X
i
Ejemplo N13: Solucin de la heterocedasticidad del ejemplo 10.
Hemos ya comprobado la existencia de heterocedasticidad en el ejemplo n10. Apliquemos la
transformacin de variables propuesta para solucionar este problema (tabla n35) y, con el test de Park
verifiquemos que ahora stas variables (tabla n36) son homocedticas.
Obtengamos los valores de e
i
2
, X
i
, lne
i
2
y lnX
i
(tabla n36) para la tabla n35 y corramos una
nueva regresin de lne
i
2
sobre lnX
i
para obtener la salida n37:
>a <- read.table('a.txt') # Leemos los datos de la tabla n35 #
>a1 <- lm(a$V1~a$V2)
>residuals(a1)*residuals(a1) # Obtenemos los residuos al cuadrado#
>a <- read.table('a.txt') # Leemos las dos ltimas columnas de la tabla n36 #
>a1 <- lm(a$V1~a$V2)
>summary(a1)
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,46)
[1] 2.012896 por lo que nuestro parmetro estimado no es
significativo al 5% y las variables no presentan
heterocedasticidad.
65
SALIDA N37
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-5.5803 -0.3668 0.3399 1.0647 2.7727
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.6211 6.8371 1.407 0.1661
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.919 on 46 degrees of freedom
Multiple R-squared: 0.07237,Adjusted R-squared: 0.0522
F-statistic: 3.589 on 1 and 46 DF, p-value: 0.06447
a$V2 1.0072 0.5317 1.894 0.0645 .
TABLA N36

0,25904500 0,00000927 -1,35075349 -11,58840393
0,17397260 0,00000937 -1,74885746 -11,57749524
0,04288449 0,00000902 -3,14924506 -11,61602342
0,00278896 0,00000859 -5,88208651 -11,66538901
0,09481216 0,00000767 -2,35585761 -11,77828524



0,24663510 0,00000241 -1,39984536 -12,93418872
0,27404920 0,00000249 -1,29444763 -12,90288809
0,17136060 0,00000240 -1,76398517 -12,94189131
0,02041255 0,00000224 -3,89160537 -13,01121503
0,00396315 0,00000225 -5,53071586 -13,00611042
e
i
2
X
i
lne
i
2
lnX
i
BASE DE DATOS N9
Ao
1960 328200 107840
1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390



2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125
Y
i
X
i
TABLA N35
3,04339763 0,00000927
3,14990157 0,00000937
3,30867761 0,00000902
3,50562377 0,00000859
3,62604494 0,00000767



3,04471134 0,00000241
3,08329639 0,00000249
2,96058097 0,00000240
2,66607287 0,00000224
2,46171076 0,00000225
Y
i
X
i
1
X
i
3.3 MULTICOLINEALIDAD
3.3.1 QU ES LA MULTICOLINEALIDAD?
Un supuesto importante del modelo de regresin lineal por MCO establece que no existen relaciones
lineales exactas entre los regresores o variables independientes (los regresores no son exactamente colineales).
De haberlas, surge un problema llamado multicolinealidad perfecta
1
. ste supuesto es necesario para el clculo
del vector de estimadores de los parmetros verdaderos, ya que en caso contrario X' X ser singular (no
tendr inversa) y nos resultar imposible determinar

b= ( X' X)
1
X' Y . Los coeficientes as resultantes sern
indeterminados y sus errores standard infinitos. Cuando dos o ms regresores estn altamente correlacionados en
la muestra, se hace muy difcil separar el efecto parcial de cada uno de ellos sobre la variable dependiente.
Un conjunto k de variables predictoras X
1i
, X
2i
, ... , X
ki
son perfectamente multicolineales si para k
constantes C
0
, C
1
, C
2
, ... , C
k
que no son cero simultneamente, se cumple la siguiente condicin:
C
1
X
1i
+C
2
X
2i
+...+C
k
X
ki
= C
0
(93)
Asumamos que C
k
0 , entonces, para el caso de perfecta multicolinealidad:

X
ki
=
( C
0

j=1
j=k1
C
j
X
j
)
C
k
(94)
La expresin anterior muestra que X
ki
es combinacin lineal de todos los dems regresores. Se hace
entonces as imposible calcular las estimaciones por MCO de los parmetros, porque el sistema de ecuaciones
normales contendr una o ms ecuaciones que no son independientes.
GRFICA N58
La multicolinealidad perfecta casi no ocurre en la
prctica. Lo que si suele suceder es la existencia de una relacin
aproximadamente lineal, no exacta, entre dos o ms variables
exgenas. Cuando esto ocurre, los estimadores obtenidos son
poco precisos, aunque sus propiedades de insesgadez, eficiencia
y consistencia no se ven afectadas, esto es, los estimadores por
MCO siguen siendo los MELI. Sin embargo, a pesar de que las
varianzas de los estimadores por MCO son las mnimas posibles
(son eficientes) son mayores que las que se lograran en ausencia
del problema de multicolinealidad.
En los siguientes grficos los crculos representan las
variaciones tanto de las variables dependientes, como de la
independiente. El grado de colinealidad puede medirse por la
extensin de las intersecciones entre los crculos X
1
y X
2
.
GRFICAS N 59
No existe colinealidad Existe una baja colinealidad Existe una alta colinealidad Casi perfecta colinealidad
1 El efecto totalmente contrario a la multicolinealidad perfecta es la ortogonalidad, en el que el coeficiente de correlacin simple entre dos
variables es cero. En la ortogonalidad, el efecto que una variable tiene sobre la respuesta se mide de manera totalmente independiente del
efecto individual que otra variable tenga sobre la misma.
66
Problemas en el anlisis de regresin: Multicolinealidad
La multicolinealidad puede afectar a dos regresores (el caso ms simple de todos), a un subconjunto o
incluso a todos, estando frecuentemente presente en series de tiempo (por ejemplo, la poblacin y el PIB suelen
estar altamente correlacionados)
3.3.1.1 Por qu se produce?
La multicolinealidad es, en cierto sentido, un fenmeno inevitable. En un sistema social es muy difcil
suponer la ausencia de relacin entre sus distintos elementos. Por el contrario, la sociologa se apoya en la idea
de la existencia de interrelaciones entre las variables de los sistemas sociales analizados.
Suele aparecer cuando:
1. Ocurre un error en la especificacin (los regresores no son importantes en la explicacin del
regresando: se omiten variables relevantes o bien se integran aquellas que no lo son) cometido por el
investigador que ignora una igualdad o combinacin lineal entre las variables independientes.
2. Se cae en la 'trampa de las dummies' que consiste en incluir un nmero tal de variables ficticias que
todas ellas acaben por generar una combinacin lineal entre s. Si una variable independiente cualitativa tiene m
categoras, debe representarse por medio de m-1 variables dummy, asignando a cada una de ellas los valores de
0 1
2
.
3. Se recolecta un limitado rango de los valores tomados por los regresores en la poblacin.
4. El modelo tiene ms variables independientes que nmero de observaciones.
5. Especialmente en series de tiempo, los regresores incluidos en el modelo presentan tendencias
comunes, esto es, se incrementan o decrecen a medida que transcurre el tiempo.
3.3.2 CONSECUENCIAS DE LA MULTICOLINEALIDAD.
Teniendo en consideracin que las consecuencias de la multicolinealidad estn directamente
relacionadas con la magnitud con que se presenta, las ms importantes son:
1. Se hace difcil cuantificar con precisin el efecto que cada regresor ejerce sobre el regresando,
debido a que los errores estndar de los coeficientes estimados son elevados, es decir, tienden a ser mayores de
lo que seran si no hubiera multicolinealidad.
Producto de lo anterior, el valor del estadstico para realizar contrastes de significacin individual:
t=

b
j
b
j
S(

b
j
)
-

b
j
S(

b
j
)
(95)
tiende a ser pequeo, aumentando as la probabilidad de no rechazar la hiptesis nula. Es as que se suele
concluir que los coeficientes estimados no son significativas individualmente y llegar a la conclusin errnea de
que la variable independiente X
i
no es importante en el modelo.. El problema no reside en que los contrastes
no sean correctos estadsticamente, sino en que no estimamos con suficiente precisin esos efectos individuales.
En presencia de multicolinealidad es comn obtener valores altos de R
j
2
an cuando los valores de los
estadsticos t de significacin individual sean bajos. El problema reside en la identificacin del efecto individual
de cada variable explicativa, no tanto en su conjunto. Por eso, si se realiza un contraste de significacin conjunta
de las variables explicativas, el resultado normalmente ser rechazar la hiptesis nula aunque individualmente
cada una de ellas no sea significativa.
2. En el caso de existencia de multicolinealidad exacta, los parmetros no pueden estimarse ya
que, al existir dentro de la matriz X de observaciones de variables exgenas una combinacin lineal de stas,
no puede ser invertida, de esta manera, X' X tampoco tendr inversa haciendo imposible calcular la expresin
del estimador mnimo cuadrtico:

b= ( X' X)
1
X' Y
3. Pequeos cambios en los datos o en la especificacin provocan grandes cambios en las
estimaciones de los coeficientes. Los parmetros sean muy inestables y fluctan de forma importante al introducir
nueva informacin. Efectivamente, al ser el parmetro ms imperfecto, al presentar mayor rango de variacin,
una nueva estimacin puede arrojar valores muy diferentes al anterior.
4. Las estimaciones de los coeficientes suelen presentar signo distintos a los esperados y magnitudes
poco razonables.
2 Esta situacin la estudiaremos en detalle en la seccin 4, captulo 1: '' Variables Dummy'.
67
3.3.3 CMO SE IDENTIFICA LA MULTICOLINEALIDAD?
La multicolinealidad es una caracterstica de la muestra (est asociada a la configuracin concreta de
la matriz X ) y no de la poblacin, por lo tanto, no existe un contraste estadstico que sea aplicable para su
deteccin. Adems, como hemos visto, la multicolinealidad es una cuestin de grado y no de presencia o
ausencia. No obstante, podemos detectarla con algunas reglas prcticas (aunque no siempre fiables) o medirla
para una muestra particular con el Factor de inflacin de la varianza.
Debemos sospechar la existencia de multicolinealidad cuando:
1. Hay coeficientes de regresin significativos con valores muy grandes o de signo opuesto al esperado.
2. Los coeficientes estimados asociados a las variables independientes que se esperaba fuesen
importantes, tienen valores de t pequeos aunque F informe que 'existe modelo' y R
2
sea alta. Este es un signo
clsico de multicolinealidad.
3. La incorporacin o eliminacin de una fila o columna de la matriz X produce grandes cambios en la
magnitud de los coeficientes.
4. Los coeficientes de correlacin muestral simples entre todas las parejas de variables predictoras son
muy altas. Las correlaciones entre variables deben ser bajas, aunque no hay un lmite fijo a partir del cual
podamos hablar de multicolinealidad; ese lmite debe establecerse desde el sentido comn y segn las
circunstancias de anlisis especficas. As por ejemplo un mismo valor de un coeficiente de correlacin implica
distinto grado de correlacin segn el tamao muestral; en muestras de tamao elevado, una correlacin
aparentemente pequea (0,3-0,4) implica la existencia de una evidente multicolinealidad o bien una correlacin
moderada pero no esperada a priori desde el punto de vista terico puede estar avisando de algn defecto en
la especificacin o el tratamiento de los datos.
En todo caso, si se desea una regla general, una prctica habitual consiste en establecer la R
2
del
modelo original como lmite de la correlacin observada entre dos o ms variables: diremos que existe
multicolinealidad cuando existan correlaciones entre las variables superiores al coeficiente de determinacin del
modelo. Sin embargo, debemos recordar nuevamente las limitaciones de cualquier 'receta' de este tipo. Por
ejemplo, lgicamente diremos que existe multicolinealidad cuando, an sin superar la R
j
2
del modelo, las
correlaciones sean mayores de un 0,7.
Aunque es condicin suficiente para que exista multicolinealidad el que todos estos coeficientes sean
altos, lo contrario no es necesariamente cierto. Se puede dar el caso de tener una relacin lineal casi perfecta
entre tres o ms variables y sin embargo las correlaciones simples entre pares de variables no ser mayores que 0,5.
Supongamos que tenemos un modelo de 4 variables:
Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+b
3
X
3i
+j
i
y supongamos que: X
3i
= \
1
X
1i
+\
2
X
2i
donde \
2
y \
3
son
constantes distintas de cero.
X
3
es una combinacin lineal exacta de X
1
y X
2
dando R
3.12
2
= 1
Podemos escribir este R
2
como: R
3.12
2
=
r
31
2
+r
32
2
2r
31
r
32
r
12
1r
12
2
pero como: R
3.12
2
= 1 , a causa de una
colinealidad perfecta, obtenemos: 1=
r
31
2
+r
32
2
2r
31
r
32
r
12
1r
12
2
condicin que puede ser satisfecha si:
r
31
= 0,5 , r
32
= 0,5 y r
12
= 0,5 los cuales no son valores altos.
Por lo tanto, en modelos que involucran ms de dos variables independientes, la correlacin simple
puede no proveer una infalible va para detectar la presencia de multicolinealidad. Por supuesto, si solo existen
dos variables independientes en el modelo, la correlacin de orden cero es suficiente.
5. Realizando la regresin de cada una de los regresores sobre el resto (regresin auxiliar) y analizar los
coeficientes de determinacin de cada regresin. Alguno o algunos de estos coeficientes de determinacin
(R
j
2
) altos, estaran sealando la posible existencia de un problema de multicolinealidad.
3.3.3.1 El Factor de inflacin de la varianza.
El factor de inflacin de la varianza cuantifica la severidad de la multicolinealidad en un anlisis de
regresin lineal por MCO. Provee un ndice que mide en cunto la varianza de un coeficiente de regresin
estimado se incrementa debido a la multicolinealidad.
68
Problemas en el anlisis de regresin: Multicolinealidad
Si consideramos el modelo de regresin lineal mltiple: Y
i
= b
0
+b
1
X
1i
+...+b
j
X
ji
+...+b
k
X
ki
+j
i
entonces se puede demostrar que la varianza del j-simo coeficiente de regresin estimado es:
Var (

b
j
)=
c
2
S
ii
(
1
1R
j
2
)
(96)
Donde R
j
2
es el coeficiente de determinacin (no ajustado) de la regresin lineal de X
ji
contra todas
las dems variables predictoras y S
ii
=

j =1
n
( X
ij

X
i
)
2
La ecuacin (101) separa las influencias de los distintos factores que intervienen en la varianza de
coeficiente estimado. As:
1. Cuanto mayor es c
2
, esto es, cuanto mayor es la dispersin, mayor ser la varianza del estimador.
2. Al aumentar el tamao de la muestra, se reduce la varianza del estimador.
3. Cuanto menor sea la varianza muestral del regresor, mayor ser la varianza del correspondiente
coeficiente estimado.
4. Cuanto mayor sea R
j
2
, es decir, cuanto mayor sea la correlacin del regresor con el resto de lo
regresores, mayor ser la varianza de

b
j
FIV
j
=
1
1R
j
2
Se denomina j-simo factor de inflacin de la varianza y representa el (97)
incremento en la varianza debido a la presencia de multicolinealidad. Es la razn entre la varianza observada y la
que habra sido en caso de que X
j
no estuviera correlacionada con el resto de regresores del modelo. Muestra
en que medida se agranda la varianza del estimador como consecuencia de la no ortogonalidad de los
regresores. Debe tenerse presente que el (FIV
j
) no suministra ninguna informacin que pueda utilizarse para
corregir el problema.
Si las variables independientes no son redundantes (ortogonales), entonces (FIV
j
)= 1 (R
j
2
= 0)
3
. Si los
regresores son multicolineales, (FIV
j
)= (R
j
2
= 1) .
Si el (FIV
j
) es grande (mayor que 10), entonces puede haber multicolinealidad.
La tolerancia se define como:
TOL
j
=
1
FIV
j
= 1R
j
2
(98)
La utilizacin de los coeficientes TOL
j
y VIF
j
para detectar la presencia de multicolinealidad ha
recibido mltiples crticas, porque la conclusin obtenida con estos valores no siempre recoge adecuadamente
la informacin de y problemas existentes en los datos. Tal y como hemos visto anteriormente, las varianzas de los
estimadores depende del VIF
j
, c
2
y

(X
ji

X
j
)
2
, por lo que un alto VIF
j
no es condicin suficiente ni
necesaria para que dichas varianzas sean elevadas.
Ejemplo N14 ndice de marginacin, poblacin indgena y
% de analfabetismo en los municipios del Estado de Chiapas,
Mxico.
La base de datos N12 nos entrega el ndice de
marginacin por municipio para 2005 como variable dependiente
( Y
i
) y como independientes el % de poblacin hablante de
lengua indgena de 5 aos en adelante en el 2000 ( X
1i
) y el % de
analfabetismo ( X
2i
) para el 2000, para los 118 Municipios del
Estado de Chiapas (Mxico).
Grafiquemos las variables (grfica n60) y obtengamos el
resultado de aplicar una regresin de ( Y
i
) sobre ( X
1i
) y ( X
2i
)
(salida n38).
>a <- read.table('a.txt')
>plot(a, col=3)
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
3 Recordemos que R
2
indica la existencia de una relacin lineal.
69
BASE DE DATOS N12
Municipio
0.483 0.41 18
0.356 9.93 27
0.672 0.35 21
0.984 40.75 38
1.745 14.76 34



1.518 33.12 31
1.602 30.1 30
1.118 0.71 28
1.489 66.9 46
2.209 63.57 68
Acacoyagua
Acala
Acapetahua
Altamirano
Amatn
Maravilla Tenejapa
Marqus de Comillas
Montecristo de Guerrero
San Andres Duraznal
Santiago el Pinar
Y
i
X
1i
X
2i
FUENTE:
http://www.e-local.gob.mx/work/templates/enciclo/chiapas
GRFICA N 60
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,115)
[1] 1.980808
Determinemos la existencia de multicolinealidad.
En primer lugar ejecutemos regresiones de ( Y
i
) sobre ( X
1i
) (salida n39) y de ( Y
i
) sobre ( X
2i
)
(salida n40)
>a1 <- (lm(a$V1~a$V2)) >a1 <- (lm(a$V1~a$V3))
>summary(a1) >summary(a1)
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes estimados de las variables
independientes son muy significativos a un 95% en las regresiones de ( Y
i
) sobre ( X
1i
) y de ( Y
i
) sobre ( X
2i
)
(10,207 y 14,759 respectivamente), pero en la regresin mltiple original (salida n38), el parmetro estimado de
( X
1i
) resulta no ser significativo, siendo R
2
relativamente alta (0,6595) y F= 111,3 informndonos la 'existencia'
de modelo.
70
SALIDA N 38
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-1.23973 -0.27460 -0.05131 0.25093 1.63512
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.347757 0.113054 -3.076 0.00262 **
a$V2 0.003411 0.002227 1.532 0.12828
a$V3 0.039641 0.004997 7.932 1.56e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.4271 on 115 degrees of freedom
Multiple R-squared: 0.6595,Adjusted R-squared: 0.6535
F-statistic: 111.3 on 2 and 115 DF, p-value: < 2.2e-16
SALIDA N39
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-1.74628 -0.30991 0.02496 0.24031 2.12295
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.446136 0.065111 6.852 3.72e-10 ***
a$V2 0.017329 0.001698 10.207 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.5289 on 116 degrees of freedom
Multiple R-squared: 0.4731,Adjusted R-squared: 0.4686
F-statistic: 104.2 on 1 and 116 DF, p-value: < 2.2e-16
SALIDA N40
Call:
lm(formula = a$V1 ~ a$V3)
Residuals:
Min 1Q Median 3Q Max
-1.19279 -0.29527 -0.02594 0.26905 1.72302
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.435657 0.097975 -4.447 2.01e-05 ***
a$V3 0.045674 0.003095 14.759 < 2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.4296 on 116 degrees of freedom
Multiple R-squared: 0.6525,Adjusted R-squared: 0.6495
F-statistic: 217.8 on 1 and 116 DF, p-value: < 2.2e-16
Problemas en el anlisis de regresin: Multicolinealidad
Analicemos los coeficientes de correlacin simple entre todas las parejas de variables predictoras:
>cor(a)
La correlacin entre las variables es alta (0.808), superando el
R
2
= 0,6595 del modelo original.
Encontremos el factor de inflacin de la varianza.
>a1 <- (lm(a$V1~a$V2+a$V3))
>library(car)
4

>vif(a1)
Ejemplo N15: Funcin Cobb-Douglas de la economa chilena (1986-2000).
La base de datos N13 nos entrega los valores del PIB ( Y
i
) ,
stock de capital ( X
1i
) (ambos en miles de millones de pesos al ao
1986) y la fuerza de trabajo ( X
2i
) en miles de personas para Chile entre
los aos 1986 y 2000.
Grafiquemos las variables (grfica n61) y obtengamos el
resultado de aplicar una regresin de ( Y
i
) sobre ( X
1i
) y ( X
2i
) (salida
n43).
>a <- read.table('a.txt')
>plot(a, col=3)
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
GRFICA N 61
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,12)
[1] 2.178813
4 Debemos instalar el paquete car. En R escribimos >install.packages(), seleccionamos un espejo desde el cual bajarlo y lo llamamos con
>library(car).
71
SALIDA N43
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-362.53 -140.95 -25.47 139.97 356.03
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.697e+03 1.062e+03 -5.365 0.000169 ***
a$V2 2.290e-01 3.957e-02 5.788 8.64e-05 ***
a$V3 1.661e+00 2.957e-01 5.617 0.000113 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 212.3 on 12 degrees of freedom
Multiple R-squared: 0.9877,Adjusted R-squared: 0.9857
F-statistic: 483.5 on 2 and 12 DF, p-value: 3.393e-12
SALIDA N41
V1 V2 V3
V1 1.0000000 0.6878547 0.8077816
V2 0.6878547 1.0000000 0.7879961
V3 0.8077816 0.7879961 1.0000000
SALIDA N42
a$V2 a$V3
2.638090 2.638090
BASE DE DATOS N13

Ao
1986 3419 8658 4269,674
1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836



1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
Y
i
X
1i
X
2i
FUENTES:
http://www.bcentral.cl/estudios/documentos-trabajo/pdf/dtbc133.pdf Pp16
Fuerza de trabajo.
http://www.ine.cl/canales/chile_estadistico/mercado_del_trabajo/empleo/situacionfuerzatrabajo/sitexcel/ttpais.htm
PIB y stock de capital.
Determinemos la existencia de multicolinealidad.
Analicemos los coeficientes de correlacin muestral simples entre
todas las parejas de variables predictoras:
>cor(a)
El valor 0,976 es menor que R
2
= 0,988 lo que nos indica una ausencia de multicolinealidad.
Ejecutemos una regresin de ( X
1i
) sobre ( X
2i
) y
analicemos el coeficiente de determinacin (salida
n45).
>a <- read.table ('a.txt')
>a1 <- (lm(a$V2~a$V3))
Encontremos el factor de inflacin de la varianza.
>a1 <- (lm(a$V1~a$V2+a$V3))
>library(car)
>vif(a1)
Ac podemos apreciar la relatividad de los test para
detectar multicolinealidad. Aunque el FIV, el R
i
2
y la
correlacin entre regresores son altos, la salida n43 nos
indica una casi perfecta relacin lineal R
2
= 0,9877 y valores de lo parmetros estimados coherentes. La
decisin final debe ser tomada por el sentido comn del investigador.
Ejemplo N16: Crmenes contra la propiedad y crmenes violentos en el Estado de Nevada, EE.UU. (1960-
1980).
Se puede especular que la tasa de crmenes contra la
propiedad est determinada en cierta medida, por el grado de
'anomia' de una sociedad, expresada sta en las tasas de crmenes
violentos.
La base de datos n14 nos entrega informacin de la tasa de
crmenes contra la propiedad ( Y
i
) , la tasa de asesinato no
negligente y homicidio involuntario ( X
1i
) , la tasa de violacin
forzada ( X
2i
) , la tasa de robo ( X
3i
) y la tasa de asalto agravado
( X
4i
) en el Estado de Nevada por cada 100.000 habitantes entre
1960 y 1980.
Grafiquemos las variables (grfica n62) y obtengamos el
resultado de aplicar una regresin de ( Y
i
) sobre ( X
1i
) , ( X
2i
) ,
( X
3i
) y ( X
4i
) (salida n47).
>a <- read.table('a.txt')
>plot(a, col=3)
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>summary(a1)

Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,16)
[1] 2.119905
Resulta que slo el coeficiente que acompaa a ( X
4i
) es significativo y ms sorprendente an, el que
acompaa a ( X
1i
) tiene signo negativo. Esto no parece tener sentido al ver la grfica n62.
72
FUENTE:
http://bjsdata.ojp.usdoj.gov/dataonline/Search/Crime/Local/RunCrimeOneYearofData.cfm
SALIDA N45
Call:
lm(formula = a$V2 ~ a$V3)
Residuals:
Min 1Q Median 3Q Max
-2251.4 -909.9 -221.7 1206.8 2399.6
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.289e+04 3.885e+03 -5.891 5.31e-05 ***
a$V3 6.969e+00 7.471e-01 9.328 4.01e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1488 on 13 degrees of freedom
Multiple R-squared: 0.87,Adjusted R-squared: 0.86
F-statistic: 87.01 on 1 and 13 DF, p-value: 4.008e-07
SALIDA N44
V1 V2 V3
V1 1.0000000 0.9775036 0.9764859
V2 0.9775036 1.0000000 0.9327449
V3 0.9764859 0.9327449 1.0000000
SALIDA N46
a$V2 a$V3
7.693082 7.693082
BASE DE DATOS N14
Ao
1960 3294.7 8.8 12.6 74 50.5
1961 3436.8 7 8 106 62.5
1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
1964 4015 7.8 13.2 109.8 110



1976 7615.1 11.5 47.2 294.9 337.4
1977 7225 15.8 49.1 323.1 355
1978 7506.1 15.5 53.9 359.5 351.8
1979 7996 17.5 59.5 407.5 351
1980 7941.4 20 67.2 460.6 364.9
Y
i
X
1i
X
2i
X
3i
X
4i
Problemas en el anlisis de regresin: Multicolinealidad
GRFICA N 62
Ejecutemos regresiones de ( Y
i
) sobre ( X
1i
) , ( X
2i
) , ( X
3i
) y ( X
4i
) individualmente (salidas n48, 49,
50 y 51 respectivamente).
>a1 <- (lm(a$V1~a$V2)) >a1 <- (lm(a$V1~a$V3))
>summary(a1) >summary(a1)
>a1 <- (lm(a$V1~a$V4)) >a1 <- (lm(a$V1~a$V5))
>summary(a1) >summary(a1)

73
SALIDA N47
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4 + a$V5)
Residuals:
Min 1Q Median 3Q Max
-324.76 -226.37 -60.68 191.86 706.62
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2806.063 275.315 10.192 2.11e-08 ***
a$V2 -65.081 42.701 -1.524 0.146999
a$V3 13.036 19.776 0.659 0.519152
a$V4 4.698 2.963 1.586 0.132395
a$V5 9.903 2.092 4.734 0.000224 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 305.3 on 16 degrees of freedom
Multiple R-squared: 0.975,Adjusted R-squared: 0.9688
F-statistic: 156.2 on 4 and 16 DF, p-value: 1.331e-12
SALIDA N48
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-1713.4 -737.1 102.3 406.8 2147.4
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1041.59 673.24 1.547 0.138
a$V2 384.88 56.51 6.811 1.67e-06 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 955.5 on 19 degrees of freedom
Multiple R-squared: 0.7095,Adjusted R-squared: 0.6942
F-statistic: 46.39 on 1 and 19 DF, p-value: 1.674e-06
SALIDA N49
Call:
lm(formula = a$V1 ~ a$V3)
Residuals:
Min 1Q Median 3Q Max
-917.30 -278.33 55.66 277.33 960.79
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2642.57 216.69 12.20 1.97e-10 ***
a$V3 89.89 6.09 14.76 7.31e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 502.1 on 19 degrees of freedom
Multiple R-squared: 0.9198,Adjusted R-squared: 0.9156
F-statistic: 217.8 on 1 and 19 DF, p-value: 7.314e-12
SALIDA N50
Call:
lm(formula = a$V1 ~ a$V4)
Residuals:
Min 1Q Median 3Q Max
-1134.04 -260.49 -67.28 256.49 954.38
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2363.1800 221.4738 10.67 1.83e-09 ***
a$V4 14.5729 0.9368 15.56 2.90e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 478.3 on 19 degrees of freedom
Multiple R-squared: 0.9272,Adjusted R-squared: 0.9234
F-statistic: 242 on 1 and 19 DF, p-value: 2.898e-12
SALIDA N51
Call:
lm(formula = a$V1 ~ a$V5)
Residuals:
Min 1Q Median 3Q Max
-572.29 -130.76 -13.15 181.92 927.54
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2562.0368 146.8661 17.45 3.76e-13 ***
a$V5 14.3974 0.6433 22.38 4.09e-15 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 338.9 on 19 degrees of freedom
Multiple R-squared: 0.9635,Adjusted R-squared: 0.9615
F-statistic: 500.9 on 1 and 19 DF, p-value: 4.087e-15
Podemos sospechar la existencia de multicolinealidad, ya que los coeficientes de las variables
independientes son muy significativos a un 95% en las 4 regresiones anteriores (6.811, 14.76, 15.56 Y 22.38
respectivamente).
Analicemos los coeficientes de correlacin simples entre todas las parejas de variables predictoras
(salida n52):
>cor(a)
La correlacin entre los regresores es alta,
superando las correlaciones entre X
2i
y X
3i
el R
2
del modelo original.
Encontremos el factor de inflacin de la varianza
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4+a$V5))
>library(car)
>vif(a1)
Los regresores X
2i
X
3i
y X
4i
presentan gran multicolinealidad.
3.3.4 SOLUCIONANDO LA MULTICOLINEALIDAD
Ya hemos sealado que el problema de la multicolinealidad es un problema de grados, por lo que las
medidas que aqu se proponen deben tomarse siempre y cuando su severidad sea tan importante como para
que una o varias variables del modelo de regresin que se supone sean relevantes, se presenten como
estadsticamente no significativas. Si existe multicolinealidad en un grado leve, puede continuarse el trabajo de
anlisis sin adoptar medidas para corregir el problema.
Si se trata de un problema de multicolinealidad casi perfecta, es razonable pensar que sta se debe a la
incorporacin de dos regresores que miden el mismo concepto pero de forma alternativa o bien estn indicando
un concepto ms abstracto que el que se supone hacen independientemente cada una de ellas
5
. En el primer
caso se sugiere revisar el proceso de operacionalizacin de los conceptos y suprimir la redundancia hallada, en
el segundo, determinar un ndice mediante alguna tcnica, desde la ms simple, como un ndice sumatorio
simple, hasta uno ms complejo, como un ndice calculado sobre la base de un anlisis factorial para suprimir
esta multicolinealidad.

Los mtodos ms comunes son
6
:
1. Eliminacin de variables: Cuando nos encontramos con una fuerte multicolinealidad, una de las cosas ms
simples que se pueden hacer es desechar las variables ms colineales
7
. El inconveniente es que sta es una
medida que puede provocar otro tipo de problemas, ya que si la variables que eliminamos del modelo realmente
s son significativas
8
, estamos omitiendo una variable relevante. Por consiguiente, los estimadores de los
coeficientes del modelo y de su varianza seran sesgados y as la inferencia realizada no sera vlida.
Si estamos ante un problema de informacin repetida, una solucin resulta transformar dos o ms
variables correlacionadas en una combinacin de las mismas. A este respecto es til la tcnica del anlisis
multivariable factorial.
2. Aumento del tamao de la muestra o cambiar de muestra: Teniendo en cuenta que un cierto grado de
multicolinealidad acarrea problemas cuando aumenta ostensiblemente la varianza muestral de los estimadores,
las soluciones deben ir encaminadas a reducir esta varianza introduciendo observaciones adicionales. Solucin
no siempre viable.
Si realmente es un problema muestral, una posibilidad es cambiar de muestra porque puede ser que con
nuevos datos el problema se resuelva, aunque esto no siempre ocurre. La idea consiste en conseguir datos menos
correlacionados que los anteriores. De todas formas, no siempre resulta fcil obtener mejores datos por lo que
muy probablemente debamos convivir con el problema teniendo cuidado con la inferencia realizada y las
5 Por ejemplo, las variables independientes como alfabetizacin, urbanizacin, empleo en el sector el servicios, telfonos por habitante,
mortalidad infantil, etc., en el anlisis de una regin determinada, pueden presentar fuerte multicolinealidad porque representan conjuntamente
el concepto ms abstracto de modernizacin.
6 La eleccin de estas alternativas depende de la severidad de la multicolinealidad encontrada.
7 En presencia de multicolinealidad, una medida para resolver este problema bastante lgica puede ser quitar del modelo aquellas variables con
ms alto VIF ( o ms baja tolerancia).
8 Son variables que deben estar includas en el modelo de regresin.
74
SALIDA N52
V1 V2 V3 V4 V5
V1 1.0000000 0.8422917 0.9590489 0.9629110 0.9815558
V2 0.8422917 1.0000000 0.9044769 0.8938066 0.8612384
V3 0.9590489 0.9044769 1.0000000 0.9767272 0.9562189
V4 0.9629110 0.8938066 0.9767272 1.0000000 0.9537829
V5 0.9815558 0.8612384 0.9562189 0.9537829 1.0000000
SALIDA N53
a$V2 a$V3 a$V4 a$V5
5.59514 28.52305 24.55465 13.03072
Problemas en el anlisis de regresin: Multicolinealidad
conclusiones de la misma.
3. Utilizacin de ratios: En lugar del regresando y los regresores del modelo original, se pueden utilizar ratios con
respecto al regresor que posea mayor colinealidad. Esto puede hacer que la correlacin entre los regresores del
modelo disminuya. Pero se debe tener cuidado: estos ratios pueden ser heterocedticos.
4. Utilizando informacin a priori.
Consideremos el modelo: Y
i
= b
0
+b
1
X
1i
+b
2
X
2i
+j
i
Supongamos a X
1
y X
2
altamente colineales y supongamos que creemos que b
2
= 0,1b
1
Entonces: Y
i
= b
0
+b
1
X
1i
+0,1b
1
X
2i
+j
i
= b
0
+b
1
X
i
+j
i
donde: X
i
= X
i1
+0,1X
2i
Una vez que obtenemos

b
1
podemos estimar

b
2
de la relacin postulada entre b
1
y b
2
.
De donde obtenemos la informacin a priori? Puede provenir de trabajos empricos previos en los que el
problema de la colinealidad parezca ser menos serio o de teora relevante subyacente al campo de estudio
(como en el caso de los retornos a escala constantes).
75
4.1 FORMAS FUNCIONALES
4.1.1 INTRODUCCIN
Frecuentemente en las ciencias sociales nos encontramos con variables cuyas relaciones entre s no son
lineales. Este es el caso por ejemplo, de la relacin entre el PIB per cpita y la esperanza de vida en los pases del
mundo o la tasa de crecimiento demogrfico en los pases en vas de desarrollo durante el siglo XX. Al
encontrarnos con estos casos, muchas veces podremos transformar las variables para obtener funciones lineales
en los parmetros, sobre las cuales podremos aplicar el mtodo de MCO y as obtener una ecuacin de
regresin lineal.
Es importante sealar que el primer paso para escoger la forma funcional adecuada para una relacin
no lineal entre variables es recurrir a lo que la teora social bajo la cual estudiamos nuestras variables seala.
Algunas de las relaciones no lineales ms comunes entre variables y sus transformaciones son las
siguientes:
4.1.2 FORMA DOBLE-LOG: Y= b
0
X
b
1
e

(99)
Esta forma aparece cuando nos encontramos con variables que crecen a un ritmo exponencial.
Aplicando logaritmos la forma (76): lnY= lnb
0
b
1
lnX o bien:
Y= e
lnb
0
b
1
lnX
Si hacemos: lnY= Y

, lnb
0
= b
0

y lnX= X

la expresin anterior nos queda Y

= b
0

b
1
X

,
ecuacin a la que ya podemos aplicar el mtodo de MCO ya conocidos. La ecuacin de regresin as obtenida
ser:

b
0


b
1
X

o bien

lnY=

lnb
0


b
1
lnX Aplicando un exponencial obtenemos:

Y= e


lnb
0


b
1
lnX
(100)
Aspectos tericos.
Supongamos que nos encontramos con una relacin matemtica perfecta entre dos
variables de la forma Y= e
1lnX
, funcin que nos es desconocida. Tenemos sin embargo, los
valores que estas dos variables asumen y que se muestran en la tabla N37. Grafiquemos con R
los puntos y la recta de regresin lineal aplicada a ellos:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma doble-log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>jpeg(file='a.jpeg', width=500, height=500)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma doble-log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>dev.off()
y obtengamos los parmetros estimados de la regresin:
>a1 <- (lm(a$V1~a$V2))
>summary(a1)

Y= 1,25190,0727X R
2
= 0,473
6,111 4,249
Sospechamos que nos encontramos en presencia de una relacin doble log. Lo que tenemos que hacer
por lo tanto, es transformar ambas variables en sus respectivos logaritmos y correr una regresin sobre ellas.
76
TABLA N37
2,718 1
1,359 2
0,906 3
0,680 4
0,544 5

0,170 16
0,160 17
0,151 18
0,143 19
0,136 20
Y
i
X
i
Problemas en el anlisis de regresin: Formas funcionales
GRFICA N63
Grafiquemos las nuevas variables (tabla n38), la recta de regresin lineal aplicada sobre
ellas y apliquemos una regresin para obtener los coeficientes:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='LnX', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma doble-log:", "LnY versus LnX",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
GRFICA N64
Obtenemos la ecuacin:

Y

= 1 X

R
2
=1
9,143e+15 2,066e+16
77
SALIDA N54
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-0.3630 -0.2853 -0.1130 0.1592 1.5390
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.25194 0.20487 6.111 8.99e-06 ***
a$V2 -0.07266 0.01710 -4.249 0.000483 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.441 on 18 degrees of freedom
Multiple R-squared: 0.5007, Adjusted R-squared: 0.473
F-statistic: 18.05 on 1 and 18 DF, p-value: 0.000483
SALIDA N55
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.045e-16 -9.394e-17 -4.092e-17 6.958e-17 3.105e-16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1 1.094e-16 9.143e+15 <2e-16 ***
a$V2 -1 4.839e-17 -2.066e+16 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.714e-16 on 18 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 4.27e+32 on 1 and 18 DF, p-value: < 2.2e-16
TABLA N38
1.000 0.000
0.307 0.693
-0.099 1.099
-0.386 1.386
-0.609 1.609



-1.773 2.773
-1.833 2.833
-1.890 2.890
-1.944 2.944
-1.996 2.996
lnY
i
lnX
i
Como

Y

b
0


b
1
X

es equivalente a

Y= e


lnb
0


b
1
lnX
, tenemos para nuestro ejemplo que

Y= e
1lnX
= e / X
GRFICA N65
Si graficamos nuestras variables
originales y esta curva, observamos que
coinciden perfectamente (grfica n65):

>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( 0 ,20,length = 100)
>lines(x, exp(1-log(x)), type='l', col= 'red', lwd=3)
>title(main=paste("Forma doble-log:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family
='NewCenturySchoolbook')

4.1.2.1 La funcin Cobb-Douglas.
En economa, una forma funcional clsica es la funcin Cobb-Douglas. Es de las ms usadas por ser una
de las que ms se acerca a la realidad econmica.
Esta funcin result de la observacin emprica de la distribucin del PIB entre capital y trabajo en los
EE.UU. Los datos mostraron evidencia de una relacin de la forma:
Q= AK
b
1
L
b
2
e

donde:
Q = Produccin total (el valor monetario de todos los bienes y servicios producidos durante un ao o
PIB).
K = Stock de capital.
L = Stock de trabajo.
A = Productividad total de los factores (o la tecnologa en un momento dado en un sociedad), y
b
1
y b
2
= Elasticidades del producto en relacin al capital y al trabajo, respectivamente.
(La funcin Cobb-Douglas tambin aparece en la relacin entre la cantidad demandada de una
mercanca (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b
0
P
b
1
Y
b
2
e

)
4.1.2.2 La definicin de la elasticidad.
Al aplicar una regresin lineal a un modelo Cobb-Douglas, obtenemos que los parmetros estimados de
la ecuacin de regresin corresponden a las elasticidades de la variable dependiente respecto a las
independientes. Derivemos las frmulas de las elasticidades para la relacin entre la cantidad demandada de
una mercanca (Q), su precio (P) y el ingreso de los consumidores (Y): Q= b
0
P
b
1
Y
b
2
e

.
a) b
1
es la elasticidad de la demanda respecto al precio o
P
Por definicin:
P
=
Q
P

P
Q
La derivada parcial de la funcin Q respecto a P es
Q
P
= b
1
b
0
P
b
1
1
Y
b
2
e

= b
1
b
0
P
b
1
Y
b
2
e

P
1
= b
1
Q
P
sustituyendo el valor de
Q
P
dentro de la frmula para
P
obtenemos:
P
= b
1
Q
P

P
Q
= b
1
78
TABLA N39
2,718 1
1,359 2
0,906 3
0,680 4
0,544 5

0,170 16
0,160 17
0,151 18
0,143 19
0,136 20

Y
i
= e/X
i
X
i
Problemas en el anlisis de regresin: Formas funcionales
b) b
2
es la elasticidad de la demanda respecto al ingreso o
Y
Por definicin
Y
=
Q
Y

Y
Q
La derivada parcial de la funcin Q respecto a Y es
Q
Y
= b
2
b
0
P
b
1
Y
b
2
1
e

= b
2
b
0
P
b
1
Y
b
2
e

Y
1
= b
2
Q
Y
sustituyendo el valor de
Q
Y
dentro de la frmula para
Y
obtenemos:
Y
= b
2
Q
Y

Y
Q
= b
2
Si para la funcin Cobb-Douglas, b
2
= 0,15 , un aumento del 1% en la cantidad de trabajo, provocara
un incremento aproximado del 0,15% en el volumen del producto.
Si esta funcin cumple el principio de los rendimientos constantes a escala, entonces si K y L aumentan
cada uno el 20%, Q aumenta tambin el 20%. Lo anterior se expresa en trminos de elasticidades como:
b
1
b
2
= 1 . Por otro lado, si b
1
b
2
1 , hay retornos crecientes a escala esto es, un incremento de K y L de
un 10% implicar que la salida se incremente un b
1
b
2
10 %
Ejemplo N17: Funcin Cobb-Douglas de la economa chilena (1986-2000).
La base de datos N13 nos entrega los valores del PIB Y
i
, stock de capital X
1i
(ambos en miles de
millones de pesos al ao 1986) y la fuerza de trabajo X
2i
en miles de personas para Chile entre los aos 1986 y
2000. Consideremos la aplicacin de una funcin Cobb-Douglas para estos datos de la economa chilena.
Apliquemos una regresin a los logaritmos de estos datos dados por la tabla N40:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
Nuestra ecuacin de regresin resulta:

= 10,62520,4425K

1,7653L

R
2
= 0,9896
4,735 6,747
Nuestro valor crtico t para un 95%
de significacin es:
>qt(0.975,13)
[1] 2.160369
por lo que todos nuestros
parmetros estimados son
significativos al 5%.
Consideremos:

Q

b
0


b
1
K


b
2
L

o lo que es lo mismo:

lnQ=

lnb
0


b
1
lnK

b
2
lnL por lo que:

lnb
0
= 10,6252 y

b
0
= e
10,6252
= 0,000024296
79
SALIDA N56
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-0.057389 -0.016945 -0.001807 0.022291 0.042643
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -10.62516 1.42407 -7.461 7.62e-06 ***
a$V2 0.44246 0.09345 4.735 0.000485 ***
a$V3 1.76534 0.26166 6.747 2.05e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.03204 on 12 degrees of freedom
Multiple R-squared: 0.9911, Adjusted R-squared: 0.9896
F-statistic: 664.8 on 2 and 12 DF, p-value: 5.123e-13
TABLA N40
8,137 9,066 8,359
8,201 9,088 8,383
8,272 9,121 8,427
8,372 9,168 8,461
8,408 9,224 8,481



8,896 9,641 8,617
8,968 9,728 8,635
9,006 9,811 8,654
8,995 9,872 8,671
9,047 9,916 8,673
lnY
i
lnX
1i
lnX
2i
BASE DE DATOS N13

Ao
1986 3419 8658 4269,674
1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836



1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
Y
i
X
1i
X
2i
Como

Q=

b
0
K

b
1
L

b
2
nuestra ecuacin de regresin final resulta:

Q= 0,000024296 K
0,4425
L
1,7653
Notemos que 0,4425+1,7653 > 1 por lo que nuestra economa para el periodo sealado present
rendimientos a escala crecientes.
4.1.3 FORMA SEMI-LOG: lnY= b
0
b
1
X (101)
Esta forma funcional representa un crecimiento exponencial simple, con lo que la podemos asociar de
una manera intuitivamente directa (si la variable independiente es el tiempo) a fenmenos como la oferta de
mercancas con nuevas tecnologas en pases desarrollados, el inicio de la expansin de una enfermedad
infecciosa, etc.
Si lnY= Y

, Y

= b
0
b
1
X con lo que nuestra ecuacin de regresin queda de la siguiente
manera:

Y

b
0


b
1
X o bien, aplicando un exponencial

Y= e


b
0


b
1
X
(102)

b
1
mide el cambio relativo producido en Y, por unidad de cambio en X.
Aspectos tericos.
Supongamos que nos encontramos con una relacin matemtica perfecta entre dos
variables de la forma:
Y= e
2
X
10

, funcin que nos es desconocida. Tenemos sin embargo, los


valores que estas dos variables asumen y se muestran en la tabla N41:
Grafiquemos con R los puntos y la recta de regresin lineal aplicada sobre ellos:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma semi-log:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
y obtengamos los parmetros estimados de la regresin:
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
Nuestra ecuacin de regresin resulta:

Y= 0,00830,4175 X R
2
= 0,9306 GRFICA N66
0,012 16,408
Podemos especular que la funcin entre las variables es de la forma:

Y= e


b
0


b
1
X
, por lo que
grafiquemos estas variables transformadas, la recta de regresin a ellas asociadas y apliquemos una regresin
para obtener los coeficientes:
80
SALIDA N57
Call:
lm(formula = AAR2a$V1 ~ AAR2a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.0762 -1.1554 0.3879 1.4216 1.7673
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.008332 0.706595 -0.012 0.99
AAR2a$V2 0.417446 0.025442 16.408 1.12e-12 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.634 on 19 degrees of freedom
Multiple R-squared: 0.9341 Adjusted R-squared: 0.9306
F-statistic: 269.2 on 1 and 19 DF, p-value: 1.125e-12
TABLA N41
7,389 0
8,166 1
9,025 2
9,974 3
11,023 4

36,598 16
40,447 17
44,701 18
49,402 19
54,598 20
Y
i
X
i
Problemas en el anlisis de regresin: Formas funcionales
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='LnY', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma semi-log:", "LnY versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
Obtenemos la ecuacin:
ln

Y= 2 X/ 10 R
2
=1
1,884e+16 1,102e+16
la cual es equivalente a

Y= e
2
X
10

GRFICA N67

Por ltimo grafiquemos nuestras variables originales (tabla n41) con esta recta de regresin:
GRFICA N68
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( 0 ,20,length = 100)
>lines(x, exp(2+(x/10)), type='l', col= 'red', lwd=3)
>title(main=paste("Forma semi-log:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

81
SALIDA N58
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-3.972e-16 -1.709e-16 -2.150e-17 1.594e-16 7.472e-16
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2 1.061e-16 1.884e+16 <2e-16 ***
a$V2 0,1 9.078e-18 1.102e+16 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2.519e-16 on 19 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 1.213e+32 on 1 and 19 DF, p-value: < 2.2e-16
TABLA N42
2,0 0
2,1 1
2,2 2
2,3 3
2,4 4

3,6 16
3,7 17
3,8 18
3,9 19
4,0 20
lnY
i
X
i
Ejemplo N18: La explosin demogrfica en EE.UU. entre 1790 y 1960.
En el siglo XX Estados Unidos experiment una de las explosiones demogrficas
ms grandes del mundo, que se explica, entre otras cosas, por una enorme inmigracin.
La base de datos N15 nos entrega los valores de la cantidad de poblacin
Y
i
y el ao X
2i
en EE.UU. entre 1790 y 1690.
Grafiquemos las variables, la recta de regresin a ellas asociada y calculemos los
coeficientes sobre estos datos:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Aos', ylab='Nmero de habitantes', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma semi-log:", "Nmero de habitantes versus
Aos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
Obtenemos la ecuacin:

Y= 1,83e+091,009e+06 R
2
= 0.9206
13,6 14.07
GRFICA N69
Podemos especular que la funcin entre las variables es de la forma:

Y= e


b
0


b
1
X
, por
lo que corramos una regresin entre las siguientes variables transformadas (tabla n43) y
grafiquemos la ecuacin de regresin obtenida junto a las variables originales:
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Aos', ylab='Nmero de habitantes', cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( 1780, 1970, length = 100)
>lines(x, exp(-25.19 + 0.0227*(x)), type="l", col= 'red', lwd=3)
>title(main=paste("Forma semi-log:", "Nmero de habitantes versus
Aos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Nuestra ecuacin de regresin resulta entonces:

Y= e


b
0

b
1
X

Y= e
25,190,0227X
82
FUENTE:
http://www.census.gov/
SALIDA N59
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-18776884 -13317773 -2941158 9177445 31141520
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.830e+09 1.345e+08 -13.60 3.28e-10 ***
a$V2 1.009e+06 7.173e+04 14.07 1.98e-10 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 15790000 on 16 degrees of freedom
Multiple R-squared: 0.9252, Adjusted R-squared: 0.9206
F-statistic: 198 on 1 and 16 DF, p-value: 1.982e-10
BASE DE DATOS N15
3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830



106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960
Y
i
X
i
TABLA N43
15.184 1790
15.485 1800
15.795 1810
16.081 1820
16.370 1830



18.479 1920
18.629 1930
18.700 1940
18.835 1950
19.005 1960
lnY
i
X
i
Problemas en el anlisis de regresin: Formas funcionales
GRFICA N70
4.1.4 FORMA POLINOMIAL Y= b
0
b
1
Xb
2
X
2
(103)
Si hacemos W= X
2
la forma polinomial queda linealizada como: Y= b
0
b
1
Xb
2
W
y nuestra ecuacin de regresin queda como :

Y=

b
0


b
1
X

b
2
W (104)
Aspectos tericos.
Supongamos que nos encontramos con una relacin matemtica perfecta entre dos
variables de la forma: Y=22 X3X
3
, funcin que nos es desconocida. Tenemos sin
embargo, los valores de estas dos variables asumen y que se muestran en la tabla n44:
Grafiquemos estos datos con R, junto con la recta de regresin y obtengamos los
parmetros estimados:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma polinomial:", "Y versus X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
La ecuacin que obtenemos resulta:

Y= 2 199,4 X R
2
= 0,8371
0,017 10,186
83
SALIDA N60
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-0.31942 -0.15824 0.02600 0.17855 0.22418
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.519e+01 1.653e+00 -15.24 6.00e-11 ***
a$V2 2.271e-02 8.811e-04 25.78 1.85e-14 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.1939 on 16 degrees of freedom
Multiple R-squared: 0.9765, Adjusted R-squared: 0.975
F-statistic: 664.4 on 1 and 16 DF, p-value: 1.855e-14
SALIDA N61
Call:
lm(formula = AAR7a$V2 ~ AAR7a$V1)
Residuals:
Min 1Q Median 3Q Max
-1.026e+03 -4.104e+02 -5.476e-14 4.104e+02 1.026e+03
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.00 118.54 0.017 0.987
AAR7a$V1 199.40 19.58 10.186 3.91e-09 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 543.2 on 19 degrees of freedom
Multiple R-squared: 0.8452, Adjusted R-squared: 0.8371
F-statistic: 103.7 on 1 and 19 DF, p-value: 3.910e-09
TABLA N44
-3018 -10
-2203 -9
-1550 -8
-1041 -7
-658 -6



662 6
1045 7
1554 8
2207 9
3022 10
Y
i
X
i
GRFICA N71
Podemos especular que la funcin entre las variables es
de la forma:

Y=

b
0


b
1
X

b
2
W , por lo que grafiquemos las
variables originales junto con la recta de regresin asociada a
esta funcin .
Corramos una regresin sobre las variables sealadas en
la tabla n45 y grafiquemos la ecuacin de regresin obtenida
junto a los datos originales (tabla n44):
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( -10, 10, length = 100)
>lines(x, 2+2*x+3*x*x*x, type="l", lwd=3, col= 'red')
>title(main=paste("Forma polinomial:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

GRFICA N72
Nuestra ecuacin de regresin resulta entonces:

Y
i
= 2 2 X
i
3X
i
2
R
2
= 1
2,501e+14 2,2,689e+14
Y obtenemos exactamente la funcin que determina la
relacin entre las variables originales: Y= 22X3W
84
SALIDA N62
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-1.727e-13 -4.891e-14 1.020e-14 6.577e-14 1.344e-13
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.000e+00 1.921e-14 1.041e+14 <2e-16 ***
a$V2 2.000e+00 7.997e-15 2.501e+14 <2e-16 ***
a$V3 3.000e+00 1.116e-16 2.689e+16 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 8.805e-14 on 18 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 2.336e+33 on 2 and 18 DF, p-value: < 2.2e-16
TABLA N45
-3018 -10 -1000
-2203 -9 -729
-1550 -8 -512
-1041 -7 -343
-658 -6 -216



662 6 216
1045 7 343
1554 8 512
2207 9 729
3022 10 1000
Y
i
X
i
X
i
2
Problemas en el anlisis de regresin: Formas funcionales
Ejemplo N19: Diagnosticados con VIH en Norteamrica entre 1987 y el 2000.
Se estima que actualmente ms de un milln de personas han sido
diagnosticadas con VIH en los EE.UU., constituyendo este virus uno de los problemas de
salud pblica ms importantes que afecta a ese pas. No obstante, con el descubrimiento
de terapias ms eficaces, el mayor conocimiento por parte de la comunidad mdica de
las infecciones oportunistas y las campaas de uso del preservativo, a partir de 1995 tanto
las defunciones por SIDA como los diagnosticados con VIH se han reducido
notablemente.
La base de datos n16 nos entrega los valores del nmero de diagnosticados con
VIH Y
i
entre 1987 y el 2000 X
i
en EE.UU.
Grafiquemos estos datos con R, y la recta de regresin a ellos asociada.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Aos', ylab='Nmero de diagnoticados con VIH',
cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma polinomial:", "Nmero de diagnoticados con VIH versus
aos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N73
Podemos especular que la funcin entre las variables es
de la forma:

Y=

b
0


b
1
X

b
2
W , por lo que corremos una
regresin entre las variables de la tabla n46:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
85
FUENTE:
http://www.avert.org/usastaty.htm
SALIDA N63
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-9863 -4650 -1131 3372 12036
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11054.0 7020.3 1.575 0.144
a$V2 15484.2 2153.1 7.191 1.77e-05 ***
a$V3 -1009.4 139.6 -7.229 1.69e-05 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 7535 on 11 degrees of freedom
Multiple R-squared: 0.8274, Adjusted R-squared: 0.796
F-statistic: 26.37 on 2 and 11 DF, p-value: 6.362e-05
BASE DE DATOS N16
29105 1987
36126 1988
43499 1989
49546 1990
60573 1991



61124 1996
49379 1997
43225 1998
41356 1999
39513 2000
Y
i
X
i
TABLA N46
29105 1 1
36126 2 4
43499 3 9
49546 4 16
60573 5 25



61124 10 100
49379 11 121
43225 12 144
41356 13 169
39513 14 196
Y
i
X
i
X
i
2
GRFICA N74
Obtenemos:

Y
i
= 1105415484,2X
i
1009,4X
i
2
R
2
= 0,796

7,191 7,229
Grafiquemos la ecuacin de regresin obtenida junto
a los datos originales ( Y
i
y X
i
de la tabla)
1
.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Aos', ylab='Nmero de diagnoticados con VIH',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq(1,14, length = 100)
>lines(x, 11054 +15484.2*x-1009.4*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial:", "Nmero de diagnoticados con VIH
versus
aos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Ejemplo N20: Evolucin de los detenidos por drogas por la DEA en los EE.UU (1994-2004).
En ningn otro pas del mundo el problema de las drogas es tan extendido e intenso
como en los EE.UU. Graves problemas sociales como la criminalidad y el contagio de VIH
se asocian a l.
Un gran porcentaje del dinero gastado en el combate a las drogas se destina a la
represin, en particular en arrestos, procesos judiciales y encarcelamiento de traficantes
de poca monta. Aproximadamente 500.000 personas estn encarceladas por delitos de
drogas en los EE.UU. Las medidas vinculadas a la prevencin o al tratamiento, han tenido
poco xito.
La base de datos N17 nos entrega los valores del nmero de arrestos por drogas Y
i

entre 1994 y el 2004 X


i
en EE.UU.

GRFICA N75
Grafiquemos estos datos con R y la recta de regresin
a ellos asociada.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Aos', ylab='Nmero de arrestos relacionados
con drogas', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma polinomial: Nmero de arrestos", "relacionados con
drogas versus aos",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
1 Es importante sealar que no es razonable incluir el valor de los aos como variable independiente en la regresin, pues a este nivel la curva
generada entre X y X
2
es prcticamente una recta, con lo que las variables independientes presentarn una multicolinealidad total.
Cambiamos por esto el valor de los aos por nmeros del 1 al 14.
86
Fuente:
http://www.usdoj.gov/dea/statistics.html
BASE DE DATOS N17
23135 1994
25279 1995
29269 1996
34068 1997
38468 1998



39743 2000
34471 2001
30270 2002
28549 2003
27053 2004
Y
i
X
i
Problemas en el anlisis de regresin: Formas funcionales
Podemos especular que la funcin entre las variables es de la forma:

Y=

b
0


b
1
X

b
2
W , por lo que corremos una regresin entre las variables de la tabla
n47:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
Obtenemos:

Y
i
= 14394,637501,46X
i
596,52X
i
2
R
2
= 0,8278
7,074 6,931
Grafiquemos la ecuacin de regresin obtenida junto a los datos originales.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='Aos', ylab='Nmero de arrestos relacionados con drogas', cex.lab=1,family='NewCenturySchoolbook')
>x <- seq(1,11, length = 100)
>lines(x, 14394.63 +7501.46*x-596.52*x*x, type="l", col= 'red',lwd=3)
>title(main=paste("Forma polinomial: Nmero de arrestos", " relacionados con drogas versus
aos",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N76
4.1.5 FORMA RECPROCA Y= b
0

b
1
X
(105)
GRFICA N77
Si Z=
b
1
X
la ecuacin transformada queda Y= b
0
b
1
Z ,
con lo que nuestra ecuacin de regresin resulta:

Y=

b
0


b
1
Z (106)
Este modelo tiene las siguientes caractersticas: A medida que X
crece indefinidamente, el trmino

b
1
Z se aproxima a cero e

Y se
aproxima al lmite asinttico

b
0
.
Por lo tanto en estos modelos se constituye una asntota o valor
lmite que la variable dependiente toma cuando cuando el valor de
X crece indefinidamente, tal como se muestra en la grfica N77.
87
SALIDA N64
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-3319.6 -1745.2 -788.1 1951.5 3364.3
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14394.63 2768.63 5.199 0.000823 ***
a$V2 7501.46 1060.41 7.074 0.000105 ***
a$V3 -596.52 86.07 -6.931 0.000121 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 2521 on 8 degrees of freedom
Multiple R-squared: 0.8622, Adjusted R-squared: 0.8278
F-statistic: 25.04 on 2 and 8 DF, p-value: 0.0003601
TABLA N47
23135 1 1
25279 2 4
29269 3 9
34068 4 16
38468 5 25



39743 7 49
34471 8 64
30270 9 81
28549 10 100
27053 11 121
Y
i
X
i
X
i
2
Aspectos tericos.
Supongamos que nos encontramos con una relacin matemtica
perfecta entre dos variables de la forma: Y= 52
1
X
, funcin que nos es
desconocida. Tenemos sin embargo, los valores que estas dos variables asumen
y se muestran en la tabla n48:
Grafiquemos estos datos con R y la recta de regresin a ellos asociada.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='X', ylab='Y', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma recproca:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
Podemos especular que la funcin entre las variables es de la forma: Y= b
0

b
1
X
, por lo que
corremos una regresin entre las variables de la tabla n49:
GRFICA N78
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
La ecuacin que obtenemos resulta:

Y= 5 2 Z R
2
= 1
26536 2999
Grafiquemos las variables originales (tabla n48) junto
con la recta de regresin aqu obtenida.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='X', ylab='Y',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( 1, 20, length = 100)
>lines(x, 5+2*(1/x), type="l", lwd=3, col= 'red')
>title(main=paste("Forma recproca:", "Y versus
X",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N79

88
SALIDA N65
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-0.0008940 -0.0004211 0.0001214 0.0001499 0.0011506
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.9998164 0.0001884 26536 <2e-16 ***
a$V2 2.0004648 0.0006670 2999 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.0006496 on 18 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: 1
F-statistic: 8.996e+06 on 1 and 18 DF, p-value: < 2.2e-16
TABLA N48
7,000 1
6,000 2
5,667 3
5,500 4
5,400 5



5,125 16
5,118 17
5,111 18
5,105 19
5,100 20
Y
i
X
i
TABLA N49
7,000 1,000
6,000 0,500
5,667 0,333
5,500 0,250
5,400 0,200



5,125 0,063
5,118 0,059
5,111 0,056
5,105 0,053
5,100 0,050
Y
i
Z
i
Problemas en el anlisis de regresin: Formas funcionales
Ejemplo N21: Tasa de mortalidad infantil y el PIB per cpita ajustado a paridad de poder adquisitivo
para 42 pases.
La base de datos N18 nos entrega los valores la tasa de mortalidad
infantil por cada 100 nacidos vivos Y
i
al 2009 y el PIB PPA per cpita X
i
al
2008 para 219 pases. Suponemos que a mayor PIB PPA baja dramticamente la
mortalidad infantil.
Grafiquemos estos puntos y la recta de regresin a ellos asociada:
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='PIB PPA per cpita', ylab='Tasa de mortalidad infantil',
cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>title(main=paste("Forma recproca:", "Tasa de mortalidad infantil versus PIB PPA per
cpita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N80
Nuestra suposicin resulta verdadera porque a mayor
PIB PPA la gente puede disponer de ms recursos para el
cuidado de la salud, asumiendo que los dems factores
permanecen constantes. Observemos que a medida que el
PIB PPA per cpita se incrementa, hay inicialmente una
drstica cada de la mortalidad infantil pero que se estabiliza
a medida que el PIB PPA per cpita contina creciendo.
Podemos especular que la funcin entre las variables
es de la forma: Y= b
0

b
1
X
, por lo que corremos una
regresin entre las variables de la tabla 50:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
La ecuacin que obtenemos resulta:

Y= 19,35132177,613 Z R
2
= 0,3516
10,13 10,92
Grafiquemos las variables originales junto con la recta de regresin aqu
obtenida.
>a <- read.table('a.txt')
>par(bg = "Ivory 2")
>plot(a$V2,a$V1, col=3, xlab='PIB PPA per cpita', ylab='Tasa de mortalidad infantil',
cex.lab=1,family='NewCenturySchoolbook')
>x <- seq( 0, 120000, length = 100)
>lines(x, 19.351+32177*(1/x), type="l", lwd=3, col= 'red')
>title(main=paste("Forma recproca:", "Tasa de mortalidad infantil versus PIB PPA per
cpita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')

89
Fuente:
http://www.cia.gov
BASE DE DATOS N18

Afghanistan 151,95 800
Albania 18,62 6000
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500



West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200
Y
i
X
i
TABLA N50
Afghanistan 151,95 0,001250
Albania 18,62 0,000167
Algeria 27,73 0,000145
American Samoa 10,18 0,000125
Andorra 3,76 0,000024



West Bank 15,96 0,000345
Western Sahara 69,66 0,000400
Yemen 54,7 0,000400
Zambia 101,2 0,000667
Zimbabwe 32,31 0,005000
Y
i
1/X
i
GRFICA N81
90
SALIDA N66
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-147.929 -14.768 -7.359 10.422 99.330
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 19.351 1.911 10.13 <2e-16 ***
a$V2 32177.613 2947.032 10.92 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 24.39 on 217 degrees of freedom
Multiple R-squared: 0.3546,Adjusted R-squared: 0.3516
F-statistic: 119.2 on 1 and 217 DF, p-value: < 2.2e-16
Aplicaciones del anlisis de regresin: Variables Dummy
4.2 VARIABLES DUMMY
1
4.2.1 INTRODUCCIN
Hasta el momento, en el anlisis de regresin lineal slo hemos considerado variables cuantitativas
continuas -las cuales pueden tomar cualquier valor dentro de un intervalo especfico de nmeros- tanto para los
regresores como para el regresando. Sin embargo, en muchos casos, variables de naturaleza cualitativa pueden
influenciar de manera decisiva a la variable dependiente
2
(consideremos por ejemplo el sexo, la etnicidad, la
religin, etc.) Para estudiar estos casos dentro del modelo de regresin lineal introduciremos variables
independientes cualitativas, llamadas tambin variables dummy.
Estas variables funcionan como un dispositivo de clasificacin en categoras mutuamente excluyentes y
se tratan como a cualquier otra variable cuantitativa. Son tantas como el nmero de categoras en que se divida
la variable menos 1. Por ejemplo, si una variable posee dos categoras, como en el caso del sexo (hombre o
mujer) se construye una variable dummy en la que 1 indica mujer y 0 hombre. Si utilizamos una variable que
posee 3 categoras, como en el caso de la religin (catlico, protestante o judo, por ejemplo) construimos dos
variables dummy: (1 0) en el caso de catlico, (0 1) en el caso de protestante y (0 0) en el caso de judo y as
sucesivamente. En general diremos que a k categoras, utilizamos k-1 variables dummy.
Las variables dummy pueden ser incorporadas en los modelos de regresin tan fcilmente como las
variables cuantitativas. De hecho, un modelo de regresin puede poseer regresores exclusivamente dummy. Estos
modelos son llamados modelos de Anlisis de Varianza (ANOVA) y los estudiaremos a continuacin.
4.2.2 MODELOS SLO CON VARIABLES PREDICTORAS CUALITATIVAS (ANOVA).
4.2.2.1 Modelos con solo una variable predictora cualitativa.
La poblacin latina en Texas.
Se proyecta que para el 2020 la poblacin blanca en el Estado de Texas dejar de ser la mayora
absoluta pasando a constituir solo el 47%, mientras la poblacin latina ser el 37% -por lejos, la segunda mayora
relativa-
3
, dndose en esta poblacin los ndices ms altos de pobreza. 'En 1999, ms de 1.6 millones (25.4 por
ciento) de hispanos en Texas eran pobres. Su ingreso familiar promedio era de $29,873, muy por debajo del
promedio de Texas de $39,927'
4
.
Es as que a medida que pasa el tiempo, debido a la cada vez mayor cantidad de poblacin hispana en
Texas, una tambin cantidad cada vez mayor de poblacin tejana se har pobre.
Texas debe reducir las disparidades econmicas que subyacen an en su poblacin si desea un porvenir
sustentable.
Ejemplo N22: % de poblacin latina y su ubicacin geogrfica en el Estado de Texas, EE.UU.
Para comenzar a caracterizar a la poblacin latina de Texas, supongamos que queremos saber si el
porcentaje de sta sobre el total difiere en forma significativa entre tres zonas seleccionadas arbitrariamente de
los 254 condados del Estado.
Para esto, creamos dos variables dummy que nos indican la ubicacin geogrfica (grfica n82). De esta
manera:
D
1i
D
2i
1: Frontera con Mxico (1 0)
2: Centro-oeste y este (0 1)
3: El resto del Estado (0 0)
La base de datos n19 muestra el porcentaje de poblacin latina como variable dependiente Y
i
,
como variables dummy D
1i
y D
2i
la ubicacin geogrfica para los 254 condados del Estado de Texas y el %
promedio de poblacin latina dentro de estos tres grupos.
1 Estas variables tambin se conocen como indicadoras, categricas, mudas o ficticias.
2 Por ejemplo, existe evidencia emprica de que las mujeres ganan menos que los hombres por la misma actividad en el mercado del trabajo.
3 http://www.cis.org/TexasImmigration-1970-2020
4 http://www.dallasfed.org/entrada/articles/2005/sp_fotexas_petersen.html
91

GRFICA N 82
Los promedios de poblacin latina para estas tres
regiones son:
Poblacin
latina
1: Frontera con Mxico : 69,08 %
2: Centro-oeste y este : 17,93 %
3: El resto del Estado : 22,15 %
Son estos resultados significativamente diferentes unos
de otros?
Existen varias tcnicas estadsticas para comparar dos o
ms promedios, las cuales son generalmente llamadas anlisis
de varianza, pero el mismo objetivo puede lograrse dentro del
contexto de un anlisis de regresin.
Para ver esto, supongamos el siguiente modelo:
Y
i
= b
0
b
1
D
1i
b
2
D
2i

i
(107)
y hagamos una regresin (salida n67):
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3))
>summary(a1)
Obtenemos la siguiente ecuacin:

Y
i
= 22,1546,935D
1i
4,225D
2i
R
2
= 0,5766
16,882 2,052
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,251)
[1] 1.969460 por lo que nuestros parmetros estimados son significativos al 5%.
92
Fuente:
http://geology.com/
FUENTE:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
%
Poblacin
Condado latina
promedio
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0



Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0 69,08
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
Hale County 47,99 0 1



Hardin County 2,45 0 1
Cass County 1,62 0 1
Sabine County 1,60 0 1
Marion County 1,40 0 1
Delta County 0,81 0 1 17,93
Atascosa County 58,70 0 0
Deaf Smith County 57,71 0 0
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0



Montague County 5,49 0 0
Llano County 5,14 0 0
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Roberts County 1,35 0 0 22,15
BASE DE DATOS N19
Y
i
D
1i
D
2i
Aplicaciones del anlisis de regresin: Variables Dummy

b
0
es nuestro punto de control correspondiente
a los valores de las variables dummy: (0 0) y nos entrega el
promedio del % de poblacin latina para los condados
que se encuentran 'en el resto del Estado': 22,15%.
Reemplacemos los valores de las correspondientes
dummy:
D
1i
: 1 y D
2i
: 0 El condado se encuentra
en la frontera y nuestra ecuacin queda:

Y
i
= 22,1546,935= 69,085
D
1i
: 0 y D
2i
: 1 El condado se encuentra
en el centro-oeste y este y nuestra ecuacin queda:

Y
i
= 22,154,225= 17,925
Vemos que hay una tremenda concentracin de
poblacin latina en la frontera con Mxico.
Los valores de

b
1
y

b
2
nos dicen en cuanto los porcentajes promedio de latinos en los condados de
la frontera y del centro-oeste y el este difieren del promedio del porcentaje de latinos del 'resto del Estado'.
4.2.2.2 Modelos con dos variables predictoras cualitativas
Ejemplo N23: % de pobreza, ubicacin geogrfica y densidad de poblacin latina en el Estado de
Texas.
La base de datos n20 nos entrega como variable dependiente Y
i
el % de poblacin pobre para los
condados del Estado de Texas y como regresores, las dos variables dummy de ubicacin espacial vistas en el
ejemplo anterior ( D
1i
y D
2i
)y una nueva variable dummy que categoriza la densidad de la poblacin
hispana:
1: D
3i
= 1 condados con ms del 30% de su poblacin latina.
2: D
3i
= 0 condados con menos del 30% de su poblacin latina.
Supongamos un modelo del tipo:
Y
i
= b
0
b
1
D
1i
b
2
D
2i
b
3
D
3i

i (108)
Y hagamos un anlisis de regresin (salida n68):
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
Nuestra ecuacin resulta:

Y
i
= 14,43318,9935D
1i
1,5022D
2i
1,383 D
3i
9,018 2,4 1,906
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.95,252)
[1] 1.650923 por lo que nuestros parmetros estimados son
significativos al 5%.
93
SALIDA N67
Call:
lm(formula = a$V1 ~ a$V2 + a$V3)
Residuals:
Min 1Q Median 3Q Max
-47.454 -10.079 -4.160 9.534 36.550
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.150 1.351 16.399 <2e-16 ***
a$V2 46.935 2.780 16.882 <2e-16 ***
a$V3 -4.225 2.058 -2.052 0.0412 *
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 14.98 on 251 degrees of freedom
Multiple R-squared: 0.5799,Adjusted R-squared: 0.5766
F-statistic: 173.3 on 2 and 251 DF, p-value: < 2.2e-16
FUENTES:
http://www.censusscope.org/us/s48/rank_race_hispanicorlatino_alone.html
http://www.ers.usda.gov/Data/PovertyRates/PovListNum.asp?ST=TX&view=Number&Longname=TX
Condado
Anderson County 14,32 0 1 0
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0



Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1
Young County 16,29 0 1 0
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
BASE DE DATOS N20
Y
i
D
1i
D
2i
D
3i
Ac nuestro punto de referencia son los condados que
se encuentran 'en el resto del Estado' y tienen menos de
un 30% de su poblacin latina. Siendo as, todas las
comparaciones deben ser hechas en torno a este grupo.
El % de poblacin pobre para este grupo es, por lo tanto

b
0
= 14,4331 Ahora, si en nuestra categora 'resto del
Estado' consideramos los condados que tienen ms del
30% de su poblacin latina, el % promedio de pobreza
sube a:

Y
i
= 14,43311,383= 15,8161
Observemos ahora nuestra categora centro-oeste y
este. Para los condados con menos del 30% de su
poblacin latina el promedio de % de pobreza es:

Y
i
= 14,43311,5022= 15,9353
. Si consideramos los
condados de esta categora que poseen ms del 30%
de su poblacin latina el porcentaje de poblacin pobre
aumenta a:

Y
i
= 14,43311,50221,383= 17,3183
Los condados de la categora 'frontera con Mxico'
poseen todos ms del 30% de su poblacin latina y el
promedio de pobreza en ellos es de

Y
i
= 14,43318,99351,50221,383= 26,3118
4.2.3 MODELOS CON VARIABLES PREDICTORAS CUANTITATIVAS Y CUALITATIVAS (ANCOVA)
Ejemplo N24: % de pobreza, ubicacin geogrfica y % de poblacin latina en el Estado de Texas
Las bases de datos n19 y n20 nos entregan el % de poblacin pobre Y
i
y el % de poblacin latina
X
i
. Consideremos tambin la ubicacin espacial de los condados de Texas tal como ya los hemos
clasificado en los ejemplos anteriores.
Supongamos el siguiente modelo: Y
i
= b
0
b
1
X
1
b
2
D
1i
b
3
D
2i

i
(109)
y hagamos una regresin del % de poblacin pobre sobre las dems variables (salida n69):
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
Obtenemos la siguiente recta de regresin:

Y
i
= 11,96710,1266 X
i
4,0627D
1i
1,997D
2i
7,196 3,589 3,453
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,252)
[1] 1.969422, por lo que nuestros parmetros estimados son
significativos al 5%.
Obtengamos nuestras rectas de regresin asociadas a cada
categora de la variable cualitativa: 'ubicacin geogrfica'.
Si el condado se encuentra en la frontera D
1i
=1 y D
2i
=0 :

Y
i
= 16,02980,1266X
i
Si el condado se encuentra en el centro-oeste y este D
1i
=0 y D
2i
=1 :

Y
i
= 13,96410,1266 X
i
Si el condado se encuentra en el resto del Estado D
1i
=0 y D
2i
=0 :

Y
i
= 11,96710,1266 X
i
94
SALIDA N68
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals:
Min 1Q Median 3Q Max
-11.8096 -2.3544 -0.1607 2.3598 17.1004
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 14.4331 0.4471 32.284 <2e-16 ***
a$V2 8.9935 0.9973 9.018 <2e-16 ***
a$V3 1.5022 0.6260 2.400 0.0171 *
a$V4 1.3830 0.7258 1.906 0.0579 .
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 4.553 on 250 degrees of freedom
Multiple R-squared: 0.3688,Adjusted R-squared: 0.3612
F-statistic: 48.68 on 3 and 250 DF, p-value: < 2.2e-16
BASES DE DATOS N19 y N20
Condado
Anderson County 14,32 12,00 0 1
Andrews County 15,29 40,11 0 1
Angelina County 19,34 14,08 0 1
Aransas County 19,63 20,42 0 0
Archer County 8,21 4,57 0 1



Wood County 12,99 5,38 0 1
Yoakum County 17,17 45,92 0 1
Young County 16,29 10,50 0 1
Zapata County 37,19 84,94 1 0
Zavala County 39,71 91,39 1 0
Y
i
X
1i
D
1i
D
2i
Aplicaciones del anlisis de regresin: Variables Dummy
Grafiquemos con R las tres ecuaciones anteriores
y nuestros datos de % promedio de poblacin pobre y %
promedio de poblacin latina para los condados de Texas
(grfica n 83):
>x <- seq( 0 ,100,length = 100)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='% promedio de poblacin latina', ylab='%
promedio de poblacin pobre',
cex.lab=1,family='NewCenturySchoolbook')
>lines(x, 16.0298+0.1266*(x), type='l', col= 'blue', lwd=2)
>lines(x, 13.9641+0.1266*(x), type='l', col= 'red', lwd=3)
>lines(x, 11.9671+0.1266*(x), type='l', col= 'Magenta 4', lwd=2)
>title(main=paste("Poblacin pobre versus", "poblacin latina en los
condados de Texas",sep="\n"),
font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
GRFICA N 83
Las tres rectas de regresin representan a las 3 regiones
en que hemos dividido el Estado de Texas.
El grfico se interpreta como sigue: La lnea violeta
representa 'el resto del Estado', la lnea roja representa el
centro-oeste y el este, y la azul los condados que se
encuentran en la frontera con Mxico.
Vemos que consecutivamente a medida que aumenta
el % promedio de poblacin latina es mayor el valor del % de
poblacin pobre, poseyendo los condados que se ubican en la
frontera con Mxico los ms altos ndices de pobreza.
4.2.4 LA PRUEBA DE ESTABILIDAD ESTRUCTURAL
Las variables dummy permiten determinar si ha habido un cambio en los parmetros del modelo de
regresin, ya sea en la intercepcin o en la pendiente. Para esto slo debemos saber si los parmetros estimados
asociados a las variables dummy son estadsticamente significativos.
Consideremos el modelo general con una variable dummy: Y
i
= b
0
b
1
X
1i
b
2
X
i
D
1i
b
3
D
1i
(110)
donde: i= 1,...,n y definamos: D
1i
= 0 para la categora o y D
1i
= 1 para la categora p.
De esta manera una vez ejecutada la regresin:

Y
i
=

b
0


b
1
X
i
para la categora o.

Y
i
=

b
0


b
3


b
1


b
2
X
i
para la categora p.
Hay cuatro casos posibles de acuerdo a que posean o no significacin estadstica cada uno de los
parmetros estimados:
95
SALIDA N69
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals:
Min 1Q Median 3Q Max
-11.9327 -2.6806 -0.2313 2.3717 14.6897
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 11.96711 0.54169 22.092 < 2e-16 ***
a$V2 0.12656 0.01759 7.196 7.23e-12 ***
a$V3 4.06270 1.13208 3.589 0.000400 ***
a$V4 1.99695 0.57837 3.453 0.000652 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 4.174 on 250 degrees of freedom
Multiple R-squared: 0.4695,Adjusted R-squared: 0.4631
F-statistic: 73.74 on 3 and 250 DF, p-value: < 2.2e-16
GRFICA N 84
1.

b
3
y

b
2
no son significativas, por lo que no hay
cambio estructural. Las regresiones para las dos categoras son
idnticas:

Y
i
=

b
0


b
1
X
i
para todo i.
2.

b
3
es significativa, pero

b
2
no. Existen dos
regresiones con la misma pendiente pero con distintas
intercepciones.

Y
i
=

b
0


b
1
X
i
para la categora o.

Y
i
=

b
0


b
3


b
1
X
i
para la categora p.

GRFICA N 85
3.

b
3
no es significativa, pero

b
2
si. Hay dos
regresiones con una misma intercepcin (concurrente) pero
con diferentes pendientes.

Y
i
=

b
0


b
1
X
i
para la categora o.

Y
i
=

b
0


b
1


b
2
X
i
para la categora p.
GRFICA N 86
4.

b
3
y

b
2
son ambas estadsticamente significativas.
Existen dos regresiones por completo distintas.

Y
i
=

b
0


b
1
X
i
para la categora o.

Y
i
=

b
0


b
3


b
1


b
2
X
i
para la categora p.
Ilustremos este ltimo caso con un ejemplo:
Ejemplo N25: Los efectos diferenciados para frica y el resto del mundo de la correlacin entre
la esperanza de vida y el PIB.
Se supone la existencia de cierta correlacin entre la esperanza de vida y el PIB per cpita a valores de
paridad de poder adquisitivo en los pases del mundo, como lo vimos en el ejemplo n1 de este trabajo. Como
frica posee los ms bajos PIB per cpita mundiales, para considerar los efectos regionales en la regresin, se
introducir una variable dummy: D
i
= 1 si el pas es africano y D
i
= 0 si no lo es.
La tabla n2 vista en la primera seccin de este trabajo -Anlisis de Regresin Simple- nos muestra la
esperanza de vida en aos al 2005 Y
i
y el logaritmo del PIB per cpita a paridad de poder adquisitivo al 2005
X
i
. Aadamos la variable dummy definida anteriormente D
i
y esta misma multiplicada por la variable
independiente D
i
X
i
para 164 pases del mundo, 39 de los cuales son africanos.
96
Aplicaciones del anlisis de regresin: Variables Dummy
(exclumos los siguientes datos aberrantes -todos pases
africanos-: Angola, Botswana, Gabon, Lesotho, Namibia, South
Africa, Swaziland y Zimbabwe)
Apliquemos una regresin de la esperanza de vida sobre el
logaritmo del PIB per cpita a paridad de poder adquisitivo:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
Nuestra ecuacin de regresin nos da:

Y= 1,9627,652X R
2
=0,764
22,987
Nuestro valor crtico t para un 95% de significacin es:
>qt(0.975,160)
[1] 1.974902, por lo que nuestros parmetros estimados son
significativos al 5%.
Apliquemos una regresin de la esperanza de vida, sobre el resto de variables independientes incluyendo
las dummies:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2+a$V3+a$V4))
>summary(a1)
Nuestra ecuacin de regresin nos da:

Y= 25,4825,178X47,501D5,256XD R
2
=0,852
14,015 6,454 5,51
Siendo todos nuestros parmetros estimados son
significativos al 5%.
Las ecuaciones resultan respectivamente:

Y= 1,9627,652X
para las variables originales

Y= 22,01910,434 X
para frica y

Y= 25,4825,178X
para el resto del mundo.
Grafiquemos esta rectas (grfica n 87):
>a <- read.table('a.txt')
>x <- seq( 5, 12, length = 1000)
>par(bg = "Ivory 2")
>plot(a$V2, a$V1, col=3, xlab='Ln del PIB PPA per cpita', ylab='Esperanza de vida', cex.lab=1,family='NewCenturySchoolbook')
>abline(lm(a$V1~a$V2), lwd=3, col='red')
>lines(x, -22.019 +10.434*(x), type="l", col= 'Magenta 4')
>lines(x, 25.482 +5.178*(x), type="l", col= 'blue')
>title(main=paste("Esperanza de vida", "versus ln del PIB PPA per cpita",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
La columna gruesa azul nos muestra la recta de regresin original. La lnea verde representa al conjunto
de pases excluyendo frica. Se aprecia con una pendiente menor y una interseccin con el eje Y mayor. Lo
anterior implica que la esperanza de vida parte siendo alta para valores bajos del PIB y se incrementa
suavemente a travs del aumento del ln del PIB de los pases.
La lnea roja interpreta a los pases africanos, y muestra que la esperanza de vida para stos se
incrementa dramticamente a medida que aumenta el PIB de los mismos.
97
SALIDA N71
Call:
lm(formula = a$V1 ~ a$V2 + a$V3 + a$V4)
Residuals:
Min 1Q Median 3Q Max
-10.8277 -1.9444 0.3835 2.3447 9.6967
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 25.4817 3.3735 7.554 3.06e-12 ***
a$V2 5.1782 0.3695 14.015 < 2e-16 ***
a$V3 -47.5010 7.3604 -6.454 1.24e-09 ***
a$V4 5.2558 0.9540 5.510 1.41e-07 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 3.903 on 160 degrees of freedom
Multiple R-squared: 0.8518,Adjusted R-squared: 0.849
F-statistic: 306.4 on 3 and 160 DF, p-value: < 2.2e-16
SALIDA N70
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-14.2331 -2.4979 0.2952 3.2149 11.0504
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.9619 2.9153 0.673 0.502
a$V2 7.6520 0.3329 22.987 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 4.88 on 162 degrees of freedom
Multiple R-squared: 0.7653,Adjusted R-squared: 0.7639
F-statistic: 528.4 on 1 and 162 DF, p-value: < 2.2e-16
TABLA N2
PAS
Albania 76,2 8,580 0 0,000
Algeria 71,7 8,878 1 8,878
Antigua y Barbuda 73,9 9,359 0 0,000
Argentina 74,8 9,484 0 0,000
Armenia 71,7 8,306 0 0,000



Vanuatu 69,3 8,136 0 0,000
Venezuela 73,2 8,666 0 0,000
Vietnam 73,7 7,931 0 0,000
Yemen 61,5 6,614 0 0,000
Zambia 40,5 6,815 1 6,815
Y
i
X
i
D
i
X
i
D
i
GRFICA N 87
4.2.5 ALGUNAS PRECAUCIONES EN EL USO DE VARIABLES
DUMMY

1. Si una variable cualitativa tiene m categoras, debe
representarse por medio de m-1 variables dummy, asignando a
cada una los valores de 0 1. De no ser as ocurre el problema
de la multicolinealidad (que hemos analizado en la seccin
precedente)
5
.
Las siguientes precauciones estn referidas a modelos
ANOVA.
2. La categora para la cual no es asignada ninguna
variable dummy es denominada punto de referencia o
categora omitida. Todas las comparaciones estn hechas en
relacin al punto de referencia.
3. El valor de intercepcin

b
0
representa el valor
promedio del punto de referencia.
Por ejemplo, consideremos la base de datos N1
restringida al los valores de la esperanza de vida Y
i
junto
con la dummy antes definida D
i
.
Ejecutemos una regresin de Y
i
sobre D
i
:
>a <- read.table('a.txt')
>a1 <- (lm(a$V1~a$V2))
>summary(a1)
La recta de regresin obtenida es:

Y= 72.50717,271D
i
R
2
=0,5365
13,77
Para los pases no
africanos D
i
= 0 el
valor promedio de la
esperanza de vida es
72,507.
4. Los coeficientes

b
i
son conocidos como los
coeficientes de intercepcin diferencial. Nos dicen en
cuanto vara el valor de la variable dependiente para la
correspondiente categora respecto al punto de
referencia.
En nuestro ejemplo, 72,507-17,271= 55,236 es el valor
promedio de la esperanza de vida para los pases
africanos.
5. Si la variable cualitativa tienen ms que una
categora, la eleccin del 'punto de referencia' queda a
estricta eleccin del investigador.
5 Es posible evitar el problema de la multicolinealidad al tener m variables dummy para m categoras de una variables cualitativa omitiendo el
trmino de intercepcin y corriendo una regresin bajo el siguiente modelo supuesto: Y
i
= b
1
D
1i
b
1
D
2i
b
1
D
3i

i
. Suprimiendo la intercepcin
y utilizando una variable dummy para cada categora, se obtienen directamente los valores medios para cada una de las categoras.
98
SALIDA N72
Call:
lm(formula = a$V1 ~ a$V2)
Residuals:
Min 1Q Median 3Q Max
-18.6072 -4.1394 -0.0572 4.9678 18.2641
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 72.5072 0.6115 118.56 <2e-16 ***
a$V2 -17.2713 1.2540 -13.77 <2e-16 ***
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 6.837 on 162 degrees of freedom
Multiple R-squared: 0.5394,Adjusted R-squared: 0.5365
F-statistic: 189.7 on 1 and 162 DF, p-value: < 2.2e-16
BASE DE DATOS N1
PAS
Albania 76.2 0
Algeria 71.7 1
Antigua y Barbuda 73.9 0
Argentina 74.8 0
Armenia 71.7 0



Vanuatu 69.3 0
Venezuela 73.2 0
Vietnam 73.7 0
Yemen 61.5 0
Zambia 40.5 1
Y
i
D
i
Aplicaciones del anlisis de regresin: Modelos de eleccin binarios
4.3 MODELOS DE ELECCIN BINARIOS
4.3.1 INTRODUCCIN
Hasta ahora, hemos considerado modelos de regresin en los que el regresando (variable dependiente o
respuesta) es cuantitativa, mientras las variables independientes son cuantitativas, cualitativas (dummy) o una
mezcla de ambas. Sin embargo, algunas veces en el anlisis de regresin slo estamos interesados en el valor
dicotmico que pueda adoptar la variable respuesta, como por ejemplo, en regresiones donde deseamos
averiguar de qu manera influye un set de variables independientes en el hecho de que una persona est
ocupada o desempleada, sea alfabeta o analfabeta, sea solvente o insolvente para un prstamo, etc.
Existe una importante diferencia entre un modelo de regresin donde la variable dependiente es
cuantitativa y otro en la que es cualitativa. En el primer caso, nuestro objetivo es estimar la media del regresando,
dados los valores de los regresores. En el segundo, nuestro objetivo es encontrar la probabilidad de que algo
ocurra o no. Es por esto que los modelos de regresin con variable dependiente cualitativa se denominan
tambin modelos de probabilidad.
Si en un modelo de regresin lineal la variable dependiente es una variable dicotmica
1
(que adopta
slo los valores 0 1), una regresin por el mtodo de MCO no es apropiada, pues ste puede permitir
predicciones mayores que 1 o menores que 0 dando un resultado absurdo.
En este captuloabordaremos dos metodologas para estudiar los modelos de respuesta cualitativa: el
Logit y el Probit.
4.3.2 EL MODELO LOGIT
La funcin de distribucin logstica puede expresarse como:
P
i
= E( Y= 1/ X
i
)=
1
1+e
(

b
0
+

b
1
X
i
)
o bien, si Z
i
=

b
0
+

b
1
X
i
; P
i
=
1
1+e
Z
i
=
e
Z
i
1+e
Z
i
(111)
donde Z
i
se denomina logit.
Z
i
vara de a , por lo que P
i
=
e
Z
i
1+e
Z
i
vara de 0 a 1. Lo que se intenta es llevar
rpidamente a 0 a 1 los valores de P
i
.
GRFICA N88
Existe un problema de estimacin, porque P
i
no es
lineal ni en los X
i
ni en los b
i
, por lo que no podemos
utilizar el mtodo de MCO para estimar los parmetros.
Debemos utilizar el logit.
Si P
i
=
e
Z
i
1+e
Z
i
es la probabilidad de poseer cierto
atributo, entonces (1P
i
) es la probabilidad de no
poseerlo: (1P
i
)= 1
e
Z
i
1+e
Z
i
=
1
1+e
Z
i
(112)
Definamos como Oportunidad Relativa
2
la razn entre la
probabilidad de poseer un atributo y no poseerlo
3
:
Op Rel=
P
i
1P
i
=
e
Z
i
1+e
Z
i

1+e
Z
i
1
= e
Z
i
= e
(

b
0
+

b
1
X
i
)
(113)
Aplicando logaritmos al odds ratio obtenemos Z
i
= ln(
P
i
1P
i
)=

b
0
+

b
1
X
i
(114)
Siendo ahora el logit lineal en X y en los parmetros. Analicemos el siguiente ejemplo:
1 Tengamos presente que en el caso general, la variable respuesta puede ser politmica (poseer mltiples categoras).
2 Tambin llamada odds ratio.
3 As, si P
i
= 0,8 esto significa que: Odds Ratio=
4/5
14/ 5
=
4 /5
1/ 5
=
4
1
esto es, que las probabilidades son 4 a 1 a favor de que encontremos la
presencia del atributo buscado.
99
Ejemplo N26: Pobreza y religin en Irlanda del Norte.
La base de datos n21 nos da informacin para los 26 distritos de
gobierno local de Irlanda del norte, siendo Y
i
una variable dependiente
dicotmica que asume los valores Y
i
= 1 si el porcentaje de nios que viven
bajo el 60% del ingreso medio es mayor del 25% para el 2008, Y
i
= 0 si no, y
X
i
es el porcentaje de poblacin catlica para la respectiva provincia para
1991. Podemos establecer el supuesto de que las provincias con alto predominio
catlico son las ms pobres.
Apliquemos un anlisis de regresin Logit a esta tabla (salida n73):
>a <- read.table('a.txt')
>a1 <- glm(a$V1 ~ a$V2,family=binomial(link=logit))
>summary(a1)
Nuestra ecuacin logit queda
entonces:
Z
i
= 2,16497+0,07013X
i
Obtengamos el valor crtico para z al 95% de significacin:
>qnorm(0.975)
[1] 1.959964
Ambos coeficientes son estadsticamente significativos.
Grafiquemos los valores del logit ( Z
i
) y sus valores ajustados (P
i
) sobre la variable independiente
dados en la tabla n51 (grficas n89 y n90) .

>par(bg = "Ivory 2")
>plot(a$V2, predict(a1), col='3', xlab='% de poblacin catlica', ylab='Valores del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre los valores del Logit", "y el % de poblacin
catlica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
>par(bg = "Ivory 2")
>plot(a$V2, fitted(a1), col='3', xlab='% de poblacin catlica', ylab='Valores ajustados del Logit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre los valores ajustados del Logit", "y el % de poblacin
catlica",sep="\n"),font.main=1,cex.main=1.5,family='NewCenturySchoolbook')
100
SALIDA N73
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.6891 -0.7115 0.4149 0.5790 1.7600
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.16497 1.08133 -2.002 0.0453 *
a$V2 0.07013 0.02753 2.548 0.0108 *
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 34.646 on 25 degrees of freedom
Residual deviance: 25.326 on 24 degrees of freedom
AIC: 29.326
Number of Fisher Scoring iterations: 4
FUENTES:
25% o ms de nios que viven bajo el 60% del ingreso medio 2008
http://www.niassembly.gov.uk/centre/2007mandate/reports/Report08_07_08r_vol1.htm
% de poblacin catlica 1991
http://www.wesleyjohnston.com/users/ireland/past/protestants_1861_1991.html
BASE DE DATOS N21
DISTRITO
Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405



Newry & Mourne 1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712
Y
i
X
i
TABLA N51
DISTRITO
Antrim 0 34,382 0,246 0,561
Ards 1 12,191 -1,310 0,212
Armagh 0 47,297 1,152 0,760
Ballymena 1 19,081 -0,827 0,304
Ballymoney 0 31,405 0,037 0,509



Newry & Mourne 1 76,988 3,234 0,962
Newtownabbey 0 14,054 -1,179 0,235
North Down 0 9,736 -1,482 0,185
Omagh 1 66,812 2,521 0,926
Strabane 1 63,712 2,303 0,909
Y
i
X
i
Z
i
P
i
Aplicaciones del anlisis de regresin: Modelos de eleccin binarios
GRFICA N89 GRFICA N90
4.3.2.1 Interpretacin de los coeficientes: Z
i
= 2,16497+0,07013X
i
El parmetro estimado de pendiente en la ecuacin de salida es un coeficiente de pendiente parcial y
mide el cambio en el Logit estimado para el cambio de 1 unidad en el valor del regresor dado (manteniendo
todos los dems constantes).
La interpretacin de los coeficientes logit puede ser difcil. En nuestro ejemplo, para el incremento de un
1% en X
i
, el logaritmo del odds ratio de que una provincia sea pobre se incrementa en 0,07. Es preferible elevar
a e los coeficientes e interpretarlos como odd-ratios.
>exp(a1$coefficients)
As para el incremento de un 1% en X
i
, el odds ratio de que una provincia sea pobre se incrementa en
un factor de 1,0726.
4.3.2.2 Intervalos de confianza para los coeficientes estimados
Notemos que el intervalo de confianza que nos entrega R est
referido a los parmetros estimados del logit.
>confint(a1)
4.3.2.3 Significacin estadstica de los coeficientes.
La significacin estadstica de cada uno de los coeficientes estimados la obtenemos de la divisin del
respectivo coeficiente por su desviacin estndar. ste valor sigue una distribucin normal:
Z
i
=

b
i
S(

b
i
)
(115)
Para nuestro ejemplo:
Z
0
=

b
0
S(

b
0
)
=
2,16497
1.08133
= 2,002 y Z
1
=

b
1
S (

b
1
)
=
0,07013
0,02753
= 2,547
El valor Pr(|z|) nos da el lmite de la significacin del parmetro estimado. Para

b
1
el valor lmite de
significacin es: Pr(|z|)= 0,0108, esto quiere decir que 1-0,0108/2= 0,9946 es el valor de la significacin exacta.
101
SALIDA N74
(Intercept) a$V2
0.1147539 1.0726478
SALIDA N75
2.5 % 97.5 %
(Intercept) -4.60906435 -0.2316007
a$V2 0.02276608 0.1344598
Verifiqumoslo:
>qnorm(0.9946)
[1] 2.549104 el cual es el valor de Z
1
4.3.2.4 Contraste de hiptesis el modelo.
4.3.2.4.1La funcin de verosimilitud.
Observemos dos datos que nos entrega la salida n73: Null deviance y Residual deviance. La primera es
-2 veces
4
el logaritmo de la verosimilitud del modelo denominado nulo (2LnL
0
) , en el cual no se considera
regresor alguno y cuyas probabilidades P
i
son las probabilidades simples de que el evento ocurra o no; la
segunda es -2 veces el logaritmo de la verosimilitud del modelo incluyendo los regresores (2LnL) .
El logaritmo de la funcin de verosimilitud se
define como:

i =1
N
|Y
i
lnP
i
(Z
i
)+(1Y
i
) ln(1P
i
(Z
i
))
(116)
Calculemos el logaritmo de la verosimilitud del
modelo nulo para nuestro ejemplo:
7,7689,555= 17,323
Calculemos el logaritmo de la verosimilitud del
modelo para nuestro ejemplo:
6,3496,314= 12,663
Este ltimo valor tambin lo
obtenemos con la siguiente instruccin:
>logLik(a1)
'log Lik.' -12.66264 (df=2)
Verifiquemos que los
datos entregados por las tablas
n52 y n53 coinciden con los
entregados por la salida n73:
(2) (12,663)= 25,326 y
(2) (17,323)= 34,646
4.3.2.4.2Estadstico de la Razn de Verosimilitud o chi
2
.
Para evaluar la significacin global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadstico de la Razn de Verosimilitud, definido como: ERV= 2ln( L
0
L)= 34,64625,326= 9,32 (117)
que se distribuye segn una chi
2
con grados de libertad igual a la diferencia de parmetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporacin de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en l.
4 Pues la verosimilitud es un valor pequeo.
102
TABLA N52
DISTRITO
Antrim 0 0,615 0,385 0,000 -0,956
Ards 1 0,615 0,385 -0,486 0,000
Armagh 0 0,615 0,385 0,000 -0,956
Ballymena 1 0,615 0,385 -0,486 0,000
Ballymoney 0 0,615 0,385 0,000 -0,956



Newry & Mourne 1 0,615 0,385 -0,486 0,000
Newtownabbey 0 0,615 0,385 0,000 -0,956
North Down 0 0,615 0,385 0,000 -0,956
Omagh 1 0,615 0,385 -0,486 0,000
Strabane 1 0,615 0,385 -0,486 0,000
-7,768 -9,555
(1Y
i
) ln(1P
i
) Y
i
Y
i
lnP
i
1P
i
P
i

TABLA N53

DISTRITO
Antrim 0 34,382 0,246 -0,246 0,561 0,439 0,000 -0,824
Ards 1 12,191 -1,310 1,310 0,212 0,788 -1,549 0,000
Armagh 0 47,297 1,152 -1,152 0,760 0,240 0,000 -1,427
Ballymena 1 19,081 -0,827 0,827 0,304 0,696 -1,190 0,000
Ballymoney 0 31,405 0,037 -0,037 0,509 0,491 0,000 -0,712



Newry & Mourne 1 76,988 3,234 -3,234 0,962 0,038 -0,039 0,000
Newtownabbey 0 14,054 -1,179 1,179 0,235 0,765 0,000 -0,268
North Down 0 9,736 -1,482 1,482 0,185 0,815 0,000 -0,205
Omagh 1 66,812 2,521 -2,521 0,926 0,074 -0,077 0,000
Strabane 1 63,712 2,303 -2,303 0,909 0,091 -0,095 0,000
-6,349 -6,314
(1Y
i
) ln(1P
i
(Z
i
)) Y
i
lnP
i
( Z
i
) 1P
i
( Z
i
) P
i
( Z
i
) Z
i
Z
i
Y
i
X
i

Aplicaciones del anlisis de regresin: Modelos de eleccin binarios


Calculemos chi
2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 9,32 y conclumos que la inclusin del regresor mejora ostensiblemente la verosimilitud del modelo.
4.3.2.4.3Bondad del ajuste.
Una medida de la bondad del ajuste es un 'estadstico-resumen' que indica la precisin con la cual un
modelo se aproxima a los datos observados. Evala la idoneidad del modelo de regresin logstica.
Podemos estimar la bondad de ajuste mediante la comparacin del nmero de casos observados con
los esperados por el modelo estimado (eI porcentaje de distritos que coinciden con la alternativa predicha por el
modelo).
En nuestro ejemplo los casos totales son 26 y los predichos por nuestro modelo correctamente (tomando
como punto de corte 0,5) son 18, entonces:
X=
18
26
100%= 69,231% y el modelo seleccionado ajusta los datos con un 69,231% de precisin.
4.3.2.5 Caractersticas del modelo Logit. GRFICA N91
1. Si P
i
vara de 0 a 1, el Logit Z
i
vara de a ,
esto es, mientras las probabilidades yacen entre 0 y 1, los Logit
no tienen lmites.
2. Si bien Z
i
es lineal sobre X, las probabilidades P
i
sobre
X
i
no.
3. Podemos agregar tantos regresores (o variables
independientes) al modelo como nos lo indique la teora.
4. Si Z
i
es negativo y se incrementa en magnitud, el odds
decrece de 1 a 0 y por el contrario, si se incrementa
positivamente, el odds ratio se incrementa de 1 al infinito.
(grfica n91)
5. b
1
, la pendiente, mide el cambio en Z
i
producido por
el cambio de 1 unidad en X, esto es, nos dice cmo los
logaritmos de los odds ratio en favor de P
i
= 1 cambian a
medida que la variable independiente se incrementa en una
unidad.
La intercepcin b
0
es el valor del logaritmo del odds
ratio a favor de P
i
= 1 si la variable independiente es cero.
6. Dado un cierto valor de la variable independiente, si deseamos no estimar los odds ratio a favor de P
i
= 1
sino la probabilidad P
i
= 1 , sta se puede obtener directamente de:
P
i
=
1
1+e
Z
i
=
e
Z
i
1+e
Z
i
una vez que los estimadores de b
0
y b
1
estn disponibles.
7. El modelo Logit asume que el logaritmo de los odds ratio est linealmente relacionado con X
i
4.3.2.6 Algunas observaciones para el modelo Logit.
1. Como usamos el mtodo de mxima verosimilitud, el cual es generalmente un mtodo de muestras grandes,
los errores standard estimados son asintticos. Como resultado, en vez de usar la estadstica t para evaluar la
significacin estadstica de un coeficiente, usamos la estadstica z (normal standard). Recordemos que si el
tamao de la muestra es razonablemente grande, la distribucin t converge a la distribucin normal.
2. En modelos de regresin binario, la bondad del ajuste tiene una importancia secundaria. Lo que importa son
los signos esperados de los coeficientes de la regresin y su significacin estadstica.
103
4.3.3 EL MODELO PROBIT GRFICA N92
La funcin de distribucin acumulativa normal es
tambin utilizada para explicar el comportamiento de una
variable dependiente dicotmica. El modelo de estimacin
que as surge se denomina modelo Probit o Normit.
En el modelo Probit, P es una funcin de distribucin
acumulada de la normal standard que se expresa como
integral.
P
i
= P( Y= 1/X
i
) es la probabilidad de que un
evento ocurra dado los valores de la(s) variable(s)
independiente(s) X
i
siendo Z
i
la variable normal standard
Z -N(0, c
2
) tal que si Z
i
=

b
0
+

b
1
X
i
entonces:
( Z
i
)=
1
.2n
e
z
i
2
2
por lo que
P( Z
i
)=

z
i
(v) dv
(118) (119)
es la funcin de distribucin acumulativa normal.
La probabilidad de que un evento a ocurra (P
a
) est representada por el rea definida bajo la curva
normal de a Z
a
.
Ejemplo 27: Satisfaccin con la vida y PIB PPA per cpita para 30 pases.
La base de datos n22 nos muestra un set de datos para 30 pases, que nos indica los datos del puntaje
de satisfaccin con la vida, como variable dependiente. El promedio de este indicador es 222,33. Categorizemos
esta variable como Y
i
= 1 si el pas supera esta media y Y
i
= 0 si no. Como variable independiente X
i
tenemos los datos del PIB PPA per cpita para los mismos.
Apliquemos un anlisis de regresin Probit de D
i
sobre X
i
(salida
n76):
>a <- read.table('a.txt')
>a1 <- glm(a$V1~a$V2,family=binomial(link=probit))
>summary(a1)
Nuestra ecuacin de regresin Probit resulta: Z
i
= 4,72+0,0001594 X
i
Obtengamos el valor crtico para z al 95% de significacin:
>qnorm(0.975)
[1] 1.959964
Ambos coeficientes son
estadsticamente
significativos.
Grafiquemos los valores ajustados del Probit y de P
i
sobre
la variable independiente que aparecen en la tabla n54 (grficas
n92 y n 93):
104
FUENTES:
PIB PPA per cpita 2005:
http://www.imf.org/external/data.htm
ndice de satisfaccin con la vida 2006:
Adrian G. White. University of Leicester
BASE DE DATOS N22
PAS
Australia 243,33 1 39300
Austria 260,00 1 39600
Bahrain 240,00 1 37200
Belarus 133,33 0 12000
Belgium 243,33 1 38300



Spain 233,33 1 34100
Sweden 256,67 1 39600
Switzerland 273,33 1 40900
United Kingdom 236,67 1 37400
United States 246,67 1 48000
Y
i
D
i
X
i
TABLA N54
PAS
Australia 1 39300 1,544 0,939
Austria 1 39600 1,592 0,944
Bahrain 1 37200 1,210 0,887
Belarus 0 12000 -2,807 0,002
Belgium 1 38300 1,385 0,917



Spain 1 34100 0,716 0,763
Sweden 1 39600 1,592 0,944
Switzerland 1 40900 1,799 0,964
United Kingdom 1 37400 1,242 0,893
United States 1 48000 2,931 0,998
Y
i
X
i
Z
i
P
i
Aplicaciones del anlisis de regresin: Modelos de eleccin binarios
>par(bg = "Ivory 2")
>plot(a$V2, predict(a1), col='3', xlab='PIB PPA per cpita', ylab='Valores
del Probit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre los valores del Probit", "y el PIB PPA per
cpita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
>par(bg = "Ivory 2")
>plot(a$V2, fitted(a1), col='3', xlab='PIB PPA per cpita', ylab='Valores
ajustados del Probit', cex.lab=1,family='NewCenturySchoolbook')
>title(main=paste("Relacin entre los valores ajustados del Probit", "y el
PIB PPA per cpita",sep="\n"),font.main=1,cex.main=1.5,
family='NewCenturySchoolbook')
GRFICA N93 GRFICA N94
Con el siguiente comando obtenemos los P
i
del modelo de regresin probit.
> fitted.values(a1)
4.3.3.1 Interpretacin de los coeficientes.
En este tipo de modelos no resulta posible interpretar directamente las estimaciones de los parmetros, ya
que son modelos no lineales. Lo que haremos es fijarnos en el signo de los estimadores. Si el estimador es positivo,
significar que incrementos en la variable asociada causan incrementos en P(Y = 1) (aunque desconocemos la
magnitud de los mismos). Por el contrario, si el estimador muestra un signo negativo, ello supondr que
incrementos en la variable asociada causarn disminuciones en P(Y = 1).
El PIB PPA per cpita tiene un impacto positivo en el Probit. Aunque el hecho de que valga
aproximadamente cero, induce a pensar que un aumento unitario en el PIB PPA per cpita no causar un efecto
apreciable sobre su la satisfaccin con la vida consideremos que hablamos de dlares, por lo que tiene mas
sentido decir que un aumento de diez mil dlares en el PIB PPA per cpita aumentael probit un 1,59.
105
SALIDA N76
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = probit))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8455 -0.3624 0.2337 0.4610 1.8103
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -4.720e+00 1.565e+00 -3.017 0.00255 **
a$V2 1.594e-04 4.891e-05 3.259 0.00112 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
Residual deviance: 21.404 on 28 degrees of freedom
AIC: 25.404
Number of Fisher Scoring iterations: 7
4.3.3.2 Intervalos de confianza para los coeficientes estimados
Los intervalos de confianza se obtienen con la siguiente
instruccin en R:
>confint(a1)
4.3.3.3 Contraste de hiptesis el modelo.
Al igual que en el modelo Logit, para el Probit
el logaritmo de la funcin de verosimilitud se define
como:

i =1
N
|Y
i
lnP
i
(Z
i
)+(1Y
i
) ln(1P
i
(Z
i
))
Calculemos el logaritmo de la verosimilitud del
modelo nulo para nuestro ejemplo:
9,19510,995= 20,19
Calculemos el logaritmo de la verosimilitud del
modelo para nuestro ejemplo:
4,995,712= 10,702
Este ltimo valor
tambin lo obtenemos con
la siguiente instruccin:
>logLik(a1)
'log Lik.' -10.70192 (df=2)
Verifiquemos que los
datos entregados por las
tablas n64 y n65 coinciden
con los entregados por la
salida n76:
(2) (20,19)= 40,38 y
(2) (10,702)= 21,404
Para evaluar la significacin global del modelo (para el conjunto de coeficientes estimados) se utiliza el
Estadstico de la Razn de Verosimilitud, definido como: ERV= 2ln( L
0
L)= 40,3821,404= 18,976 (120)
que se distribuye segn una chi
2
con grados de libertad igual a la diferencia de parmetros entre modelos, que
este caso es 1.
Si el contraste resulta ser no significativo aceptamos que la incorporacin de la nueva variable no mejora
sensiblemente la verosimilitud del modelo y por tanto no merece la pena incluirla en l.
Calculemos chi
2
>qchisq(0.95, df=1)
[1] 3.841459
3.841459 < 18,976 y conclumos que la inclusin del regresor mejora ostensiblemente la verosimilitud del modelo.
106
SALIDA N77
2.5% 97.5%
(Intercept) -8.554748e+00 -2.0497822717
a$V2 7.561091e-05 0.0002806858
TABLA N64
PAS
Australia 1 0,6 0,4 -0,511 0,000
Austria 1 0,6 0,4 -0,511 0,000
Bahrain 1 0,6 0,4 -0,511 0,000
Belarus 0 0,6 0,4 0,000 -0,916
Belgium 1 0,6 0,4 -0,511 0,000



Spain 1 0,6 0,4 -0,511 0,000
Sweden 1 0,6 0,4 -0,511 0,000
Switzerland 1 0,6 0,4 -0,511 0,000
United Kingdom 1 0,6 0,4 -0,511 0,000
United States 1 0,6 0,4 -0,511 0,000
-9,195 -10,995
Y
i
P
i
1P
i
Y
i
lnP
i
(1Y
i
) ln(1P
i
(Z
i
))
TABLA N65
PAS
Australia 1 39300 1,544 -1,544 0,939 0,061 -0,063 0,000
Austria 1 39600 1,592 -1,592 0,944 0,056 -0,057 0,000
Bahrain 1 37200 1,210 -1,210 0,887 0,113 -0,120 0,000
Belarus 0 12000 -2,807 2,807 0,002 0,998 0,000 -0,003
Belgium 1 38300 1,385 -1,385 0,917 0,083 -0,087 0,000



Spain 1 34100 0,716 -0,716 0,763 0,237 -0,271 0,000
Sweden 1 39600 1,592 -1,592 0,944 0,056 -0,057 0,000
Switzerland 1 40900 1,799 -1,799 0,964 0,036 -0,037 0,000
United Kingdom 1 37400 1,242 -1,242 0,893 0,107 -0,113 0,000
United States 1 48000 2,931 -2,931 0,998 0,002 -0,002 0,000
-4,990 -5,712
Y
i
X
i
Z
i
1P
i
( Z
i
) Y
i
lnP
i
( Z
i
) (1Y
i
) ln(1P
i
(Z
i
)) P
i
( Z
i
) Z
i
Aplicaciones del anlisis de regresin: Modelos de eleccin binarios
4.3.4 Modelos logit y probit. Cul es preferible?
Para muchas aplicaciones, los modelos son muy similares. La principal diferencia consiste en que la
distribucin logstica se aproxima ms lentamente a 0 y a 1 a medida que el logit se desplaza de - a
respectivamente (grfica n95). Por consiguiente no existe una razn de peso para elegir entre una u otra.
En la prctica, muchos investigadores eligen el modelo Logit por su comparativamente mayor sencillez
matemtica (la facilidad de los clculos cuando no estn las tablas necesarias para encontrar la probabilidad
acumulada).
>a1 <- glm(a$V1~a$V2,family=binomial(link=logit))
>summary(a1)
GRFICA N95
Aunque los modelos son similares, debemos tener cuidado al interpretar los coeficientes estimados en
ambos modelos.
Pueden ser diferentes. La razn de esto es que aunque las distribuciones logstica standard (la base del
modelo Logit) y normal standard (la base del modelo probit) tienen media 0 y sus varianzas son diferentes: 1 para
la normal standard y
n
2
3
para la distribucin logstica.
Por lo tanto, si multiplicamos el coeficiente Probit por
n
.3
, obtendremos aproximadamente el
coeficiente Logit.
b
Probit

n
.3
= b
Logit
b
Probit
1,81= b
Logit
b
Probit
= 0,55b
Logit
(121)
Otros autores sugieren utilizar un coeficiente 0,625. As:
b
Logit
0,625= b
Probit
1,6b
Probit
= b
Logit
107
SALIDA N76
Call:
glm(formula = a$V1 ~ a$V2, family = binomial(link = logit))
Deviance Residuals:
Min 1Q Median 3Q Max
-1.8423 -0.3925 0.2852 0.4796 1.8135
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -7.805e+00 2.900e+00 -2.691 0.00712 **
a$V2 2.634e-04 9.127e-05 2.886 0.00390 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 40.381 on 29 degrees of freedom
Residual deviance: 21.841 on 28 degrees of freedom
AIC: 25.841
Number of Fisher Scoring iterations: 5
Bibliografa
5. BIBLIOGRAFA
1. Bernstein, Stephen; Bernstein Ruth. Elements of Statistics II: Inferential Statistics, Mc Graw-Hill, 1999, Cap.
19: 'Regression and correlation', pgs: 333-378.
2. Canavos, George. Estadstica y Probabilidades (Aplicaciones y Mtodos), McGrawHill, 1988, Cap. 13:
'Anlisis de regresin: el modelo lineal simple', pgs: 443-502; Cap. 14: 'Anlisis de regresin: el modelo lineal
general', pgs: 503-571.
3. Chambers, John M. Software for Data Analysis Programming with R , Springer, 2008.
4. Chatterjee, Samprit; Hadi, Ali S. Regression Analysis by Example, Fourth Edition, John Wiley & Sons, 2006,
Cap. 2: 'Simple Linear Regression', pgs: 21-52; Cap. 3: 'Multiple Linear Regression', pgs: 53-84; Cap. 5: 'Qualitative
Variables as Predictors', pgs: 121-150; Cap. 6: 'Transformation of Variables', pgs: 151-178; Cap. 8: 'The Problem of
Correlated Errors ', pgs:197-220; Cap. 9: 'Analysis of Collinear Data ', pgs: 221-258; Cap. 12: 'Logistic Regression ',
pgs: 317-340.
5. Crawley, Michael J. The R Book, John Wiley & Sons, 2007. Cap. 10: 'Regression ', pgs: 387-448.
6. Gujarati, Damodar. Basic Econometrics, Fourth Edition, McGrawHill, 2004, Cap. 9: 'Dummy variable
regression models', pgs: 297-333; Cap. 10: 'Multicollinearity: what happens if the regressors are correlated?', pgs:
341-386; Cap. 11: 'Heteroscedasticity: what happens if the error variance is nonconstant?', pgs: 387-440; Cap. 12:
'Autocorrelation: what happens if the error terms are correlated?', pgs: 441-505; Cap. 15: 'Qualitative response
regression models', pgs: 580-635.
7. Montgomery, Douglas C; Runger, George C. Applied Statistics and Probability for Engineers, Third
Edition, John Wiley & Sons, 2003, Cap 11: 'Simple Linear Regression and Correlation'; pgs: 372-409; Cap. 12:
'Multiple Linear Regression', pgs: 410-467.
8. Salvatore, Dominick; Reagle, Derrick. Theory and problems of Statistics and Econometrics, McGrawHill,
2002, Cap. 6: 'Simple regression analysis', pgs: 128-153; Cap 7: 'Multiple regression analysis', pgs: 154-180; Cap 8:
'Further techniques and applications in regression analysis', pgs: 181-205, Cap 9: 'Problems in regression analysis',
pgs: 206-227.
9. Marques de S, Joaquim P. Applied Statistics Using SPSS, STATISTICA, MATLAB and R , Second Edition,
Springer, 2007, Cap 7: 'Data Regression', pgs: 271-328.
10. Verzani, John. Using R for Introductory Statistics, Chapman & Hall/CRC, 2005, Cap. 10: 'Linear
regression', pgs: 264-297.
108
Bases de datos
6. ANEXO: BASES DE DATOS.
BASE DE DATOS N1
PAS Y X
Albania 76,2 5323,118
Algeria 71,7 7175,777
Angola 41,7 2828,850
Antigua y Barbuda 73,9 11604,383
Argentina 74,8 13153,390
Armenia 71,7 4048,132
Australia 80,9 31317,558
Austria 79,4 32802,003
Azerbaijan 67,1 4500,316
Bahamas, The 72,3 18725,849
Bahrain 75,2 19748,035
Bangladesh 63,1 1997,948
Barbados 76,6 17169,758
Belarus 68,7 7229,542
Belgium 78,8 31158,621
Belize 75,9 7635,294
Benin 55,4 1147,382
Bhutan 64,7 3329,786
Bolivia 64,7 2839,524
Bosnia and Herzegovina 74,5 5827,264
Botswana 48,1 10866,083
Brazil 71,7 8452,691
Brunei Darussalam 76,7 24825,708
Bulgaria 72,7 9204,530
Burkina Faso 51,4 1326,183
Burundi 48,5 753,236
Cte d'Ivoire 47,4 1492,703
Cambodia 58 2116,041
Cameroon 49,8 2283,608
Canada 80,3 34550,246
Cape Verde 71 6287,127
Central African Republic 43,7 1163,041
Chad 50,4 1744,093
Chile 78,3 11536,519
China 72,5 6193,421
Colombia 72,3 7309,397
Comoros 64,1 1716,934
Congo, Democratic Republic of 45,8 675,290
Congo, Republic of 54 1379,278
Costa Rica 78,5 10316,297
Croatia 75,3 12364,02
Cyprus 79 20668,584
Czech Republic 75,9 19488,401
Denmark 77,9 34717,573
Djibouti 53,9 1957,463
Dominica 75,6 6250,069
Dominican Republic 71,5 7042,452
Ecuador 74,7 4296,540
Egypt 70,7 4281,929
El Salvador 71,3 4525,095
Equatorial Guinea 50,4 50473,514
Eritrea 56,6 916,821
Estonia 71,2 16461,257
Ethiopia 51,8 859,202
Fiji 68,3 6282,052
Finland 78,9 30817,570
i
France 80,2 29019,288
Gabon 56,2 6976,653
Gambia, The 58,8 1999,430
Georgia 70,7 3037,713
Germany 79,1 30149,652
Ghana 59,1 2600,915
Greece 78,9 21529,166
Grenada 68,2 8410,763
Guatemala 69,7 4135,536
Guinea 54,8 1985,822
Guinea-Bissau 45,8 755,526
Guyana 65,2 4680,530
Haiti 59,5 1687,716
Honduras 69,4 2793,077
Hong Kong SAR 81,9 32292,182
Hungary 72,9 16627,455
Iceland 81,5 35686,217
India 63,7 3315,702
Indonesia 69,7 3939,515
Iran, Islamic Republic of 70,2 8065,119
Ireland 78,4 40002,741
Israel 80,3 22944,118
Italy 80,3 29218,079
Jamaica 72,2 4470,846
Japan 82,3 31405,673
Jordan 71,9 4614,515
Kazakhstan 65,9 8252,367
Kenya 52,1 1108,224
Korea 77,9 22665,654
Kuwait 77,3 16297,267
Kyrgyz Republic 65,6 2061,020
Lao People's Democratic Republic 63,2 2049,032
Latvia 72 13059,487
Lebanon 71,5 6205,325
Lesotho 42,6 2162,916
Libya 73,4 11353,605
Lithuania 72,5 14337,639
Luxembourg 78,4 66820,651
Macedonia, Former Yugoslav Republic of 73,8 7749,249
Madagascar 58,4 910,766
Malawi 46,3 595,857
Malaysia 73,7 11159,608
Maldives 67 7639,500
Mali 53,1 1084,444
Malta 79,1 20015,440
Mauritania 63,2 2307,076
Mauritius 72,4 13028,798
Mexico 75,6 10090,420
Moldova 68,4 2261,605
Mongolia 65,9 2045,544
Morocco 70,4 4578,292
Mozambique 42,8 1335,140
Myanmar 60,8 1417,007
Namibia 51,6 6657,765
Nepal 62,6 1471,227
Netherlands 79,2 30573,938
New Zealand 79,8 24881,583
Nicaragua 71,9 2778,888
Niger 55,8 896,472
Nigeria 46,5 1187,952
Norway 79,8 41940,513
Oman 75 16299,602
Pakistan 64,6 2549,284
Panama 75,1 7052,058
ii
Bases de datos
Papua New Guinea 56,9 2414,236
Paraguay 71,3 4663,165
Peru 70,7 5872,232
Philippines 71 4770,234
Poland 75,2 13439,814
Portugal 77,7 19388,399
Qatar 75 29606,696
Romania 71,9 8257,719
Russia 65 11209,393
Rwanda 45,2 1430,504
Samoa 70,8 6389,850
Sao Tome and Principe 64,9 1638,174
Saudi Arabia 72,2 14592,097
Senegal 62,3 1914,089
St. Kitts and Nevis 70 15049,644
St. Lucia 73,1 5516,483
St. Vincent and the Grenadines 71,1 7042,385
Seychelles 72,7 12135,151
Sierra Leone 41,8 900,777
Singapore 79,4 28227,954
Slovak Republic 74,2 16110,216
Slovenia 77,4 21694,983
Solomon Islands 63 1922,463
South Africa 50,8 11345,534
Spain 80,5 24803,458
Sri Lanka 71,6 4144,734
Sudan 57,4 2416,980
Suriname 69,6 5725,517
Swaziland 40,9 5181,153
Sweden 80,5 29536,787
Switzerland 81,3 33168,045
Syrian Arab Republic 73,6 3870,846
Tajikistan 66,3 1373,340
Tanzania 51 720,154
Thailand 69,6 8542,395
Togo 57,8 1599,533
Tonga 72,8 7689,927
Trinidad and Tobago 69,2 13957,584
Tunisia 73,5 8223,289
Turkey 71,4 7958,134
Turkmenistan 62,6 7853,975
Uganda 49,7 1817,451
Ukraine 67,7 7181,610
United Arab Emirates 78,3 23722,875
United Kingdom 79 30277,126
United States 77,9 41571,061
Uruguay 75,9 9619,364
Uzbekistan 66,8 1834,398
Vanuatu 69,3 3415,355
Venezuela 73,2 5801,392
Vietnam 73,7 2782,199
Yemen 61,5 745,176
Zambia 40,5 911,352
Zimbabwe 40,9 2412,635
BASE DE DATOS N2
CONDADO Y X
Adams County 0,285 11,324
Boone County 0,150 9,790
DeKalb County 0,428 10,454
DuPage County 0,277 4,725
Kane County 0,538 7,782
iii
Kankakee County 1,121 12,419
Kendall County 0,104 3,669
La Salle County 0,143 10,099
Lake County 0,504 6,167
Macon County 1,371 15,390
Madison County 0,610 11,113
McHenry County 0,137 5,265
McLean County 0,782 11,615
Ogle County 0,109 7,857
Peoria County 2,290 13,079
Rock Island County 0,952 12,816
Sangamon County 1,800 12,667
St. Clair County 2,436 15,506
Tazewell County 0,267 7,789
Vermilion County 1,762 17,839
Whiteside County 0,237 10,982
Will County 0,504 5,821
Winnebago County 2,329 13,624

BASE DE DATOS N3
AO Y X
1955 31,27 2,6
1956 29,85 2,3
1957 29,72 1,9
1958 30,82 2,2
1959 26,76 2,3
1960 24,85 1,6
1961 22,32 1,3
1962 20,42 1,2
1963 18,90 1,2
1964 17,47 1,1
1965 17,11 1,1
1966 17,38 1,2
1967 16,14 1,2
1968 16,43 1,2
1969 16,37 1,2
1970 17,06 1,2
1971 17,58 1,3
1972 19,37 1,5
1973 20,02 1,3
1974 19,72 1,4
1975 21,32 2,0
1976 21,10 2,2
1977 21,89 2,1
1978 21,89 2,4
1979 22,49 2,1
1980 22,17 2,0
1981 21,91 2,3
1982 22,61 2,4
1983 28,71 2,7
1984 27,47 2,7
1985 25,81 2,6
1986 27,60 2,7
1987 25,44 2,9
1988 23,70 2,5
1989 21,38 2,2
1990 20,29 2,0
1991 20,48 2,0
1992 22,10 2,1
1993 22,08 2,4
1994 22,88 2,8
1995 23,11 3,1
iv
Bases de datos
1996 24,07 3,3
1997 25,72 3,4
1998 36,07 4,2
1999 36,12 4,8
2000 34,87 4,9
2001 33,86 5,2
2002 34,80 5,5
2003 37,51 5,5
2004 35,20 4,9
BASE DE DATOS N4
ESTADO Y X
Alabama 8,3 37
Alaska 5,4 30
Arizona 7,5 33
Arkansas 7,3 35
California 6,8 31
Colorado 3,3 28
Connecticut 3,1 28
Delaware 4,9 34
Florida 6,2 35
Georgia 6,4 36
Hawaii 1,6 27
Idaho 2,5 21
Illinois 6,1 31
Indiana 5,8 32
Iowa 1,8 26
Kansas 4,6 28
Kentucky 4,0 33
Louisiana 12,4 41
Maine 1,7 31
Maryland 9,7 32
Massachusetts 2,9 28
Michigan 7,1 32
Minnesota 2,4 25
Mississippi 7,7 45
Missouri 6,3 32
Montana 1,8 25
Nebraska 2,8 25
Nevada 9,0 34
New Hampshire 1,0 25
New Jersey 4,9 28
New Mexico 6,8 37
New York 4,8 34
North Carolina 6,1 35
North Dakota 1,3 24
Ohio 4,7 33
Oklahoma 5,8 34
Oregon 2,3 29
Pennsylvania 5,9 31
Rhode Island 2,6 35
South Carolina 8,3 40
South Dakota 1,2 27
Tennessee 6,8 35
Texas 5,9 33
Utah 1,8 18
Vermont 1,9 29
Virginia 5,2 29
Washington 3,0 29
West Virginia 4,1 31
Wisconsin 3,0 28
Wyoming 1,7 27
v
BASE DE DATOS N5
COMUNA Y X
Santiago 7,3 13,1
Cerrillos 8,3 10,4
Cerro Navia 17,5 9,1
Conchal 8,0 10,1
El Bosque 15,8 9,7
Estacin Central 7,3 10,5
Huechuraba 14,5 9,9
Independencia 6,0 11,3
La Cisterna 8,6 11,6
La Florida 9,6 11,3
La Granja 14,2 9,5
La Pintana 17,2 8,8
La Reina 7,8 12,4
Las Condes 2,3 14,3
Lo Barnechea 8,1 11,1
Lo Espejo 20,1 9,7
Lo Prado 11,6 10,1
Macul 13,4 10,9
Maip 9,1 11,4
uoa 4,3 13,4
Pedro Aguirre Cerda 6,3 9,8
Pealoln 8,7 9,9
Providencia 3,5 13,8
Pudahuel 7,1 10,3
Puente Alto 10,6 10,7
Quinta Normal 10,8 10,5
Quilicura 6,7 11,1
Recoleta 12,4 10,2
Renca 19,2 10,0
San Bernardo 20,9 9,7
San Joaqun 7,4 10,7
San Miguel 2,5 12,3
San Ramn 16,7 9,6
Vitacura 4,4 14,6
BASE DE DATOS N6
COMUNA Y X X X
Santiago 13,1 7,3 283 6,2
Cerrillos 10,4 8,3 259 9,3
Cerro Navia 9,1 17,5 215 9,4
Conchal 10,1 8,0 236 4,9
El Bosque 9,7 15,8 231 10,3
Estacin Central 10,5 7,3 251 8,8
Huechuraba 9,9 14,5 238 9,1
Independencia 11,3 6,0 225 5,9
La Cisterna 11,6 8,6 237 7,8
La Florida 11,3 9,6 259 5,7
La Granja 9,5 14,2 240 10,2
La Pintana 8,8 17,2 233 11
La Reina 12,4 7,8 286 8,3
Las Condes 14,3 2,3 314 3,8
Lo Barnechea 11,1 8,1 296 3,4
Lo Espejo 9,7 20,1 205 6,8
Lo Prado 10,1 11,6 209 9,5
Macul 10,9 13,4 250 6,5
Maip 11,4 9,1 261 7,3
uoa 13,4 4,3 265 5,3
vi
Bases de datos
BASE DE DATOS N6
Pedro Aguirre Cerda 9,8 6,3 235 11,6
Pealoln 9,9 8,7 244 6,5
Providencia 13,8 3,5 319 5,5
Pudahuel 10,3 7,1 220 6,1
Puente Alto 10,7 10,6 246 6,3
Quinta Normal 10,5 10,8 237 8,9
Quilicura 11,1 6,7 243 7,9
Recoleta 10,2 12,4 242 6,6
Renca 10,0 19,2 250 6,7
San Bernardo 9,7 20,9 246 8,6
San Joaqun 10,7 7,4 233 7,4
San Miguel 12,3 2,5 237 4,6
San Ramn 9,6 16,7 245 7,9
Vitacura 14,6 4,4 325 3,2
BASE DE DATOS N7
PAS Y X X
Afghanistan 43,6 1054 0,35
Albania 76,5 7041 0,89
Algeria 72,2 7740 0,75
Angola 46,5 5385 0,67
Argentina 75,2 13238 0,95
Armenia 73,6 5693 0,91
Australia 81,4 34923 0,99
Austria 79,9 37370 0,96
Azerbaijan 70 7851 0,88
Bahamas 73,2 20253 0,88
Bahrain 75,6 29723 0,89
Bangladesh 65,7 1241 0,53
Barbados 77 17956 0,98
Belarus 69 10841 0,96
Belgium 79,5 34935 0,97
Belize 76 6734 0,76
Benin 61 1312 0,45
Bhutan 65,7 4837 0,53
Bolivia 65,4 4206 0,89
Bosnia and Herzegovina 75,1 7764 0,87
Botswana 53,4 13604 0,79
Brazil 72,2 9567 0,89
Brunei Darussalam 77 50200 0,89
Bulgaria 73,1 11222 0,93
Burkina Faso 52,7 1124 0,3
Burundi 50,1 341 0,56
Cte d'Ivoire 56,8 1690 0,45
Cambodia 60,6 1802 0,7
Cameroon 50,9 2128 0,63
Canada 80,6 35812 0,99
Cape Verde 71,1 3041 0,79
Central African Republic 46,7 713 0,42
Chad 48,6 1477 0,33
Chile 78,5 13880 0,92
China 72,9 5383 0,85
Colombia 72,7 8587 0,88
Comoros 64,9 1143 0,66
Congo 53,5 3511 0,74
Congo (Democratic Republic of the) 47,6 298 0,61
Costa Rica 78,7 10842 0,88
Croatia 76 16027 0,92
Cuba 78,5 6876 0,99
Cyprus 79,6 24789 0,91
Czech Republic 76,4 24144 0,94
vii
BASE DE DATOS N7
Denmark 78,2 36130 0,99
Djibouti 55,1 2061 0,55
Dominican Republic 72,4 6706 0,84
Ecuador 75 7449 0,87
Egypt 69,9 5349 0,7
El Salvador 71,3 5804 0,79
Equatorial Guinea 49,9 30627 0,79
Eritrea 59,2 626 0,54
Estonia 72,9 20361 0,96
Ethiopia 54,7 779 0,4
Fiji 68,7 4304 0,87
Finland 79,5 34526 0,99
France 81 33674 0,98
Gabon 60,1 15167 0,84
Gambia 55,7 1225 0,44
Georgia 71,6 4662 0,92
Germany 79,8 34401 0,95
Ghana 56,5 1334 0,62
Greece 79,1 28517 0,98
Grenada 75,3 7344 0,88
Guatemala 70,1 4562 0,72
Guinea 57,3 1140 0,36
Guinea-Bissau 47,5 477 0,55
Guyana 66,5 2782 0,94
Haiti 61 1155 0,59
Honduras 72 3796 0,81
Hong Kong, China (SAR) 82,2 42306 0,88
Hungary 73,3 18755 0,96
Iceland 81,7 35742 0,98
India 63,4 2753 0,64
Indonesia 70,5 3712 0,84
Iran (Islamic Republic of) 71,2 10955 0,79
Ireland 79,7 44613 0,99
Israel 80,7 26315 0,95
Italy 81,1 30353 0,97
Jamaica 71,7 6079 0,83
Japan 82,7 33632 0,95
Jordan 72,4 4901 0,87
Kazakhstan 64,9 10863 0,97
Kenya 53,6 1542 0,69
Korea (Republic of) 79,2 24801 0,99
Kuwait 77,5 47812 0,87
Kyrgyzstan 67,6 2006 0,92
Lao People's Democratic Republic 64,6 2165 0,68
Latvia 72,3 16377 0,96
Lebanon 71,9 10109 0,86
Lesotho 44,9 1541 0,75
Liberia 57,9 362 0,56
Libyan Arab Jamahiriya 73,8 14364 0,9
Lithuania 71,8 17575 0,97
Luxembourg 79,4 79485 0,98
Macedonia (the Former Yugoslav Rep. of) 74,1 9096 0,88
Madagascar 59,9 932 0,68
Malawi 52,4 761 0,69
Malaysia 74,1 13518 0,85
Maldives 71,1 5196 0,89
Mali 48,1 1083 0,33
Malta 79,6 23080 0,89
Mauritania 56,6 1927 0,54
Mauritius 72,1 11296 0,84
Mexico 76 14104 0,89
Moldova 68,3 2551 0,9
Mongolia 66,2 3236 0,91
viii
Bases de datos
BASE DE DATOS N7
Montenegro 74 11699 0,89
Morocco 71 4108 0,57
Mozambique 47,8 802 0,48
Myanmar 61,2 904 0,79
Namibia 60,4 5155 0,81
Nepal 66,3 1049 0,58
Netherlands 79,8 38694 0,99
New Zealand 80,1 27336 0,99
Nicaragua 72,7 2570 0,76
Niger 50,8 627 0,28
Nigeria 47,7 1969 0,66
Norway 80,5 53433 0,99
Oman 75,5 22816 0,79
Pakistan 66,2 2496 0,49
Panama 75,5 11391 0,89
Papua New Guinea 60,7 2084 0,52
Paraguay 71,7 4433 0,87
Peru 73 7836 0,89
Philippines 71,6 3406 0,89
Poland 75,5 15987 0,95
Portugal 78,6 22765 0,93
Qatar 75,5 74882 0,89
Romania 72,5 12369 0,92
Russian Federation 66,2 14690 0,93
Rwanda 49,7 866 0,61
Saint Lucia 73,6 9786 0,89
Saint Vincent and the Grenadines 71,4 7691 0,82
Samoa 71,4 4467 0,91
Sao Tome and Principe 65,4 1638 0,81
Saudi Arabia 72,7 22935 0,83
Senegal 55,4 1666 0,42
Serbia 73,9 10248 0,89
Sierra Leone 47,3 679 0,4
Singapore 80,2 49704 0,91
Slovakia 74,6 20076 0,93
Slovenia 78,2 26753 0,97
Solomon Islands 65,8 1725 0,68
South Africa 51,5 9757 0,84
Spain 80,7 31560 0,98
Sri Lanka 74 4243 0,83
Sudan 57,9 2086 0,54
Suriname 68,8 7813 0,85
Swaziland 45,3 4789 0,73
Sweden 80,8 36712 0,97
Switzerland 81,7 40658 0,94
Syrian Arab Republic 74,1 4511 0,77
Tajikistan 66,4 1753 0,9
Tanzania (United Republic of) 55 1208 0,67
Thailand 68,7 8135 0,89
Timor-Leste 60,7 717 0,55
Togo 62,2 788 0,53
Tonga 71,7 3748 0,92
Trinidad and Tobago 69,2 23507 0,86
Tunisia 73,8 7520 0,77
Turkey 71,7 12955 0,83
Turkmenistan 64,6 4953 0,91
Uganda 51,9 1059 0,7
Ukraine 68,2 6914 0,96
United Arab Emirates 77,3 54626 0,84
United Kingdom 79,3 35130 0,96
United States 79,1 45592 0,97
Uruguay 76,1 11216 0,96
Uzbekistan 67,6 2425 0,89
ix
BASE DE DATOS N7
Vanuatu 69,9 3666 0,73
Venezuela 73,6 12156 0,92
Viet Nam 74,3 2600 0,81
Yemen 62,5 2335 0,57
Zambia 44,5 1358 0,68
BASE DE DATOS N8
ESTADO Y X X
Alabama 90 15,73 37
Alaska 73 15,61 30
Arizona 104 18,47 33
Arkansas 93 15,65 35
California 96 15,24 31
Colorado 82 19,47 28
Connecticut 70 17,21 28
Delaware 93 18,26 34
District of Columbia 128 13,68 62
Florida 97 17,75 35
Georgia 95 14,36 36
Hawaii 93 16,11 27
Idaho 62 16,56 21
Illinois 87 18,95 31
Indiana 73 18,92 32
Iowa 55 20,50 26
Kansas 69 20,63 28
Kentucky 76 17,59 33
Louisiana 87 19,04 41
Maine 52 17,02 31
Maryland 91 18,33 32
Massachusetts 60 20,16 28
Michigan 75 19,57 32
Minnesota 50 19,45 25
Mississippi 103 17,18 45
Missouri 74 19,53 32
Montana 60 23,15 25
Nebraska 59 21,64 25
Nevada 113 18,69 34
New Hampshire 47 18,41 25
New Jersey 90 17,99 28
New Mexico 103 20,00 37
New York 91 19,13 34
North Carolina 95 17,27 35
North Dakota 42 24,67 24
Ohio 74 17,62 33
Oklahoma 86 15,42 34
Oregon 79 15,95 29
Pennsylvania 60 18,26 31
Rhode Island 67 23,22 35
South Carolina 89 14,68 40
South Dakota 54 23,22 27
Tennessee 89 14,04 35
Texas 101 17,57 33
Utah 53 11,79 18
Vermont 44 21,46 29
Virginia 72 18,28 29
Washington 75 16,26 29
West Virginia 67 20,12 62
Wisconsin 55 18,70 31
Wyoming 77 18,99 28
x
Bases de datos
BASE DE DATOS N9
Ao Y X
1960 328200 107840
1961 336000 106670
1962 366800 110860
1963 408300 116470
1964 472800 130390
1965 496900 138690
1966 561200 157990
1967 659800 202910
1968 783600 262840
1969 878500 298850
1970 928400 349860
1971 948200 387700
1972 887200 376290
1973 928800 384220
1974 977100 442400
1975 1009600 470500
1976 966000 427810
1977 977700 412610
1978 1004100 426930
1979 1112800 480700
1980 1131700 565840
1981 1087800 592910
1982 1062400 553130
1983 1007900 506570
1984 1032200 485010
1985 1102900 497870
1986 1224137 542775
1987 1288674 517704
1988 1432900 542970
1989 1564800 578330
1990 1635900 639270
1991 1661700 687730
1992 1610800 672480
1993 1563100 659870
1994 1539300 618950
1995 1472400 580510
1996 1394200 535590
1997 1354189 498534
1998 1240754 446625
1999 1152075 409371
2000 1160002 408016
2001 1228391 423557
2002 1246646 420806
2003 1261226 414235
2004 1237851 401470
2005 1235859 417438
2006 1192809 447403
2007 1095769 445125
BASE DE DATOS N10
Y X
Agencia
Adelanto Police Dept 532,7 2639,4
Agoura Hills 213,4 1515,3
Alameda County Sheriff Dept 562,1 2357,2
Alameda Police Dept 291 2805
Albany Police Dept 283,2 4883,9
Alhambra Police Dept 324,9 2416,5
Aliso Viejo 74,4 1261,7
xi
BASE DE DATOS N10
American Canyon 299,1 2539,1
Anaheim Police Dept 424,6 2625,2
Anderson Police Dept 423,4 4120,8
Antioch Police Dept 843,4 3061,6
Apple Valley 377,8 2670,9
Arcadia Police Dept 273,8 2991,2
Arcata Police Dept 301,3 3095,3
Arroyo Grande Police Dept 157,7 2220,2
Artesia 517,9 2077,4
Arvin Police Dept 689,5 4222,5
Atascadero Police Dept 385,9 2057,2
Atwater Police Dept 371 3677,7
Auburn Police Dept 374,8 2853,4
Avenal 256,2 774,4
Azusa Police Dept 434,6 2685,5
Bakersfield Police Dept 615,2 5037,9
Baldwin Park Police Dept 356 2424,5
Banning Police Dept 692,9 2549,5
Barstow Police Dept 1406,7 5046,5
Beaumont Police Dept 152,9 2193,2
Bell Police Dept 467,7 1552,6
Bell Gardens Police Dept 479,6 1896,5
Bellflower 680,1 3385,9
Belmont Police Dept 97,5 1450,9
Benicia Police Dept 214,7 1789,5
Berkeley Police Dept 630,5 7021,7
Beverly Hills Police Dept 446,9 3327,4
Blythe Police Dept 436,2 2612,8
Brawley Police Dept 282,4 5126,6
Brea Police Dept 197,2 3875,4
Brentwood Police Dept 237,4 2433,1
Buena Park Police Dept 396,8 2576
Burbank Police Dept 261,3 2638,5
Burlingame Police Dept 207,4 3084,9
Butte County Sheriff Department 230,9 1598,6
Calabasas 70,5 1731,8
Calaveras County Sheriff Department 107,9 1422,7
Calexico Police Dept 241,5 3283
California City Police Dept 453,8 2239,1
Camarillo 148,6 1679,4
Campbell Police Dept 269,8 4045
Canyon Lake 199,2 1472,6
Carslbad Police Dept 334,5 2575,3
Carpinteria 209,1 1695
Carson 724,9 2760,7
Cathedral City Police Dept 378,1 3312,1
Ceres Dept Of Public Safety 442,1 4732,1
Cerritos 263 3583,5
Chico Police Dept 518,3 3303,4
Chino Police Dept 287,5 3097,9
Chino Hills 96,8 1452,6
Chowchilla Police Dept 111,9 1726
Chula Vista Police Dept 421,1 3328
Claremont Police Dept 246,8 2766
Clayton Police Dept 80 1466,4
Clearlake Police Dept 442,7 4321,7
Clovis Police Dept 143,6 3070,5
Coachella Police Dept 782,3 4041
Coalinga Police Dept 522,4 2797,6
Colton Police Dept 471,8 3715
Commerce 1089,8 8316,3
Compton Police Dept 1690,8 2922,2
Concord Police Dept 402,6 4089,9
xii
Bases de datos
BASE DE DATOS N10
Contra Costa County Sheriff Department 428,5 2253,5
Corcoran Police Dept 189,8 910,8
Corona Police Dept 221,5 2619,9
Coronado Police Dept 96,7 1989,7
Costa Mesa Police Dept 234,9 3037,3
Covina Police Dept 450,4 3846,9
Cudahy 573,1 2236,2
Culver City Police Dept 458,5 3696,1
Cupertino 100 1579,2
Cypress Police Dept 201,1 1925
Daly City Police Dept 291,2 2097,7
Dana Point 130,4 1531,2
Danville 53 1549,3
Davis Police Dept 276 3463,5
Delano Police Dept 541,8 3579,2
Desert Hot Springs 1155,3 7191,3
Diamond Bar 229,5 1825,6
Dinuba Police Dept 662,5 4762,6
Dixon Police Dept 408,2 4585,4
Downey Police Dept 470,6 3553,4
Duarte 377,4 2350
Dublin 173,7 1728
East Palo Alto Police Dept 785,9 2071,7
El Cajon Police Dept 541,1 4328,5
El Centro Police Dept 649,5 5059
El Cerrito Police Dept 786,2 5085,7
El Dorado County Sheriff Department 161,8 1394,5
El Monte Police Dept 552,4 2262,8
El Segundo Police Dept 217,7 4693,6
Encinitas 267,6 1925,1
Escondido Police Dept 492,4 3244,4
Eureka Police Dept 998,1 5984,9
Exeter Police Dept 203,7 3095
Fairfield Police Dept 595,7 4101,9
Farmersville Police Dept 538,2 2377,9
Fillmore 341,7 2010,6
Folsom Police Dept 143,4 2333,1
Fontana Police Dept 507,7 2352,5
Fortuna Police Dept 212,2 3332,7
Foster City Police Dept 76 1661
Fountain Valley Police Dept 198,3 2578
Fremont Police Dept 301 2569,6
Fresno County Sheriff Department 329,5 3464,3
Fresno Police Dept 644,5 4441
Fullerton Police Dept 348,9 3083,9
Galt Police Dept 392,2 3705,1
Garden Grove Police Dept 387,6 2495
Gardena Police Dept 747,3 2381,9
Gilroy Dept Of Public Safety 508,7 4085,7
Glendale Police Dept 187,5 1833,1
Glendora Police Dept 164,4 2958,7
Goleta 181,2 1289,2
Grand Terrace 178,4 1962,1
Grass Valley Police Dept 526,9 2938,1
Greenfield Police Dept 911,4 3728,3
Grover Beach Police Dept 697,4 2162,8
Half Moon Bay Police Dept 169,8 2069,5
Hanford Police Dept 303,9 3368,6
Hawaiian Gardens Police Dept 960,7 2624,1
Hawthorne Police Dept 893,6 2326,9
Hayward Police Dept 626,6 3319,3
Healdsburg Police Dept 173,4 2546,8
Hemet Police Dept 666,9 4339,7
xiii
BASE DE DATOS N10
Hercules Police Dept 198,9 1911,4
Hermosa Beach Police Dept 340,5 2805,4
Hesperia 371,2 2326,2
Highland 618,1 2540,8
Hillsborough Police Dept 18,7 888,1
Hollister Police Dept 541,7 2465,7
Humboldt County Sheriff Department 199,9 1313,8
Huntington Beach Police Dept 192,8 2068,5
Huntington Park Police Dept 968,4 4459,7
Imperial County Sheriff Department 338,1 3014,2
Imperial Police Dept 40 1663,2
Indio Police Dept 427,3 3455,1
Inglewood Police Dept 899,1 2592,4
Irvine Police Police 70,8 1612,9
Kerman Police Dept 218,8 2743,3
Kern County Sheriff Department 571,2 3276,3
King City Police Dept 676,3 3096,9
Kings County Sheriff Department 337,7 1374,6
Kingsburg Police Dept 121,9 3849,2
La Canada-Flintridge 118,6 2044,7
La Habra Police Dept 352,5 2447,3
Lamesa Police Dept 450,7 4231
La Mirada 229,3 2153,8
La Palma Police Dept 284,4 1870,9
La Puente 533,9 1806,1
La Quinta 469,3 3637,8
La Verne Police Dept 244,4 2447,2
Lafayette 100 1731,5
Laguna Beach Police Dept 202,4 2044,2
Laguna Hills 171 1998,6
Laguena Niguel 72,3 1022,4
Laguna Woods 16,4 502,4
Lake County Sheriff Department 318,8 1635
Lake Elsinore 383,8 3456,6
Lake Forest 121,8 1377,7
Lakewood 570,3 3092,2
Lancaster 909,1 3506
Lawndale 770,6 1553,7
Lemon Grove 670,3 2491,5
Lemoore Police Dept 336,7 3124,3
Lincoln Police Dept 114,3 965,4
Lindsay Police Dept 686,5 3716,2
Livermore Police Dept 210,6 2578,1
Livingston Police Dept 730,1 3003,2
Lodi Police Dept 363,8 4369
Loma Linda 129,4 2832,6
Lomita 603,7 2088,7
Lompoc Police Dept 685,2 2194,1
Long Beach Police Dept 722,8 2738,4
Los Alamitos Police Dept 290 2899,8
Los Altos Police Dept 65,6 1067,4
Los Angeles County Sheriff Department 784,3 2067,2
Los Angeles Police Dept 718,4 2621,3
Los Banos Dept Of Public Safety 393,1 2618,8
Los Gatos Police Dept 123,6 2206,9
Lynwood 1012,4 2593,5
Madera County Sheriff Department 423,5 1751,5
Madera Police Dept 730,7 2239,6
Malibu 218,7 2435,3
Manhattan Beach Police Dept 145,7 2771,1
Manteca Police Dept 367,5 4019,3
Marin County Sheriff Department 199,3 1260
Marina Dept Of Public Safety 277 3246,9
xiv
Bases de datos
BASE DE DATOS N10
Martinez Police Dept 343,3 3326
Marysville Police Dept 1403 4864,3
Maywood Police Dept 607,7 1548,8
Mendocino County Sheriff Department 527,5 1184
Menlo Park Police Dept 247,8 1875
Merced County Sheriff Department 540,7 2685,3
Merced Police Dept 781,5 4887,1
Mill Valley Police Dept 120,5 1385,5
Millbrae Police Dept 190,9 1684,2
Milpitas Police Dept 277,5 3262,1
Mission Viejo 86,2 1380,7
Modesto Police Dept 716,1 5781,8
Monrovia Police Dept 353,9 2951,7
Montclair Police Dept 654,7 6536,1
Montebello Police Dept 383,7 3088,6
Monterey County Sheriff Department 222,5 1983,6
Monterey Police Dept 578,9 4453,5
Monterey Park Police Dept 313,7 2064,9
Moorpark 113,1 1597
Moraga Police Dept 88,1 1497
Moreno Valley 538,2 3348,8
Morgan Hill Police Dept 230,7 2435,8
Morro Bay Police Dept 207,9 1514,9
Mountain View Police Dept 340 2170
City Of Murrieta Police Dept 120,3 1993,9
Napa County Sheriff Department 291,9 2076,8
Napa Police Dept 382,6 3123,6
National City Police Dept 683,9 3498,6
Nevada County Sheriff Department 197,1 891,3
Newark Police Dept 536,1 4119,1
Newman Police Dept 345 3162,1
Newport Beach Police Dept 214 2771,9
Norco 345,8 3429,3
Norwalk 576,3 2497,9
Novato Police Dept 301,5 2289,4
Oakdale Police Dept 246,4 5233,8
Oakland Police Dept 1917,8 5967,6
Oakley 399,3 2518,6
Oceanside 546,8 2756,8
Ontario Police Dept 486,5 3332,6
Orange County Sheriff Department 161,9 1347,3
Orange Police Dept 195,9 2244,9
Orinda 70,5 1669,5
Oroville Police Dept 1458,1 7570,5
Oxnard Police Dept 453,4 2293,9
Pacific Grove Police Dept 155,7 2626,6
Pacifica Police Dept 199,1 1683,9
Palm Desert 192,1 6083,1
Palm Springs Police Dept 632,4 7249,4
Palmdale 733,9 3027
Palo Alto Police Dept 110,9 2495,8
Palos Verdes Estates Police Dept 28,9 1178,8
Paradise Police Dept 208,5 2861,9
Paramount 854,7 3426,1
Parlier Police Dept 926 3278,3
Pasadena Police Dept 511,2 2957
Paso Robles Police Dept 372,1 3267,8
Patterson Police Dept 265 3109,1
Perris 625,6 4201,4
Petaluma Police Dept 413,7 1892,9
Pico Rivera 397,2 2418,9
Piedmont Police Dept 95,4 1975,6
Pinole Police Dept 594,4 4202,9
xv
BASE DE DATOS N10
Pittsburg Police Dept 391,2 3758,2
Placentia Police Dept 178,5 1407,9
Placer County Sheriff Department 227,8 1784
Placerville Police Dept 700,1 2317,1
Pleasant Hill Police Dept 376,1 4835,6
Pleasanton Police Dept 94,4 1939,8
Pomona Police Dept 795,9 3358,4
Port Hueneme Police Dept 426,5 1825,4
Porterville Police Dept 619,9 5038,5
Poway 212 1561,2
Rancho Cucamonga 211,6 2211,8
Rancho Mirage 156,1 6170,1
Rancho Palos Verdes 98 1283,3
Rancho Santa Margari 58,8 1054,4
Red Bluff Police Dept 970,9 4790,6
Redding Police Dept 498,2 2896,2
Redlands Police Dept 424,6 3510,5
Redondo Beach Police Dept 301,9 2406,2
Redwood City Police Dept 457,5 2300
Reedley Police Dept 588,8 3026,2
Rialto Police Dept 743,6 2270,8
Richmond Police Dept 1190,6 5374,2
Ridgecrest Police Dept 576,8 2356,6
Ripon Police Dept 245,2 2608,5
Riverbank 303,4 3967,6
Riverside County Sheriff Department 407 2709,7
Riverside Police Dept 632,5 3726,5
Rocklin Police Dept 193 2094,5
Rohnert Park Dept Of Public Safety 579,9 2322
Rosemead 456,6 2524,1
Roseville Police Dept 347,1 3551,7
Sacramento County Sheriff Department 465,4 2147,8
Sacramento Police Dept 1113,5 5297,8
Salinas Police Dept 794,5 4735,3
San Anselmo Police Dept 216,8 2342,6
San Bernardino County Sheriff Department 445,2 2274,1
San Bernardino Police Dept 1070,7 5024,7
San Bruno Police Dept 270,3 2057,1
San Carlos Police Dept 130,1 1676,5
San Clemente 132,3 1242
San Diego County Sheriff Department 393,8 1753,4
San Diego Police Dept 502,1 3502
San Dimas 229 2507,7
San Fernando Police Dept 533,3 1938,9
San Francisco Police Dept 874,1 4695,6
San Gabriel Police Dept 473,5 1869,6
San Jacinto Police Dept 426,4 3278,8
San Joaquin County Sheriff Department 711,7 3469
San Jose Police Dept 402,2 2574,7
San Juan Capistrano 191,6 1401
San Leandro Police Dept 703,2 5114,1
San Luis Obispo County Sheriff Department 217,4 1233,6
San Luis Obispo Police Dept 392,7 4315
San Marino Police Dept 122 2036,3
San Mateo County Sheriff Department 369,8 2483,2
San Mateo Police Dept 334,6 2267
San Pablo Police Dept 1008,3 5436,2
San Rafael Police Dept 500,1 3148,9
San Ramon 107,4 2091,7
Sanger Police Dept 367,4 2814
Santa Ana Police Dept 572,3 2291,7
Santa Barbara County Sheriff Department 150,7 1251,3
Santa Barbara Police Dept 522,7 2674,4
xvi
Bases de datos
BASE DE DATOS N10
Santa Clara County Sheriff Department 382,1 2091,5
Santa Clara Police Dept 211,1 3134,7
Santa Clarita 218,3 2219,1
Santa Cruz County Sheriff Department 208,6 1952,3
Santa Cruz Police Dept 880,5 4452,1
Santa Fe Springs 796,2 8804,6
Santa Maria Police Dept 704,1 3049,6
Santa Monica Police Dept 672,8 3508,5
Santa Paula Police Dept 347,1 2514,2
Santa Rosa Police Dept 497,6 2408,5
Santee 280,2 2172,9
Saratoga 96,5 997,8
Scotts Valley Police Dept 99 2420,4
Seal Beach Police Beach 151,7 1665,1
Seaside Police Dept 637,4 2081,6
Selma Police Dept 384 4595,5
Shafter Police Dept 446,9 4009,2
Shasta County Sheriff Department 441,6 1224,9
Sierra Madre Police Dept 99,7 1541,1
Signal Hill Police Dept 532,4 4037,3
Simi Valley Police Dept 147,5 1942,5
Solana Beach 206,3 2150,6
Soledad Police Dept 306 1614,4
Sonoma County Sheriff Department 364,1 1199,3
South El Monte 663,7 2954,5
South Gate Police Dept 584,6 2959,4
South Lake Tahoe Police Dept 682,8 2526
South Pasadena Police Dept 144,2 1746,3
South San Francisco Police Dept 288 2549,7
Stanislaus County Sheriff Department 715,4 3513,7
Stanton 448,7 1959,3
Stockton Police Dept 1418,7 6285
Suisun City Police Dept 533,1 2713,8
Sunnyvale Dept Of Public Safety 118,2 2017,2
Susanville Police Dept 373,8 2088,8
Sutter County Sheriff Department 403,8 3054,7
Tehama County Sheriff Department 473,1 1025,1
Temecula 221 2833,5
Temple City 220,5 1808,2
Thousand Oaks 116,6 1551,2
Torrance Police Dept 239,9 2229,1
Tracy Police Dept 161,6 3016
Truckee 359,7 1902
Tulare County Sheriff Department 327,7 1894,4
Tulare Police Dept 809,7 4202,3
Tuolumne County Sheriff Department 207,5 1680,9
Turlock Police Dept 708,9 5090,5
Tustin Police Dept 195,9 2251,8
Twenty-Nine Palms 311,4 1599
Twin Cities Police Dept 90,3 2636,6
Ukiah Dept Of Public Safety 872 3084,5
Union City Police Dept 643,6 2898,1
Upland Police Dept 393 3688,1
Vacaville Police Dept 282,3 2185,3
Vallejo Police Dept 932,7 5192,6
Ventura County Sheriff Department 208,6 1477,1
Ventura Police Dept 352,1 3661,4
Victorville 629,3 3851,4
Visalia Police Dept 571,2 4456,8
Walnut 177,9 1747,7
Walnut Creek Police Dept 141,6 4068,1
Watsonville Police Dept 809,7 4642
West Covina Police Dept 362,6 3575,5
xvii
BASE DE DATOS N10
West Hollywood 923,4 3906,7
West Sacramento Police Dept 802,2 2997,1
Westminster Police Dept 395,8 2962,1
Whittier Police Dept 404,6 2770,2
Windsor 339,4 1283,5
Woodland Police Dept 299,9 3518,6
Yorba Linda 66,4 1556,2
Yuba County Sheriff Dept 398,6 2043,4
Yuba City Police Dept 395,9 3091,4
Yucaipa 100,7 1770,5
Yucca Valley 354,7 2698,3
BASE DE DATOS N 11
Estado Y X
Alabama 32,2 70,5
Alaska 27 75,9
Arizona 25,5 76,8
Arkansas 29,5 70,2
California 24,2 76,6
Colorado 19,1 81,1
Connecticut 21,4 77,5
Delaware 27,7 75,8
District of Columbia 22,3 78,8
Florida 25,1 74
Georgia 27,8 76,9
Guam 27 73,6
Hawaii 23,1 80,4
Idaho 25,1 78,8
Illinois 26,8 72
Indiana 26,9 72,2
Iowa 26,7 74,9
Kansas 28 74,4
Kentucky 30,2 69,5
Louisiana 28,9 70,1
Maine 25,8 77,1
Maryland 26,6 76
Massachusetts 21,4 77,9
Michigan 29,5 74,8
Minnesota 25,1 81,9
Mississippi 33,3 67,4
Missouri 29 72,4
Montana 24,2 76,8
Nebraska 27,2 75,3
Nevada 25,6 72,4
New Hampshire 24,8 78,5
New Jersey 23,5 73
New Mexico 25,7 76
New York 25,1 73,6
North Carolina 29,5 75,3
North Dakota 27,7 74,4
Ohio 29,2 73,9
Oklahoma 30,9 68,5
Oregon 24,9 80,9
Pennsylvania 28,3 74,2
Rhode Island 22 75,7
South Carolina 30,6 72,8
South Dakota 28,1 73,1
Tennessee 31,2 71
Texas 28,9 71,5
Utah 23,1 80,2
Vermont 23,2 80,5
xviii
Bases de datos
BASE DE DATOS N 11
Virginia 25,7 76,4
Virgin Islands 26,5 66,8
Washington 26 80,6
West Virginia 31,9 68,9
Wisconsin 26 77,9
Wyoming 25,2 75,6
BASE DE DATOS N12
Municipio Y X X
Acacoyagua 0.483 0.41 18
Acala 0.356 9.93 27
Acapetahua 0.672 0.35 21
Altamirano 0.984 40.75 38
Amatn 1.745 14.76 34
Amatenango de la Frontera 0.723 2.91 25
Amatenango del Valle 2.002 53.48 47
Angel Albino Corzo 0.868 2.91 27
Arriaga -0.298 1.22 15
Bejucal de Ocampo 1.279 0.84 19
Bella Vista 0.761 1.11 13
Berriozbal 0.170 3.62 22
Bochil 0.470 42.07 30
El Bosque 1.065 63.79 43
Cacahoatn 0.091 1.8 19
Catazaj 0.494 1.8 20
Cintalapa 0.147 5.23 18
Coapilla 0.912 13.81 24
Comitn de Domnguez -0.422 3.58 18
La Concordia 1.082 5.24 28
Copainal 0.443 9.17 17
Chalchihuitn 2.344 80.89 51
Chamula 1.872 82.74 58
Chanal 1.686 72.81 47
Chapultenango 0.815 66.62 30
Chenalho 1.781 69.35 43
Chiapa de Corzo -0.014 4.38 20
Chiapilla 0.781 4.39 37
Chicoasn 0.054 9.57 18
Chicomuselo 1.042 0.34 25
Chiln 2.143 64.86 46
Escuintla 0.595 0.56 19
Francisco Len 1.589 64.3 36
Frontera Comalapa 0.130 1.72 16
Frontera Hidalgo 0.508 0.26 23
La Grandeza 0.915 1.46 15
Huehuetn 0.577 0.28 21
Huixtn 1.569 76.46 37
Huitiupan 1.653 58.59 38
Huixtla -0.157 0.62 15
La Independencia 0.636 3.77 22
Ixhuatan 0.864 35.34 30
Ixtacomitn 0.630 16.73 20
Ixtapa 0.493 20.36 26
Ixtapangajoya 1.218 11 24
Jiquipilas 0.258 4.42 17
Jitotol 0.946 60.31 35
Juarez 0.273 4.26 19
Larrainzar 1.654 63.04 41
La Libertad 0.489 1.38 16
Mapastepec 0.227 0.51 21
Las Margaritas 1.126 40.38 35
xix
BASE DE DATOS N12
Mazapa de Madero 0.689 3.61 12
Mazatn 0.626 0.44 19
Metapa 0.124 0.42 18
Mitontic 2.039 78.97 62
Motozintla 0.575 2.08 15
Nicolas Ruiz 1.287 0 0
Ocosingo 1.448 49.76 34
Ocotepec 1.609 80.11 49
Ocozocoautla de espinosa 0.419 14.54 21
Ostuacn 1.127 4.81 26
Osumacinta 0.055 8.72 13
Oxchuc 1.779 80.75 31
Palenque 0.597 33.6 24
Pantelh 2.252 68.23 52
Pantepec 1.364 44.35 45
Pichucalco 0.250 1.64 21
Pijijiapan 0.487 1.11 20
El Porvenir 1.176 6.32 15
Villa Comaltitln 0.764 0.73 21
Pueblo Nuevo Solistahuacn 1.176 39.75 42
Rayn 0.714 33.41 34
Reforma -0.780 0.97 12
Las Rosas 1.073 7.01 39
Sabanilla 1.510 63.72 36
Salto de Agua 1.683 69.18 40
San Cristobal de las Casas -0.626 32.02 18
San Fernando 0.279 1.77 23
Siltepec 1.290 0.44 25
Simojovel 1.344 48.61 45
Sital 3.345 44.77 60
Socoltenango 1.011 7.03 32
Solosuchiapa 0.906 13.18 26
Soyal 0.545 26.32 31
Suchiapa -0.018 0.51 24
Suchiate 0.454 0.37 22
Sunuapa 1.046 0.83 26
Tapachula -0.442 1.18 12
Tapalapa 0.739 81.89 23
Tapilula 0.272 10.57 26
Tecpatn 0.807 18.97 22
Tenejapa 1.370 76.12 35
Teopisca 1.096 35.43 41
Tila 1.414 78.27 39
Tonal -0.082 0.59 16
Totolapa 1.241 6.87 44
La Trinitaria 0.497 8.13 21
Tumbal 1.814 74.13 45
Tuxtla Gutirrez -1.263 2.14 8
Tuxtla Chico 0.420 0.22 22
Tuzantn 0.703 0.79 17
Tzimol 0.632 1.12 29
Unin Jurez 0.303 1.68 19
Venustiano Carranza 0.728 17.97 32
Villa Corzo 0.668 4.83 25
Villaflores 0.142 1.46 19
Yajaln 0.914 52.98 35
San Lucas 1.247 10.72 37
Zinacantn 1.797 82.34 54
San Juan Cancuc 1.966 76.42 52
Aldama 2.319 68.45 58
Benemrito de las Amricas 1.120 25.95 27
Maravilla Tenejapa 1.518 33.12 31
Marqus de Comillas 1.602 30.1 30
xx
Bases de datos
BASE DE DATOS N12
Montecristo de Guerrero 1.118 0.71 28
San Andres Duraznal 1.489 66.9 46
Santiago el Pinar 2.209 63.57 68
BASE DE DATOS N13

Ao Y X X
1986 3419 8658 4269,674
1987 3645 8852 4372,610
1988 3911 9144 4569,370
1989 4324 9586 4727,218
1990 4484 10133 4822,836
1991 4841 10664 4918,510
1992 5436 11285 5059,528
1993 5816 12101 5343,141
1994 6148 13019 5465,013
1995 6801 14103 5499,544
1996 7305 15383 5522,817
1997 7845 16778 5625,843
1998 8153 18228 5734,213
1999 8060 19381 5829,013
2000 8493 20256 5845,905
BASE DE DATOS N14
Ao Y X X X X
1960 3294.7 8.8 12.6 74 50.5
1961 3436.8 7 8 106 62.5
1962 3496.1 8.1 19.7 106.6 77.9
1963 4385.1 7.9 16.3 118.8 62.2
1964 4015 7.8 13.2 109.8 110
1965 3537.5 8.4 15.5 97.5 95.2
1966 3407.9 10.6 11.5 96.9 98.5
1967 4056.3 10.8 14.4 117.8 104.7
1968 4183.7 5.5 17.4 142.8 112.6
1969 4786.4 9 20.6 170.9 158.9
1970 5365.2 8.8 19.6 188.4 181.7
1971 5089.3 11.4 26.6 171.2 162.9
1972 5420.5 13.5 34 190.1 192
1973 6060 12.2 46 262 251.8
1974 7144.7 14.8 45.2 277.8 344.5
1975 7474.2 13 47.1 302.5 316
1976 7615.1 11.5 47.2 294.9 337.4
1977 7225 15.8 49.1 323.1 355
1978 7506.1 15.5 53.9 359.5 351.8
1979 7996 17.5 59.5 407.5 351
1980 7941.4 20 67.2 460.6 364.9
BASE DE DATOS N15
Y X
3929214 1790
5308483 1800
7239881 1810
9638453 1820
12860702 1830
17063353 1840
23191876 1850
31443321 1860
38558371 1870
xxi
BASE DE DATOS N15
50189209 1880
62979766 1890
76212168 1900
92228496 1910
106021537 1920
123202624 1930
132164569 1940
151325798 1950
179323175 1960
BASE DE DATOS N16
Y X
29105 1987
36126 1988
43499 1989
49546 1990
60573 1991
79657 1992
79879 1993
73086 1994
69984 1995
61124 1996
49379 1997
43225 1998
41356 1999
39513 2000
BASE DE DATOS N17
Y X
23135 1994
25279 1995
29269 1996
34068 1997
38468 1998
41293 1999
39743 2000
34471 2001
30270 2002
28549 2003
27053 2004
BASE DE DATOS N18
PAS Y X
Afghanistan 151,95 800
Albania 18,62 6000
Algeria 27,73 6900
American Samoa 10,18 8000
Andorra 3,76 42500
Anguilla 3,52 8800
Antigua and Barbuda 16,25 19400
Argentina 11,44 14200
Armenia 20,21 6300
Aruba 13,79 21800
Australia 4,75 38200
Austria 4,42 40400
Azerbaijan 54,6 9500
Bahamas, The 23,17 30700
xxii
Bases de datos
BASE DE DATOS N18
Bahrain 15,25 37400
Bangladesh 59,02 1500
Barbados 12,29 18900
Belarus 6,43 11800
Belgium 4,44 37500
Belize 23,07 8400
Benin 64,64 1500
Bermuda 2,46 69900
Bhutan 49,36 5200
Bolivia 44,66 4500
Bosnia and Herzegovina 9,1 6500
Botswana 12,59 13900
Brazil 22,58 10200
British Virgin Islands 14,65 38500
Brunei 12,27 51300
Bulgaria 17,87 12900
Burkina Faso 84,49 1200
Burma 47,61 1200
Burundi 59,64 300
Cambodia 54,79 2000
Cameroon 63,34 2300
Canada 5,04 39200
Cape Verde 41,35 3800
Cayman Islands 6,94 43800
Central African Republic 80,62 700
Chad 98,69 1600
Chile 7,71 14900
China 20,25 6000
Colombia 18,9 9200
Comoros 66,57 1000
Congo, Democratic Republic of the 81,21 300
Congo, Republic of the 79,78 3900
Cook Islands 16,9 9100
Costa Rica 8,77 11600
Cote d'Ivoire 68,06 1700
Croatia 6,37 18400
Cuba 5,82 9500
Cyprus 6,6 21300
Czech Republic 3,79 25900
Denmark 4,34 37200
Djibouti 97,51 2700
Dominica 13,65 10000
Dominican Republic 25,96 8200
Ecuador 20,9 7500
Egypt 27,26 5800
El Salvador 21,52 6200
Eritrea 43,33 700
Estonia 7,32 21400
Ethiopia 80,8 900
European Union 5,72 33700
Faroe Islands 6,32 31000
Fiji 11,58 3800
Finland 3,47 37000
France 3,33 33300
French Polynesia 7,55 18000
Gabon 51,78 14200
Gambia, The 67,33 1300
Gaza Strip 18,35 2900
Georgia 16,22 4700
Germany 3,99 35500
Ghana 51,09 1500
Gibraltar 4,83 38200
Greece 5,16 32100
xxiii
BASE DE DATOS N18
Greenland 10,72 20000
Grenada 13,23 13200
Guatemala 27,84 5300
Guernsey 4,47 44600
Guinea 65,22 1100
Guinea-Bissau 99,82 600
Guyana 29,65 3900
Haiti 59,69 1300
Honduras 24,03 4400
Hong Kong 2,92 43800
Hungary 7,86 19800
Iceland 3,23 42300
India 30,15 2900
Indonesia 29,97 3900
Iran 35,78 12800
Iraq 43,82 3200
Ireland 5,05 45500
Isle of Man 5,37 35000
Israel 4,22 28600
Italy 5,51 31400
Jamaica 15,22 8600
Japan 2,79 34100
Jersey 4,73 57000
Jordan 14,97 5200
Kazakhstan 25,73 11500
Kenya 54,7 1600
Kiribati 43,48 5300
Korea, North 51,34 1800
Korea, South 4,26 27700
Kuwait 8,96 57500
Kyrgyzstan 31,26 2200
Laos 77,82 2100
Latvia 8,77 17300
Lebanon 21,82 11100
Lesotho 77,4 1600
Liberia 138,24 500
Libya 21,05 14200
Lithuania 6,47 17800
Luxembourg 4,56 81200
Macau 3,22 30000
Macedonia 9,01 9100
Madagascar 54,2 1000
Malawi 89,05 800
Malaysia 15,87 15200
Maldives 29,53 4500
Mali 102,05 1100
Malta 3,75 24600
Marshall Islands 25,45 2500
Mauritania 63,42 2100
Mauritius 12,2 12100
Mayotte 56,29 4900
Mexico 18,42 14300
Micronesia, Federated States of 26,1 2200
Moldova 13,13 2500
Monaco 5 30000
Mongolia 39,88 3200
Montserrat 16,08 3400
Morocco 36,88 4500
Mozambique 105,8 900
Namibia 45,51 6400
Nauru 9,25 5000
Nepal 47,46 1100
Netherlands 4,73 40500
xxiv
Bases de datos
BASE DE DATOS N18
Netherlands Antilles 9,09 16000
New Caledonia 7,05 15000
New Zealand 4,92 27900
Nicaragua 25,02 2900
Niger 116,66 700
Nigeria 94,35 2300
Northern Mariana Islands 6,59 12500
Norway 3,58 59500
Oman 16,88 20200
Pakistan 65,14 2500
Palau 13,14 8100
Panama 12,67 11800
Papua New Guinea 45,23 2300
Paraguay 24,68 4200
Peru 28,62 8500
Philippines 20,56 3300
Poland 6,8 17400
Portugal 4,78 22200
Puerto Rico 8,42 17800
Romania 22,9 12200
Russia 10,56 16100
Rwanda 81,61 900
Saint Helena 17,63 2500
Saint Kitts and Nevis 13,94 19100
Saint Lucia 13,43 11100
Saint Pierre and Miquelon 6,87 7000
Saint Vincent and the Grenadines 15,14 10200
Samoa 24,22 4700
San Marino 5,34 41900
Sao Tome and Principe 37,12 1300
Saudi Arabia 11,57 20500
Senegal 58,94 1600
Serbia 6,75 10800
Seychelles 12,3 21000
Sierra Leone 154,43 900
Singapore 2,31 51600
Slovakia 6,84 22000
Slovenia 4,25 29600
Solomon Islands 19,03 2700
Somalia 109,19 600
South Africa 44,42 10100
Spain 4,21 34600
Sri Lanka 18,57 4400
Sudan 82,43 2200
Suriname 18,81 8900
Swaziland 68,63 4400
Sweden 2,75 38200
Switzerland 4,18 42000
Syria 25,87 4600
Taiwan 5,35 31100
Tajikistan 41,03 1800
Tanzania 69,28 1400
Thailand 17,63 8400
Timor-Leste 40,65 2300
Togo 56,24 900
Tonga 11,58 4600
Trinidad and Tobago 29,93 23600
Tunisia 22,57 7900
Turkey 25,78 11900
Turkmenistan 45,36 6500
Turks and Caicos Islands 13,89 11500
Tuvalu 18,43 1600
Uganda 64,82 1300
xxv
BASE DE DATOS N18
Ukraine 8,98 7400
United Arab Emirates 12,7 44600
United Kingdom 4,85 36700
United States 6,26 47500
Uruguay 11,32 12400
Uzbekistan 23,43 2600
Vanuatu 49,45 4600
Venezuela 21,54 13500
Vietnam 22,88 2800
Virgin Islands 7,56 14500
Wallis and Futuna 5,02 3800
West Bank 15,96 2900
Western Sahara 69,66 2500
Yemen 54,7 2500
Zambia 101,2 1500
Zimbabwe 32,31 200
BASE DE DATOS N19
Condado Y D D
Starr County 98,10 1 0
Maverick County 95,33 1 0
Webb County 94,40 1 0
Brooks County 92,00 1 0
Zavala County 91,39 1 0
Jim Hogg County 90,63 1 0
Hidalgo County 88,42 1 0
Duval County 88,16 1 0
Willacy County 86,11 1 0
Kenedy County 85,99 1 0
Dimmit County 85,31 1 0
Zapata County 84,94 1 0
Presidio County 84,76 1 0
Cameron County 84,47 1 0
El Paso County 78,27 1 0
La Salle County 77,29 1 0
Jim Wells County 75,92 1 0
Val Verde County 75,75 1 0
Hudspeth County 75,45 1 0
Frio County 73,92 1 0
Reeves County 73,59 1 0
Culberson County 72,34 1 0
Uvalde County 66,12 1 0
Kleberg County 65,56 1 0
Pecos County 61,09 1 0
Nueces County 55,71 1 0
Crockett County 55,09 1 0
Bee County 53,95 1 0
Terrell County 51,34 1 0
Kinney County 50,10 1 0
San Patricio County 49,40 1 0
Edwards County 45,61 1 0
Medina County 45,49 1 0
Brewster County 43,72 1 0
Live Oak County 37,95 1 0
Jeff Davis County 35,48 1 0
McMullen County 34,43 1 0
Real County 21,63 1 0
Castro County 51,83 0 1
Parmer County 49,83 0 1
Crosby County 48,84 0 1
Dawson County 48,09 0 1
xxvi
Bases de datos
BASE DE DATOS N19
Hale County 47,99 0 1
Bailey County 47,73 0 1
Floyd County 46,03 0 1
Yoakum County 45,92 0 1
Cochran County 45,04 0 1
Lynn County 44,32 0 1
Terry County 43,99 0 1
Lamb County 43,71 0 1
Martin County 41,49 0 1
Andrews County 40,11 0 1
Howard County 37,56 0 1
Hockley County 37,21 0 1
Garza County 37,15 0 1
Gaines County 35,79 0 1
Swisher County 35,37 0 1
Mitchell County 31,33 0 1
Titus County 28,40 0 1
Nolan County 27,90 0 1
Scurry County 27,82 0 1
Hall County 27,55 0 1
Lubbock County 27,44 0 1
Knox County 25,53 0 1
Dickens County 23,39 0 1
Briscoe County 22,74 0 1
Fisher County 21,71 0 1
Jones County 21,10 0 1
Haskell County 20,61 0 1
Wilbarger County 20,46 0 1
Childress County 20,32 0 1
Cottle County 18,91 0 1
Borden County 18,24 0 1
Taylor County 17,54 0 1
Foard County 16,21 0 1
Hardeman County 15,09 0 1
Camp County 14,45 0 1
Stephens County 14,17 0 1
Angelina County 14,08 0 1
Motley County 13,53 0 1
Cherokee County 13,25 0 1
Wichita County 12,13 0 1
Anderson County 12,00 0 1
Stonewall County 11,99 0 1
Nacogdoches County 11,32 0 1
Rockwall County 11,13 0 1
Smith County 11,10 0 1
Liberty County 10,92 0 1
Eastland County 10,75 0 1
Jefferson County 10,58 0 1
Young County 10,50 0 1
Kent County 10,24 0 1
Collin County 10,22 0 1
Polk County 9,65 0 1
Shelby County 9,48 0 1
Hopkins County 9,26 0 1
Baylor County 9,14 0 1
Gregg County 8,86 0 1
Franklin County 8,78 0 1
Rusk County 8,30 0 1
Shackelford County 8,24 0 1
Hunt County 8,19 0 1
Throckmorton County 7,84 0 1
Houston County 7,59 0 1
Henderson County 6,75 0 1
xxvii
BASE DE DATOS N19
Van Zandt County 6,73 0 1
Callahan County 6,22 0 1
King County 6,18 0 1
Fannin County 5,66 0 1
Harrison County 5,40 0 1
Wood County 5,38 0 1
Red River County 5,11 0 1
Archer County 4,57 0 1
Rains County 4,56 0 1
San Jacinto County 4,49 0 1
Bowie County 4,27 0 1
Trinity County 4,07 0 1
Jasper County 3,96 0 1
Upshur County 3,79 0 1
Newton County 3,71 0 1
Tyler County 3,65 0 1
Lamar County 3,54 0 1
Orange County 3,50 0 1
Morris County 3,46 0 1
Panola County 3,23 0 1
San Augustine County 2,96 0 1
Hardin County 2,45 0 1
Cass County 1,62 0 1
Sabine County 1,60 0 1
Marion County 1,40 0 1
Delta County 0,81 0 1
Atascosa County 58,70 0 0
Deaf Smith County 57,71 0 0
Bexar County 54,35 0 0
Sutton County 51,73 0 0
Reagan County 49,67 0 0
Karnes County 47,71 0 0
Moore County 47,39 0 0
Refugio County 44,69 0 0
Crane County 44,09 0 0
Winkler County 44,03 0 0
Schleicher County 43,61 0 0
Upton County 42,45 0 0
Ward County 42,41 0 0
Ector County 42,39 0 0
Concho County 41,65 0 0
Calhoun County 40,71 0 0
Caldwell County 40,60 0 0
Gonzales County 39,88 0 0
Victoria County 39,22 0 0
Wilson County 36,48 0 0
Goliad County 35,13 0 0
Guadalupe County 33,16 0 0
Harris County 32,95 0 0
Menard County 32,63 0 0
Hansford County 31,83 0 0
Ochiltree County 31,69 0 0
Matagorda County 31,30 0 0
Sterling County 31,30 0 0
Wharton County 31,23 0 0
Tom Green County 30,65 0 0
Dallas County 29,89 0 0
Glasscock County 29,87 0 0
Hays County 29,45 0 0
Runnels County 29,40 0 0
Midland County 28,93 0 0
Dallam County 28,48 0 0
Travis County 28,21 0 0
xxviii
Bases de datos
BASE DE DATOS N19
Potter County 28,18 0 0
Sherman County 27,97 0 0
DeWitt County 27,31 0 0
McCulloch County 26,63 0 0
Jackson County 25,07 0 0
Irion County 24,68 0 0
Bastrop County 23,99 0 0
Brazoria County 22,76 0 0
Comal County 22,60 0 0
San Saba County 21,66 0 0
Mason County 21,21 0 0
Fort Bend County 21,10 0 0
Comanche County 21,06 0 0
Kimble County 20,97 0 0
Collingsworth County 20,59 0 0
Aransas County 20,42 0 0
Colorado County 19,76 0 0
Tarrant County 19,73 0 0
Waller County 19,43 0 0
Lipscomb County 19,20 0 0
Kerr County 19,16 0 0
Milam County 18,98 0 0
Lee County 18,27 0 0
Ellis County 18,24 0 0
Galveston County 18,05 0 0
McLennan County 17,93 0 0
Loving County 17,91 0 0
Brazos County 17,86 0 0
Kendall County 17,73 0 0
Williamson County 17,21 0 0
Coke County 16,95 0 0
Bell County 16,68 0 0
Grimes County 16,25 0 0
Austin County 16,06 0 0
Gillespie County 15,99 0 0
Navarro County 15,89 0 0
Falls County 15,87 0 0
Madison County 15,80 0 0
Blanco County 15,29 0 0
Brown County 15,22 0 0
Hemphill County 15,10 0 0
Lampasas County 15,05 0 0
Erath County 14,98 0 0
Burnet County 14,76 0 0
Burleson County 14,64 0 0
Robertson County 14,56 0 0
Hutchinson County 14,47 0 0
Walker County 14,02 0 0
Hartley County 13,78 0 0
Somervell County 13,56 0 0
Bandera County 13,45 0 0
Hill County 13,44 0 0
Coleman County 13,43 0 0
Palo Pinto County 13,22 0 0
Gray County 12,98 0 0
Limestone County 12,98 0 0
Oldham County 12,81 0 0
Fayette County 12,65 0 0
Montgomery County 12,62 0 0
Coryell County 12,53 0 0
Mills County 12,48 0 0
Wheeler County 12,40 0 0
Bosque County 12,33 0 0
xxix
BASE DE DATOS N19
Denton County 12,09 0 0
Johnson County 12,01 0 0
Lavaca County 11,41 0 0
Kaufman County 11,12 0 0
Chambers County 10,89 0 0
Wise County 10,76 0 0
Randall County 10,28 0 0
Cooke County 9,82 0 0
Washington County 8,97 0 0
Freestone County 8,43 0 0
Jack County 7,92 0 0
Leon County 7,86 0 0
Hamilton County 7,50 0 0
Hood County 6,99 0 0
Parker County 6,96 0 0
Carson County 6,81 0 0
Grayson County 6,39 0 0
Donley County 5,80 0 0
Montague County 5,49 0 0
Llano County 5,14 0 0
Armstrong County 3,91 0 0
Clay County 3,07 0 0
Roberts County 1,35 0 0
BASE DE DATOS N20
Condado Y D D D
Anderson County 14,32 0 1 0
Andrews County 15,29 0 1 1
Angelina County 19,34 0 1 0
Aransas County 19,63 0 0 0
Archer County 8,21 0 1 0
Armstrong County 8,8 0 0 0
Atascosa County 20,13 0 0 1
Austin County 12,15 0 0 0
Bailey County 18,84 0 1 1
Bandera County 15,18 0 0 0
Bastrop County 15,27 0 0 0
Baylor County 16,74 0 1 0
Bee County 16,97 1 0 1
Bell County 15,2 0 0 0
Bexar County 18,3 0 0 1
Blanco County 11,11 0 0 0
Borden County 6,45 0 1 0
Bosque County 19,89 0 0 0
Bowie County 16,97 0 1 0
Brazoria County 11,42 0 0 0
Brazos County 27,1 0 0 0
Brewster County 16,95 1 0 1
Briscoe County 12,79 0 1 0
Brooks County 28,51 1 0 1
Brown County 18,13 0 0 0
Burleson County 15,62 0 0 0
Burnet County 12,5 0 0 0
Caldwell County 18,14 0 0 1
Calhoun County 15,28 0 0 1
Callahan County 13,79 0 1 0
Cameron County 39,11 1 0 1
Camp County 18,7 0 1 0
Carson County 8,18 0 0 0
Cass County 18,23 0 1 0
Castro County 17,31 0 1 1
xxx
Bases de datos
BASE DE DATOS N20
Chambers County 9,4 0 0 0
Cherokee County 18,12 0 1 0
Childress County 17,51 0 1 0
Clay County 11,98 0 0 0
Cochran County 19,54 0 1 1
Coke County 11,65 0 0 0
Coleman County 19,87 0 0 0
Collin County 9,13 0 1 0
Collingsworth County 17,75 0 0 0
Colorado County 14,43 0 0 0
Comal County 13,04 0 0 0
Comanche County 16,5 0 0 0
Concho County 13,46 0 0 1
Cooke County 14,26 0 0 0
Coryell County 11,23 0 0 0
Cottle County 17,38 0 1 0
Crane County 9,91 0 0 1
Crockett County 13,61 1 0 1
Crosby County 21,05 0 1 1
Culberson County 20,2 1 0 1
Dallam County 12,89 0 0 0
Dallas County 17,75 0 0 0
Dawson County 19,69 0 1 1
Deaf Smith County 20,31 0 0 1
Delta County 17,44 0 1 0
Denton County 9,87 0 0 0
DeWitt County 17,39 0 0 0
Dickens County 17,13 0 1 0
Dimmit County 31,08 1 0 1
Donley County 15,57 0 0 0
Duval County 23,52 1 0 1
Eastland County 17,72 0 1 0
Ector County 16,26 0 0 1
Edwards County 21,88 1 0 1
El Paso County 30,15 1 0 1
Ellis County 13,6 0 0 0
Erath County 16,02 0 0 0
Falls County 22,57 0 0 0
Fannin County 15,53 0 1 0
Fayette County 12,47 0 0 0
Fisher County 14,41 0 1 0
Floyd County 18,39 0 1 1
Foard County 15,47 0 1 0
Fort Bend County 11,91 0 0 0
Franklin County 16,55 0 1 0
Freestone County 13,12 0 0 0
Frio County 24,91 1 0 1
Gaines County 18,77 0 1 1
Galveston County 13,83 0 0 0
Garza County 18,04 0 1 1
Gillespie County 10,91 0 0 0
Glasscock County 8,61 0 0 0
Goliad County 16,05 0 0 1
Gonzales County 18,8 0 0 1
Gray County 13,51 0 0 0
Grayson County 13,12 0 0 0
Gregg County 16,48 0 1 0
Grimes County 16,4 0 0 0
Guadalupe County 11,95 0 0 1
Hale County 16,36 0 1 1
Hall County 23,8 0 1 0
Hamilton County 13,95 0 0 0
Hansford County 12,91 0 0 1
xxxi
BASE DE DATOS N20
Hardeman County 14,48 0 1 0
Hardin County 11,84 0 1 0
Harris County 18,62 0 0 1
Harrison County 16,35 0 1 0
Hartley County 7,28 0 0 0
Haskell County 17,66 0 1 0
Hays County 18,7 0 0 0
Hemphill County 8,71 0 0 0
Henderson County 16,41 0 1 0
Hidalgo County 41,91 1 0 1
Hill County 17,99 0 0 0
Hockley County 16,21 0 1 1
Hood County 12,57 0 0 0
Hopkins County 15,12 0 1 0
Houston County 20,39 0 1 0
Howard County 21,2 0 1 1
Hudspeth County 31,55 1 0 1
Hunt County 17,16 0 1 0
Hutchinson County 12,22 0 0 0
Irion County 7,96 0 0 0
Jack County 11,46 0 0 0
Jackson County 13,96 0 0 0
Jasper County 19,57 0 1 0
Jeff Davis County 13 1 0 1
Jefferson County 15,33 0 1 0
Jim Hogg County 21,23 1 0 1
Jim Wells County 22,76 1 0 1
Johnson County 13,04 0 0 0
Jones County 14,02 0 1 0
Karnes County 19,59 0 0 1
Kaufman County 14,58 0 0 0
Kendall County 11,11 0 0 0
Kenedy County 14,98 1 0 1
Kent County 7,33 0 1 0
Kerr County 17,19 0 0 0
Kimble County 17,57 0 0 0
King County 11,52 0 1 0
Kinney County 20,72 1 0 1
Kleberg County 22,46 1 0 1
Knox County 16,34 0 1 0
La Salle County 26,41 1 0 1
Lamar County 16,05 0 1 0
Lamb County 17,91 0 1 1
Lampasas County 15,69 0 0 0
Lavaca County 12,62 0 0 0
Lee County 12,31 0 0 0
Leon County 16,42 0 0 0
Liberty County 14,31 0 1 0
Limestone County 19,84 0 0 0
Lipscomb County 13,9 0 0 0
Live Oak County 14,24 1 0 1
Llano County 13,22 0 0 0
Loving County 16,42 0 0 0
Lubbock County 17,98 0 1 0
Lynn County 17,88 0 1 1
Madison County 17,28 0 0 0
Marion County 24,21 0 1 0
Martin County 15,63 0 1 1
Mason County 14,98 0 0 0
Matagorda County 21,57 0 0 1
Maverick County 32,49 1 0 1
McCulloch County 21,39 0 0 0
McLennan County 19,57 0 0 0
xxxii
Bases de datos
BASE DE DATOS N20
McMullen County 14,22 1 0 1
Medina County 15,81 1 0 1
Menard County 19,03 0 0 1
Midland County 15,42 0 0 0
Milam County 17,38 0 0 0
Mills County 15,98 0 0 0
Mitchell County 16,53 0 1 1
Montague County 15,02 0 0 0
Montgomery County 13,69 0 0 0
Moore County 12,38 0 0 1
Morris County 17,28 0 1 0
Motley County 14,45 0 1 0
Nacogdoches County 20,65 0 1 0
Navarro County 19,55 0 0 0
Newton County 17,87 0 1 0
Nolan County 19,47 0 1 0
Nueces County 19,24 1 0 1
Ochiltree County 13,35 0 0 1
Oldham County 19,91 0 0 0
Orange County 12,91 0 1 0
Palo Pinto County 15,77 0 0 0
Panola County 13,59 0 1 0
Parker County 10,17 0 0 0
Parmer County 14,15 0 1 1
Pecos County 17,94 1 0 1
Polk County 18,2 0 1 0
Potter County 25,15 0 0 0
Presidio County 24,92 1 0 1
Rains County 18,95 0 1 0
Randall County 9,62 0 0 0
Reagan County 8,66 0 0 1
Real County 19,3 1 0 0
Red River County 16,92 0 1 0
Reeves County 27,85 1 0 1
Refugio County 14,72 0 0 1
Roberts County 5,75 0 0 0
Robertson County 19,14 0 0 0
Rockwall County 8,45 0 1 0
Runnels County 16,89 0 0 0
Rusk County 12,62 0 1 0
Sabine County 15,39 0 1 0
San Augustine County 20,22 0 1 0
San Jacinto County 19,03 0 1 0
San Patricio County 17,55 1 0 1
San Saba County 17,36 0 0 0
Schleicher County 13,8 0 0 1
Scurry County 14,86 0 1 0
Shackelford County 11,63 0 1 0
Shelby County 19,47 0 1 0
Sherman County 12,62 0 0 0
Smith County 15,87 0 1 0
Somervell County 10,25 0 0 0
Starr County 36,81 1 0 1
Stephens County 16,74 0 1 0
Sterling County 11,2 0 0 1
Stonewall County 14,06 0 1 0
Sutton County 14,72 0 0 1
Swisher County 15,6 0 1 1
Tarrant County 14,21 0 0 0
Taylor County 15,47 0 1 0
Terrell County 17,3 1 0 1
Terry County 20,23 0 1 1
Throckmorton County 12,76 0 1 0
xxxiii
BASE DE DATOS N20
Titus County 14,93 0 1 0
Tom Green County 15,56 0 0 1
Travis County 17,1 0 0 0
Trinity County 18,19 0 1 0
Tyler County 16,89 0 1 0
Upshur County 16,62 0 1 0
Upton County 13,48 0 0 1
Uvalde County 23,94 1 0 1
Val Verde County 26,37 1 0 1
Van Zandt County 15,15 0 1 0
Victoria County 16,27 0 0 1
Walker County 17,99 0 0 0
Waller County 20,02 0 0 0
Ward County 14,11 0 0 1
Washington County 14,21 0 0 0
Webb County 36,08 1 0 1
Wharton County 15,28 0 0 1
Wheeler County 10,9 0 0 0
Wichita County 13,83 0 1 0
Wilbarger County 13,82 0 1 0
Willacy County 38,51 1 0 1
Williamson County 8,77 0 0 0
Wilson County 13,05 0 0 1
Winkler County 14,04 0 0 1
Wise County 11,2 0 0 0
Wood County 12,99 0 1 0
Yoakum County 17,17 0 1 1
Young County 16,29 0 1 0
Zapata County 37,19 1 0 1
Zavala County 39,71 1 0 1
BASE DE DATOS N21
DISTRITO Y X
Antrim 0 34,382
Ards 1 12,191
Armagh 0 47,297
Ballymena 1 19,081
Ballymoney 0 31,405
Banbridge 0 29,552
Belfast 1 41,977
Carrickfergus 0 7,645
Castlereagh 0 10,197
Coleraine 1 23,810
Cookstown 1 55,305
Craigavon 0 43,333
Derry 1 72,642
Down 1 60,345
Dungannon 1 57,930
Fermanagh 1 56,667
Larne 1 23,810
Limavady 1 55,068
Lisburn 0 28,643
Magherafelt 1 61,433
Moyle 1 54,730
Newry & Mourne 1 76,988
Newtownabbey 0 14,054
North Down 0 9,736
Omagh 1 66,812
Strabane 1 63,712
xxxiv
Bases de datos
BASE DE DATOS N22
PAS Y X X
Australia 243,33 1 39300
Austria 260,00 1 39600
Bahrain 240,00 1 37200
Belarus 133,33 0 12000
Belgium 243,33 1 38300
Canada 253,33 1 40200
Czech Republic 213,33 0 26800
Estonia 170,00 0 21900
Finland 256,67 1 38400
France 220,00 0 32700
Germany 240,00 1 34800
Greece 210,00 0 32800
Hungary 190,00 0 20500
Iceland 260,00 1 42600
Ireland 253,33 1 47800
Israel 223,33 1 28900
Italy 230,00 1 31000
Japan 206,67 0 35300
Latvia 156,67 0 18500
Lithuania 156,67 0 18400
Malta 250,00 1 24200
New Zealand 246,67 1 28500
Portugal 203,33 0 22000
Russia 143,33 0 15800
Slovenia 220,00 0 30800
Spain 233,33 1 34100
Sweden 256,67 1 39600
Switzerland 273,33 1 40900
United Kingdom 236,67 1 37400
United States 246,67 1 48000
xxxv