Vous êtes sur la page 1sur 25

11630930

1











6















11630930


2


1)
a) Los niveles de escolaridad se pueden medir de distintas maneras, por eso en este caso se
propone un modelo de regresin, en el cul se incluyen las siguientes variables: Presupuesto per
cpita, de la cual se espera que a mayor presupuesto per cpita aumentaran los aos de escolaridad,
luego se tiene poblacin rural, de la cual se espera que a mayor porcentaje de esta variable, hayan
menos aos de escolaridad, despus est la variable pobreza de la cual se puede deducir que a mayor
pobreza, habrn menos aos de escolaridad, la siguiente variable considerada es ndice de
delincuencia, donde se cree que a mayor delincuencia menos aos de escolaridad, finalmente se
considera la variable alcalde coalicin, la cual indica si el alcalde de la comuna es de la coalicin por
el cambio o no, de lo que se espera una relacin positiva, dado que los alcaldes sean del partido que
sean debiesen promover una buena educacin.
Escolridad = 0 + 1 * alcalde coalicin + 2 * ndice de delincuencia + 3 * poblacin rural + 4
* pobreza + 5 * presupuesto per cpita +

Script en R:
modelo.eleccion<-
lm(escolaridad~1+presupuesto.per.capita+poblacion.rural+pobreza+indice.delincuencia+alcalde.c
oalicion,data=eleccion).
b) Ahora, una vez realizado el modelo de regresin lineal los resultados obtenidos,
presentados en la tabla 1, fueron los siguientes:
El intercepto obtenido (Aos de escolaridad) es de 10.75 aos aproximadamente, lo que significa
que cuando todas las dems variables son 0 la variable escolaridad toma este valor, lo que incluye
que el alcalde no sea de la colacin por el cambio. La variable presupuesto per cpita, resulta ser
estadsticamente significativa y tiene un impacto promedio ceteris paribus de 0.006 aos de
escolaridad (Por aumento de una unidad), lo que es un impacto positivo, como el que se pens que
tena en la etapa previa. Luego, se obtiene el impacto promedio en condiciones ceteris paribus de la
variable poblacin rural la que al aumentar en 1% es de -0.050 sobre la escolaridad, siendo esta
estadsticamente significativa, lo que se condice con lo esperado. La siguiente variable a considerar
es pobreza, la cual en condiciones ceteris paribus tiene un impacto promedio negativo sobre la
variable escolaridad de -0.048 (Por el aumento de 1% de pobreza), es impacto es nuevamente
negativo, como se haba esperado. Finalmente, las variables ndice de delincuencia y alcalde
coalicin, no sern interpretadas dado que no son estadsticamente significativas.
Por otra parte, el valor de R cuadrado del modelo o la cantidad de varianza que explica este modelo
es de 0.745 o ~75%, lo que es bastante alto, ahora si se considera el R cuadrado ajustado, que
castiga por la cantidad de variables, este es de ~73%, el cual no vara demasiado en relacin al
primero y continua explicando un alto porcentaje de la varianza del modelo.
En primer lugar, a nivel terico los resultados en su mayora son factibles, pero es necesario hacer
algunas precisiones. Respecto a la escolaridad, que en condiciones ceteris paribus, entrega un
coeficiente de 10.75 aos, es necesario ajustarla a un valor de aos de educacin real, por lo que
para efectos prcticos debera considerar como 11 aos.

11630930


3
















Respeto a las variables independientes, los efectos son similares a los esperados y se condicen con
lo terico, dado que por ejemplo, con la variable presupuesto per cpita es esperable que con un
mayor ingreso en las familias, estas puedan optar a mayor cantidad de aos de educacin para sus
hijos. Respecto a las dems variables, estas tienen impactos negativos en los aos de escolaridad y
nuevamente, esto es esperable, dado que se asocian a condiciones que van en detrimento de la
educacin, por ejemplo mayor poblacin rural, se asocia con zonas donde la educacin no tiene una
gran cobertura o son zonas de menos ingresos, tambin pobreza, al ser mayor se espera una menor
cantidad de aos de escolaridad, ya que tiene una direccionalidad opuesta a presupuesto per cpita y
por ltimo ndice de delincuencia, tambin es lgico que tenga un impacto promedio negativo en
los aos de escolaridad, ya que se asocia tambin a factores socioeconmicos precarios.
tabla1<-mtable("modelo.eleccion"=modelo.eleccion,summary.stats=c("R-squared","adj. R-
squared",
"F","p","N"))
(tabla1 <- relabel(tabla1,
"(Intercept)" = "Intercepto",
presupuesto.per.capita = "Presupuesto per capita",
poblacion.rural = "Poblacin rural",
pobreza = "Pobreza",
indice.delincuencia = "ndice de delincuencia",
alcalde.coalicion = "Alcalde coalicin"))

Intercepto ***10.725
-0.383
Presupuesto per capita ***0.006
-0.001
Poblacin rural ***-0.050
-0.006
Pobreza ** -0.048
-0.014
ndice de delincuencia -0.008
-0.01
Alcalde coalicin 0.119
-0.151
R-Cuadrado 0.745
R-Cuadrado ajustado 0.729
F 47.829
p 0
N 88
Tabla 1.1: Modelo regresin
lineal sobre la variable
"Escolaridad".
Fuente: eleccin.Tarea6.2014.txt

11630930


4



11630930


5


c) Los aos de escolaridad promedio de la comuna de Concn, la cual se encuentra dentro de
la muestra y posee las siguiente caractersticas: ndice de delincuencia del 31.8%, un alcalde que no
pertenece a la coalicin, un presupuesto per cpita de 104.77, un ndice de pobreza de 12.6% y una
poblacin rural de 2.33%, se encuentra en el intervalo [10.188,10.609] el cual tiene un 95% de
confianza.
Lm(colgpa~1+I(sat-1170)
modelo.eleccion2<-lm(escolaridad~1+I(presupuesto.per.capita-104.77)+I(poblacion.rural-
2.33)+I(pobreza-12.6)+I(indice.delincuencia-31.8)+I(alcalde.coalicion-0),data=eleccion)
summary(modelo.eleccion2)
Coef+-Error estandar*1,96
((10.398701)+1.96*(0.107436))
((10.398701)-1.96*(0.107436))

d) Ahora, si la comuna de comuna de Concn no perteneciera a la muestra y poseyera la
siguientes caractersticas: un ndice de 31%, un presupuesto de 102 mil, un ndice de pobreza de
12.6% y una poblacin rural de 2.33%, la estimacin promedio de los aos de escolaridad con un
intervalo de confianza del 95% sera entre [9.099,11.676].
En este caso, en comparacin con el de dentro de la muestra, el intervalo es mucho ms amplio,
dado que al encontrarse fuera de la muestra, se agrega error que castiga el intervalo reconociendo el
hecho de que es ms impreciso, dado que no se cuenta con los datos reales.

modelo.eleccion3<-lm(escolaridad~1+I(presupuesto.per.capita-102)+I(poblacion.rural-
2.33)+I(pobreza-12.6)+I(indice.delincuencia-31)+I(alcalde.coalicion-0),data=eleccion)
summary(modelo.eleccion3)
(10.387967)+(1.96*(sqrt((0.104985)^2+(0.6491)^2)))
(10.387967)-(1.96*(sqrt((0.104985)^2+(0.6491)^2)))

e) El nuevo modelo propuesto por el investigador, el cual considera la variable
log(escolaridad) y log(presupuesto), se justifica tericamente dado que estas variable tienden a ser de
carcter no lineal y no pueden tomar valores negativos. Escolaridad se considera como no lineal, ya
que depende de un parmetro de carcter econmico y la distribucin de aos de escolaridad en la
poblacin tiende a no ser uniforme. Por otro lado, el presupuesto al ser una variable de carcter
monetario, se modela con log.
Como es posible observar en la tabla 1.2, las variables que eran estadsticamente significativas en el
modelo anterior, lo continan siendo en este, lo que cambia es el impacto promedio, que por
ejemplo en presupuesto per cpita, aumenta (En direccin positiva) y en las variables pobreza e
ndice de delincuencia, disminuyen pero continan teniendo un impacto negativo. Respecto al
intercepto, que seran los aos de educacin si todas las dems variables son cero, que queda en un
2.017% en este caso es ms lgico, dado que si variables tales como presupuesto estn en 0, es
comprensible que los aos de educacin se vean reducidos drsticamente.
En relacin a los valores de R cuadrado y R cuadrado ajustado, los aumentos a mi parecer no son
substanciales respecto a cuanto de la varianza del modelo se explica.

11630930


6


















Intercepto **2.017
-0.095
Log(Presupuesto per capita ) *** 0.092
-0.018
Poblacin rural ***-0.006
-0.001
Pobreza ** -0.005
0.001
ndice de delincuencia -0.001
-0.001
Alcalde coalicin 0.013
-0.015
R-Cuadrado 0.748
R-Cuadrado ajustado 0.732
F 48.626
p 0.000
N 88
Tabla 1.2: Modelo regresin lineal sobre
la variable "Log(Escolaridad)".
Fuente: eleccin.Tarea6.2014.txt
f) Los aos de escolaridad promedio de una comuna con las siguientes caractersticas: ndice
de delincuencia del 15%, con un alcalde que pertenece a la coalicin, un presupuesto de $120.000,
un ndice de pobreza de 15,5% y una poblacin rural de 1.5% es de un intercepto de 2.377, que
corresponde a un aumento de 2.377% de aos (Considerando que sera log-log)
modelo.eleccionlog2<-lm(log(escolaridad)~1+log(presupuesto.per.capita-120)+I(poblacion.rural-
1.5)+I(pobreza-15.5)+I(indice.delincuencia-15)+I(alcalde.coalicion-1),data=eleccion)
summary(modelo.eleccionlog2)
(2.0167962+(0.0918112*log(120))+(-0.0055118*1.5)+(-0.0046650*15.5)+(-
0.0007671*15)+(0.0127745*1))

11630930


7








2)
a) La tabla 2, replica los resultados obtenidos por Stoll(2011), en su estudio sobre la
dimensionalidad y el nmero de partido en elecciones legislativas.
Comandos:
modelo1 <- lm(enepg ~ rawdim,data=stoll2011)
summary(modelo1)
modelo2 <- lm(enepg ~ eni,data=stoll2011)
summary(modelo2)
modelo3 <- lm(enepg ~ rawdim + majoritariang + (rawdim*majoritariang) ,data=stoll2011)
summary(modelo3)
modelo4 <- lm(enepg ~ eni + majoritariang + (eni*majoritariang) ,data=stoll2011)
summary(modelo4)
modelo5 <- lm(rawdim ~ newparties + majoritariang + newparties*majoritariang ,data=stoll2011)
summary(modelo5)
modelo6 <- lm(eni ~ newparties + majoritariang + newparties*majoritariang ,data=stoll2011)
summary(modelo6)

tabla2<-
mtable("1"=modelo1,"2"=modelo2,"3"=modelo3,"4"=modelo4,"5"=modelo5,"6"=modelo6,sum
mary.stats=c("R-squared","adj. R-squared",
"F","p","N"))
tabla2
(tabla2 <- relabel(tabla2,
"(Intercept)" = "Intercepto",
rawdim = "Raw ideology",
eni = "Raw issue",
majoritariang = "Sistema mayoritario",
"rawdim x majoritariang" = "Ray ideology x Sistema mayoritario",
"eni x majoritariang" = "Raw issue x Sistema mayoriyario",
newparties = "Nuevos partidos",
"newparties x majoritariang" = "Nuevos partidos x Sistema mayoritario"))

11630930


8




1 2 3 4 5 6
Raw Ideol. Raw Issue Raw Ideology Raw Issue Raw Ideol Raw Issue
Intercepto ***2.927 ***3.246 ***2.572 *** 2.861 *** 1.468 ***17.131
[0.281] [0.337] [0.299] [0.373] [0.039] [0.426]
Puramente ideolgico ***0.651 ***1.153
-0.18 -0.193
Puramente temtico **0.049 ***0.076
[0.018] [0.021]
Sistema mayoritario 0.815 -2.257 0.021 ***7.358
[0.524] [1.749] [0.071] [1.230]
Raw ideology x Sistema mayoritario *** -1.402
[0.334]
Raw issue x Sistema mayoritario 0.050
[0.072]
Nuevos partidos 0.007 *0.403
[0.018] [0.191]
Nuevos partidos x Sistema mayoritario 0.036 -0.076
[0.027] [0.351]
R^cuadrado 0.037 0.030 0.267 0.077 0.03 0.282
R^cuadrado ajustado 0.034 0.026 0.261 0.065 0.017 0.269
F 13.087 7.245 41.702 6.449 2.272 21.827
p 0.000 0.008 0.000 0.000 0.081 0.000
N 347 237 347 237 227 171
Tabla 2: Regresiones lineales sobre la variable Nmero efectivo de partidos elec. (1-4) y dimensionalidad (5-6).
Nmero efectivo de partidos electorales Dimensionalidad Pura
Fuente: Dimensionality and the number of parties in legislative elections, Stoll, 2011.
b) La diferencia estimada del nmero efectivo de partidos electorales entre un pas con un
sistema electoral mayoritario y con un valor de rawdim= 1.207 y un pas con otro sistema electoral,
pero con el mismo valor de rawdim, se encuentra en el intervalo [6.245, 7.854] partidos, con un
95% de confianza.
Por otro lado, la diferencia estimada del nmero efectivo de partidos electorales entre un pas con
un sistema mayoritario y un valor de eni=6.0 y un pas con otro sistema, pero con el mismo valor
de eni, se encuentra en el intervalo que entre [-0.9855907, 10.33159] partidos, con un 95% de
confianza, este intervalo adems de ser muy amplio, incluye el cero, lo que hace que sea imposible
distinguir si el nmero de partidos en este caso es distinto de cero.
A mi parecer el primero modelo presentando que considera lo puramente ideolgico, explica mejor
el nmero de partidos, considerando el sistema mayoritario o no, que el segundo modelo, ya que en
el primero es un intervalo ms pequeo que no incluye al cero.

11630930


9


c) De acuerdo a lo que propone la autora, no se puede entender la influencia de la dimensin
de la competencia poltica sin tomar en cuenta el sistema electoral del pas, por una parte, dado que
tericamente es importa si este es abierto o no para el surgimiento de nuevos partidos (Mayoritario
o no), por el otro lado tampoco se puede dejar de lado la influencia en el modelo del nmero de
nuevos partidos. En los 4 modelos que consideran las interacciones con estas variables, se hace
Posible observar que la influencia de lo puramente ideolgico, en sistemas permisivos tiene un
impacto positivo y que en sistemas restrictivos, tiene un impacto negativo. En cambio lo
puramente programtico, en ambos sistemas electorales tiene un impacto positivo.
d) Los residuos del modelo que contempla la interaccin de las variables
rawdim*majoritariang, son de carcter heterocedstico, para comprobar esta situacin se realiz un
Non constant variance test o ncvTest(), en el cual tiene como H0=Existe homocedasticidad,
hiptesis que fue rechazada, dado que el valor P fue menor a 0,05. Para reafirmar esta idea, se
presenta el grfico 1, donde se contrastan los residuos del modelo con los valores ajustados, para as
ver la distribucin de los residuos. Nuevamente en este grfico, se hace patente que no existe
homocedasticidad dado que la distribucin de los residuos es muy irregular y existe un sector del
grfico con una anomala evidente entre los valores 3.0 y 4.0 del eje X.
Comandos:
modelo3 <- lm(enepg ~ rawdim + majoritariang + (rawdim*majoritariang) ,data=stoll2011)
summary(modelo3)
ncvTest(modelo3)
#H0=Homocedasticidad. En este caso, se rechaza H0.
plot(modelo3$fit,modelo3$res,main="Grfico 1: Supuesto de heterocedasticidad \nModelo
Rawdim*Majoritariang",xlab="Valores ajustados",ylab="Residuos del modelo")

2.5 3.0 3.5 4.0 4.5 5.0 5.5 6.0
-
2
0
2
4
Grfico 1: Supuesto de heterocedasticidad
Modelo Rawdim*Majoritariang
Fuente: Stoll(2011)
Valores ajustados
R
e
s
i
d
u
o
s

d
e
l

m
o
d
e
l
o

11630930


10














11630930


11


=
0
+
1
+
2
+
3
+
4

2
+
3

105.500 +107.2 ()
3) El modelo con el que se trabajar es:
Prce = 0 + 1 * sqrft + 2 * bdrms + 3 *lotsize +
a) La diferencia estimada del precio de una vivienda dentro de la muestra, en condiciones
ceteris paribus si esta tuviera una habitacin ms estara en el intervalo [85411.2, 170788.8] con un
95%.
Comandos:
modelo.house1<-lm(price~1+sqrft+bdrms+lotsize, data=house)
summary(modelo.house1)
(128100)+1.96*(21780)
(128100)-1.96*(21780)
b) El resultado de la comparacin entre los modelos Prce = 0 + 1 * sqrft + 2 * bdrms
+3 *lotsize + y el modelo Prce = 0 + 1 * sqrft + 2 * bdrms + 3 sqrft*bdrms+ 4 *lotsize
+ , realizada a travs del comando anova().
De acuerdo al test de anova, si hay una diferencia estadstica significativa respecto a cuanta ms
varianza explica el modelo con la interaccin, respecto al primer modelo, dado que el segundo
tericamente, tiene ms sentido, dado que explicar la cantidad de piezas interactuando con la
variable de pies cuadrados es lo ms lgico, puesto que no se puede explicar la cantidad de piezas, si
por ejemplo no existiera un espacio fsico (pies cuadrados), donde estas se encontraran o al revs,
no valdra mucho la pena hablar del precio de una casa con pies cuadrados, pero ninguna pieza.
Comandos:
modelo.house1<-lm(price~1+sqrft+bdrms+lotsize, data=house)
summary(modelo.house1)
modelo.house2<-lm(price~1+sqrft+bdrms+(sqrft*bdrms)+lotsize, data=house)
summary(modelo.house2)
anova(modelo.house1,modelo.house2)


c) Tomando el segundo modelo, el cual explica ms dado que considera la interaccin, se
puede calcular el impacto promedio marginal de un dormitorio ms, con la siguiente formula:
Se debe derivar la variable bdrms:
Al reemplazar en la frmula con los valores obtenidos en los coeficientes, nos quedara que el
impacto promedio marginal de un dormitorio estara dada por la ecuacin:
Dado que no se conoce el valor de sqrft en particular, la influencia promedio marginal va a
depender de los valores que tome sqrft para cada caso. Nuevamente esta patente la idea de lo ilgico
que resulta calcular el impacto promedio de una sola variable, tal como lo es habitaciones, sin tomar
en consideracin los pies cuadrados del inmueble, dado que en la realidad no se pueden interpretar
de forma independiente.


11630930


12











Modelo 1 Modelo 2
Intercepto ***-335620.640 ** 583564.382
[71238.552] [190566.913]
Pies cuadrados ***198.400 ** -238.542
[31.994] [90.063]
Habitaciones ***128113.669 * -105456.894
[1776.719] [49575.797]
Tamao predio 1.728 1.360
[1.552] [1.364]
Pies^2*Habitaciones ***107.175
[20.99]
R cuadrado 0.661 0.742
R cuadrado ajustado 0.649 0.73
F 54.665 59.753
P 0.000 0.000
N 88 88
Tabla 3: Comparacin modelos precios de casas.
Fuente: HousePricesTarea6.2014.Rdata
d) Sin lugar a dudas, el segundo modelo explica mejor la influencia de las variable pies
cuadrados y cantidad de piezas (Ver tabla 3), dado que si bien los impactos promedios de ambos
son negativos, lo que importa interpretar es la interaccin de ambas variables, dado que es ilgico
considerar hablar del impacto promedio slo del terreno, si esta no est considerando la cantidad de
piezas (Dado que es el precio de venta de una casa) y an ms ilgico, hablar del impacto promedio
de la cantidad de piezas, si no se est considerando el tamao de la casa, ya que no se puede hablar
de dormitorios si no hay un espacio fsico donde estas se encuentren. Estadsticamente esto se
respalda por el hecho de que la interaccin de ambas variables, tiene significancia estadstica menor
a 0.05 y se respalda tambin por la aclaracin terica realizada anteriormente.
Comandos:tabla.house<-mtable("1"=modelo.house1,"2"=modelo.house2,summary.stats=c("R-
squared","adj. R-squared",
"F","p","N"))


11630930


13


e) El precio estimado para una casa con 3 dormitorios, una superficie de 2067 pies cuadrados
y un terreno de 9000 pies cuadrados, con un intervalo de confianza del 95% est entre [414798.8,
487201.2] dlares.
Respecto a si sera un buen negocio comprar una casa de estas caractersticas por $326.300, s es un
buen negocio, dado que el intervalo de confianza del 95% entrega valores mucho mayores a este,
por lo que el comprador estara bajo el margen de los precios esperados para una casa de ese tipo.
Ahora si la casa tuviera las mismas caractersticas, pero estuviera fuera de la muestra,
tendra un intervalo de precios igual a [$199655.3, $702344.7] , por lo que se hace difcil saber si es
un buen negocio comprar una casa por $326300, dado que es posible conseguir un precio menor a
este por la casa.
modelo.house5<-lm(price~1+I(sqrft-2067)+I(bdrms-3)+I(lotsize-9000)+I(sqrft-2067)*I(bdrms-3),
data=house)
summary(modelo.house5)
#Dentro de la muestra
(451000)+1.96*(18470)
(451000)-1.96*(18470)
#Fuera de la muestra
(4.510e+05+(1.96*sqrt((1.847e+04)^2+(126900)^2)))
(4.510e+05-(1.96*sqrt((1.847e+04)^2+(126900)^2)))

f) El precio estimado para una casa con 4 dormitorios, una superficie en pies cuadrados de
2100 y un terreno de 10000 pies cuadrados, dado un intervalo de confianza del 95% de confianza
se encuentra en el rango [541556.4, 607843.6] dlares.
Ahora, si un comprador ofreciera la suma de $510000, este estara haciendo un buen negocio, dado
que este precio es inferior al del intervalo estimado de precios que puede tomar esta propiedad.
Si esta propiedad tuviera las mismas caractersticas, pero estuviera fuera de la muestra, el
invertalo de su precio estara entre [$323777.4, $825622.6], por lo que pagar un precio de $510000,
ms que un buen negocio, sera un negocio justo dado que se encuentra casi en la mitad del
intervalo.
modelo.house6<-lm(price~1+I(sqrft-2100)+I(bdrms-4)+I(lotsize-10000)+I(sqrft-2100)*I(bdrms-
4), data=house)
summary(modelo.house6)
#Dentro de la muestra
(574700)+1.96*(16910)
(574700)-1.96*(16910)
#fuera de la muestra.
(5.747e+05+(1.96*sqrt((1.691e+04)^2+(126900)^2)))
(5.747e+05-(1.96*sqrt((1.691e+04)^2+(126900)^2)))

11630930


14






g) Se estima el siguiente modelo:
Prce = 0 + 1 * sqrft + 2 * bdrms +
Donde el precio estimado de una casa de 4 dormitorios y 2500 pies cuadrados, la cual est fuera de
la muestra, se encuentra entre los valores [404631.6, 977782.2 dlares, con un 95% de confianza.
Si un comprador, tuviera la oportunidad de comprar esta propiedad por $540000, estara haciendo
un buen negocio, dado que el precio que ofrece se encuentra dentro del intervalo y ms cerca del
lmite inferior, que del superior.
modelo.house7<-lm(price~1+I(sqrft-2500)+I(bdrms-4),data=house)
summary(modelo.house7)
#Fuera de la muestra
(691206.90+(1.96*sqrt((20269.95)^2+(144800)^2)))
(691206.90-(1.96*sqrt((20269.95)^2+(144800)^2)))
h) Al comparar los 2 modelos con el comando anova, es posible decir que el que considera la
variable dicotmica colonial (Si la casa es o no colonial), explica ms de la varianza del modelo, por
lo que sera conveniente utilizar este en vez del modelo ms simple, adems de estadsticamente la
diferencia es significativa, a favor del modelo 2 que considera colonial. (Ver tabla 3.1).
Comandos:
modelo.house8<-lm(price~1+sqrft+bdrms+sqrft*bdrms+colonial,data=house)
summary(modelo.house8)
modelo.house9<-lm(price~1+sqrft+bdrms+sqrft*bdrms,data=house)
summary(modelo.house9)
anova(modelo.house8,modelo.house9)

i) Al comparar ambos modelos propuestos en esta seccin, donde el primero consta con
mltiples interacciones y el segundo slo cuenta con la interaccin entre sqrft*bdrms (Y las dems
variables independientes presentadas en el resto de los modelos), es posible a travs de los
resultados obtenidos en el test de anova, decir que el primero es mejor dado que, como es posible
ver en la tabla 3.2, este explica una mayor cantidad de varianza y la diferencia entre ambos modelos,
es estadsticamente significativa a favor del primer modelo. Adems del respaldo terico, es
importante considerar que las interacciones, en este modelo le dan sentido a las variables que por s
solas no logran sostenerse como elementos que realmente expliquen el precio de una casa.
modelo.house10<-lm(price~1+sqrft+bdrms+sqrft*bdrms+lotsize+colonial+colonial*sqrft+
colonial*bdrms,data=house)
summary(modelo.house10)
modelo.house11<-lm(price~1+sqrft+bdrms+sqrft*bdrms+lotsize+I(colonial),data=house)
summary(modelo.house11)
anova(modelo.house10,modelo.house11)
RSS GL F P
Modelo 1 1,235,100,000,000.00
Modelo2 1,352,800,000,000.00 -1 7.909 0.006
Tabla 3.1: Test anova modelos de house price.
Fuente: HousePricesTarea6.2014.Rdata

11630930


15





j) A mi parecer, el mejor modelo es el siguiente:
modelo.house10<-lm(price~1+sqrft+bdrms+sqrft*bdrms+lotsize+colonial+colonial*sqrft+
colonial*bdrms,data=house)
Dado que en comparacin con los dems, es el que explica la mayor cantidad de varianza, adems
de que al considerar una gran cantidad de interaccin, le da validez en lo prctico a los resultados
obtenidos en la regresin. Puesto que, por ejemplo si la casa es de estilo colonial, esto va a tener
impacto en los distintos aspectos de la propiedad, tanto como en las habitaciones como el tamao
de la casa.
Como es posible observar en la tabla 3.3, en este caso el valor del inmueble, siendo todas las dems
variables 0, sera de $76122.448. Para no volver a explicar las variables independientes, nos
centraremos en las interacciones.
En este caso, hay 2 interacciones estadsticamente significativas, en primer lugar est la de
habitaciones y pies cuadrado, explicada en modelos anteriores, donde no tiene sentido hablar del
impacto promedio de las habitaciones si no se consideran los pies cuadrados y a la inversa.
La otra situacin interesante, es el efecto promedio estadsticamente significativo que tiene la
interaccin de la cantidad de habitaciones con colonial, la cual a mi parecer se puede explicar por un
fenmenos arquitectnico, donde las casas de estilo colonial tienden a destinar una mayor parte de
sus superficies a espacios personales, tales como las habitaciones o baos, adems de que existe una
tendencia a que sean casas con una gran cantidad de este tipo de habitaciones.
tabla.housecol<-mtable("Modelo colonial"=modelo.house10,summary.stats=c("R-squared","adj. R-squared",
"F","p","N"))
k) El precio estimado para una casa colonial con 4 habitaciones, una superficie de 2100 pies
cuadrados y un terreno de 10000 metros cuadrados, con un intervalo de confianza del 95% flucta
entre los [550812.4, 629454.8] dlares, por lo que si una persona pretende comprar el inmueble por
$674000, estara haciendo un mal negocio, dado que este valor se escapa del intervalo de precios
estimados.
modelo.house12<-lm(price~1+I(sqrft-2100)+I(bdrms-4)+I(sqrft-2100)*I(bdrms-4)+I(lotsize-
1000)+I(colonial-1)+I(colonial-1)*I(sqrft-2100)+
I(colonial-1)*I(bdrms-4),data=house)
summary(modelo.house12)
#Intervalo
(590133.598)+1.96*(20061.817)
(590133.598)-1.96*(20061.817)
Intercepto ***76122.448
[184647.019]
Pies^2 *-186.871
[91-927]
Habitaciones **-195451.104
[59293.949]
Tamaa predio 1.285
[1.269]
Colonial *277081.296
[136053.316]
Pies^2*Habitaciones ***100.653
[21.185]
Pies^2*Colonial -1.516
[57.283]
Habitaciones*Colonial *109160.341
-46782.692
R cuadrado 0.786
R cuadrado ajustado 0.767
F 41.965
P 0.000
N 88
Tabla 3.3: Modelo Colonial
Fuente: HousePricesTarea6.2014.Rdata
RSS GL F P
Modelo 1 1,110,100,000,000.00
Modelo2 1,218,700,000,000.00 -4 3.9148 0.02388
Tabla 3.2: Test anova modelos de house price.
Fuente: HousePricesTarea6.2014.Rdata

11630930


16



















4)
b) Los resultados obtenidos en la tabla 4, son de un test de anova entre 2 modelos que
intentan explicar la variable dependiente del impacto de inversin en I&D en el crecimiento de una
empresa, la diferencia entre ambos modelos es que el primero considera la variable sales y el
segundo, agrega la variable (sales^2).
Los resultados obtenidos en el test de anlisis de varianza, no son concluyentes respecto si un
modelo explica ms varianza que el otro, por lo que si slo dependiera de este test la decisin de
incluir la variable cuadrtica, no sera conveniente, ya que se debera optar por el modelo ms
parsimonioso.
Comandos:
modelo.ryd1<-lm(rdintens~1+sales,data=ryd)
summary(modelo.ryd1)
modelo.ryd2<-lm(rdintens~1+sales+I(sales^2),data=ryd)
summary(modelo.ryd2)

anova(modelo.ryd1,modelo.ryd2)
RSS GL F P
Modelo 1 103.80
Modelo2 92.71 1 3.472 0.072
Tabla 4: Test anova modelos de impacto inversin
en IyD en el crecimiento de una empresa.
Fuente: RyDChem.Tarea6

11630930


17






c) Para comprobar si era necesario mantener el modelo que considera (sales^2), se intent de
comprobar 4 supuestos del MCO, en trminos generales es posible observar, si se mira desde el
grfico 2 hasta el grfico 2.8, que no hubieron cambios sustantivos a la hora de considerar el
modelo simple o el modelo cuadrtico, por lo que realmente, desde una ptica de los supuestos, no
habra justificacin como para modificar el modelo original y utilizar el de carcter cuadrtico,
adems de que el problema de este modelo, es que la cantidad de observaciones con las que se
trabaja, es demasiado baja como para que se pueda hacer un anlisis correcto de los datos.
Si se compara el grfico 2 con el 2.2, es posible observar que en el segundo se desconcentran un
poco los datos y que se distribuyen mejor en el plano cartesiano. Respecto a la normalidad de los
residuos, que se observa en la comparacin de los grficos 2.3 y 2.4, si bien en ambos casos no se
tiene una distribucin normal perfecta, se mantienen en su mayora dentro del intervalo de
confianza, sin embargo el segundo grfico muestra los datos ms desconcertados y soluciona el
problema de una observacin que se haba escapado en la cola superior.
Respecto a los grficos de homocedasticidad 2.5 y 2.6, en el segundo se logra percibir una reduccin
en la dispersin de los datos, dado que en el primero es posible observar datos que superan al 6 del
eje Y, y en el segundo apenas superan al 4.
Finalmente en los grfico de linealidad de los parmetros, 2.7 y 2.8, es posible decir que en ninguno
de los dos casos se cumple en totalidad este supuesto, ya que los datos estn altamente
concentrados contra el eje y, por lo que para este supuesto el modelo cuadrtico no es la solucin
#media condicionada en cero#
plot(modelo.ryd1$fit,modelo.ryd1$residuals,main="Grfico 2: Media condicionada en 0 \nredintens",ylim=c(-
10,10),cex.main=0.80,sub="Fuente: RyDChem.Tarea6",cex.sub=0.80)
abline(h=0,col="red")
plot(modelo.ryd2$fit,modelo.ryd1$residuals,main="Grfico 2.2:Media condicionada en 0 \nRedintens con
(sales^2)",ylim=c(-10,10),cex.main=0.80)
abline(h=0,col="red")
#Normal
qqPlot(modelo.ryd1$residuals,main="Grfico 2.3: Normalidad de \nlos residuos",xlab="Cuantiles
normales",ylab="Residuales")
qqPlot(modelo.ryd2$residuals,main="Grfico 2.4: Normalidad de \nlos residuos.(Sales^2)",xlab="Cuantiles
normales",ylab="Residuales")
#Homocedasticidad
par(mfrow=c(1,2))
plot(modelo.ryd1$fit,modelo.ryd1$res, main="Grfico 2.5: Homocedasticidad",
ylab="Residuos del Modelo", xlab="Valores ajustados del Modelo",
sub="Fuente:RyDChem")
abline(h=0,col="red")
plot(modelo.ryd2$fit,modelo.ryd2$res, main="Grfico 2.6: Homocedasticidad",
ylab="Residuos del Modelo", xlab="Valores ajustados del Modelo")
abline(h=0,col="red")
#linealidad#
crPlots(modelo.ryd1,main="Grfico 2.7: lienalidad de los parmetros" )
crPlots(modelo.ryd2,main="Grfico 2.8: linealidad de los parmetros",sub="Fuente: RyDchem")

3.0 4.0 5.0
-
1
0
-
5
0
5
1
0
Grfico 2: Media condicionada en 0
redintens
Fuente: RyDChem.Tarea6
modelo.ryd1$fit
m
o
d
e
l
o
.
r
y
d
1
$
r
e
s
i
d
u
a
l
s
2.5 3.5 4.5 5.5
-
1
0
-
5
0
5
1
0
Grfico 2.2:Media condicionada en 0
Redintens con (sales^2)
modelo.ryd2$fit
m
o
d
e
l
o
.
r
y
d
1
$
r
e
s
i
d
u
a
l
s
-2 -1 0 1 2
-
2
0
2
4
6
Grfico 2.3: Normalidad de
los residuos
Cuantiles normales
R
e
s
i
d
u
a
l
e
s
-2 -1 0 1 2
-
2
0
2
4
Grfico 2.4: Normalidad de
los residuos.(Sales^2)
Cuantiles normales
R
e
s
i
d
u
a
l
e
s

11630930


18






























3.0 4.0 5.0
-
2
0
2
4
6
Grfico 2.5: Homocedasticidad
Fuente:RyDChem
Valores ajustados del Modelo
R
e
s
i
d
u
o
s

d
e
l

M
o
d
e
l
o
2.5 3.5 4.5 5.5
-
2
0
2
4
Grfico 2.6: Homocedasticidad
Valores ajustados del Modelo
R
e
s
i
d
u
o
s

d
e
l

M
o
d
e
l
o

11630930


19





























0 20000 40000
-
2
0
2
4
6
8
1
0
Fuente: RyDchem
sales
C
o
m
p
o
n
e
n
t
+
R
e
s
i
d
u
a
l
(
r
d
i
n
t
e
n
s
)
0.0e+00 1.0e+09
-
1
0
-
5
0
5
Fuente: RyDchem
I(sales^2)
C
o
m
p
o
n
e
n
t
+
R
e
s
i
d
u
a
l
(
r
d
i
n
t
e
n
s
)
Grfico 2.8: linealidad de los parmetros

11630930


20







d) En base al RESET test presentado en la tabla 4.2, el cual tiene como H0= Que el modelo
est bien especificado, de acuerdo a los resultados obtenidos en ambos test de ambos modelos, no
hay evidencia suficiente como para decir que alguno de los modelos no est bien especificado, por
lo que a travs de este test, no se puede decir que valga la pena utilizar el cuadrtico de la variable
sales.
Modelo.ryd1 Modelo.ryd2
RESET 1.677 0.045
df1 2.000 4.000
df2 28.000 25.000
Valor P 0.205 0.996
Fuente: RyDChem.Tarea6
Tabla 4.2: Test RESET
e) De acuerdo al modelo que considera ambas variables (Sales y sales^2), el punto de inflexin
de la ecuacin o donde el efecto marginal de sales comienza a ser negativo sobre rdintens, es en los
$23000.65
Ecuacin:
-(2.830e-04)/(2*-6.152e-09)

11630930


21


5)
a) colGPA = 0 + 1 * alcohol + 2 * skipped+ 3 * job19 + 4 * job20 + 5 * fathcoll +
6 *mothcoll+

b) El error residual estndar de este modelo es la desviacin estndar de los residuos (errores)
y mide el grado de varianza de estos. Es decir, mide la distancia entre las variables observadas y sus
estimaciones. El tamao de la desviacin estndar de los residuos es una manera de medir la
confianza que tenemos en el modelo, dado que mide el grado de coherencia entre las observaciones
y los valores estimados. En este caso, el error residual estndar es de 0.481 o un 48%
aproximadamente, a mi parecer es bastante alto, dado que es un alto porcentaje de incertidumbre
respecto a la estimacin.


11630930


22


c) El valor del R cuadrado de este modelo, significa que explica un 14% aproximadamente del
total de la varianza que existe en este. A mi parecer, para la cantidad de variables presentes, el
modelo explica muy poca varianza.
d) El valor del R cuadrado ajustado, cumple el mismo rol que el R cuadrado, slo que este
castiga por la cantidad de variables en el modelo, dado que hay bastantes variables, este castiga al
modelo con un 4% menos de explicacin de la varianza, o sea explica aproximadamente un 10% de
esta, lo que es an ms bajo.
e) El estadstico F, es una prueba de que las relaciones presentadas en el modelo no son
ficticias. El valor-p es la probabilidad de que no existe una relacin sistemtica entre las variables
dependientes y las variables independientes. En este caso, el valor-p es de 0.002, por lo que la
probabilidad de que las relaciones del modelo sean falsas es muy baja, por lo que sea puede decir
que las relaciones del modelo son vlidas.

f) Al realizar el modelo de regresin lineal presentado en la tabla 5, se intenta explicar en qu
proporcin, una serie de factores influyen en el promedio de notas de 141 estudiantes de la
universidad de Michigan. Los factores que fueron considerados en este modelo son: la cantidad de
consumo de alcohol promedio por semana, lo que se espera tenga un impacto negativo sobre las
notas. La segunda variable considerada es el promedio de clases a las cuales un alumno falta en la
semana, es de esperarse que esta variable efecto de forma negativa el GPA del alumno. Las 2
variables siguientes son sobre la cantidad de tiempo que le dedica el estudiante al trabajo fuera de la
universidad, las que son categricas y se espera que si el alumno trabaja menos de 19 horas, tenga
un impacto promedio negativo, pero menor al que tendra la variable trabajar ms de 20 horas, dado
que le puede dedicar ms tiempo al estudio. Las ltima 2 variables son sobre si el padre tiene un
ttulo universitario y si la madre tiene un ttulo universitario, son categricas y se espera que estas
variables tengan un impacto positivo en el promedio del estudiante, dado que educacin
universitaria de los padres se asocia a un mejor nivel econmico y social, lo que le permite al
estudiante tener acceso a mejor educacin en teora-.

Una vez realizado el modelo de la tabla 5, es posible percatarse de que el intercepto, o lo que se
refiere al promedio del estudiante cuando todas las dems variables tienen un valor 0, tiene un valor
de 3.251 el cual es bastante bueno y lgico, ya que al existir varias variables categricas con impacto
negativo y la variable faltar a clases est en 0, se obtiene un buen valor de gpa.
De todas las variables consideradas, la nica que tiene un impacto significativo a nivel estadstico-,
es el promedio de faltar a clases, lo que significa que al faltar a clases un da ms tiene un impacto de
-0.138 en el promedio de notas del estudiante de la universidad de Michigan.

11630930


23































Intercepto ***3.251
-0.115
Consumo de alcohol -0.046
-0.034
Faltar a clases ***-0.138
-0.039
Trabajar menos de 19 hrs. -0.034
-0.095
Trabajar 20 horas o ms -0.008
-0.121
Padre con ttulo universitario 0.056
-0.090
Madre con ttulo universitario 0.009
-0.088
R-cuadrado 0.140
R-cuadrado ajustado 0.101
Error estndar residual 0.481
F 3.622
p 0.002
N 141
Tabla 5: Regresin lineal sobre la
variable promedio de notas (ColGPA).
Fuente: GPA1.Tarea6.02014

11630930


24

Tarea 6
Nicols Palacios.
Profesor Anthony Pezzola.
Cursos anlisis de datos polticos.



























11630930


25

Vous aimerez peut-être aussi