Listado 04 Solucion

UNIVERSIDAD DE CONCEPCION
FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS

DEPARTAMENTO DE ESTADISTICA
Profesor: Patricio Salas Fernandez

Regresion Lineal Multiple: Listado 4.
Fecha: 9 de abril de 2014
Ejercicio 1:
Una automotora muy prestigiosa del pas necesita realizar un informe de los modelos de automoviles que posee en
stock, sin embargo el principal motivo por el cual se desea realizar el estudio radica en la necesidad de encontrar
relaciones entre variables que representan caractersticas de los automoviles. De esta manera se podra ofrecer a
cada cliente el modelo que mas le acomode. Las variables que se deciden analizar son:
VOL: Volumen de la cabina.
HP: Caballos de fuerza del motor.
WT: Peso del vehculo.

MPG: Millas por galon.
SP: Velocidad maxima.
Los datos se encuentran en la plataforma INFODA, especficamente en el archivo millaje.
a) Hallar la variable que tiene mayor correlacion con la variable respuesta.

b) Hacer un plot matricial para ver si no hay outliers y determinar si el coeficiente de correlacion es confiable.
c) Hallar el modelo de regresion multiple considerando todas las variables predictoras e interpretar los coefi-
cientes de regresion en funcion del problema.
d) Interprete los coeficientes del modelo en funcion de problema.
e) Ajuste modelos que incorporen una a una las covariables y obtenga los respectivos coeficientes de deter-
minacion y genere un comentario respecto a la comparacion de dichos coeficientes.
f) Probar que todos los coeficientes del modelo de regresion son ceros. Comentar el resultado.
g) Probar que cada uno de los coeficientes del modelo de regresion es cero. Comentar el resultado.
h) Hallar las dos variables que estan menos correlacionadas con la variable de respuesta y probar la hipotesis
de que ambas variables deben ser excluidas simultaneamente del modelo.
i) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del 95 % para Y, escogiendo
valores adecuados de las variables predictoras. Comentar sus resultados.
j Realice un analisis de los residuos del modelo. Comentar resultados.
1
1. Anexo
###########################################
# Solucion listado 4 #
###########################################
install.packages("xtable",dependencies=TRUE)
install.packages("nortest",dependencies=TRUE)
install.packages("lmtest",dependencies=TRUE)
install.packages("fBasics",dependencies=TRUE)
install.packages("car",dependencies=TRUE)
library(xtable)
library(nortest)
library(lmtest)
library(fBasics)
library(car)
ruta<-file.choose()
datos<-read.table(ruta,header=TRUE)
attach(datos)
plot(datos,main="Matriz de Dispersion") # matriz de dispersion
cor(datos) # matriz de correlaciones

xtable(cor(datos))
mpg sp wt vol hp
mpg 1.00 -0.69 -0.91 -0.37 -0.79
sp -0.69 1.00 0.68 -0.04 0.97
wt -0.91 0.68 1.00 0.38 0.83
vol -0.37 -0.04 0.38 1.00 0.08
hp -0.79 0.97 0.83 0.08 1.00
# La variable que tiene la mayor correlacion con la variable MPG es WT,

#la que corresponde al peso del vehculo. Mientras que la variable menos
#correlacionada es el volumen de la cabina (VOL).
boxplot(datos,main="Diagramas de Cajas",col=2:5)
# diagrama de caja que nos permite darnos cuenta de la simetra de cada una de las
# variables y la presencia de observaciones que escapan del gran grueso de observaciones
# por variable.
model1<-lm(mpg~sp+wt+vol+hp,data=datos)
summary(model1)
xtable(summary(model1))
# A partir de esta tabla podemos ver que a excepcion de la variable

# VOl, todas ayudan a explicar el rendimiento en millas por galon de los
# automoviles, esto principalmente a que las hipotesis individuales resultaron
# ser rechazadas al nivel del 5%.
2
Estimate Std. Error t value Pr(>|t|)
(Intercept) 192.4378 23.5316 8.18 0.0000
sp -1.2948 0.2448 -5.29 0.0000
wt -1.8598 0.2134 -8.72 0.0000
vol -0.0156 0.0228 -0.69 0.4951
hp 0.3922 0.0814 4.82 0.0000
#El rendimiento en millas por galon de los automoviles disminuye en 1.29 millas
#al aumentar la velocidad maxima en una milla y las demas caractersticas se mantengan constantes.
#
#El rendimiento en millas por galon de los automoviles disminuye en 1.85 millas
#al aumentar el peso del automovil en una libra adicional y las demas caractersticas
#se mantengan constante.
#
#El rendimiento en millas por galon de los automoviles aumenta en 0.39 millas
#al aumentar la potencia del motor en un hp y las demas caractersticas se mantengan
#constantes.
model2<-lm(mpg~vol,data=datos)
summary(model2)$r.squared
model3<-lm(mpg~vol+sp,data=datos)
model4<-lm(mpg~vol+sp+wt,data=datos)
model5<-lm(mpg~vol+sp+wt+hp,data=datos)
r.squared<-data.frame(Modelo=c("vol","vol+sp","col+sp+wt","vol+sp+wt+hp"),
R.Cuadrado=c(summary(model2)$r.squared,summary(model3)$r.squared,
summary(model4)$r.squared,summary(model5)$r.squared
))
xtable(r.squared)
Modelo R.Cuadrado
1 vol 0.14
2 vol+sp 0.63
3 col+sp+wt 0.63
4 vol+sp+wt+hp 0.84
anova(model1)
xtable(anova(model1))
# Construir la tabla anova en funcion de la suma de cuadrados residual,

# del modelo y totales.
#Desde el resumen del model1 podemos ver que los valores asociados a la prueba
3
Df Sum Sq Mean Sq F value Pr(>F)
sp 1 3842.60 3842.60 287.99 0.0000
wt 1 2881.84 2881.84 215.99 0.0000
vol 1 45.97 45.97 3.45 0.0673
hp 1 309.67 309.67 23.21 0.0000
Residuals 77 1027.38 13.34
# de hipotesis de que todos los coeficientes del modelo son cero son:
#F-statistic: 132.7 on 4 and 77 DF, p-value: < 2.2e-16. Por lo tanto se rechaza
# la hipotesis nula al nivel del 5%.
Las variables menos correlacionadas son sp y vol,luego para verificar si estas

debiesen ser removidas de manera simultanea del modelo debemos procedecer
de la siguiente manera.
n<-dim(datos)[1] # cantidad de datos

k<-2 # numero de coeficientes iguales a cero bajo h0
p<-4 # cantidad de variables en el modelo completo
model_reducido<-lm(mpg~hp+wt,data=datos)
scr_completo<-sum(anova(model1)$Sum[1:4]) # suma de cuadrados de la regresion

# modelo completo
scr_reducido<-sum(anova(model_reducido)$Sum[1:2]) # suma de cuadrados de la regresion
# modelo reducido
cme_completo<-anova(model1)$Mean[5] # cuadrado medio del modelo completo
#Calculo del F parcial

fp<-((scr_completo-scr_reducido)/2)/cme_completo
fp
qf(0.95,k,n-p-1)
## Intervalo de confianza para el valor medio y de prediccion ##
sp<-100
wt<-20
vol<-90
hp<-50
nuevo<-as.data.frame(cbind(sp,wt,vol,hp))
#Usando el conjunto de datos millaje, hallar un intervalo de confianza del 95% para
#el millaje promedio por galon de todos los vehculos con capacidad interior de 90
#pies cubicos, un HP de 50 una velocidad maxima de 100 millas y un peso
#de 20 libras. Hallar un intervalo de prediccion para el millaje de un carro
#con las mismas caractersticas anteriores.
predict.lm(model1,nuevo,se.fit=T,interval=c("confidence"),level=.95)
predict.lm(model1,nuevo,se.fit=T,interval=c("prediction"),level=.99)
#Hay un 95% de confianza de que el millaje promedio de todos los carros

#con las caractersticas dadas caiga entre 42.41 y 45.50 millas por galon.
4
#Hay un 99% de confianza de que el rendimiento
#de millas por galon de un carro con las caractersticas
#mencionadas caiga entre 34.09 y 53.82
residuos<-model1$residuals
par(mfrow=c(1,2))
#########################
# Normalidad #
#########################
hist(residuos,col=rainbow(20),main="Histograma")
qqnorm(residuos,main="QQ~Norm")
qqline(residuos,col="red")
lillie.test(residuos) # no se rechaza la normalidad
#########################
# Homocedasticidad #
#########################
ajustados<-model1$fitted
plot(ajustados,residuos)
abline(0,0,col="blue")
ncvTest(model1) # se rechaza h0, varianza constante
#########################
# Independencia #
#########################
acf(residuos)
dwtest(model1) # se rechaza h0, por lo tanto hay dependencia
#en los residuos del modelo

Listado 04 Solucion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Listado 04 Solucion

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD DE CONCEPCION

FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS

Profesor: Patricio Salas Fernandez

WT: Peso del vehculo.

a) Hallar la variable que tiene mayor correlacion con la variable respuesta.

plot(datos,main="Matriz de Dispersion") # matriz de dispersion

cor(datos) # matriz de correlaciones

# La variable que tiene la mayor correlacion con la variable MPG es WT,

# A partir de esta tabla podemos ver que a excepcion de la variable

# Construir la tabla anova en funcion de la suma de cuadrados residual,

Las variables menos correlacionadas son sp y vol,luego para verificar si estas

n<-dim(datos)[1] # cantidad de datos

scr_completo<-sum(anova(model1)$Sum[1:4]) # suma de cuadrados de la regresion

#Calculo del F parcial

## Intervalo de confianza para el valor medio y de prediccion ##

#Hay un 95% de confianza de que el millaje promedio de todos los carros

lillie.test(residuos) # no se rechaza la normalidad

ncvTest(model1) # se rechaza h0, varianza constante

Vous aimerez peut-être aussi