Vous êtes sur la page 1sur 5

UNIVERSIDAD DE CONCEPCION

FACULTAD DE CIENCIAS FISICAS Y MATEMATICAS


DEPARTAMENTO DE ESTADISTICA

Profesor: Patricio Salas Fernandez


Regresion Lineal Multiple: Listado 4.
Fecha: 9 de abril de 2014

Ejercicio 1:
Una automotora muy prestigiosa del pas necesita realizar un informe de los modelos de automoviles que posee en
stock, sin embargo el principal motivo por el cual se desea realizar el estudio radica en la necesidad de encontrar
relaciones entre variables que representan caractersticas de los automoviles. De esta manera se podra ofrecer a
cada cliente el modelo que mas le acomode. Las variables que se deciden analizar son:
VOL: Volumen de la cabina.
HP: Caballos de fuerza del motor.

WT: Peso del vehculo.


MPG: Millas por galon.
SP: Velocidad maxima.
Los datos se encuentran en la plataforma INFODA, especficamente en el archivo millaje.

a) Hallar la variable que tiene mayor correlacion con la variable respuesta.


b) Hacer un plot matricial para ver si no hay outliers y determinar si el coeficiente de correlacion es confiable.

c) Hallar el modelo de regresion multiple considerando todas las variables predictoras e interpretar los coefi-
cientes de regresion en funcion del problema.
d) Interprete los coeficientes del modelo en funcion de problema.

e) Ajuste modelos que incorporen una a una las covariables y obtenga los respectivos coeficientes de deter-
minacion y genere un comentario respecto a la comparacion de dichos coeficientes.
f) Probar que todos los coeficientes del modelo de regresion son ceros. Comentar el resultado.
g) Probar que cada uno de los coeficientes del modelo de regresion es cero. Comentar el resultado.

h) Hallar las dos variables que estan menos correlacionadas con la variable de respuesta y probar la hipotesis
de que ambas variables deben ser excluidas simultaneamente del modelo.
i) Hallar un Intervalo de Confianza para el valor medio de Y y el valor Predicho del 95 % para Y, escogiendo
valores adecuados de las variables predictoras. Comentar sus resultados.
j Realice un analisis de los residuos del modelo. Comentar resultados.

1
1. Anexo
###########################################
# Solucion listado 4 #
###########################################
install.packages("xtable",dependencies=TRUE)
install.packages("nortest",dependencies=TRUE)
install.packages("lmtest",dependencies=TRUE)
install.packages("fBasics",dependencies=TRUE)
install.packages("car",dependencies=TRUE)

library(xtable)
library(nortest)
library(lmtest)
library(fBasics)
library(car)

ruta<-file.choose()
datos<-read.table(ruta,header=TRUE)

attach(datos)

plot(datos,main="Matriz de Dispersion") # matriz de dispersion

cor(datos) # matriz de correlaciones


xtable(cor(datos))

mpg sp wt vol hp
mpg 1.00 -0.69 -0.91 -0.37 -0.79
sp -0.69 1.00 0.68 -0.04 0.97
wt -0.91 0.68 1.00 0.38 0.83
vol -0.37 -0.04 0.38 1.00 0.08
hp -0.79 0.97 0.83 0.08 1.00

# La variable que tiene la mayor correlacion con la variable MPG es WT,


#la que corresponde al peso del vehculo. Mientras que la variable menos
#correlacionada es el volumen de la cabina (VOL).

boxplot(datos,main="Diagramas de Cajas",col=2:5)
# diagrama de caja que nos permite darnos cuenta de la simetra de cada una de las
# variables y la presencia de observaciones que escapan del gran grueso de observaciones
# por variable.

model1<-lm(mpg~sp+wt+vol+hp,data=datos)
summary(model1)

xtable(summary(model1))

# A partir de esta tabla podemos ver que a excepcion de la variable


# VOl, todas ayudan a explicar el rendimiento en millas por galon de los
# automoviles, esto principalmente a que las hipotesis individuales resultaron
# ser rechazadas al nivel del 5%.

2
Estimate Std. Error t value Pr(>|t|)
(Intercept) 192.4378 23.5316 8.18 0.0000
sp -1.2948 0.2448 -5.29 0.0000
wt -1.8598 0.2134 -8.72 0.0000
vol -0.0156 0.0228 -0.69 0.4951
hp 0.3922 0.0814 4.82 0.0000

#El rendimiento en millas por galon de los automoviles disminuye en 1.29 millas
#al aumentar la velocidad maxima en una milla y las demas caractersticas se mantengan constantes.
#
#El rendimiento en millas por galon de los automoviles disminuye en 1.85 millas
#al aumentar el peso del automovil en una libra adicional y las demas caractersticas
#se mantengan constante.
#
#El rendimiento en millas por galon de los automoviles aumenta en 0.39 millas
#al aumentar la potencia del motor en un hp y las demas caractersticas se mantengan
#constantes.

model2<-lm(mpg~vol,data=datos)
summary(model2)$r.squared

model3<-lm(mpg~vol+sp,data=datos)
summary(model3)$r.squared

model4<-lm(mpg~vol+sp+wt,data=datos)
summary(model4)$r.squared

model5<-lm(mpg~vol+sp+wt+hp,data=datos)
summary(model5)$r.squared

r.squared<-data.frame(Modelo=c("vol","vol+sp","col+sp+wt","vol+sp+wt+hp"),
R.Cuadrado=c(summary(model2)$r.squared,summary(model3)$r.squared,
summary(model4)$r.squared,summary(model5)$r.squared
))

xtable(r.squared)

Modelo R.Cuadrado
1 vol 0.14
2 vol+sp 0.63
3 col+sp+wt 0.63
4 vol+sp+wt+hp 0.84

anova(model1)
xtable(anova(model1))

# Construir la tabla anova en funcion de la suma de cuadrados residual,


# del modelo y totales.

#Desde el resumen del model1 podemos ver que los valores asociados a la prueba

3
Df Sum Sq Mean Sq F value Pr(>F)
sp 1 3842.60 3842.60 287.99 0.0000
wt 1 2881.84 2881.84 215.99 0.0000
vol 1 45.97 45.97 3.45 0.0673
hp 1 309.67 309.67 23.21 0.0000
Residuals 77 1027.38 13.34

# de hipotesis de que todos los coeficientes del modelo son cero son:
#F-statistic: 132.7 on 4 and 77 DF, p-value: < 2.2e-16. Por lo tanto se rechaza
# la hipotesis nula al nivel del 5%.

Las variables menos correlacionadas son sp y vol,luego para verificar si estas


debiesen ser removidas de manera simultanea del modelo debemos procedecer
de la siguiente manera.

n<-dim(datos)[1] # cantidad de datos


k<-2 # numero de coeficientes iguales a cero bajo h0
p<-4 # cantidad de variables en el modelo completo

model_reducido<-lm(mpg~hp+wt,data=datos)

scr_completo<-sum(anova(model1)$Sum[1:4]) # suma de cuadrados de la regresion


# modelo completo
scr_reducido<-sum(anova(model_reducido)$Sum[1:2]) # suma de cuadrados de la regresion
# modelo reducido
cme_completo<-anova(model1)$Mean[5] # cuadrado medio del modelo completo

#Calculo del F parcial


fp<-((scr_completo-scr_reducido)/2)/cme_completo
fp

qf(0.95,k,n-p-1)

## Intervalo de confianza para el valor medio y de prediccion ##

sp<-100
wt<-20
vol<-90
hp<-50
nuevo<-as.data.frame(cbind(sp,wt,vol,hp))

#Usando el conjunto de datos millaje, hallar un intervalo de confianza del 95% para
#el millaje promedio por galon de todos los vehculos con capacidad interior de 90
#pies cubicos, un HP de 50 una velocidad maxima de 100 millas y un peso
#de 20 libras. Hallar un intervalo de prediccion para el millaje de un carro
#con las mismas caractersticas anteriores.

predict.lm(model1,nuevo,se.fit=T,interval=c("confidence"),level=.95)

predict.lm(model1,nuevo,se.fit=T,interval=c("prediction"),level=.99)

#Hay un 95% de confianza de que el millaje promedio de todos los carros


#con las caractersticas dadas caiga entre 42.41 y 45.50 millas por galon.

4
#Hay un 99% de confianza de que el rendimiento
#de millas por galon de un carro con las caractersticas
#mencionadas caiga entre 34.09 y 53.82

residuos<-model1$residuals

par(mfrow=c(1,2))
#########################
# Normalidad #
#########################

hist(residuos,col=rainbow(20),main="Histograma")
qqnorm(residuos,main="QQ~Norm")
qqline(residuos,col="red")

lillie.test(residuos) # no se rechaza la normalidad

#########################
# Homocedasticidad #
#########################

ajustados<-model1$fitted

plot(ajustados,residuos)
abline(0,0,col="blue")

ncvTest(model1) # se rechaza h0, varianza constante

#########################
# Independencia #
#########################

acf(residuos)
dwtest(model1) # se rechaza h0, por lo tanto hay dependencia
#en los residuos del modelo

Vous aimerez peut-être aussi