Vous êtes sur la page 1sur 9

UNIVERSIDAD SIMÓN BOLÍVAR

DEPARTAMENTO DE CÓMPUTO CIENTÍFICO Y ESTADÍSTICA


CÁTEDRA: MÉTODOS ESTADÍSTICOS II (CO2124)

Laboratorio 7: Regresión Lineal Múltiple.

Las técnicas de regresión lineal múltiple busca establecer una relación


entre una variable de respuesta o variable dependiente y, y las variables
explicativas, predictorias o independientes x1 , x2 , ..., xp
La ecuación de regresión lineal múltiple tiene la forma:

y = β0 + β1 x1 + β2 x2 + ... + βp xp

Hipótesis del problema:

1. εi ∼ N (0, σ 2 ) ; i = 1, 2, .., n

2. El número de datos n es mayor p + 1, es decir, que se debe tener


suficientes datos para estimar los p + 1 parámetros.

3. Los regresores son linealmente independientes, es decir, que ninguno de


ellos está exactamente determinado por otros.

4. E(y|x1 , x2 , ..., xp ) = σ 2

5. y ∼ N (µ, σ 2 ) y su componentes son independientes.

6. Las yi no están correlacionadas entre si, i = 1, 2, ..., n.

7. Las variables x1 , x2 , ..., xn son determinı́sticas.

Los coeficientes de regresión se estiman por el método de mı́nimos cuadra-


dos, donde el modelo se puede escribir matricialmente como:

Y = X β̂ + ε
de aquı́:

1
β̂ = (X T X)−1 X T Y
donde:
 
y1
 
 y2 
 
 . 
Y =



 . 
 
 . 
yn

 
1 x11 x12 ... x1p
 
 1 x21 x22 ... x2p 
 
 . . . ... . 
X=



 . . . ... . 
 
 . . . ... . 
1 xn1 xn2 ... xnp

 
β̂0
 
 β̂1 
 
 
 . 
β̂ =  
 . 
 
 . 
 
β̂p

 
ε1
 
 ε2 
 
 . 
ε=



 . 
 
 . 
εn

2
Coeficiente de determinación múltiple:

SSE
R2 = 1 −
SSyy
∑n
donde SSE = Y T Y − β̂ T X T Y y SSyy = i=1 (yi − ŷ)2

Inferencia respecto a los parámetros:

1. Intervalos de confianza para βi ; i = 0, 1, 2, ..., p

El estadı́stico de prueba es:

β̂i − βi
T = ∼ tn−1−p
e.e(βi )
donde el error estándar de estimación para βi viene dado por:


e.e(βi ) = S cii

Ahora bien, los cii se obtienen a partir de:


 
c00 c01 ... c0p

 c10 c11 ... c1p 

 
 . . ... . 
(X T X)−1 =


 . . ... .  
 
 . . ... . 
cp0 cp1 ... cpp

SSE
yS= n−p−1

El intervalo de confianza es:

I = (β̂i − tn−p−1; α2 e.e(βi ) , β̂i + tn−p−1; α2 e.e(βi ))

3
2. Pruebas de hipótesis para βi ; i = 0, 1, 2, ..., p

El estadı́stico de prueba bajo H0 es:

β̂i − βi0
T = ∼ tn−p−1
e.e(βi )

• Si la prueba es bilateral:
H0 : βi = βi0 contra H1 : βi ̸= βi0
La región de rechazo es

RR = (−∞ , −tn−p−1; α2 ) ∪ (tn−p−1; α2 , ∞)

• Si la prueba es unilateral derecha:


H0 : βi ≤ βi0 contra H1 : βi > βi0
La región de rechazo es

RR = (tn−p−1; α , ∞)

• Si la prueba es unilateral izquierda:


H0 : βi ≥ βi0 contra H1 : βi < βi0
La región de rechazo es

RR = (−∞ , −tn−p−1; α )

3. Análisis de varianza en la regresión lineal múltiple:

H0 : β1 = β2 = ... = βp , es decir, las variables independientes no están


relacionadas linealmente con la variable dependiente, contra
H1 : βi ̸= 0 para algún i = 1, 2, ..., p, es decir, existe al menos una
variable independientes que está linealmente relacionada con la variable
dependiente.

El estadı́stico de prueba bajo H0 es:

R2 (n − p − 1)
F = ∼ Fp , n−p−1
p(1 − R2 )

4
La región de rechazo es
R = (fp,n−p−1 ; α , ∞)

y el p-valor es 1 − P (F ≤ fobs )

Ejemplo:
Un ingeniero especialı́sta en avalúo de inmuebles, está interesado en de-
sarrollar un modelo de regresión lineal múltiple que le permita estimar el
valor de unos apartamentos ubicados en una determinada zona de la ciudad.
Para armar el modelo se seleccionaron las siguientes variables:
x1 : Área de construcción (en metros2 )
x2 : Número de dormitorios.
x3 : Número de baños.
x4 : Puestos de estacionamiento.
x5 : Años de construcción.
y : Precio de venta (en miles de dólares)
El referido ingeniero hace una investigación en el registro mercantil y
toma las últimos 14 apartamentos vendidos en el sector.
Los resultados se presentan a continuación:

y x1 x2 x3 x4 x5
10 90 2 1 1 5
16 96 2 1 1 8
20 100 2 1 1 12
26 106 2 1 1 6
34 120 3 2 1 5
36 122 3 2 2 11
39 125 3 3 1 17
54 140 3 3 1 25
64 150 3 3 2 38
65 151 4 3 3 40
74 160 4 3 2 40
84 170 4 3 2 41
94 180 4 4 2 48
115 200 5 4 3 50

5
> y = c(10, 16, 20, 26, 34, 36, 39, 54, 64, 65, 74, 84, 94, 115)
> x1 = c(90, 96, 100, 106, 120, 122, 125, 140, 150, 151, 160, 170, 180, 200)
> x2 = c(2, 2, 2, 2, 3, 3, 3, 3, 3, 4, 4, 4, 4, 5)
> x3 = c(1, 1, 1, 1, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4)
> x4 = c(1, 1, 1, 1, 1, 2, 1, 1, 2, 3, 2, 2, 2, 3)
> x5 = c(5, 8, 12, 6, 5, 11, 17, 25, 38, 40, 40, 41, 48, 50)
> ajuste = lm(y ∼ x1 + x2 + x3 + x4 + x5)
> summary(ajuste)
Esto nos da como resultado:
Los coeficientes de regresión son:
β̂0 = −79.31384; β̂1 = 1.04073; β̂2 = −0.99374; β̂3 = −3.61777;
β̂4 = −0.57829; β̂5 = 0.09718
El coeficiente de determinación es R2 = 0.9984 y el coeficiente de deter-
minación ajustado es R̄2 = 0.9974
Esto indica que el 99.84% de la variación del precio de venta de un aparta-
mento se le puede atribuir al área del construcción, el número de dormitorios,
el número de baños, el número de puestos de estacionamiento y los años de
construcción.
El tobs y el p-valor para las pruebas de hipótesis de los coeficientes de
regresión son las siguientes:
Para β̂0 : tobs = −17.123 y p − valor = 0.000000138
Para β̂1 : tobs = 13.547 y p − valor = 0.000000847
Para β̂2 : tobs = −0.458 y p − valor = 0.6588
Para β̂3 : tobs = −2.798 y p − valor = 0.0233
Para β̂4 : tobs = −0.409 y p − valor = 0.6932
Para β̂5 : tobs = 0.996 y p − valor = 0.3483
La variable más significativa para el modelo es x1 ,ya que tiene el p-valor
más cercano a cero, en otras palabras, el precio de un apartamento depende
de gran manera de los metros cuadrados de construcción de este, seguido del
número de baños de este. Las demás variables no son significativas, puesto
que arrojan p-valores muy altos.
Análisis de varianza:
fobs = 1016 y p − valor = 0.00000000005501

6
Al arrojar un un p-valor muy pequeño, entonces existe al menos una
variable que es significativa en el modelo de regresión lineal.
En consecuencia, el modelo de regresión lineal es:
y = −79.31384+1.04073x1 −0.99374x2 −3.61777x3 −0.57829x4 +0.09718x5

Matriz de correlación:

> M = cbind(y, x1, x2, x3, x4, x5)


> cor(M )

Predicción:

Predecir el precio de venta de un apartamento de 145 metros2 , 2 dormi-


torios, un baño, 2 puestos de estacionamiento y 17 años de construcción.
Solución:
> B0 = coef icientes[1]
> B1 = coef icientes[2]
> B2 = coef icientes[3]
> B3 = coef icientes[4]
> B4 = coef icientes[5]
> B5 = coef icientes[6]
> x1 = 145
> x2 = 2
> x3 = 1
> x4 = 2
> x5 = 17
> y = B0 + B1 ∗ x1 + B2 ∗ x2 + B3 ∗ x3 + B4 ∗ x4 + B5 ∗ x5
> y = y ∗ 1000
>y
[1]66482.62
El precio de venta del apartamento será de 66482.62 dólares.

7
Diagrama de dispersión:

> x11()
> pairs(M )

Histograma de residuos:

> x11()
> hist(resid(ajuste), main = ’Histograma de residuos’)
El modelo es correcto si la distribución de los residuos es normal con
media 0.

Gráfica de normalidad de los residuos:

> x11()
> qqnorm(resid(ajuste), main = ’Gráfica de normalidad de los residuos’)
> qqline(resid(ajuste))
Para que el modelo sea correcto, los puntos del diagrama de dispersión
deben estar muy cercanos a la recta de regresión.

Gráfica de independencia de los residuos:

> x11()
> plot(ajuste$f itted.values, resid(ajuste), main = ’Gráfica de independencia’)
> abline(h = 0)
Los puntos del diagrama de dispersión tienen que estar distribuidos por
encima y por debajo de la recta h = 0. De ser ası́, se cumple la hipótesis de
independencia de los residuos.

Tablas:

8
1. Tabla ANOVA de Regresión Múltiple:

Sum of squares df Mean square F P r(> F )


Regression SSR p M SR = SSR
p
M SR
M SE
p-valor
Residual SSE n−p−1 SSE
M SE = s2 = n−p−1
Total SSR + SSE n−1 M SR + M SE

1. Tabla de coeficientes de Regresión Múltiple:

Beta estimate Std.error t P r(> T )


√ β̂0
Intercept β̂0 e.e(β0 ) = S c00 e.e(β0 )
p-valor
√ β̂1
x1 β̂1 e.e(β1 ) = S c11 e.e(β1 )
p-valor
... ... ... ... ...
√ β̂p
xp β̂p e.e(βp ) = S cpp e.e(βp )
p-valor