Vous êtes sur la page 1sur 13

ANÁLISIS DE REGRESIÓN Y DE CORRELACIÓN

INTRODUCCIÓN
En la aplicación de los métodos estadísticos estudiados en los capítulos anteriores, se ha tratado con una
única variable de interés. A estas variables se le examinaron varias medidas que describen su comporta-
miento y se aplicaron diversas técnicas de inferencia estadística, como intervalos de confianza y pruebas
de hipótesis, para hacer estimaciones y sacar conclusiones acerca de ellas. En esta unidad se tratará con
problemas que abarcan dos variables cuantitativas para establecer y medir las relaciones existentes entre
ellas.

Análisis de Regresión
El análisis de regresión es un método estadístico que permite explicar el comportamiento de una variable
Y, llamada variable dependiente (explicada, de respuesta) a partir del comportamiento de otra u otras va-
riables Xi, llamadas variables independientes (o explicativas, regresoras), estableciendo la expresión
funcional del modelo matemático que describa dicho comportamiento.

Análisis de Regresión Simple


Se llama modelo estadístico de regresión simple al modelo que tiene sólo una variable explicativa:

Yi = f(Xi) + ei
donde: Y: variable explicada
X: variable explicativa
f(Xi): función de regresión
ei: error aleatorio

Supuestos Básicos de la Regresión


La aplicación del análisis inferencial al modelo estadístico de regresión requiere de los siguientes supues-
tos sobre la variable aleatoria ei
1) La variable aleatoria residual ei, para cada valor Xi, cumple:
ei ∼ N(0,σ2)

1
Es decir: (a) ei tiene la distribución normal, (b) su valor esperado es cero, E(ei) = 0 y (c) la va-
rianza de ei, es la misma para cada valor de X, o sea, la varianza se mantiene constante V(ei) = σ
2
.
2) Las variables aleatorias ei y ej, para dos valores de X cualesquiera, son independientes, o sea, la
covarianza entre ellas es cero Cov(ei, ej) = 0.

Análisis de Regresión Lineal Simple


El análisis de regresión lineal simple se realiza cuando la función de regresión es una función afín, o sea,
una recta
Yi = β 0 + β 1 Xi + ei
donde:
Yi: Variable dependiente
Xi: Variable independiente
f(Xi) = β 0 + β 1 Xi: Recta de regresión
β 0 : Ordenada al origen
β 1 : Pendiente de la recta
ei : error aleatorio

Estimadores de los parámetros β0 y β1


Denotando al estimador de la ordenada al origen y de la pendiente, respectivamente:

β̂ 0 = b0 y β̂ 1 = b1
se tiene el modelo estimado de regresión lineal simple:

Yi = b0 + b1 Xi + ei
donde

Ŷi = b0 + b1 Xi : Recta de regresión estimada


y

ei = [ Yi - ( b0 + b1 Xi )] = ( Yi - Ŷi ) : Residuo muestral.

Para construir los estimadores de la regresión, o sea, b0 y b1, se utiliza un método estadístico llamado
MÉTODO DE MÍNIMOS CUADRADOS.
2
Este método consiste en calcular los valores b0 y b1 de modo tal que minimice la suma del cuadrado de
los residuos, SCRES
n
SCRES = ∑e
i =1
2
i

o la expresión equivalente
n
SCRES = ∑ (Y
i =1
i − b 0 − b1 X i ) 2

Hallando las derivadas parciales de SCRES con respecto a b0 y b1 respectivamente, e igualándolas a cero,
se obtiene el siguiente sistema de ecuaciones llamado SISTEMA DE ECUACIONES NORMALES.
 b 0 ⋅ n + b1 ⋅

Xi = ∑Yi ∑

 b 0 ⋅ X i + b1 ⋅ X i2 = ∑ ∑X Y i i

Resolviendo este sistema se obtienen los estimadores correspondientes


Estimador de β 0

b0 =
∑Y ⋅∑X − ∑X Y ⋅∑X
i
2
i i i i

n ⋅ ∑ X − (∑ X ) 2 2
i i

Estimador de β 1

b1 =
n⋅ ∑ X Y (∑ X ) ⋅ (∑ Y )
i i − i i

n ⋅ ∑ X − (∑ X ) 2 2
i i

Expresiones equivalentes para b1 son:


(∑ X ) ⋅ (∑ Y )
∑X Y
i i
i i −
b1 = n
(∑ X ) 2

∑X 2 i
i −
n

b1 =
∑X Y n⋅ X ⋅ Y
i i −

∑X −n⋅ X 2
i
2

De la primera ecuación del SISTEMA DE ECUACIONES NORMALES se puede despejar b0

b 0 = Y − b1 X

3
Coeficiente de Determinación
El Coeficiente de Determinación (R2) es un coeficiente que mide la proporción de la variación total ex-
plicada por la regresión, y se calcula haciendo el cociente entre la SUMA DE CUADRADO EXPLICADA y la
SUMA DE CUADRADO TOTAL

R 2 =
∑ (Yˆ − Y )
i
2

∑ (Y − Y )i
2

R =
2
b12∑ (X − X ) i
2

∑ (Y − Y )
i
2

Se cumple que 0 ≤R2 ≤1. En la medida que se acerca a 1 mejor es el ajuste de la recta a los datos, y vice-
versa, en la medida que se acerca a 0 peor es el ajuste de la recta a los datos.

Distribución de los estimadores


Como se ha estudiado anteriormente, para poder inferir sobre los parámetros de la función de regresión
hay que determinar la distribución de los estimadores.
Se puede demostrar que tanto b0 como b1 son combinaciones lineales de la variable residual e, por lo tan-
to, dado que se supone que los residuos tienen distribución normal, entonces, los estimadores tienen dis-
tribución normal.
b0 ∼ Normal
b1 ∼ Normal
La esperanza matemática y la varianza de cada uno de ellas son:
1 X2 
y V(b0) = σ ⋅ + 
2
E(b0) = β 0
∑ (X i − X ) 
2 
e
n

σ e2
E(b1) = β 1 y V(b1) =
∑ (X i − X )2
luego
b0 − β 0
∼ N(0,1)
V (b0 )

b1 − β1
∼ N(0,1)
V ( b1 )

Intervalos de Confianza

4
INTERVALO DE CONFIANZA PARA β 0 (Con un nivel de confianza de 1-α)
La varianza estimada de b0 es

 X2 
2 1 
V̂ (b ) = S ⋅ +
n
∑ 2 
0 e
 (X i − X ) 

∑ (Y
2
donde S 2 i − Yˆi )
e =
n−2
el intervalo es, entonces
t (n − 2)
b0 ± 1−
α ⋅ V̂ ( b 0 )
2

INTERVALO DE CONFIANZA PARA β 1 (Con un nivel de confianza de 1-α)


La varianza estimada de la pendiente muestral b1es:

S e2
V̂ (b1) =
∑ (X i − X)2

el intervalo es, entonces


t (n − 2)
b1 ± 1−
α ⋅ V̂ ( b1 )
2

INTERVALO DE CONFIANZA PARA UN VALOR INDIVIDUAL DE LA RECTA DE REGRESIÓN


POBLACIONAL (Con un nivel de confianza de 1-α)
Dada la recta de regresión

Ŷi = b0 + b1 Xi
se puede estimar puntualmente el valor de la recta para un valor dado x0 de la variable explicativa

Ŷ 0 = b0 + b1 x0
La varianza estimada para un valor individual de la recta de regresión muestral es
 1 ( x0 − X )2 
⋅ + + 2
V̂ ( Ŷ 0) = S  n
1
∑ ( X i − X )2 
e

el intervalo es, entonces
t (n − 2)
Ŷ 0 ± 1−
α ⋅ V̂(Yˆ0 )
2

Prueba de Hipótesis para los parámetros de la recta de regresión

5
Al igual que para los intervalos de confianza, la varianza poblacional σ e es desconocida en todos los ca-
2

sos, luego, hay que utilizar su estimador S e2 , por lo tanto, las varianzas que se utilizan en los respectivos
estadígrafos son varianzas estimadas, y la distribución de cada uno de los estadígrafos de prueba es la dis-
tribución t de Student con n-2 grados de libertad.

PRUEBA DE HIPÓTESIS PARA β 0


Ho: β 0 = β 0’
H1: β 0 ≠ β 0’

| b0 − β ' |
Se rechaza Ho si 0 > t (n − 2)
α
1−
V̂(b0 ) 2

PRUEBA DE HIPÓTESIS PARA β 1


Ho: β 1 = β 1’
H1: β 1 ≠ β 1’

| b1 − β ' |
Se rechaza Ho si 1 > t (n − 2)
α
1−
V̂(b1 ) 2

Ejemplo
El responsable de costos de una empresa de construcción desea estimar el costo total de la construcción
de las casas unifamiliares suponiendo que el costo de la construcción tiene una fuerte relación con el ta-
maño del lote. Se toma una muestra aleatoria de 12 casas construidas el año pasado, y la información re-
copilada se presenta en el siguiente cuadro:
Costo de construcción y tamaño del lote para una muestra
aleatoria de 12 casas unifamiliares

Tamaño del lote Costo de construcción


Observación (en decenas de m2) (en miles de dólares)
1 5 31,6
2 7 32,4
3 10 41,7
4 10 50,2
5 12 46,2
6 20 58,5
7 22 59,3
8 15 48,4
9 30 63,7
10 40 85,3
11 12 53,4

6
12 15 54,5

Se pide:
a) Indique cuál es la variable explicativa y cuál es la variable explicada.
b) Construya un diagrama de dispersión.
c) Estime e interprete, en los términos de este problema, la ordenada al origen y la pendiente de la recta
de regresión poblacional.
d) Calcule e interprete el coeficiente de determinación.
e) Estime, con una confianza del 95% el costo de construcción para un lote de 150 metros cuadrados.
f) Estime, con una confianza del 99% el costo fijo.
g) Pruebe, con un nivel de significación del 1% si el costo medio variable es superior a $US 1000.

SOLUCION
a) La variable explicativa X es el tamaño del lote (en decenas de metros cuadrados), porque esta variable
es la que se utiliza para estimar el costo de la construcción. La variable explicada Y es, entonces, el costo
de construcción (en miles de dólares) porque ella es la variable que se quiere estimar. El comportamiento
del costo de la construcción está explicado por el comportamiento del tamaño del lote.

b) Con los datos de la muestra que se presentan en el cuadro anterior, se puede el siguiente Diagrama de
Dispersión.

7
DIAGRAMA DE DISPERSIÓN
Tam año del Lote y Costo de Construcción

90
80
70
60
50
40
30

20
10
0
0 5 10 15 20 25 30 35 40 45

Tamaño del Lote

c) Se supone que la relación entre las variables es lineal, por lo tanto hay que estimar los parámetros de la
RECTA DE REGRESIÓN utilizando las correspondientes fórmulas

b1 =
∑X Y n⋅ X ⋅ Y
i i −
b 0 = Y − b1 X donde, obviamente, X = ∑X i ∑Y i
; ; Y=
∑X −n⋅ X 2
i
2
n n

Para obtener las estimaciones de los parámetros se construye la siguiente tabla de cálculo
Cálculos para el problema del Costo de Construcción
Tamaño del lote Costo de construcción
(en decenas de (en miles de dólares)
Observación metros cuadrados)
Xi Yi XiYi Xi2 Yi2
1 5 31,6 158,0 25 998,56
2 7 32,4 226,8 49 1049,76
3 10 41,7 417,0 100 1738,89
4 10 50,2 502,0 100 2520,04
5 12 46,2 554,4 144 2134,44
6 20 58,5 1170,0 400 3422,25
7 22 59,3 1304,6 484 3516,49
8 15 48,4 726,0 225 2342,56
9 30 63,7 1911,0 900 4057,69
10 40 85,3 3412,0 1600 7276,09
11 12 53,4 640,8 144 2851,56
12 15 54,5 817,5 225 2970,25
Totales 198 625,2 11840,1 4396 34878,58

Aplicando las fórmulas correspondientes se pueden calcular los valores b0 y b1:


198 625,2
X= = 16,5 ; Y= = 52,1
12 12
11840,1 − 12 ⋅ 16,5 ⋅ 52,1 1524,3
b1 = = = 1,35
4396 − 12 ⋅ 16,5 2 1129

b0 = 52,1 – 1,35 ⋅ 16,5 = 29,825


8
Por tanto, la recta de regresión estimada es:
Ŷi = 29,825 + 1,35 Xi
La ordenada al origen b0 representa el valor de Y cuando X es igual a cero. En este problema, la ordenada
al origen es el costo fijo, o sea, el costo que no varía con el tamaño del lote.
La pendiente b1 representa la variación de Y, cuando X varía en una unidad. En este problema la pendien-
te representa el costo medio variable del costo de construcción. La parte del costo que varía por unidad
de tamaño del lote.
d) Para calcular el coeficiente de determinación R2 hay que calcular las sumas de cuadrados explicada y
la suma de cuadrado total

SCEXP.= b 1
2
∑ ( Xi - 2
X)

SCTOTAL= ∑ ( Yi - Y )2

Entonces se tiene:

∑ ( Xi - X )2 = ∑ X i - n⋅ X 2 = 4396 – 12 ⋅ 16,5 2 = 1129


2

luego
SCEXP.= 1,35 2 ⋅ 1129 = 2057,6025

SCTOTAL= ∑ ( Yi - Y ) = ∑ Y i - n⋅ Y 2 = 34878,58 – 12 ⋅ 52,1 2 = 2305,66


2 2

SCEXP . 2057,6025
R2 = = = 0,8924
SCTOTAL 2305,66
Expresado en porcentaje, el 89,24% de la variación del costo de construcción está explicada por la varia-
ción del tamaño del lote.

e) El costo de construcción para un lote de 150 m2 se puede estimar puntualmente utilizando la recta de

regresión Ŷi sustituyendo X = 15 en la ecuación.

Ŷ = 29,825 + 1,35 ⋅ 15 = 50,075


Dado que Y representa miles de dólares, el costo promedio estimado es US$ 50,075 para casas a cons-
truirse sobre un lote de 150 m2.

Para construir el intervalo de confianza es necesario calcular la varianza residual muestral. Utilizando la
fórmula siguiente:

9
∑ ( Yi- Ŷi )2 = ∑ ( Yi - 2
Y )2 - b 1 ∑ ( Xi - X )2 = 2305,66 - 2057,6025 = 248,0575

entonces:

∑ (Yi − Yˆi )
2
248,0575
S e2 = = = 24,80575
n−2 10
La varianza estimada de la estimación de un valor puntual de la recta

2 
 1 (x 0 − X ) 2 
V̂ ( Ŷ ) = S e ⋅ 1+

+
n ∑ (X i − X ) 2 
 
para X = 15 es
 1 (15 − 16,5)
2 
 1 + +  = 26,92
V̂ [ Ŷ ] = 24,80575 ⋅  12 1129 
 
El valor del percentil (1 - α/2) = 0,975 de la distribución t de Student con (n-2) = 10 grados de libertad

t (n − 2)
es 1−
α = 2,228
2

Luego, el intervalo
t (n − 2)
Ŷ ± 1−
α
2
⋅ V̂(Yˆ )

es
50,075 ± 2,228 ⋅ 26,92

Li = 50,075 – 11,5603 = 38,5147


Ls = 50,075 + 11,5603 = 61,635
El costo de construcción para un lote de 150 metros cuadrados estaría entre 38,5147 y 61,6353 miles de
dólares con una confianza del 95%
f) El costo fijo, como ya fue explicado en el punto c), es la ordenada al origen
La varianza estimada de la ordenada al origen
1 X2 
S e ⋅ 
2
V̂ (b0) = +
n
 ∑ 2 
(X i − X ) 
es
 1 16,5 2 
(b ) = 24,80575 ⋅  + 
V̂ 0  12 1129  = 8,0489
 

10
El valor del percentil (1 - α/2) = 0,995 de la distribución t de Student con (n-2) = 10 grados de libertad

t (n − 2)
es 1−
α = 3,169
2

Luego el intervalo
t (n − 2)
b0 ± 1−
α ⋅ V̂ ( b 0 )
2

es
29,825 ± 3,169 ⋅ 8,0489

Li = 29,825 – 8,99 = 20,835


Ls = 29,825 + 8,99 = 38,815
El costo fijo estaría entre 20,835 y 38,815 miles de dólares con una confianza del 99 %.
g) El costo medio variable, como ya fue explicado en el punto c), es la pendiente.
Hay que probar si β 1 es superior a 1 (mil), por lo tanto, la hipótesis nula y la hipótesis alternativa son
H0: β 1 ≤ 1
H1: β 1 > 1

b1 − β '
Se rechazará H0 si 1 > t (n − 2)
1−α
V̂(b1 )

El punto crítico es el percentil (1 - α) = 0,99 de la distribución t de Student con (n-2) = 10 grados de li-
bertad t = 2,764

b1 − β '
si 1 > 2,764 se rechaza H0
V̂(b1 )

La varianza estimada de la pendiente muestral


S e2
V̂ (b1) =
∑ (X i − X)2

es
24,80575
V̂ (b1) = = 0,02197
1129
El valor del estadígrafo de prueba es
1,35 − 1
= 2,36
0,02197

11
como 2,36 < 2,764 no se rechaza H0
Con un nivel de significación del 1%, no se puede considerar que el costo medio variable sea superior a
$US 1000.

Análisis de Correlación
El análisis de correlación es un método estadístico que permite medir el grado de asociación entre las
variables.

Análisis de Correlación Lineal Simple


El análisis de correlación lineal simple se lleva a cabo cuando la función de regresión que
explica el comportamiento conjunto de las variables es una recta.

Coeficiente de Correlación Lineal Poblacional


La intensidad de la relación lineal entre las variables se mide en la población con el parámetro coeficien-
te de correlación lineal (ρ). Este coeficiente surge del cociente entre la covarianza de las variables y el
producto de las desviaciones estándares de cada una de ellas
σ XY
ρ=
σ X ⋅σ Y
Se puede demostrar que el coeficiente de correlación lineal (ρ), cumple con:
-1 ≤ ρ ≤ 1
En los casos que:
ρ = -1 : Existe una perfecta relación lineal inversa entre las variables X e Y. Todos los puntos pertenecen a
una recta de pendiente negativa.
ρ = 1 : Existe una perfecta relación lineal directa entre las variables X e Y. Todos los puntos pertenecen a
una recta de pendiente positiva
ρ = 0 : No existe relación lineal entre las variables X e Y. Ya sea porque, o las variables no están asocia-
das, o porque la relación entre ellas no es lineal.
Cuando ρ se acerca a –1 ó 1 el grado de relación lineal aumenta y cuando ρ se acerca a 0 el grado de rela-
ción lineal disminuye.

12
Coeficiente de Correlación Lineal Muestral.
El coeficiente de correlación lineal muestral (r), es el estimador del coeficiente de correlación lineal
poblacional (ρ) y se calcula como:

∑ (X i − X )(Yi − Y )
r=
∑ (X i − X ) 2 ∑ (Yi − Y ) 2
n ∑ X i Yi − ∑ X i ∑ Yi
=
[n ∑ X 2
i ][
− (∑ X i ) 2 n ∑ Yi2 − (∑ Yi ) 2 ]

Prueba de Hipótesis para ρ (coeficiente de correlación lineal)


H0: ρ = 0
H1: ρ ≠ 0
r
t ( n − 2)
Si 1− r2 > 1−
α se rechaza H0
2
n−2

13

Vous aimerez peut-être aussi