Vous êtes sur la page 1sur 10

Regresión lineal

Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre
otra variable Y.

X: Variable independiente o explicativa o exógena

Y: Variable dependiente o respuesta o endógena

El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una


muestra de n pares de valores (x1, y1),. . ., (xn, yn).

Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no
aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas
variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica
es una línea recta. Cuando la relación lineal concierne al valor medio o esperado de la variable
aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de
la variable controlada se designa por Yx y, según lo establecido, se tendrá

De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un
valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces

Ei es el error o desviación aleatoria de Yi.


REGRESION LINEAL SIMPLE
El análisis de regresión lineal simple es una técnica estadística para establecer la relación
entre dos variables mediante un modelo matemático establecido.
Existen dos variables, las cuales suponemos que están relacionadas entre sí, es decir, una
ejerce cierto efecto sobre la otra. El objetivo es establecer un modelo que nos sirva para
determinar la relación que existe entre dichas variables.
Las variables a manejar son dos, la variable independiente, X, y la variable dependiente, Y.
La variable independiente se considera como una variable física y controlable, mientras que
la variable dependiente es considerada como una variable aleatoria y medible.
Se puede establecer la relación entre dichas variables por medio de una línea recta (al
suponerse dicha relación como lineal).

Y = a + bX

La ecuación de la línea está dada por Y = a + bX, donde a es el punto de intersección de la


recta con el eje Y mientras que la b es la pendiente, es decir, la inclinación de la recta.
El modelo de regresión lineal simple es, de hecho, la ecuación de la línea; para efectos
prácticos definimos dicho modelo mediante:

Y =  + X

Donde 0 y 1 son los parámetros del modelo.

0 representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
1 representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario
en X.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
PARA LA ORDENADA EN EL ORIGEN

Deseamos probar la hipótesis de que 0 es igual a un valor determinado contra la alternativa


apropiada, digamos por ejemplo, diferente a dicho valor; esto es:

H 0 :  0   0,0
H a :  0   0,0

El estadístico de prueba apropiado será:

ˆ 0   0,0
t0 
1 X 2 
MSE   
 n Sxx 

Donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:

SSE
 2  MSE 
n2
En este caso SSE es la suma de los cuadrados del error y n – 2 son los grados de libertad
del error.

SSE  Syy  SSR

Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados:


2
 n 
n
  Yi 
Syy   Yi   i 1 
2

i 1 n

Y SSR es la suma de cuadrados de la regresión:

SSR  ̂1 Sxy


Retomando la hipótesis planteada:

H 0 :  0   0,0
H a :  0   0,0
ˆ 0   0,0
t0 
1 X 2 
MSE   
 n Sxx 

Este estadístico sigue una distribución t-student con v = n – 2 grados de libertad.

1 X 2 
En el estadístico de prueba vemos que MSE    representa la desviación estándar
 n Sxx 
para 0.

Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t /2, n – 2,
entonces rechazaremos la hipótesis nula; aceptaremos la alternativa concluyendo que la
ordenada en el origen es diferente al valor con el cual la estamos comparando.

PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hipótesis nula afirmando
que la pendiente es igual a un valor determinado (siempre que dicho valor sea diferente de
cero), contra la alternativa apropiada, por ejemplo que sea diferente a dicho valor:

H 0 : 1  1,0
H a : 1  1,0

El estadístico de prueba en este caso es:

ˆ 1  1,0
t0 
MSE
Sxx
Este estadístico también sigue una distribución t-student con v = n – 2 grados de libertad.

MSE
Del mismo modo, la expresión representa la desviación estándar para 1.
Sxx

Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t/2, n – 2,
entonces se rechaza la hipótesis nula y se acepta la alternativa: la pendiente es diferente
al valor representado por 1,0.
Un caso especial para la pendiente sería probar la hipótesis nula afirmando que la pendiente
es igual a cero contra la alternativa que sea diferente de cero.
También conocido como Prueba de Significancia, nos ayuda a determinar si la variable
independiente tiene o no efecto significativo sobre la variable dependiente.
Para realizar este procedimiento de prueba de hipótesis, descomponemos la suma total de
cuadrados en dos partes: la suma de cuadrados de la regresión y la suma de los cuadrados
del error.

Syy  SSR  SSE

Entonces:

H 0 : 1  0
H a : 1  0

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL


SIMPLE.
Como vimos anteriormente, a parte de las pruebas de hipótesis; también podemos
generalizar sobre los parámetros a partir de los estimadores, mediante intervalos de
confianza. Esto es, encontraremos dos límites, inferior y superior, dentro de los cuales se
encontrará el valor verdadero del parámetro del modelo en cuestión.

Así, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este


parámetro está dado por la siguiente ecuación.

1 X 2  1 X 2 
ˆ 0  t ,n  2
MSE      0  
ˆ 0  t  ,n  2 MSE   
2  n Sxx  2  n Sxx 

Aquí, como 0 representa solamente una posición, no debe existir problema alguno en
cuanto a la conclusión de los resultados obtenidos.

Igualmente, también podemos calcular un intervalo de confianza de (1 - ) 100%, para la


pendiente verdadera del modelo mediante la siguiente expresión.

MSE MSE
ˆ 1  t ,n  2
 1  ˆ 1  t ,n 2
2 Sxx 2 Sxx
En este caso la conclusión si depende del resultado obtenido, veamos los casos posibles:

Puede que el intervalo resulte en  a  1  b ; la conclusión apropiada será que por cada
incremento en X, Y, disminuirá, en promedio, por lo menos b y a lo mucho a veces.

Otro resultado posible para el intervalo sería a  1  b ; la conclusión será, en este caso,
que por cada incremento en X, Y se incrementará, en promedio, por lo menos a y a lo
mucho b veces.

Si el resultado del intervalo es  a  1  b , en este caso, solamente concluiremos que no


se puede afirmar que X tenga efecto sobre Y.
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA
PREDICCION FUTURA

El modelo de regresión lineal simple ajustado Y  ˆ 0  ˆ 1 X nos permite establecer como


es la relación entre X y Y, de qué medida X afecta a Y. También podemos utilizar este
modelo para predecir un valor futuro de Y dado un valor determinado de X.
Esto es, ¿Cuál es el valor esperado de Y cuando X = X0?, solamente hay que introducir el
valor de X0 en la variable X del modelo.

Yˆ  ˆ 0  ˆ 1  X 0 

Podemos calcular intervalos de confianza tanto para la media de una serie de


observaciones (para la recta verdadera) como para una observación futura en particular.

El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, está


dado por la ecuación:

 1  X 0  X 2   1  X 0  X 2 
Yˆ0  t ,n  2
MSE      y  Y0  t ,n 2 MSE  
ˆ 
2
 n Sxx  2
 n Sxx 

El intervalo de confianza de (1 - ) 100% para una observación futura de Y cuando X = X0,


está dado por la expresión:

 1 X 0  X2   1 X 0  X2 
ˆ 0  t
Y MSE1   ˆ 0  t
  Y0  Y MSE1   
,n 2 ,n 2
2
 n Sxx  2
 n Sxx 

Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones


futuras haremos:

 1 1  X 0  X 2   1 1  X 0  X 2 
Yˆ0  t ,n  2
MSE      Y0  Y0  t ,n 2 MSE  
ˆ 
2
 k n Sxx  2
 k n Sxx 
EJERCICIO
Para ejemplificar lo visto anteriormente, resolveremos el siguiente ejercicio utilizando las
fórmulas encontradas.

La resistencia del papel utilizado en la manufactura de cajas de cartón ( Y ) se relaciona


con el porcentaje de la concentración de madera dura en la pulpa original ( X ). En
condiciones controladas, una planta piloto manufactura 16 muestras, cada una de
diferentes lotes de pulpa, y se mide la resistencia a la tensión. Los datos son los siguientes.

X Y
1.0 101.4
1.5 117.4
1.5 117.1
1.5 106.2
2.0 131.9
2.0 146.9
2.2 146.8
2.4 133.9
2.5 111.3
2.5 123.0
2.8 125.1
2.8 145.2
3.0 134.3
3.0 144.5
3.2 143.7
3.3 146.9

I. Ajuste un modelo de regresión lineal simple a los datos.


Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos
primero calcular las sumatorias de las variables X y Y:

n= 16
X = 37.2
X2 = 93.66
Y = 2075.6
Y2 = 272908.02
XY = 4937.97

Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirán
determinar los estimadores de los parámetros del modelo solicitado en el inciso 1 del
ejercicio.

 X  Y 
Sxy   XY 
n
Sxy  4937.97 
37.2  2075.6
16
Sxy  112.2

 X  2

Sxx   X 2

n

Sxx  93.66 
37.2
2

16
Sxx  7.17

Calculamos enseguida ̂ 1 a partir de las expresiones anteriores:

Sxy
ˆ 1 
Sxx
112.2
ˆ 1 
7.17
1  15.6485
ˆ

Y el valor de ̂ 0 lo calcularemos mediante:

ˆ 0  Y  1 X
ˆ 0  129.725  15.64852.325
ˆ 0  93.3422

El primer inciso nos pide ajustar un modelo de regresión lineal simple a los datos:

Yˆ  93.3422  15.6485 X
De aquí concluimos lo siguiente:

 La línea de regresión cortará el eje Y en y = 93.3422.

 Por cada incremento en la concentración de madera dura en la pulpa original, la


resistencia del papel se incrementará 15.6485 veces en promedio.

Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirán realizar la
prueba de significancia del modelo.

 Y  2

Syy   Y 
2

Syy  272908.02 
2075.6
2

16
Syy  3650.81

SSR  ˆ 1 Sxy
SSR  15.6485112.2 
SSR  1755.7617

SSE  Syy  SSR


SSE  3650.81  1755.7617
SSE  1895.0483

Para la significancia del modelo planteamos las siguientes hipótesis:

H 0  1  0
H a  1  0

F0 
SSR1 
SSE n  2

1755.76171 
F0
1895.048314
1755.7617
F0 
135.3605
F0  12.9710

El valor de las tablas de la distribución F con un nivel de significancia del 5 % con 1 y 14


grados de libertad en el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadístico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6.
Esto nos lleva a rechazar la hipótesis nula y por consiguiente a aceptar la alternativa:

La resistencia del papel sí está relacionada significativamente con la concentración


de madera dura en la pulpa original.

Vous aimerez peut-être aussi