Estadistica Inferencial

Regresión lineal
Un modelo de regresión es un modelo que permite describir cómo influye una variable X sobre
otra variable Y.
X: Variable independiente o explicativa o exógena
Y: Variable dependiente o respuesta o endógena
El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una

muestra de n pares de valores (x1, y1),. . ., (xn, yn).
Regresión lineal simple. Tiene como objeto estudiar cómo los cambios en una variable, no
aleatoria, afectan a una variable aleatoria, en el caso de existir una relación funcional entre ambas
variables que puede ser establecida por una expresión lineal, es decir, su representación gráfica
es una línea recta. Cuando la relación lineal concierne al valor medio o esperado de la variable
aleatoria, estamos ante un modelo de regresión lineal simple. La respuesta aleatoria al valor x de
la variable controlada se designa por Yx y, según lo establecido, se tendrá
De manera equivalente, otra formulación del modelo de regresión lineal simple sería: si xi es un
valor de la variable predictora e Yi la variable respuesta que le corresponde, entonces
Ei es el error o desviación aleatoria de Yi.

REGRESION LINEAL SIMPLE
El análisis de regresión lineal simple es una técnica estadística para establecer la relación
entre dos variables mediante un modelo matemático establecido.
Existen dos variables, las cuales suponemos que están relacionadas entre sí, es decir, una
ejerce cierto efecto sobre la otra. El objetivo es establecer un modelo que nos sirva para
determinar la relación que existe entre dichas variables.
Las variables a manejar son dos, la variable independiente, X, y la variable dependiente, Y.
La variable independiente se considera como una variable física y controlable, mientras que
la variable dependiente es considerada como una variable aleatoria y medible.
Se puede establecer la relación entre dichas variables por medio de una línea recta (al
suponerse dicha relación como lineal).
Y = a + bX
La ecuación de la línea está dada por Y = a + bX, donde a es el punto de intersección de la

recta con el eje Y mientras que la b es la pendiente, es decir, la inclinación de la recta.
El modelo de regresión lineal simple es, de hecho, la ecuación de la línea; para efectos
prácticos definimos dicho modelo mediante:
Y =  + X
Donde 0 y 1 son los parámetros del modelo.
0 representa la ordenada en el origen, esto es, el punto donde la recta corta el eje Y.
1 representa la pendiente, esto es, el cambio esperado en Y por cada incremento unitario
en X.
PRUEBAS DE HIPOTESIS EN LA REGRESION LINEAL SIMPLE
PARA LA ORDENADA EN EL ORIGEN
Deseamos probar la hipótesis de que 0 es igual a un valor determinado contra la alternativa

apropiada, digamos por ejemplo, diferente a dicho valor; esto es:
H 0 :  0   0,0
H a :  0   0,0
El estadístico de prueba apropiado será:
ˆ 0   0,0
t0 
1 X 2 
MSE   
 n Sxx 
Donde:
MSE es la media de los cuadrados del error o bien, el estimador de la varianza del modelo:
SSE
 2  MSE 
n2
En este caso SSE es la suma de los cuadrados del error y n – 2 son los grados de libertad
del error.
SSE  Syy  SSR
Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados:

2
 n 
n
  Yi 
Syy   Yi   i 1 
2
i 1 n
Y SSR es la suma de cuadrados de la regresión:
SSR  ̂1 Sxy

Retomando la hipótesis planteada:
H 0 :  0   0,0
H a :  0   0,0
ˆ 0   0,0
t0 
1 X 2 
MSE   
 n Sxx 
Este estadístico sigue una distribución t-student con v = n – 2 grados de libertad.
1 X 2 
En el estadístico de prueba vemos que MSE    representa la desviación estándar
 n Sxx 
para 0.
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t /2, n – 2,
entonces rechazaremos la hipótesis nula; aceptaremos la alternativa concluyendo que la
ordenada en el origen es diferente al valor con el cual la estamos comparando.
PARA LA PENDIENTE
Algo semejante realizaremos para la pendiente. Partimos de la hipótesis nula afirmando
que la pendiente es igual a un valor determinado (siempre que dicho valor sea diferente de
cero), contra la alternativa apropiada, por ejemplo que sea diferente a dicho valor:
H 0 : 1  1,0
H a : 1  1,0
El estadístico de prueba en este caso es:
ˆ 1  1,0
t0 
MSE
Sxx
Este estadístico también sigue una distribución t-student con v = n – 2 grados de libertad.
MSE
Del mismo modo, la expresión representa la desviación estándar para 1.
Sxx
Si el valor absoluto del estadístico de prueba es mayor que el valor de tablas, t/2, n – 2,
entonces se rechaza la hipótesis nula y se acepta la alternativa: la pendiente es diferente
al valor representado por 1,0.
Un caso especial para la pendiente sería probar la hipótesis nula afirmando que la pendiente
es igual a cero contra la alternativa que sea diferente de cero.
También conocido como Prueba de Significancia, nos ayuda a determinar si la variable
independiente tiene o no efecto significativo sobre la variable dependiente.
Para realizar este procedimiento de prueba de hipótesis, descomponemos la suma total de
cuadrados en dos partes: la suma de cuadrados de la regresión y la suma de los cuadrados
del error.
Syy  SSR  SSE
Entonces:
H 0 : 1  0
H a : 1  0
INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL

SIMPLE.
Como vimos anteriormente, a parte de las pruebas de hipótesis; también podemos
generalizar sobre los parámetros a partir de los estimadores, mediante intervalos de
confianza. Esto es, encontraremos dos límites, inferior y superior, dentro de los cuales se
encontrará el valor verdadero del parámetro del modelo en cuestión.
Así, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este

parámetro está dado por la siguiente ecuación.
1 X 2  1 X 2 
ˆ 0  t ,n  2
MSE      0  
ˆ 0  t  ,n  2 MSE   
2  n Sxx  2  n Sxx 
Aquí, como 0 representa solamente una posición, no debe existir problema alguno en
cuanto a la conclusión de los resultados obtenidos.
Igualmente, también podemos calcular un intervalo de confianza de (1 - ) 100%, para la

pendiente verdadera del modelo mediante la siguiente expresión.
MSE MSE
ˆ 1  t ,n  2
 1  ˆ 1  t ,n 2
2 Sxx 2 Sxx
En este caso la conclusión si depende del resultado obtenido, veamos los casos posibles:
Puede que el intervalo resulte en  a  1  b ; la conclusión apropiada será que por cada
incremento en X, Y, disminuirá, en promedio, por lo menos b y a lo mucho a veces.
Otro resultado posible para el intervalo sería a  1  b ; la conclusión será, en este caso,
que por cada incremento en X, Y se incrementará, en promedio, por lo menos a y a lo
mucho b veces.
Si el resultado del intervalo es  a  1  b , en este caso, solamente concluiremos que no

se puede afirmar que X tenga efecto sobre Y.
INTERVALOS DE CONFIANZA PARA LA RESPUESTA MEDIA Y PARA UNA
PREDICCION FUTURA
El modelo de regresión lineal simple ajustado Y  ˆ 0  ˆ 1 X nos permite establecer como

es la relación entre X y Y, de qué medida X afecta a Y. También podemos utilizar este
modelo para predecir un valor futuro de Y dado un valor determinado de X.
Esto es, ¿Cuál es el valor esperado de Y cuando X = X0?, solamente hay que introducir el
valor de X0 en la variable X del modelo.
Yˆ  ˆ 0  ˆ 1  X 0 
Podemos calcular intervalos de confianza tanto para la media de una serie de

observaciones (para la recta verdadera) como para una observación futura en particular.
El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, está

dado por la ecuación:
 1  X 0  X 2   1  X 0  X 2 
Yˆ0  t ,n  2
MSE      y  Y0  t ,n 2 MSE  
ˆ 
2
 n Sxx  2
 n Sxx 
El intervalo de confianza de (1 - ) 100% para una observación futura de Y cuando X = X0,

está dado por la expresión:
 1 X 0  X2   1 X 0  X2 
ˆ 0  t
Y MSE1   ˆ 0  t
  Y0  Y MSE1   
,n 2 ,n 2
2
 n Sxx  2
 n Sxx 
Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones

futuras haremos:
 1 1  X 0  X 2   1 1  X 0  X 2 
Yˆ0  t ,n  2
MSE      Y0  Y0  t ,n 2 MSE  
ˆ 
2
 k n Sxx  2
 k n Sxx 
EJERCICIO
Para ejemplificar lo visto anteriormente, resolveremos el siguiente ejercicio utilizando las
fórmulas encontradas.
La resistencia del papel utilizado en la manufactura de cajas de cartón ( Y ) se relaciona

con el porcentaje de la concentración de madera dura en la pulpa original ( X ). En
condiciones controladas, una planta piloto manufactura 16 muestras, cada una de
diferentes lotes de pulpa, y se mide la resistencia a la tensión. Los datos son los siguientes.
X Y
1.0 101.4
1.5 117.4
1.5 117.1
1.5 106.2
2.0 131.9
2.0 146.9
2.2 146.8
2.4 133.9
2.5 111.3
2.5 123.0
2.8 125.1
2.8 145.2
3.0 134.3
3.0 144.5
3.2 143.7
3.3 146.9
I. Ajuste un modelo de regresión lineal simple a los datos.

Para encontrar las respuestas a cada uno de los incisos del ejercicio anterior, necesitamos
primero calcular las sumatorias de las variables X y Y:
n= 16
X = 37.2
X2 = 93.66
Y = 2075.6
Y2 = 272908.02
XY = 4937.97
Con los valores anteriores, calcularemos las expresiones Sxx, Sxy que nos permitirán
determinar los estimadores de los parámetros del modelo solicitado en el inciso 1 del
ejercicio.
 X  Y 
Sxy   XY 
n
Sxy  4937.97 
37.2  2075.6
16
Sxy  112.2
 X  2
Sxx   X 2

n
Sxx  93.66 
37.2
2
16
Sxx  7.17
Calculamos enseguida ̂ 1 a partir de las expresiones anteriores:
Sxy
ˆ 1 
Sxx
112.2
ˆ 1 
7.17
1  15.6485
ˆ
Y el valor de ̂ 0 lo calcularemos mediante:
ˆ 0  Y  1 X
ˆ 0  129.725  15.64852.325
ˆ 0  93.3422
El primer inciso nos pide ajustar un modelo de regresión lineal simple a los datos:
Yˆ  93.3422  15.6485 X
De aquí concluimos lo siguiente:
 La línea de regresión cortará el eje Y en y = 93.3422.
 Por cada incremento en la concentración de madera dura en la pulpa original, la

resistencia del papel se incrementará 15.6485 veces en promedio.
Enseguida calcularemos los valores de Syy, SSR y SSE que nos permitirán realizar la
prueba de significancia del modelo.
 Y  2
Syy   Y 
2
Syy  272908.02 
2075.6
2
16
Syy  3650.81
SSR  ˆ 1 Sxy
SSR  15.6485112.2 
SSR  1755.7617
SSE  Syy  SSR

SSE  3650.81  1755.7617
SSE  1895.0483
Para la significancia del modelo planteamos las siguientes hipótesis:
H 0  1  0
H a  1  0
F0 
SSR1 
SSE n  2

1755.76171 
F0
1895.048314
1755.7617
F0 
135.3605
F0  12.9710
El valor de las tablas de la distribución F con un nivel de significancia del 5 % con 1 y 14

grados de libertad en el numerador y el denominador, respectivamente, es 4.6
Al comparar el estadístico de prueba con dicho valor vemos que 12.9710 es mayor que 4.6.
Esto nos lleva a rechazar la hipótesis nula y por consiguiente a aceptar la alternativa:
La resistencia del papel sí está relacionada significativamente con la concentración

de madera dura en la pulpa original.

Estadistica Inferencial

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Estadistica Inferencial

Transféré par

Droits d'auteur :

Formats disponibles

Regresión lineal

X: Variable independiente o explicativa o exógena

Y: Variable dependiente o respuesta o endógena

El objetivo es obtener estimaciones razonables de Y para distintos valores de X a partir de una

Ei es el error o desviación aleatoria de Yi.

La ecuación de la línea está dada por Y = a + bX, donde a es el punto de intersección de la

Donde 0 y 1 son los parámetros del modelo.

Deseamos probar la hipótesis de que 0 es igual a un valor determinado contra la alternativa

El estadístico de prueba apropiado será:

SSE  Syy  SSR

Syy es la suma corregida de los cuadrados de Y o la suma total de cuadrados:

Y SSR es la suma de cuadrados de la regresión:

SSR  ̂1 Sxy

Este estadístico sigue una distribución t-student con v = n – 2 grados de libertad.

El estadístico de prueba en este caso es:

Syy  SSR  SSE

INTERVALOS DE CONFIANZA EN LA REGRESION LINEAL

Así, para la ordenada en el origen, el intervalo de confianza de (1 - ) 100%, para este

Igualmente, también podemos calcular un intervalo de confianza de (1 - ) 100%, para la

Si el resultado del intervalo es  a  1  b , en este caso, solamente concluiremos que no

El modelo de regresión lineal simple ajustado Y  ˆ 0  ˆ 1 X nos permite establecer como

Podemos calcular intervalos de confianza tanto para la media de una serie de

El intervalo de confianza de (1 -100% para el valor esperado de Y cuando X = X0, está

El intervalo de confianza de (1 - ) 100% para una observación futura de Y cuando X = X0,

Si deseamos determinar un intervalo de confianza de (1 - ) 100% para k observaciones

La resistencia del papel utilizado en la manufactura de cajas de cartón ( Y ) se relaciona

I. Ajuste un modelo de regresión lineal simple a los datos.

Calculamos enseguida ̂ 1 a partir de las expresiones anteriores:

Y el valor de ̂ 0 lo calcularemos mediante:

 La línea de regresión cortará el eje Y en y = 93.3422.

 Por cada incremento en la concentración de madera dura en la pulpa original, la

SSE  Syy  SSR

Para la significancia del modelo planteamos las siguientes hipótesis:

El valor de las tablas de la distribución F con un nivel de significancia del 5 % con 1 y 14

La resistencia del papel sí está relacionada significativamente con la concentración

Vous aimerez peut-être aussi