Regresion - Corregido 311

DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1
REGRESION LINEAL
Establecer relaciones que posibiliten predecir una variable en términos de

otras es un objetivo fundamental en muchas investigaciones estadísticas.
Por ejemplo:
-Se realizan estudios para predecir las ventas potenciales de un nuevo

producto en términos de su precio.
-Los gastos familiares en entretención en términos del ingreso familiar.
-El consumo per cápita de ciertos alimentos en términos de sus valores

nutricionales y la cantidad de dinero que se gaste en publicidad en TV.
Aunque es deseable por supuesto predecir una cantidad exactamente en

términos de otra (u otras) rara vez es posible y en la mayoría de los casos
tenemos que conformarnos con predecir promedios o valores esperados.
Así por ejemplo, podemos predecir la producción promedio de cierta
variedad de trigo en términos de datos referente a la cantidad de lluvia en
el mes de julio. También en el mejor de los casos, el desempeño promedio
de los estudiantes que ingresan a la universidad en términos de sus
puntajes PSU.
La regresión lineal tiene como objetivo analizar un modelo que pretende

explicar el comportamiento de una variable Y, denominada variable
respuesta o variable dependiente, utilizando la información
proporcionada por una variable X o más de una variable X1 , X# ß ÞÞÞß Xk .
llamadas variables independientes.
El modelo lineal tiene la forma:
Y= "0 +"1 x+% Í Y= E(Y) +% ............. (1)
Y= "0 +"1 x" + "# x# +ÞÞÞÞ+"k xk +% Í Y= E(Y) +% .......... (2)
1
INFERENCIA
MVH-2012-1
La respuesta en ambos casos está constituida de dos partes: una

determinista o fija, E(Y) que se denomina ecuación de regresión y la otra
aleatoria, %, que muestra nuestra incapacidad para modelar en forma
precisa el comportamiento de Y. % se llama error del modelo o
sencillamente error. Supondremos que la variable aleatoria % tiene media
cero y varianza 5 # , esto es E(%)=0 y Var(%)= 5 # .
Observación. En el modelo (1) y (2), deberíamos denotar E(Y) por

E(Y/x) y E(Y/x1 ,x2 ,...,xn ) respectivamente, para reflejar el hecho que el
valor esperado de Y está condicionado al valor registrado de la variable
independiente x o valores registrados de las variables independientes
x1 ,x2 ,...,xn en el modelo (2).
El modelo (1) recibe el nombre de modelo de regresión lineal simple

porque E(Y) = "0 +"1 x es una recta y simple porque involucra sólo una
variable independiente, x.
El modelo (2) corresponde a un modelo de regresión lineal múltiple, ya

que E(Y) = "0 +"1 x" + "# x# +ÞÞÞÞ+"k xk es un hiperplano de ‘k y están
involucradas k variables independientes.
Los coeficientes "0 , "1 ,...., "k en (2) son los parámetros del modelo.
Estos denotan la magnitud del efecto que las variables explicativas
x1 ,x# ,...,xk tienen sobre la variable Y.
En el caso del modelo (1) , "0 se denomina el intercepto del modelo. La

aparición de este término constante puede interpretarse como la presencia
de una variable x0, cuyo valor es siempre 1. "1 corresponde a la pendiente
de la recta de regresión y proporciona el cambio en la variable respuesta
por unidad de cambio en la variable independiente x.
2
INFERENCIA
MVH-2012-1
Cuando hablamos de un modelo estadístico lineal para Y queremos decir

que E(Y) es una función lineal en los parámetros desconocidos "0 , "1 (o
"0 , "1 ,..., "k ) y no necesariamente una función lineal de x ( o de x" ,
x# ,ÞÞÞÞ., xk ).
Así, Y= "0 +"1 ln x+% es un modelo lineal ya que ln x es una constante
conocida.
Ejemplo. Si creemos que Y es función de una variable T, temperatura de

un proceso químico, podríamos modelar : Y= "0 +"1 T+ "# eX +%. Este
es un modelo lineal, ya que es lineal en los parámetros. Si hacemos x" =T,
x2 =/T obtenemos el formato del modelo (2): Y= "0 +"1 x" + "# x# +%.
En el caso del modelo de regresión lineal simple (1), sean (xi ,yi ) ,
i=1,...,n, n pares de puntos recogidos de algún experimento o estudio. Si
el gráfico de estos puntos (diagrama de dispersión ) amerita una
regresión lineal, entonces podemos pensar que si se tomaran muestras
adicionales utilizando los mismos valores de x, se debe esperar que los
valores de y varíen, de aquí que el valor yi en el par (xi , yi ) es el valor
observado de una variable aleatoria Yi . Así la variable aleatoria Yi para el
valor fijo x=xi , tiene una distribución de probabilidad (condicional a
x=xi ) con media E(Yi ) = "0 +"1 xi .
Si se postula que todas las medias E(Yi ) = E(Y/xi ) caen sobre una linea
recta, cada Yi puede describirse por el modelo de regresión lineal simple
Yi = "0 +"1 xi +%i , i=1,...,n Í E(Yi ) = "0 +"1 xi , i=1,...,n
donde E(%i )=0 , Var(%i )=5 2 , i=1,...,n
Luego para un par (xi ,yi ) se satisface:
yi = "0 +"1 xi +%i ...........................(3)
3
INFERENCIA
MVH-2012-1
donde %i es el valor que asume el error cuando la v.a. Yi toma el valor yi .
La ecuación (3) puede ser considerada como el modelo para una sola
observación yi .
Al utilizar la recta ajustada : E(sY) = sy = " s 0 +"s1 x cada par de

observaciones (xi ,yi ) satisface la relación yi = " s 0 +"
s 1 x i + ei donde ei =
yi  s
yi se llama residuo y describe el error en el ajuste del modelo en el
punto i de los datosÞ La diferencia entre %i y ei se muestra en la figura
siguiente.
yi = "0 +"1 xi +%i Í yi  Ð "0 +"1 xi Ñ œ %i
s 0 +"
yi = " s 1 x i + ei Í s 0 +"
yi  ( " s 1 x i ) = yi  s
y i = ei
METODO DE LOS MINIMOS CUADRADOS (MMC)
El método de los cuadrados mínimos consiste en minimizar la suma de los

cuadrados de los residuosß donde los residuos corresponden a las
s 0 +"
yi = "
desviaciones verticales desde la recta ajustada. Así si s s 1 x i es el
valor ajustado para el i-ésimo valor de y cuando x=xi , entonces la
desviación del valor observado de y, yi y el valor ajustado s yi es yi 
yi = ei = residuo. El MMC minimiza !e2i =SCE.
n
s
i=1
SCE =! (yi  s
yi )2 = ! yi  ( " s 1 x i ) ‘2 = Suma Cuadrado del
n n
s 0 +"
i=1 i=1
Error
s0 y "
Si SCE posee un mínimo éste ocurre para los valores " s 1 que
satisface:
4
INFERENCIA
MVH-2012-1
œ ! ssi !yi = n " s 1 !x i

n n
$ SCE s0 + "
$"s0
i=1 i=1
œ ! ssi ! xi yi = "
s 0 !x i + "
s 1 !x2i
n n n
$ SCE
$"s1
i=1 i=1 i=1
Resolviendo este sistema de ecuaciones (llamada ecuaciones normales),

obtenemos:
!xi yi  nx !(xi  
n n
y x ) Ðyi  
y)
s0 =  s 1 Sxy
!x2i  nx !(xi  
s1 = i=1 i=1
" y  " x ; " n = n =
2 Sxx
x )2
i=1 i=1
Notación. Sxy =!(xi  

n
x ) Ðyi  
y)
Sxx = !(xi  
i=1
n
x )2
Syy = !(yi  
i=1
n
y )2.
i=1
PROPIEDADES MAS IMPORTANTES DE LA RECTA ESTIMADA
1.- !ei = 0 2.- ! e2i es mínimo.

n n
i=0 i=1
! ! ! x i ei = 0 , ! s
n n n n

3.- yi = s yi Ê 
y = s
y 4.- y i ei = 0
i=0 i=0 i=0 i=0
 ,
5.- La recta estimada contiene al punto (x y ).
5
INFERENCIA
MVH-2012-1
Observación. SCE= ! e2i œ ! ei Ðyi  s

yi ) =! yi ei  0 =! yi Ðyi  s
n n n n
yi )
i=1 i=1 i=1 i=1
= ! y#i  !yis
yi = ! y#i  !yi ( "
n n n n
s 0 +"
s1 x i )
i=1 i=1 i=1 i=1
= ! y#i  !yi ( 
n n
s 1
y  " s1 x i )
x +"
i=1 i=1
= ! y#i  n  s 1 !yi x i
n n
s 1
y #n" x 
y +"
s 1 ( !yi x i  n 
i=1 i=1
n
=Syy  " xy)
i=1
s 1 Sxy .
= Syy  "
Ejemplo 1. Consideremos los siguientes datos acerca del número de

horas de estudio de 10 personas para un examen de estadística y sus
calificaciones obtenidas.
6
INFERENCIA
MVH-2012-1
Horas de Calificación
Estudio en la prueba
x y
4 31
9 58
10 65
14 73
4 37
7 44
12 60
22 91
1 21
17 84
DIAGRAMA DE DISPERSION
100
80
60
Nota
40
20
0
0 10 20 30
Horas de estudio
El diagrama de dispersión sugiere que la calificación promedio para un

número de horas de estudios dado, bién puede relacionarse por medio de
una ecuación del tipo
E(Y) = "0 +"1 x
7
INFERENCIA
Tenemos: n=10, !xi =100, !yi =564, !x2i =1376 , ! xi yi =6945

MVH-2012-1
Sxx = !(xi  
n
x ) 2 = 1376  10(10)2 = 376
Sxy = ! xi yi  nx
i=1
y = 6945  10Ð10Ñ(56.4) =1305.
Por lo tanto: s 1 = Sxy = 1305 =3.471

"
Sxx 376
s0 = 
" s 1
y  " x = 56.4  3.471(10)=21.69
y la recta de mínimos cuadrados es: y = 21.69+3.471x.

s
Con esta ecuación podemos predecir por ejemplo, cuál será la calificación
promedio que obtiene una persona que estudia 14 horas para el examen.
Esta persona obtendría : 21.69+3.471(14)=70,284 ¸ 70 puntos.
INFERENCIA EN EL MODELO DE REGRESION LINEAL SIMPLE
En el modelo de regresión lineal
Yi = "0 +"1 xi +%i , i=1,...,n
Supondremos que %i µ N(0, 5 2 ) , i=1,...,n

%" , %2 ,...,%n son variables aleatorias independientes con E(%i ) =0 , Var(%i )
=5 # . Este supuesto implica que , dado x=xi , Yi µ N( "0 +"1 xi , 5 2 ) ,
i=1,...,n
Además Y1 ,....,Yn son variables aleatorias independientes.
8
INFERENCIA
MVH-2012-1
Los valores "s0 , "

s 1 son sólo estimaciones de los parámetros "0 , "1 . Si el
experimento se repite una y otra vez, cada vez que se utilizan los mismos
valores fijos de x es muy probable que las estimaciones resultantes de "0
y "1 difieran de un experimentro a otro. Por lo tanto " s0 y " s 1 serán
también variables aleatorias.
Las variables aleatorias Yi son independientes con media E(Yi ) =

"0 +"1 xi y Var(Yi ) = Var(%i ) =5 2 .
!(xi   !((xi  
n n
 
x ) Ð Yi  Y ) x )Yi  (xi  
x )Y )
!(xi   !(xi  
s 1 = i=1
Como vimos " = i=1
n n
x )2 x )2
i=1 i=1
!(xi  
n
= " +i Yi
x )Yi
i=1 (xi  
x)
= , con +i =
Sxx Sxx
s 1 es una combinación lineal de las v.a. Yi y

Así "
s 1 ) =! +i E(Yi )
E( "
!(xi  
n
= ! +i ( "0 +"1 xi ) = "1 i=1

x )2
!(xi  
n = "1 .
2
x)
s 1 )= Var(! +i E(Yi ))
i=1
Además, Var ( "
!(xi  
n
= ! +i2 Var(Yi ) =
x)
1
!(xi   !(xi  
i=1
x )2‘
n 52 = n 52
2
x )2
i=1 i=1
9
INFERENCIA
MVH-2012-1
Por lo tanto, bajo el supuesto de normalidad de los errores, tenemos que:

2
s 1 µ N ( "1 , 5
" )
Sxx
!Yi
n
s0 = 
Ahora como " s 1
Y  " x= i=1 s 1
 " x,
n
s 0 ) = " !( "0 +"1 xi )  "1

n
entonces E( " n x = "0 .
i=1
!Yi
x ! +i Yi )
n
s 0 ) =Var ( i=1
Var( " 
œ Var ( ! Yi (
n
"
 +i
x )Ñ
= !(
n
"
n  +i
x )2 5 2
!x2i
n
n !(xi  
i=1
= n 5#
x )2
!x2i 5 #
i=1
n
s 0 µ N(" 0 , i=1
así, " )
n Sxx
Observación. Para realizar inferencias respecto de los parámetros,

necesitamos estimar 5 # Þ Bajo el supuesto de normalidad, podemos
encontrar que el estimador máximo verosímil de 5 2 está dado por
!(yi  s
n
yi )#
i=1
s# œ
5 y un estimador insesgado de 5 # es:
n
10
INFERENCIA
MVH-2012-1
!(yi  s !e2i
n n
yi )#
i=1 i=1 SCE
S2/ œ = = .
n2 n2 n2
!( yi 
n
y )2

Antes siempre habíamos utilizado Y como estimador de . y S2 = i=1 n"
como estimador de 5 # .
Ahora como estamos usando Y s i como estimador de E(Yi ), parece natural

usar éste para basarnos en un estimador de 5 2 mediante SCE.
SCE (n  2)S/2 # #
s
Ahora = µ ; (n  2). Además, S / y " i , i=0,1 son
52 52
independientes.
Inferencias relacionadas con ""
"1 representa la pendiente de la recta de regresión e indica el cambio en el

valor medio de la distribución de Y por unidad de cambio en x.
"0 es sólo la ordenada al origen y es poco frecuente hacer inferencias con

respecto a este parámetro, salvo si el modelo incluye a x=0.
s 52 (n  2)S2/
Como " 1 µ N ( "1 , ) y 2
µ ;# (n  2), tenemos que el
Sxx 5
estadístico:
s "  "1 ÑÈSxx

s " "1
5 /ÈSxx
"
Ð"
É ÐÐnn#Ñ
T= = µ t (n  2)
2)S/ 2
S/
52
Este estadístico nos permitirá construir intervalos de confianza para "1 y

realizar pruebas de hipótesis acerca de "1 .
11
INFERENCIA
MVH-2012-1
Intervalo de confianza para "1 .
s " „ t1-!/2 (n  2) S/ ÎÈSxx Ñ

Ð"
Prueba de hipótesis para "1 .
Ú H1 : "1  " !
versus Û H1 : "1  "1!
1
Ü H1 : "1 Á "1!
H0 : "1 = "1!
Para una región crítica de tamaño !:
Ú tc  t1! (n  2)
Se rechaza H0 si Û tc   t1! (n  2)
Ü ¸tc ¸  t1!Î# (n  2)
Ejemplo 2. (Continuación Ejemplo1).
Pruebe H0 : "1 =3 versus H1 : ""  3 con !=0.01
s "  3ÑÈSxx Ð3.471  3Ñ19.3907

Ð"
tc = = =1.731
S/ 5.2766
como t0.99 (8)=2.896. No rechazamos H0 . Esto es, no podemos concluir

que una hora de estudio extra incremente en promedio la calificación en
más de 3 puntos.
Construyamos ahora un intervalo del 95% de confianza para "1 .
s " „ t1-!/2 (n  2) S/ ÎÈSxx Ñ= 3.4707 „ 2.31(.2723) =(2.84 , 4.10).

Ð"
12
INFERENCIA
MVH-2012-1
PREDICCION
s 0 +"
y= "
La ecuación s s 1 x puede utilizarse para:
1) pronosticar o predecir la respuesta media E(Y/x0 ) en x=x0 , donde x0 no

necesariamente es uno de los valores predeterminado en la muestra o
2) para predecir un valor futuro y0 de la variable Y0 cuando x=x0 .
1) Intervalo de predicción para una respuesta media E(Y/x0 )= "0 +"1 x0
s 0 +"
s0 = "
El estimador puntual de E(Y/x0 ) en x=x0 es: Y s 1 x0
Tenemos
s 0 )+x0 E( "
s 0 ) = E( "
E( Y s 1 ) ="0 +"1 x0
s 0 )= Var( "
Var ( Y s 0 +"
s 1 x0 )
 s s  s 
=Var (Y  " 1 x +" 1 x0 ) =Var (Y  " 1 (x0  x ))
  s
=Var (Y )+ (x0   s 1 ), pues Cov( (Y
x )2 Var(" , " 1 ) =0
5 2
(x0   x) 5 2 2
= +
n Sxx
 2
# " (x0  x )
=5 Ð + )
n Sxx
 2
s s s # " (x0  x )
Así Y0 = " 0 +" 1 x0 µ N ("0 +"1 x0 , 5 Ð + )
n Sxx
Luego, el intervalo de confianza (1  !)100% para la respuesta media

E(Y/x0 )= "0 +"1 x0 se obtiene a partir del pivote
s 0  Ð "0 +"1 x0 Ñ
Y
S/ É "n + (x0Sxxx )
T= 2
µ t(n  2)
13
INFERENCIA
MVH-2012-1
y0 „ t1!/2 S/ Ë +
" (x0  
x )2
(s Ñ
n Sxx
Ejemplo 3. ( Continuación Ejemplo1). Determine los límites del 95% de

confianza para la respuesta media cuando x0 =14 horas de estudio
De la ecuación de regresión, encontramos para x0 =14
y0 = 21.69+3.471(14) =70.284 ¸ 70
s
x =10, Sxx =376 , É SCE


n2 =5.2866, t0.975 (8)=2.31
(70 „ 2.31(5.2866) É 10
2
" (1410)
+ 376 Ñ = (70 „ 4.61) =(65.918, 74.082)
Por lo tanto 65.918<E(Y/x=14)<74.082.
Al repetir los cálculos anteriores para cada uno de los valores diferentes
de x0 se pueden obtener los correspondientes límites de confianza para
cada E(Y/x0 )=E(Y0 ). Estos límites constituyen la denominada banda de
s 0 +"
confianza, ya que éstas encierran a la recta ajustada sy = " s 1 x.
2) Intervalo de predicción para una respuesta futura observada
Para obtener un intervalo de predicción para un sólo valor y0 de la

variable Y0 , es necesario estimar la varianza de las diferencias entre la
ordenada sy0 obtenida de la recta ajustada en muestreos repetidos, cuando
x=x0 y la correspondiente ordenada real y0 . Se puede considerar la
diferencia muestral sy0  y0 como un valor de la variable aleatoria Ys0 
Y0 cuya distribución muestral es normal con media
s 0 +"
s 0  Y0 ) = E( "
E( Y s 1 x0  Ð "0 +"1 x0  %0 Ñ) =0
14
INFERENCIA
MVH-2012-1
y varianza
s 0 +"
s 0  Y0 ) = Var( "
Var( Y s 1 x0  Ð "0 +"1 x0 )  %0 )
s 0 +"
=Var( " s 1 x 0  %0 )
 s s
=Var(Y  " 1 x +" 1 x 0  % 0 )
5 (x0  
#
x )2 5 # #
= Ð + +5 )
n Sxx
s 0 Y0
Y
El intervalo se obtiene a partir del pivote : T= µ t(n  2)
S/ Ê1+ n" +
(x0 
x )2
Sxx
y0 „ t1!/2 S/ Ë1+ +
" (x0  
x )2
y está dado por: ( s Ñ
n Sxx
Este intervalo representa un intervalo que tiene probabilidad igual a 1  !

de contener no un parámetro sino un valor futuro y0 de la v.a. Y0 .
Ejemplo 4. (Continuación Ejemplo 1). Determine un intervalo de

predicción al 95%, cuando x0 =14.
Solución.
(70 „ 2.31(5.2866) É1+ 10
2
" (1410)
+ 376 Ñ = (56.95, 83.05)
Si un estudiante estudia 14 horas obtendrá en el futuro una nota en el

intervalo (56.95, 83.05) con probabilidad 0.95.
Observación. Y0 para x0 =14 − (56.95, 83.05). Intervalo de predicción

E(Y/x0 =14) − (65.918, 74.082). Intervalo de confianza.
PROCEDIMIENTO DE ANALISIS DE VARIANZA
15
INFERENCIA
MVH-2012-1
Con frecuencia el problema de analizar la calidad de la linea de regresión

estimada se maneja a través de un enfoque de análisis de varianza,
ANOVA.
La ANOVA es un procedimento que consiste en separar la variación total

de la variable dependiente Y, en componentes.
Suponga que se tiene n puntos (xi , yi ) y que se estima la recta de

regresión. En la estimación de 5 2 establecimos la identidad.
s 1 Sxy =SCE
Syy  "
s 1 Sxy  SCE
Syy = "
s 1 = Sxy Ê "
Ahora " s 1 Sxx =Sxy
Sxx
!
n
s s # s 1
s 1 xi  "
Ê " 1 Sxy = ( " 1 ) Sxx = ( " x )2
!
i=1
 n _
s  s
= Ð Y  " 1 x  " 1 xi  Y)2
!
i=1
n _
s s
= Ð " 0  " 1 xi  Y)2
!
i=1
n _
s
= (Yi  Y)2 =SCR
Dado que Syy =!(Yi  Y)2 , finalmente tenemos:

i=1
_
n
!(Yi  Y) =!(Y
s i  Y) + !(Yi  Y
i=1
n _ n _ n
2 2 s i )2
i=1 i=1 i=1
SCT = SCR + SCE
SCR = Suma de cuadrados de regresión refleja la cantidad de variación de

los valores de y explicados por el model, en este caso la recta ajustada.
16
INFERENCIA
MVH-2012-1
SCE = Suma cuadrado del error proporciona la variación alrededor de la

recta de regresión.
Si se desea probar H0 : "1 =0 versus H1 : "1 Á 0 ß esto es, H! postula que el

modelo es E(Y/x) = "0 , que diría que la variación de Y resulta de
fluctuaciones aleatorias que son independientes de los valores de x.
Bajo H! se puede mostrar que :
SCR SCE
2
y 2
son variables independientes, cada una con distribución ;2
5 5
con 1 y n  2 grados de libertad respectivamente. De donde
SCT SCR SCE

2
= 2
+ 2 µ ;2 (n  1) , gl= n  2+1
5 5 5
SCR
1 CMR
El estadístico de prueba es: F= SCE
= y se rechaza H0 : "1 =0 al nivel
n2
CME
! cuando Fc  F1! (1, n  2). Los cálculo se acostumbran a resumir en
la siguiente tabla de análisis de varianza.
TABLA ANOVA
Fuente de variación g.l. SC CM F
Regresión 1 SCR CMR=SCR/1
CMR/CME
Error n2 SCE CME=SCE/(n  2)
Total n1 SCT
Cuando se rechaza H0 (esto es se acepta que "1 Á 0) se concluye que

existe una cantidad significativa de variación en la respuesta
contabilizada por el modelo postulado, la función de línea recta.
Ejemplo 5. ( Continuación Ejemplo1).
17
INFERENCIA
MVH-2012-1
TABLA ANOVA
Fuente de variación g.l. SC CM F v-p
Regresión 1 4529.321809 4529.321809
162.42 0.000
Error 8 223.0781915 27.88472
Total 9 4752.4
Conclusión. Se rechaza H0.

Observación. Al hacer inferencias acerca de "1 usamos:
s "  "1 ÑÈSxx

Ð"
É SCE
t= µ t (n-2)
s " ÈSxx
n2
"
É SCE
Ahora al probar H0 : "1 =0 versus H1 : "1 Á 0, el estadístico es t=
n2
y la hipótesis bajo consideración es idéntica a la que se prueba en la tabla
ANOVA. es decir, la hipótesis nula establece que la variación en la
respuesta se debe unicamente al azar. El análisis de varianza utiliza la
distribución F en lugar de la distribución t para una hipótesis alternativa
de dos colas, los dos procedimientos son idénticos, ya que
Si T µ t(/ ) entonces T2 µ F(1,/ ). En efecto
Z Z2 /1 ;2 /1
È ;2 / /
T= Ê 2 = 2 =F(1,/ ) y
; // ; //
#
s
" 1 Wxx s
" 1 Wxy SCR
#
T = SCE
= SCE = SCE = F
n-2 n-2 n-2
Por supuesto, la prueba t permite probar H0 : "1 =0 versus una alternativa

unilateral, mientras que la prueba F se limita a probar H0 : "1 =0 versus H1 :
"1 Á 0 .
18
INFERENCIA
MVH-2012-1
EL COEFICIENTE DE DETERMINACION
Si SCT y SCR representan la variación total y la variación debido al

efecto lineal o a la regresión, entonces el coeficiente de determinación,
R2 , se define por
SCR
R2 = SCT
0  R#  "ß y mide la proporción de la variación total que es atribuible a

la recta (o curva) de regresión.
En el caso de la regresión lineal simple, R2 corresponde al cuadrado del

32 = r2 )Þ Un valor cercano a 1 indica
coeficiente de correlación muestral (s
que la mayor parte de variación en los datos de respuesta (Y) se explica
por los diferentes valores de entrada (X), mientras que un valor de R#
cercano a 0 indica que poco de la variación se explica por los diferentes
valores de entrada.
Lo anterior se puede apreciar de: SCT=SCR+SCE, entonces

SCR=SCT  SCE de donde
SCE
R2 = SCTSCT =1 SCE
SCT
Si R# =1, entonces SCE=0 y toda la variación observada de Y

corresponde o es atribuible al modelo de regresión y estaríamos frente a
una situación ideal, luego mientras más cercano se encuentre R2 de 1,
mayor es el grado de representatividad de las variables predictoras en el
modelo.
Con frecuencia se utiliza el valor de R2 como indicador de qué tan bién se

ajusta el modelo de regresión a los datos; un valor cercano a 1 indica un
buen ajuste, mientras que uno cercano a 0 indica un ajuste pobre. En otras
palabras, si el modelo de regresión puede explicar la mayor parte de la
19
INFERENCIA
MVH-2012-1
variación de los datos respuestas, entonces se considera que se ajusta bién

a los datos.
Como dijimos en el caso de regresión lineal simple, si el coeficiente de

!(xi  
n
x )((yi  
y)
ÈSxx Sxy
Sxy
correlación muestral r= i=1 œ es igual
!  2!
Ë (xi  x ) (yi  y )
n n
 #
i=1 i=1
a 0.9, por ejemplo, entonces implica que un modelo de regresión lineal
simple para estos datos explica el 81% de la variación en los valores
respuesta. Es decir el 81% de la variación en los valores respuesta se
explica por los diferentes valores de la variable independiente o de
entrada.
El coeficiente de determinación ajustado, Ra# , es sensible al número de

variables predictora del modelo y se define por:
n1 SCE
Ra# = 1  nk" SCT
donde k= Número de variables predictoras. k=1 en el caso de un modelo

de regresión lineal simple.
EJEMPLO 1 ( EXCEL)
20
INFERENCIA
MVH-2012-1
Horas de Calificación
Estudio en la prueba
x y
4 31
9 58
10 65
14 73
4 37
7 44
12 60 120
22 91
1 21 100
17 84
80
Calificación
60
40
20
0
0 5 10 15 20 25
Horas de estudio
21
INFERENCIA
MVH-2012-1
Resumen
Estadísticas de la regresión
Coef. correlación
0,97624786
Coef. determinación
0,95305989
R^2
R^2 ajustado 0,94719237
Error típico 5,28060356
Observaciones 10
ANÁLISIS DE VARIANZA
G.L S.C. CM F V. crítico F
Regresión 1 4529,32181 4529,32181 162,429927 1,3532E-06
Residuos 8 223,078191 27,8847739
Total 9 4752,4
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 21,6925532 3,19447033 6,79065728 0,00013914 14,3260866 29,0590197
Variable X 1 3,47074468 0,27232634 12,7448 1,3532E-06 2,84275862 4,09873074
TRANSFORMACIONES DE DATOS
Un modelo de regresión se considera lineal cuando es lineal en los

parámetros
Yi = "0 +"1 xi +%i , i=1, 2, ....., n o E(Y/xi ) = E(Yi )= "0 +"1 xi , i=1, 2, ....., n
El modelo estudiado hasta ahora es lineal tanto en los parámetros como en

la variable predictora. Veremos que cuando el modelo no es lineal en las
variables predictoras, podemos hacerlo lineal usando algunas
transformaciones adecuadas.
22
INFERENCIA
MVH-2012-1
Forma Funcional Transformación Forma de Regresión

que relaciona y con x Apropiada lineal simple
Exponencial:
y*=ln y Regresión y* contra x
y="0 /"1 x
Potencia:
y*=log y, x*=log x Regresión y* contra x*
y="0 x"1
Función Hiperbólica:
y= "0 x"1 x y*= "y , x*= "x Regresión y* contra x*
Función Recíproca:
x*= "x Regresión y contra x‡
y="0 +"1 "x
Ejemplo 5. La presión P de un gas correspondiente a varios volúmenes V

se registró como:
V cm3 50 60 70 90 100
P kg/cm$ 64.7 51.3 40.5 25.9 7.8
Las leyes de los gases ideales está dada pro la forma funcional PV! œ c,
donde ! y c son constantes. Estime las constantes anteriores.
Solución. Pi V!i œ c %i , i=1, 2,...,5
Así tenemos: ln Pi +!ln Vi = ln c +ln %i
ln Pi = ln c  !ln Vi +ln %i
Yi = "0  "1 xi +%i *
23
INFERENCIA
MVH-2012-1
Pi Vi ln Pi ln Vi s Pi
ln s
Pi ei =Pi  s
Pi
64.7 50 4.16976 3.91202 4.37853 79.7  15.0
51.3 60 3.93769 4.09434 3.81474 49.1 2.2
40.5 70 3.70130 4.24850 3.48571 32.6 7.9
25.9 90 3.25424 4.49981 2.81885 16.8 9.1
7.8 100 2.05412 4.60517 2.53928 12.7  4.9
s ! = ln
Intercepto: " s c =14,7589739 Ê sc =2568862,88.
s =!
Pendiente: : " s =  2,65347221.
1
24
INFERENCIA
MVH-2012-1
EJERCICIO. Un comerciante minorista llevó a cabo un etudio para

determinar la relación entre los gastos de publicidad semanal y las ventas
. Se obtuvieron los siguientes datos.
Costo de
40 25 20 30 50 40 20 50 40 25 50 20
publicidad ($)
Ventas ($) 450 395 390 470 495 490 420 523 519 450 510 400
La planilla de cálculo Excell proporciona los resultados para responder

las preguntas a continuación.
a) Determine la ecuación de regresión para pronosticar las ventas
semanales resultantes de los gastos de publicidad
b) Pruebe a un nivel de significación de 0.05 si el modelo es adecuado.
c) Pruebe H! : "" =6 versus H" : ""  6 Utilice un nivel de significación
de 0.025
d) Determine un intervalo de confianza del 95% para las ventas
semanales promedio cuando se gastan $45 en publicidad
e) Determine un intervalo de predicción del 95% para las ventas
semanales cuando se gasta $45 en publicidad
Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,885
Coeficiente de determinación R2 0,783
R# ajustado 0,761
Error típico 24,060
Observaciones 12
ANALISIS DE VARIANZA
G.L. Suma cuadrados Promedio cuadrados F Valor crítico de F
Regresión 1 20905,626 20905,626 36,112 0,00013
Residuos 10 5789,040 578,904
Total 11 26694,667
25
INFERENCIA
MVH-2012-1
Coef Error típico Estadístico t Prob Inf 95% Sup 95%

Interc. 337,409 21,445 15,734 2,20783E-08 289,626 385,191
X1 3,568 0,594 6,009 0,000130471 2,245 4,892
Solución
a) La variable independiente es costo en publicidad (x) y la dependiente

es ventas (y)
y = 337,409 + 3.568 x
s
b) Se debe realizar la prueba H0 : "" =0 versus H" : "1 Á 0
Como el valor-p es 0.00013 =P(F(1,10)  36.112) que resulta

significativo al 5% rechazamos H! , lo que indicaría que el modelo es
adecuado. Además vemos que el 78.3% de la variación total de las ventas
se explica por el gasto en publicidad.
c) H! : "" =6 versus H" : ""  6
Rechazamos H0 si tc es menor que t0.025 (10) =  t!Þ975 (10)=  2.23

6
t- = 3,568
0,594 =  4.094 que es menor que  2.23 Ê Rechazamos
que " 6.
d) t!Þ975 (10) =2.23 y! = 337,409 + 3.568 (45)=497.969 cuando x0 = 45.

s
El intervalo pedido es :
26
INFERENCIA
MVH-2012-1
y! „ t!Þ975 (10) s É n" + Ðx0Sxx


x )#
s =
497.969 „ 2.23 (24,060)É "#

"
 Ð%&$%Þ"'()#
"'%!Þ'&*
œ 497.969 „ 2.23 (24,060)ÐÞ$*$&Ñ

œ %*(Þ*'* „ #"Þ""$
Ð476Þ856 à 519Þ082Ñ.
y! „ t!Þ975 (10) s Ê"  +

" Ðx 0  
x )#
eÑ s
n Sxx
= 497.969 „ 2.23 (24,060)É1+ "#

#
" Ð%&$%Þ"'()
+ "'%!Þ'&*
=497.969 „ 2.23 (24,060)Ð1.0746Ñ
=%*(Þ*'* „ 57.6564
Ð%40.3126 à &55.6254Ñ.
27

Regresion - Corregido 311

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion - Corregido 311

Transféré par

Droits d'auteur :

Formats disponibles

DEPARTAMENTO DE ESTADISTICA

Establecer relaciones que posibiliten predecir una variable en términos de

-Se realizan estudios para predecir las ventas potenciales de un nuevo

-Los gastos familiares en entretención en términos del ingreso familiar.

-El consumo per cápita de ciertos alimentos en términos de sus valores

Aunque es deseable por supuesto predecir una cantidad exactamente en

La regresión lineal tiene como objetivo analizar un modelo que pretende

El modelo lineal tiene la forma:

Y= "0 +"1 x+% Í Y= E(Y) +% ............. (1)

Y= "0 +"1 x" + "# x# +ÞÞÞÞ+"k xk +% Í Y= E(Y) +% .......... (2)

La respuesta en ambos casos está constituida de dos partes: una

Observación. En el modelo (1) y (2), deberíamos denotar E(Y) por

El modelo (1) recibe el nombre de modelo de regresión lineal simple

El modelo (2) corresponde a un modelo de regresión lineal múltiple, ya

En el caso del modelo (1) , "0 se denomina el intercepto del modelo. La

Cuando hablamos de un modelo estadístico lineal para Y queremos decir

Ejemplo. Si creemos que Y es función de una variable T, temperatura de

Yi = "0 +"1 xi +%i , i=1,...,n Í E(Yi ) = "0 +"1 xi , i=1,...,n

donde E(%i )=0 , Var(%i )=5 2 , i=1,...,n

Luego para un par (xi ,yi ) se satisface:

yi = "0 +"1 xi +%i ...........................(3)

donde %i es el valor que asume el error cuando la v.a. Yi toma el valor yi .

Al utilizar la recta ajustada : E(sY) = sy = " s 0 +"s1 x cada par de

yi = "0 +"1 xi +%i Í yi  Ð "0 +"1 xi Ñ œ %i

METODO DE LOS MINIMOS CUADRADOS (MMC)

El método de los cuadrados mínimos consiste en minimizar la suma de los

œ ! ssi !yi = n " s 1 !x i

Resolviendo este sistema de ecuaciones (llamada ecuaciones normales),

Notación. Sxy =!(xi  

PROPIEDADES MAS IMPORTANTES DE LA RECTA ESTIMADA

1.- !ei = 0 2.- ! e2i es mínimo.

Observación. SCE= ! e2i œ ! ei Ðyi  s

Ejemplo 1. Consideremos los siguientes datos acerca del número de

El diagrama de dispersión sugiere que la calificación promedio para un

E(Y) = "0 +"1 x

Tenemos: n=10, !xi =100, !yi =564, !x2i =1376 , ! xi yi =6945

Por lo tanto: s 1 = Sxy = 1305 =3.471

y la recta de mínimos cuadrados es: y = 21.69+3.471x.

Esta persona obtendría : 21.69+3.471(14)=70,284 ¸ 70 puntos.

INFERENCIA EN EL MODELO DE REGRESION LINEAL SIMPLE

En el modelo de regresión lineal

Yi = "0 +"1 xi +%i , i=1,...,n

Supondremos que %i µ N(0, 5 2 ) , i=1,...,n

Los valores "s0 , "

Las variables aleatorias Yi son independientes con media E(Yi ) =

s 1 es una combinación lineal de las v.a. Yi y

= ! +i ( "0 +"1 xi ) = "1 i=1

Por lo tanto, bajo el supuesto de normalidad de los errores, tenemos que:

s 0 ) = " !( "0 +"1 xi )  "1

Observación. Para realizar inferencias respecto de los parámetros,

Ahora como estamos usando Y s i como estimador de E(Yi ), parece natural

Inferencias relacionadas con ""

"1 representa la pendiente de la recta de regresión e indica el cambio en el

"0 es sólo la ordenada al origen y es poco frecuente hacer inferencias con

s "  "1 ÑÈSxx

Este estadístico nos permitirá construir intervalos de confianza para "1 y

Intervalo de confianza para "1 .

s " „ t1-!/2 (n  2) S/ ÎÈSxx Ñ

Prueba de hipótesis para "1 .

Para una región crítica de tamaño !:

Ejemplo 2. (Continuación Ejemplo1).

Pruebe H0 : "1 =3 versus H1 : ""  3 con !=0.01

s "  3ÑÈSxx Ð3.471  3Ñ19.3907