Vous êtes sur la page 1sur 27

DEPARTAMENTO DE ESTADISTICA

INFERENCIA
MVH-2012-1

REGRESION LINEAL

Establecer relaciones que posibiliten predecir una variable en términos de


otras es un objetivo fundamental en muchas investigaciones estadísticas.
Por ejemplo:

-Se realizan estudios para predecir las ventas potenciales de un nuevo


producto en términos de su precio.

-Los gastos familiares en entretención en términos del ingreso familiar.

-El consumo per cápita de ciertos alimentos en términos de sus valores


nutricionales y la cantidad de dinero que se gaste en publicidad en TV.

Aunque es deseable por supuesto predecir una cantidad exactamente en


términos de otra (u otras) rara vez es posible y en la mayoría de los casos
tenemos que conformarnos con predecir promedios o valores esperados.
Así por ejemplo, podemos predecir la producción promedio de cierta
variedad de trigo en términos de datos referente a la cantidad de lluvia en
el mes de julio. También en el mejor de los casos, el desempeño promedio
de los estudiantes que ingresan a la universidad en términos de sus
puntajes PSU.

La regresión lineal tiene como objetivo analizar un modelo que pretende


explicar el comportamiento de una variable Y, denominada variable
respuesta o variable dependiente, utilizando la información
proporcionada por una variable X o más de una variable X1 , X# ß ÞÞÞß Xk .
llamadas variables independientes.

El modelo lineal tiene la forma:

Y= "0 +"1 x+% Í Y= E(Y) +% ............. (1)

Y= "0 +"1 x" + "# x# +ÞÞÞÞ+"k xk +% Í Y= E(Y) +% .......... (2)

1
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

La respuesta en ambos casos está constituida de dos partes: una


determinista o fija, E(Y) que se denomina ecuación de regresión y la otra
aleatoria, %, que muestra nuestra incapacidad para modelar en forma
precisa el comportamiento de Y. % se llama error del modelo o
sencillamente error. Supondremos que la variable aleatoria % tiene media
cero y varianza 5 # , esto es E(%)=0 y Var(%)= 5 # .

Observación. En el modelo (1) y (2), deberíamos denotar E(Y) por


E(Y/x) y E(Y/x1 ,x2 ,...,xn ) respectivamente, para reflejar el hecho que el
valor esperado de Y está condicionado al valor registrado de la variable
independiente x o valores registrados de las variables independientes
x1 ,x2 ,...,xn en el modelo (2).

El modelo (1) recibe el nombre de modelo de regresión lineal simple


porque E(Y) = "0 +"1 x es una recta y simple porque involucra sólo una
variable independiente, x.

El modelo (2) corresponde a un modelo de regresión lineal múltiple, ya


que E(Y) = "0 +"1 x" + "# x# +ÞÞÞÞ+"k xk es un hiperplano de ‘k y están
involucradas k variables independientes.

Los coeficientes "0 , "1 ,...., "k en (2) son los parámetros del modelo.
Estos denotan la magnitud del efecto que las variables explicativas
x1 ,x# ,...,xk tienen sobre la variable Y.

En el caso del modelo (1) , "0 se denomina el intercepto del modelo. La


aparición de este término constante puede interpretarse como la presencia
de una variable x0, cuyo valor es siempre 1. "1 corresponde a la pendiente
de la recta de regresión y proporciona el cambio en la variable respuesta
por unidad de cambio en la variable independiente x.

2
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Cuando hablamos de un modelo estadístico lineal para Y queremos decir


que E(Y) es una función lineal en los parámetros desconocidos "0 , "1 (o
"0 , "1 ,..., "k ) y no necesariamente una función lineal de x ( o de x" ,
x# ,ÞÞÞÞ., xk ).
Así, Y= "0 +"1 ln x+% es un modelo lineal ya que ln x es una constante
conocida.

Ejemplo. Si creemos que Y es función de una variable T, temperatura de


un proceso químico, podríamos modelar : Y= "0 +"1 T+ "# eX +%. Este
es un modelo lineal, ya que es lineal en los parámetros. Si hacemos x" =T,
x2 =/T obtenemos el formato del modelo (2): Y= "0 +"1 x" + "# x# +%.

En el caso del modelo de regresión lineal simple (1), sean (xi ,yi ) ,
i=1,...,n, n pares de puntos recogidos de algún experimento o estudio. Si
el gráfico de estos puntos (diagrama de dispersión ) amerita una
regresión lineal, entonces podemos pensar que si se tomaran muestras
adicionales utilizando los mismos valores de x, se debe esperar que los
valores de y varíen, de aquí que el valor yi en el par (xi , yi ) es el valor
observado de una variable aleatoria Yi . Así la variable aleatoria Yi para el
valor fijo x=xi , tiene una distribución de probabilidad (condicional a
x=xi ) con media E(Yi ) = "0 +"1 xi .

Si se postula que todas las medias E(Yi ) = E(Y/xi ) caen sobre una linea
recta, cada Yi puede describirse por el modelo de regresión lineal simple

Yi = "0 +"1 xi +%i , i=1,...,n Í E(Yi ) = "0 +"1 xi , i=1,...,n

donde E(%i )=0 , Var(%i )=5 2 , i=1,...,n

Luego para un par (xi ,yi ) se satisface:

yi = "0 +"1 xi +%i ...........................(3)

3
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

donde %i es el valor que asume el error cuando la v.a. Yi toma el valor yi .

La ecuación (3) puede ser considerada como el modelo para una sola
observación yi .

Al utilizar la recta ajustada : E(sY) = sy = " s 0 +"s1 x cada par de


observaciones (xi ,yi ) satisface la relación yi = " s 0 +"
s 1 x i + ei donde ei =
yi  s
yi se llama residuo y describe el error en el ajuste del modelo en el
punto i de los datosÞ La diferencia entre %i y ei se muestra en la figura
siguiente.

yi = "0 +"1 xi +%i Í yi  Ð "0 +"1 xi Ñ œ %i

s 0 +"
yi = " s 1 x i + ei Í s 0 +"
yi  ( " s 1 x i ) = yi  s
y i = ei

METODO DE LOS MINIMOS CUADRADOS (MMC)

El método de los cuadrados mínimos consiste en minimizar la suma de los


cuadrados de los residuosß donde los residuos corresponden a las
s 0 +"
yi = "
desviaciones verticales desde la recta ajustada. Así si s s 1 x i es el
valor ajustado para el i-ésimo valor de y cuando x=xi , entonces la
desviación del valor observado de y, yi y el valor ajustado s yi es yi 
yi = ei = residuo. El MMC minimiza !e2i =SCE.
n
s
i=1

SCE =! (yi  s
yi )2 = ! yi  ( " s 1 x i ) ‘2 = Suma Cuadrado del
n n
s 0 +"
i=1 i=1
Error

s0 y "
Si SCE posee un mínimo éste ocurre para los valores " s 1 que
satisface:

4
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

œ ! ssi !yi = n " s 1 !x i


n n
$ SCE s0 + "
$"s0
i=1 i=1

œ ! ssi ! xi yi = "
s 0 !x i + "
s 1 !x2i
n n n
$ SCE
$"s1
i=1 i=1 i=1

Resolviendo este sistema de ecuaciones (llamada ecuaciones normales),


obtenemos:

!xi yi  nx !(xi  
n n
y x ) Ðyi  
y)
s0 =  s 1 Sxy
!x2i  nx !(xi  
s1 = i=1 i=1
" y  " x ; " n = n =
2 Sxx
x )2
i=1 i=1

Notación. Sxy =!(xi  


n
x ) Ðyi  
y)

Sxx = !(xi  
i=1
n
x )2

Syy = !(yi  
i=1
n
y )2.
i=1

PROPIEDADES MAS IMPORTANTES DE LA RECTA ESTIMADA

1.- !ei = 0 2.- ! e2i es mínimo.


n n

i=0 i=1

! ! ! x i ei = 0 , ! s
n n n n

3.- yi = s yi Ê 
y = s
y 4.- y i ei = 0
i=0 i=0 i=0 i=0

 ,
5.- La recta estimada contiene al punto (x y ).

5
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Observación. SCE= ! e2i œ ! ei Ðyi  s


yi ) =! yi ei  0 =! yi Ðyi  s
n n n n
yi )
i=1 i=1 i=1 i=1

= ! y#i  !yis
yi = ! y#i  !yi ( "
n n n n
s 0 +"
s1 x i )
i=1 i=1 i=1 i=1

= ! y#i  !yi ( 
n n
s 1
y  " s1 x i )
x +"
i=1 i=1

= ! y#i  n  s 1 !yi x i
n n
s 1
y #n" x 
y +"

s 1 ( !yi x i  n 
i=1 i=1
n
=Syy  " xy)
i=1
s 1 Sxy .
= Syy  "

Ejemplo 1. Consideremos los siguientes datos acerca del número de


horas de estudio de 10 personas para un examen de estadística y sus
calificaciones obtenidas.

6
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Horas de Calificación
Estudio en la prueba
x y
4 31
9 58
10 65
14 73
4 37
7 44
12 60
22 91
1 21
17 84

DIAGRAMA DE DISPERSION

100
80
60
Nota

40
20
0
0 10 20 30
Horas de estudio

El diagrama de dispersión sugiere que la calificación promedio para un


número de horas de estudios dado, bién puede relacionarse por medio de
una ecuación del tipo

E(Y) = "0 +"1 x

7
DEPARTAMENTO DE ESTADISTICA
INFERENCIA

Tenemos: n=10, !xi =100, !yi =564, !x2i =1376 , ! xi yi =6945


MVH-2012-1

Sxx = !(xi  
n
x ) 2 = 1376  10(10)2 = 376

Sxy = ! xi yi  nx
i=1
y = 6945  10Ð10Ñ(56.4) =1305.

Por lo tanto: s 1 = Sxy = 1305 =3.471


"
Sxx 376

s0 = 
" s 1
y  " x = 56.4  3.471(10)=21.69

y la recta de mínimos cuadrados es: y = 21.69+3.471x.


s

Con esta ecuación podemos predecir por ejemplo, cuál será la calificación
promedio que obtiene una persona que estudia 14 horas para el examen.

Esta persona obtendría : 21.69+3.471(14)=70,284 ¸ 70 puntos.

INFERENCIA EN EL MODELO DE REGRESION LINEAL SIMPLE

En el modelo de regresión lineal

Yi = "0 +"1 xi +%i , i=1,...,n

Supondremos que %i µ N(0, 5 2 ) , i=1,...,n


%" , %2 ,...,%n son variables aleatorias independientes con E(%i ) =0 , Var(%i )
=5 # . Este supuesto implica que , dado x=xi , Yi µ N( "0 +"1 xi , 5 2 ) ,
i=1,...,n
Además Y1 ,....,Yn son variables aleatorias independientes.

8
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Los valores "s0 , "


s 1 son sólo estimaciones de los parámetros "0 , "1 . Si el
experimento se repite una y otra vez, cada vez que se utilizan los mismos
valores fijos de x es muy probable que las estimaciones resultantes de "0
y "1 difieran de un experimentro a otro. Por lo tanto " s0 y " s 1 serán
también variables aleatorias.

Las variables aleatorias Yi son independientes con media E(Yi ) =


"0 +"1 xi y Var(Yi ) = Var(%i ) =5 2 .

!(xi   !((xi  
n n
 
x ) Ð Yi  Y ) x )Yi  (xi  
x )Y )

!(xi   !(xi  
s 1 = i=1
Como vimos " = i=1
n n
x )2 x )2
i=1 i=1

!(xi  
n

= " +i Yi
x )Yi
i=1 (xi  
x)
= , con +i =
Sxx Sxx

s 1 es una combinación lineal de las v.a. Yi y


Así "

s 1 ) =! +i E(Yi )
E( "

!(xi  
n

= ! +i ( "0 +"1 xi ) = "1 i=1


x )2

!(xi  
n = "1 .
2
x)
s 1 )= Var(! +i E(Yi ))
i=1
Además, Var ( "

!(xi  
n

= ! +i2 Var(Yi ) =
x)
1
!(xi   !(xi  
i=1

x )2‘
n 52 = n 52
2
x )2
i=1 i=1

9
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Por lo tanto, bajo el supuesto de normalidad de los errores, tenemos que:


2
s 1 µ N ( "1 , 5
" )
Sxx

!Yi
n

s0 = 
Ahora como " s 1
Y  " x= i=1 s 1
 " x,
n

s 0 ) = " !( "0 +"1 xi )  "1


n
entonces E( " n x = "0 .
i=1

!Yi
x ! +i Yi )
n

s 0 ) =Var ( i=1
Var( " 

œ Var ( ! Yi (
n
"
 +i
x )Ñ

= !(
n
"
n  +i
x )2 5 2

!x2i
n

n !(xi  
i=1
= n 5#
x )2

!x2i 5 #
i=1
n

s 0 µ N(" 0 , i=1
así, " )
n Sxx

Observación. Para realizar inferencias respecto de los parámetros,


necesitamos estimar 5 # Þ Bajo el supuesto de normalidad, podemos
encontrar que el estimador máximo verosímil de 5 2 está dado por
!(yi  s
n
yi )#
i=1
s# œ
5 y un estimador insesgado de 5 # es:
n

10
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

!(yi  s !e2i
n n
yi )#
i=1 i=1 SCE
S2/ œ = = .
n2 n2 n2

!( yi 
n
y )2

Antes siempre habíamos utilizado Y como estimador de . y S2 = i=1 n"
como estimador de 5 # .

Ahora como estamos usando Y s i como estimador de E(Yi ), parece natural


usar éste para basarnos en un estimador de 5 2 mediante SCE.

SCE (n  2)S/2 # #
s
Ahora = µ ; (n  2). Además, S / y " i , i=0,1 son
52 52
independientes.

Inferencias relacionadas con ""

"1 representa la pendiente de la recta de regresión e indica el cambio en el


valor medio de la distribución de Y por unidad de cambio en x.

"0 es sólo la ordenada al origen y es poco frecuente hacer inferencias con


respecto a este parámetro, salvo si el modelo incluye a x=0.

s 52 (n  2)S2/
Como " 1 µ N ( "1 , ) y 2
µ ;# (n  2), tenemos que el
Sxx 5
estadístico:

s "  "1 ÑÈSxx


s " "1
5 /ÈSxx
"
Ð"
É ÐÐnn#Ñ
T= = µ t (n  2)
2)S/ 2
S/
52

Este estadístico nos permitirá construir intervalos de confianza para "1 y


realizar pruebas de hipótesis acerca de "1 .

11
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Intervalo de confianza para "1 .

s " „ t1-!/2 (n  2) S/ ÎÈSxx Ñ


Ð"

Prueba de hipótesis para "1 .

Ú H1 : "1  " !
versus Û H1 : "1  "1!
1

Ü H1 : "1 Á "1!
H0 : "1 = "1!

Para una región crítica de tamaño !:

Ú tc  t1! (n  2)
Se rechaza H0 si Û tc   t1! (n  2)
Ü ¸tc ¸  t1!Î# (n  2)

Ejemplo 2. (Continuación Ejemplo1).

Pruebe H0 : "1 =3 versus H1 : ""  3 con !=0.01

s "  3ÑÈSxx Ð3.471  3Ñ19.3907


Ð"
tc = = =1.731
S/ 5.2766

como t0.99 (8)=2.896. No rechazamos H0 . Esto es, no podemos concluir


que una hora de estudio extra incremente en promedio la calificación en
más de 3 puntos.

Construyamos ahora un intervalo del 95% de confianza para "1 .

s " „ t1-!/2 (n  2) S/ ÎÈSxx Ñ= 3.4707 „ 2.31(.2723) =(2.84 , 4.10).


Ð"

12
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

PREDICCION

s 0 +"
y= "
La ecuación s s 1 x puede utilizarse para:

1) pronosticar o predecir la respuesta media E(Y/x0 ) en x=x0 , donde x0 no


necesariamente es uno de los valores predeterminado en la muestra o

2) para predecir un valor futuro y0 de la variable Y0 cuando x=x0 .

1) Intervalo de predicción para una respuesta media E(Y/x0 )= "0 +"1 x0

s 0 +"
s0 = "
El estimador puntual de E(Y/x0 ) en x=x0 es: Y s 1 x0
Tenemos
s 0 )+x0 E( "
s 0 ) = E( "
E( Y s 1 ) ="0 +"1 x0

s 0 )= Var( "
Var ( Y s 0 +"
s 1 x0 )
 s s  s 
=Var (Y  " 1 x +" 1 x0 ) =Var (Y  " 1 (x0  x ))
  s
=Var (Y )+ (x0   s 1 ), pues Cov( (Y
x )2 Var(" , " 1 ) =0
5 2
(x0   x) 5 2 2
= +
n Sxx
 2
# " (x0  x )
=5 Ð + )
n Sxx
 2
s s s # " (x0  x )
Así Y0 = " 0 +" 1 x0 µ N ("0 +"1 x0 , 5 Ð + )
n Sxx

Luego, el intervalo de confianza (1  !)100% para la respuesta media


E(Y/x0 )= "0 +"1 x0 se obtiene a partir del pivote

s 0  Ð "0 +"1 x0 Ñ
Y
S/ É "n + (x0Sxxx )
T= 2
µ t(n  2)

13
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

y0 „ t1!/2 S/ Ë +
" (x0  
x )2
(s Ñ
n Sxx

Ejemplo 3. ( Continuación Ejemplo1). Determine los límites del 95% de


confianza para la respuesta media cuando x0 =14 horas de estudio

De la ecuación de regresión, encontramos para x0 =14

y0 = 21.69+3.471(14) =70.284 ¸ 70
s

x =10, Sxx =376 , É SCE



n2 =5.2866, t0.975 (8)=2.31

(70 „ 2.31(5.2866) É 10
2
" (1410)
+ 376 Ñ = (70 „ 4.61) =(65.918, 74.082)

Por lo tanto 65.918<E(Y/x=14)<74.082.

Al repetir los cálculos anteriores para cada uno de los valores diferentes
de x0 se pueden obtener los correspondientes límites de confianza para
cada E(Y/x0 )=E(Y0 ). Estos límites constituyen la denominada banda de
s 0 +"
confianza, ya que éstas encierran a la recta ajustada sy = " s 1 x.

2) Intervalo de predicción para una respuesta futura observada

Para obtener un intervalo de predicción para un sólo valor y0 de la


variable Y0 , es necesario estimar la varianza de las diferencias entre la
ordenada sy0 obtenida de la recta ajustada en muestreos repetidos, cuando
x=x0 y la correspondiente ordenada real y0 . Se puede considerar la
diferencia muestral sy0  y0 como un valor de la variable aleatoria Ys0 
Y0 cuya distribución muestral es normal con media

s 0 +"
s 0  Y0 ) = E( "
E( Y s 1 x0  Ð "0 +"1 x0  %0 Ñ) =0

14
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

y varianza

s 0 +"
s 0  Y0 ) = Var( "
Var( Y s 1 x0  Ð "0 +"1 x0 )  %0 )
s 0 +"
=Var( " s 1 x 0  %0 )
 s s
=Var(Y  " 1 x +" 1 x 0  % 0 )
5 (x0  
#
x )2 5 # #
= Ð + +5 )
n Sxx
s 0 Y0
Y
El intervalo se obtiene a partir del pivote : T= µ t(n  2)
S/ Ê1+ n" +
(x0 
x )2
Sxx

y0 „ t1!/2 S/ Ë1+ +
" (x0  
x )2
y está dado por: ( s Ñ
n Sxx

Este intervalo representa un intervalo que tiene probabilidad igual a 1  !


de contener no un parámetro sino un valor futuro y0 de la v.a. Y0 .

Ejemplo 4. (Continuación Ejemplo 1). Determine un intervalo de


predicción al 95%, cuando x0 =14.

Solución.
(70 „ 2.31(5.2866) É1+ 10
2
" (1410)
+ 376 Ñ = (56.95, 83.05)

Si un estudiante estudia 14 horas obtendrá en el futuro una nota en el


intervalo (56.95, 83.05) con probabilidad 0.95.

Observación. Y0 para x0 =14 − (56.95, 83.05). Intervalo de predicción


E(Y/x0 =14) − (65.918, 74.082). Intervalo de confianza.

PROCEDIMIENTO DE ANALISIS DE VARIANZA

15
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Con frecuencia el problema de analizar la calidad de la linea de regresión


estimada se maneja a través de un enfoque de análisis de varianza,
ANOVA.

La ANOVA es un procedimento que consiste en separar la variación total


de la variable dependiente Y, en componentes.

Suponga que se tiene n puntos (xi , yi ) y que se estima la recta de


regresión. En la estimación de 5 2 establecimos la identidad.

s 1 Sxy =SCE
Syy  "

s 1 Sxy  SCE
Syy = "

s 1 = Sxy Ê "
Ahora " s 1 Sxx =Sxy
Sxx
!
n
s s # s 1
s 1 xi  "
Ê " 1 Sxy = ( " 1 ) Sxx = ( " x )2

!
i=1
 n _
s  s
= Ð Y  " 1 x  " 1 xi  Y)2

!
i=1
n _
s s
= Ð " 0  " 1 xi  Y)2

!
i=1
n _
s
= (Yi  Y)2 =SCR

Dado que Syy =!(Yi  Y)2 , finalmente tenemos:


i=1
_
n

!(Yi  Y) =!(Y
s i  Y) + !(Yi  Y
i=1
n _ n _ n
2 2 s i )2
i=1 i=1 i=1
SCT = SCR + SCE

SCR = Suma de cuadrados de regresión refleja la cantidad de variación de


los valores de y explicados por el model, en este caso la recta ajustada.

16
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

SCE = Suma cuadrado del error proporciona la variación alrededor de la


recta de regresión.

Si se desea probar H0 : "1 =0 versus H1 : "1 Á 0 ß esto es, H! postula que el


modelo es E(Y/x) = "0 , que diría que la variación de Y resulta de
fluctuaciones aleatorias que son independientes de los valores de x.

Bajo H! se puede mostrar que :

SCR SCE
2
y 2
son variables independientes, cada una con distribución ;2
5 5
con 1 y n  2 grados de libertad respectivamente. De donde

SCT SCR SCE


2
= 2
+ 2 µ ;2 (n  1) , gl= n  2+1
5 5 5
SCR
1 CMR
El estadístico de prueba es: F= SCE
= y se rechaza H0 : "1 =0 al nivel
n2
CME
! cuando Fc  F1! (1, n  2). Los cálculo se acostumbran a resumir en
la siguiente tabla de análisis de varianza.

TABLA ANOVA
Fuente de variación g.l. SC CM F
Regresión 1 SCR CMR=SCR/1
CMR/CME
Error n2 SCE CME=SCE/(n  2)
Total n1 SCT

Cuando se rechaza H0 (esto es se acepta que "1 Á 0) se concluye que


existe una cantidad significativa de variación en la respuesta
contabilizada por el modelo postulado, la función de línea recta.

Ejemplo 5. ( Continuación Ejemplo1).

17
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

TABLA ANOVA
Fuente de variación g.l. SC CM F v-p
Regresión 1 4529.321809 4529.321809
162.42 0.000
Error 8 223.0781915 27.88472
Total 9 4752.4

Conclusión. Se rechaza H0.


Observación. Al hacer inferencias acerca de "1 usamos:

s "  "1 ÑÈSxx


Ð"
É SCE
t= µ t (n-2)

s " ÈSxx
n2
"
É SCE
Ahora al probar H0 : "1 =0 versus H1 : "1 Á 0, el estadístico es t=
n2
y la hipótesis bajo consideración es idéntica a la que se prueba en la tabla
ANOVA. es decir, la hipótesis nula establece que la variación en la
respuesta se debe unicamente al azar. El análisis de varianza utiliza la
distribución F en lugar de la distribución t para una hipótesis alternativa
de dos colas, los dos procedimientos son idénticos, ya que

Si T µ t(/ ) entonces T2 µ F(1,/ ). En efecto

Z Z2 /1 ;2 /1
È ;2 / /
T= Ê 2 = 2 =F(1,/ ) y
; // ; //

#
s
" 1 Wxx s
" 1 Wxy SCR
#
T = SCE
= SCE = SCE = F
n-2 n-2 n-2

Por supuesto, la prueba t permite probar H0 : "1 =0 versus una alternativa


unilateral, mientras que la prueba F se limita a probar H0 : "1 =0 versus H1 :
"1 Á 0 .

18
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

EL COEFICIENTE DE DETERMINACION

Si SCT y SCR representan la variación total y la variación debido al


efecto lineal o a la regresión, entonces el coeficiente de determinación,
R2 , se define por
SCR
R2 = SCT

0  R#  "ß y mide la proporción de la variación total que es atribuible a


la recta (o curva) de regresión.

En el caso de la regresión lineal simple, R2 corresponde al cuadrado del


32 = r2 )Þ Un valor cercano a 1 indica
coeficiente de correlación muestral (s
que la mayor parte de variación en los datos de respuesta (Y) se explica
por los diferentes valores de entrada (X), mientras que un valor de R#
cercano a 0 indica que poco de la variación se explica por los diferentes
valores de entrada.

Lo anterior se puede apreciar de: SCT=SCR+SCE, entonces


SCR=SCT  SCE de donde
SCE
R2 = SCTSCT =1 SCE
SCT

Si R# =1, entonces SCE=0 y toda la variación observada de Y


corresponde o es atribuible al modelo de regresión y estaríamos frente a
una situación ideal, luego mientras más cercano se encuentre R2 de 1,
mayor es el grado de representatividad de las variables predictoras en el
modelo.

Con frecuencia se utiliza el valor de R2 como indicador de qué tan bién se


ajusta el modelo de regresión a los datos; un valor cercano a 1 indica un
buen ajuste, mientras que uno cercano a 0 indica un ajuste pobre. En otras
palabras, si el modelo de regresión puede explicar la mayor parte de la

19
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

variación de los datos respuestas, entonces se considera que se ajusta bién


a los datos.

Como dijimos en el caso de regresión lineal simple, si el coeficiente de


!(xi  
n
x )((yi  
y)
ÈSxx Sxy
Sxy
correlación muestral r= i=1 œ es igual
!  2!
Ë (xi  x ) (yi  y )
n n
 #
i=1 i=1
a 0.9, por ejemplo, entonces implica que un modelo de regresión lineal
simple para estos datos explica el 81% de la variación en los valores
respuesta. Es decir el 81% de la variación en los valores respuesta se
explica por los diferentes valores de la variable independiente o de
entrada.

El coeficiente de determinación ajustado, Ra# , es sensible al número de


variables predictora del modelo y se define por:
n1 SCE
Ra# = 1  nk" SCT

donde k= Número de variables predictoras. k=1 en el caso de un modelo


de regresión lineal simple.

EJEMPLO 1 ( EXCEL)

20
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Horas de Calificación
Estudio en la prueba
x y
4 31
9 58
10 65
14 73
4 37
7 44
12 60 120
22 91
1 21 100
17 84
80
Calificación

60

40

20

0
0 5 10 15 20 25
Horas de estudio

21
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Resumen

Estadísticas de la regresión
Coef. correlación
0,97624786
Coef. determinación
0,95305989
R^2
R^2 ajustado 0,94719237
Error típico 5,28060356
Observaciones 10

ANÁLISIS DE VARIANZA
G.L S.C. CM F V. crítico F
Regresión 1 4529,32181 4529,32181 162,429927 1,3532E-06
Residuos 8 223,078191 27,8847739
Total 9 4752,4

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%


Intercepción 21,6925532 3,19447033 6,79065728 0,00013914 14,3260866 29,0590197
Variable X 1 3,47074468 0,27232634 12,7448 1,3532E-06 2,84275862 4,09873074

TRANSFORMACIONES DE DATOS

Un modelo de regresión se considera lineal cuando es lineal en los


parámetros

Yi = "0 +"1 xi +%i , i=1, 2, ....., n o E(Y/xi ) = E(Yi )= "0 +"1 xi , i=1, 2, ....., n

El modelo estudiado hasta ahora es lineal tanto en los parámetros como en


la variable predictora. Veremos que cuando el modelo no es lineal en las
variables predictoras, podemos hacerlo lineal usando algunas
transformaciones adecuadas.

22
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Forma Funcional Transformación Forma de Regresión


que relaciona y con x Apropiada lineal simple
Exponencial:
y*=ln y Regresión y* contra x
y="0 /"1 x
Potencia:
y*=log y, x*=log x Regresión y* contra x*
y="0 x"1
Función Hiperbólica:
y= "0 x"1 x y*= "y , x*= "x Regresión y* contra x*
Función Recíproca:
x*= "x Regresión y contra x‡
y="0 +"1 "x

Ejemplo 5. La presión P de un gas correspondiente a varios volúmenes V


se registró como:

V cm3 50 60 70 90 100
P kg/cm$ 64.7 51.3 40.5 25.9 7.8

Las leyes de los gases ideales está dada pro la forma funcional PV! œ c,
donde ! y c son constantes. Estime las constantes anteriores.

Solución. Pi V!i œ c %i , i=1, 2,...,5

Así tenemos: ln Pi +!ln Vi = ln c +ln %i

ln Pi = ln c  !ln Vi +ln %i

Yi = "0  "1 xi +%i *

23
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Pi Vi ln Pi ln Vi s Pi
ln s
Pi ei =Pi  s
Pi
64.7 50 4.16976 3.91202 4.37853 79.7  15.0
51.3 60 3.93769 4.09434 3.81474 49.1 2.2
40.5 70 3.70130 4.24850 3.48571 32.6 7.9
25.9 90 3.25424 4.49981 2.81885 16.8 9.1
7.8 100 2.05412 4.60517 2.53928 12.7  4.9

s ! = ln
Intercepto: " s c =14,7589739 Ê sc =2568862,88.

s =!
Pendiente: : " s =  2,65347221.
1

24
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

EJERCICIO. Un comerciante minorista llevó a cabo un etudio para


determinar la relación entre los gastos de publicidad semanal y las ventas
. Se obtuvieron los siguientes datos.

Costo de
40 25 20 30 50 40 20 50 40 25 50 20
publicidad ($)
Ventas ($) 450 395 390 470 495 490 420 523 519 450 510 400

La planilla de cálculo Excell proporciona los resultados para responder


las preguntas a continuación.
a) Determine la ecuación de regresión para pronosticar las ventas
semanales resultantes de los gastos de publicidad
b) Pruebe a un nivel de significación de 0.05 si el modelo es adecuado.
c) Pruebe H! : "" =6 versus H" : ""  6 Utilice un nivel de significación
de 0.025
d) Determine un intervalo de confianza del 95% para las ventas
semanales promedio cuando se gastan $45 en publicidad
e) Determine un intervalo de predicción del 95% para las ventas
semanales cuando se gasta $45 en publicidad

Resumen
Estadísticas de la regresión
Coeficiente de correlación múltiple 0,885
Coeficiente de determinación R2 0,783
R# ajustado 0,761
Error típico 24,060
Observaciones 12

ANALISIS DE VARIANZA
G.L. Suma cuadrados Promedio cuadrados F Valor crítico de F
Regresión 1 20905,626 20905,626 36,112 0,00013
Residuos 10 5789,040 578,904
Total 11 26694,667

25
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

Coef Error típico Estadístico t Prob Inf 95% Sup 95%


Interc. 337,409 21,445 15,734 2,20783E-08 289,626 385,191
X1 3,568 0,594 6,009 0,000130471 2,245 4,892

Solución

a) La variable independiente es costo en publicidad (x) y la dependiente


es ventas (y)
y = 337,409 + 3.568 x
s

b) Se debe realizar la prueba H0 : "" =0 versus H" : "1 Á 0

Como el valor-p es 0.00013 =P(F(1,10)  36.112) que resulta


significativo al 5% rechazamos H! , lo que indicaría que el modelo es
adecuado. Además vemos que el 78.3% de la variación total de las ventas
se explica por el gasto en publicidad.

c) H! : "" =6 versus H" : ""  6

Rechazamos H0 si tc es menor que t0.025 (10) =  t!Þ975 (10)=  2.23


6
t- = 3,568
0,594 =  4.094 que es menor que  2.23 Ê Rechazamos
que "   6.

d) t!Þ975 (10) =2.23 y! = 337,409 + 3.568 (45)=497.969 cuando x0 = 45.


s
El intervalo pedido es :

26
DEPARTAMENTO DE ESTADISTICA
INFERENCIA
MVH-2012-1

y! „ t!Þ975 (10) s É n" + Ðx0Sxx



x )#
s =

497.969 „ 2.23 (24,060)É "#


"
 Ð%&$%Þ"'()#
"'%!Þ'&*

œ 497.969 „ 2.23 (24,060)ÐÞ$*$&Ñ


œ %*(Þ*'* „ #"Þ""$
Ð476Þ856 à 519Þ082Ñ.

y! „ t!Þ975 (10) s Ê"  +


" Ðx 0  
x )#
eÑ s
n Sxx

= 497.969 „ 2.23 (24,060)É1+ "#


#
" Ð%&$%Þ"'()
+ "'%!Þ'&*

=497.969 „ 2.23 (24,060)Ð1.0746Ñ

=%*(Þ*'* „ 57.6564

Ð%40.3126 à &55.6254Ñ.

27

Vous aimerez peut-être aussi