Académique Documents
Professionnel Documents
Culture Documents
( )
( )
n n
i i i i
i i
n n
i i
i i
X X Y Y X Y nXY
SP XY
b
SC X
X X X nX
= =
= =
= = = =
a Y bX = =
La interpretacin de estos valores, desde una perspectiva matemtica, es clara. El intercepto a
es el valor estimado de la variable Y cuando la variable X es cero y la pendiente b es el cambio
estimado en Y por cambio unitario en X. Sin embargo, la interpretacin de a tendr sentido
solo en el caso en que un valor de X = 0 sea posible y adems, cuando valores cercanos a
X = 0 hallan sido utilizados en la estimacin. Para ilustrar estas ideas vea el siguiente caso.
En el grfico que se presenta a continuacin se observa la relacin entre las variables dimetro
y volumen para una muestra de 7 rboles con dimetros de entre 16 y 18 pulgadas.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
91
18 17 16
60
50
40
Dimetro
V
o
l
u
m
e
n
La ecuacin de regresin estimada en este caso es:
Volumen = -79.27 + 7.5 Dimetro
El intercepto estimado es 79.27, lo cual indicara que a un dimetro de cero el volumen
estimado es de 79.27 pies cbicos. Obviamente esto no tiene ningn sentido ya que un
dimetro de cero es imposible (no habra rbol).
Aun suponiendo que un dimetro de cero fuera posible, la interpretacin del valor estimado de
Y cuando X = 0 no sera vlida ya que para la construccin del modelo se emplearon datos de
dimetros comprendidos entre 16 y 18 pulgadas. Para llevar la discusin a un plano ms
realista suponga que se desea estimar, a partir del modelo anterior, el volumen de un rbol con
un dimetro de 10 pulgadas. A continuacin se presenta un diagrama de dispersin con la
muestra completa de 31 rboles cuyos dimetros van desde 8.3 hasta 20.4.
20 15 10
80
70
60
50
40
30
20
10
Dimetro
V
o
l
u
m
e
n
La curva slida muestra la relacin entre ambas variables para los datos de los 31 rboles y la
lnea punteada corresponde a la ecuacin estimada con los 7 rboles iniciales. Como se puede
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
92
apreciar, la lnea recta es bastante buena para describir la relacin entre el dimetro y el
volumen para rboles con dimetros de entre 16 y 18 pulgadas, pero su ajuste ya no es tan
bueno conforme los valores de X se alejan de dicho rango. El modelo lineal simple podra ser
aceptable para estimar el volumen de un rbol con un dimetro de 15 inclusive 14 pulgadas
pero definitivamente no para uno de 10.
Ejemplo 1 (Cont.): Se va a estimar el modelo de regresin que considera a la variable AA
como variable predictora. Quedan como ejercicios los anlisis de los casos de las variables
H
2
S y AL.
21.08 Y = 5.3517 X =
2
289.34
i
X =
2
6789.06
i
Y =
1193.91
i i
X Y =
44 . 22
) 3517 . 5 ( 10 34 . 289
) 3517 . 5 )( 08 . 21 ( 10 91 . 1193
2
=
= b
03 . 99 ) 3517 . 5 ( 44 . 22 08 . 21 = = a
El modelo estimado es:
X Y 44 . 22 03 . 99
+ =
6.5 5.5 4.5
50
40
30
20
10
0
AA
S
a
b
o
r
En este caso el intercepto, 99.03, correspondera al puntaje estimado del sabor de un
queso cuando el logaritmo natural de la concentracin de cido actico es igual a cero.
Dado que en la estimacin de este modelo se utilizaron valores de AA de 4.477 hasta
6.365, esta interpretacin no tiene validez. La pendiente en cambio, 22.44, es siempre
interpretable y en este caso indica que por cada incremento unitario en el logaritmo natural
de la concentracin de cido actico, se estima un incremento en el puntaje del sabor de
22.44 puntos.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
93
2.3. Anlisis de Variancia
El anlisis de variancia permite evaluar si el modelo es o no significativo (si X explica o no a
Y).
Hiptesis:
H
0
: = 0
H
1
: 0
Cuadro de Anlisis de Variancia (Cuadro ANVA):
Las hiptesis anteriores son evaluadas a travs del anlisis de la variancia de Y. Dado el
modelo
i i i
e bX a Y + + = , la variancia de Y es explicada por la regresin (
i
bX ) y por el error
(e
i
). El trmino a no participa del anlisis ya que es una constante.
El cuadro de anlisis de variancia es el siguiente:
Fuentes de variacin gl SC CM Fc
Regresin 1 b SP(XY)
SC(Reg)
gl(Reg)
CM(Reg)
CM(Error)
Error n 2 SC(Y) b SP(XY)
SC(Error)
gl(Error)
Total n 1 SC(Y)
Estadstico de Prueba:
CM(Error)
CM(Reg)
= Fc
) 2 , 1 ( n
F
Regla de Decisin:
La hiptesis nula se rechaza con un nivel de significacin si el Fc resulta mayor que el valor
de tabla
) 2 , 1 , 1 ( n
F
.
Ejemplo 1 (Cont.): Para el caso de las variables Y = sabor y X = AA, se tiene lo siguiente:
H
0
: = 0
H
1
: 0
o dicho literalmente:
H
0
: El sabor del queso no depende de la concentracin de cido actico.
H
1
: El sabor del queso s depende de la concentracin de cido actico.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
94
Cuadro ANVA:
Fuentes de variacin gl SC CM Fc
Regresin 1 1476 1476 13.58
Error 8 869 109
Total 9 2345
El valor de tabla para un nivel de significacin del 5% es
) 8 , 1 , 95 . 0 (
F = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H
0
. En conclusin, existe suficiente
evidencia estadstica para aceptar que el sabor del queso depende de la concentracin de
cido actico a travs de un modelo lineal.
2.4. Coeficiente de Correlacin y de Determinacin
El coeficiente de determinacin mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente
expresin:
SC(Total)
n) SC(Regresi
2
= r
El coeficiente de correlacin es una medida de la asociacin existente entre dos variables
cuantitativas. Este coeficiente toma valores desde 1 hasta 1. Para interpretar un coeficiente
de correlacin tenga en cuenta lo siguiente:
- Un valor de 1 significa una perfecta correlacin negativa, es decir, todos los puntos caen
sobre una lnea con pendiente negativa.
- Un valor de 0 significa no correlacin.
- Un valor de 1 significa una perfecta correlacin positiva, es decir, todos los puntos caen
sobre una lnea con pendiente positiva.
El coeficiente de correlacin es la raz cuadrada del coeficiente de determinacin con el signo
de b (pendiente estimada).
Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin se tiene:
63 . 0
2345
1476
2
= = r
El 63% de la variabilidad del sabor es explicado por la concentracin de cido actico.
79 . 0 63 . 0 = = r
0.79 indica una elevada correlacin positiva.
Es preciso tener en cuenta que asociacin estadstica no implica la existencia de una relacin
causal. Por ejemplo, el siguiente grfico muestra la relacin entre las variables X: Nmero de
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
95
cigeas y Y: Nmero de habitantes (en miles) de la ciudad de Oldenburg entre los aos 1930
y 1936.
250 200 150
75
65
55
Nmero de cigeas
P
o
b
l
a
c
i
n
(
e
n
m
i
l
e
s
)
Note que el ajuste es bastante bueno.
2.5. Prediccin
El objetivo principal del anlisis de regresin es construir un modelo que permita predecir el
valor de Y cuando la variable X toma un valor determinado. Una vez que se ha determinado la
validez del modelo de regresin lineal simple, la ecuacin de pronstico estar dada por:
i i
Y a bX = +
El valor
( ) CME 1
( )
n
X X
IP Y X Y X t
n X X
= + +
( ) CME
( )
n Y X
X X
IC Y X t
n X X
= +
( ) CME 1
( )
1 (6 5.352)
35.63 2.306 108.7 1
10 2.93
35.63 26.81
[8.82; 62.44]
n
X X
IP Y X Y X t
n X X
= + +
= + +
=
=
( ) CME
( )
1 (6 5.352)
35.63 2.306 108.7
10 2.93
35.63 11.86
[23.77; 47.49]
n Y X
X X
IC Y X t
n X X
= +
= +
=
=