Académique Documents
Professionnel Documents
Culture Documents
Captulo VI
Regresin Lineal Simple
Estadstica no es solo una coleccin de tcnicas computacionales. Es una forma de
pensamiento acerca del mundo.
G. E. Dallal
1. Introduccin
En 1889 en su libro Herencia Natural, Francis Galton se refiri a la ley de la regresin
universal. El dijo que cada peculiaridad en un hombre es compartida por sus parientes, pero
en promedio, en un grado menor. A lo que l se refera era a que si un individuo tena alguna
caracterstica extrema (por ejemplo muy alto, muy bajo, muy gordo, etc.) entonces su
descendencia tendera tambin hacia esos extremos, pero stos no seran tan extremos como el
padre.
En 1903, Karl Pearson, amigo de Galton, colect ms de 1000 registros de tallas de padres e
hijos y con est informacin estim la siguiente lnea para explicar la talla del hijo en funcin
a la del padre (en pulgadas):
Talla del hijo = 33.73 + 0.516 Talla del padre
Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson not una tendencia en los padres bajos a tener hijos bajos pero en promedio no tan
bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendan a tener hijos de 64.5 a 67
pulgadas). De igual manera observ que padres altos tendan a tener hijos altos pero en
promedio no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendan a tener
hijos de 70 a 72 pulgadas). Este es el concepto de regresin a la media, es decir, existe una
tendencia a que los valores extremos se muevan hacia el promedio de la poblacin.
Este mismo fenmeno es observado frecuentemente en la prctica. Por ejemplo, individuos
con una presin arterial alta en un momento tendern en forma natural a disminuir su presin
al cabo de un tiempo ms que a aumentarla. As, si un tratamiento para disminuir la presin es
aplicado solo a personas con presin alta, el efecto del tratamiento se ver confundido con la
disminucin natural, haciendo difcil su deteccin.
88
2
47.9
5.759
7.496
1.81
3
37.3
5.892
8.726
1.29
4
21
5.242
4.174
1.58
5
0.7
4.477
2.996
1.06
6
40.9
6.365
9.588
1.74
7
18
5.247
6.174
1.63
8
15.2
5.298
5.22
1.33
9
16.8
5.366
3.664
1.31
10
0.7
5.328
3.912
1.25
Sabor
40
30
20
10
0
4.5
5.5
6.5
AA
En este caso la variable respuesta Y sera el sabor y la variable predictora X la
concentracin de cido actico. El grfico muestra una aparente relacin de dependencia
entre ambas variables en el sentido de que a mayor concentracin de cido mayor ser la
calificacin del sabor.
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
89
i=1...n
i =1
i =1
ei2 = (Yi a bX i )2
La aplicacin de este mtodo da los siguientes resultados para la estimacin de los
parmetros:
n
SP( XY )
= b =
=
SC ( X )
( X i X )(Yi Y )
i =1
(X
i =1
X )2
X Y nXY
i =1
n
i i
X
i =1
2
i
nX 2
= a = Y bX
La interpretacin de estos valores, desde una perspectiva matemtica, es clara. El intercepto a
es el valor estimado de la variable Y cuando la variable X es cero y la pendiente b es el cambio
estimado en Y por cambio unitario en X. Sin embargo, la interpretacin de a tendr sentido
solo en el caso en que un valor de X = 0 sea posible y adems, cuando valores cercanos a
X = 0 hallan sido utilizados en la estimacin. Para ilustrar estas ideas vea el siguiente caso.
En el grfico que se presenta a continuacin se observa la relacin entre las variables dimetro
y volumen para una muestra de 7 rboles con dimetros de entre 16 y 18 pulgadas.
90
Volumen
60
50
40
16
17
18
Dimetro
La ecuacin de regresin estimada en este caso es:
Volumen = -79.27 + 7.5 Dimetro
El intercepto estimado es 79.27, lo cual indicara que a un dimetro de cero el volumen
estimado es de 79.27 pies cbicos. Obviamente esto no tiene ningn sentido ya que un
dimetro de cero es imposible (no habra rbol).
Aun suponiendo que un dimetro de cero fuera posible, la interpretacin del valor estimado de
Y cuando X = 0 no sera vlida ya que para la construccin del modelo se emplearon datos de
dimetros comprendidos entre 16 y 18 pulgadas. Para llevar la discusin a un plano ms
realista suponga que se desea estimar, a partir del modelo anterior, el volumen de un rbol con
un dimetro de 10 pulgadas. A continuacin se presenta un diagrama de dispersin con la
muestra completa de 31 rboles cuyos dimetros van desde 8.3 hasta 20.4.
80
70
Volumen
60
50
40
30
20
10
10
15
20
Dimetro
La curva slida muestra la relacin entre ambas variables para los datos de los 31 rboles y la
lnea punteada corresponde a la ecuacin estimada con los 7 rboles iniciales. Como se puede
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
91
apreciar, la lnea recta es bastante buena para describir la relacin entre el dimetro y el
volumen para rboles con dimetros de entre 16 y 18 pulgadas, pero su ajuste ya no es tan
bueno conforme los valores de X se alejan de dicho rango. El modelo lineal simple podra ser
aceptable para estimar el volumen de un rbol con un dimetro de 15 inclusive 14 pulgadas
pero definitivamente no para uno de 10.
Ejemplo 1 (Cont.): Se va a estimar el modelo de regresin que considera a la variable AA
como variable predictora. Quedan como ejercicios los anlisis de los casos de las variables
H2S y AL.
Y = 21.08
X = 5.3517
b=
2
i
= 289.34
= 6789.06
X Y = 1193.91
i i
1193.91 10(21.08)(5.3517)
= 22.44
289.34 10(5.3517) 2
40
Sabor
30
20
10
0
4.5
5.5
6.5
AA
92
gl
SC
Regresin
b SP(XY)
Error
n2
SC(Y) b SP(XY)
Total
n1
SC(Y)
CM
Fc
SC(Reg)
gl(Reg)
SC(Error)
gl(Error)
CM(Reg)
CM(Error)
Estadstico de Prueba:
Fc =
CM(Reg)
F(1, n 2 )
CM(Error)
Regla de Decisin:
La hiptesis nula se rechaza con un nivel de significacin si el Fc resulta mayor que el valor
de tabla F(1 , 1, n 2) .
Ejemplo 1 (Cont.): Para el caso de las variables Y = sabor y X = AA, se tiene lo siguiente:
H0: = 0
H1: 0
o dicho literalmente:
H0: El sabor del queso no depende de la concentracin de cido actico.
H1: El sabor del queso s depende de la concentracin de cido actico.
93
Cuadro ANVA:
Fuentes de variacin
Regresin
Error
Total
gl
1
8
9
SC
1476
869
2345
CM
1476
109
Fc
13.58
El valor de tabla para un nivel de significacin del 5% es F( 0.95, 1, 8) = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H0. En conclusin, existe suficiente
evidencia estadstica para aceptar que el sabor del queso depende de la concentracin de
cido actico a travs de un modelo lineal.
2.4. Coeficiente de Correlacin y de Determinacin
El coeficiente de determinacin mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente
expresin:
r2 =
SC(Regresin)
SC(Total)
Un valor de 1 significa una perfecta correlacin negativa, es decir, todos los puntos caen
sobre una lnea con pendiente negativa.
Un valor de 1 significa una perfecta correlacin positiva, es decir, todos los puntos caen
sobre una lnea con pendiente positiva.
1476
= 0.63
2345
94
cigeas y Y: Nmero de habitantes (en miles) de la ciudad de Oldenburg entre los aos 1930
y 1936.
75
65
55
150
200
250
Nmero de cigeas
Note que el ajuste es bastante bueno.
2.5. Prediccin
El objetivo principal del anlisis de regresin es construir un modelo que permita predecir el
valor de Y cuando la variable X toma un valor determinado. Una vez que se ha determinado la
validez del modelo de regresin lineal simple, la ecuacin de pronstico estar dada por:
Yi = a + bX i
El valor Y puede interpretarse de dos maneras; como el valor individual predicho de Y para
un valor dado de X, y como la media estimada de Y para un valor dado de X. Tanto el
pronstico como la estimacin pueden tomar la forma de un intervalo, y al igual que en el
caso puntual, el intervalo puede tomar dos formas (aunque aqu no solo la interpretacin ser
diferente, sino tambin el clculo); un intervalo de prediccin para el valor individual de Y
dado un valor de X, y un intervalo de confianza para el valor medio de Y dado un valor X.
Por ejemplo, si se ha construido un modelo para predecir la precipitacin anual en funcin a
ciertos factores observables en el ao anterior, uno podra estar ms interesado en predecir la
precipitacin del prximo ao y evaluar cunto podra esta variar (intervalo de prediccin)
que en estimar la precipitacin media en aos posteriores a aos con las caractersticas del
actual. Por otro lado, si se est estudiando la relacin entre el volumen de madera y el
dimetro del rbol, uno estara ms interesado (por cuestiones de manejo forestal) en el
volumen medio de madera de un conjunto d rboles para determinado dimetro que en el
volumen de madera de un rbol en particular con dicho dimetro. De hecho, el valor de
pronstico tendr mayor variabilidad que la media estimada.
El intervalo de prediccin de 100 (1 )% para un valor de Y dado X est dado por:
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
95
1
( X X )2
IP(Y X ) = Y X t(1 / 2,n 2) CME 1 + +
2
n ( X X )
El intervalo de confianza de 100 (1 )% para la media de Y dado X est dado por:
1
( X X )2
IC ( Y X ) = Y X t(1 / 2,n 2) CME +
2
n ( X X )
Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin, se estimar puntualmente y
por intervalo el sabor de un queso en el que la variable AA es igual a 6.
La estimacin puntual est dada por:
Y = 99.03 + 22.44(6) = 35.63
Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro lado,
no todos los quesos con AA = 6 tendrn el mismo sabor, pero el puntaje promedio
estimado de estos ser tambin igual a 35.61.
El intervalo de prediccin del 95% para el valor individual est dado por:
1
( X X )2
IP(Y X ) = Y X t(0.975,n 2) CME 1 + +
2
n ( X X )
1 (6 5.352) 2
= 35.63 2.306 108.7 1 + +
2.93
10
= 35.63 26.81
= [8.82; 62.44]
El intervalo de confianza del 95% para la media de Y es:
1
( X X )2
IC ( Y X ) = Y X t(0.975,n 2) CME +
2
n ( X X )
1 (6 5.352) 2
= 35.63 2.306 108.7 +
2.93
10
= 35.63 11.86
= [23.77; 47.49]
96
Coef
-99.03
22.443
S = 10.42
SE Coef
32.76
6.090
R-Sq = 62.9%
T
-3.02
3.69
P
0.016
0.006
R-Sq(adj) = 58.3%
Analysis of Variance
Source
Regression
Residual Error
Total
DF
1
8
9
SS
1476.0
869.4
2345.4
MS
1476.0
108.7
F
13.58
P
0.006
Fit
35.63
SE Fit
5.14
95.0% CI
23.77,
47.49)
95.0% PI
8.82,
62.44)
AA
6.00
Regression Plot
Sabor = -99.0302 + 22.4434 AA
S = 10.4246
R-Sq = 62.9 %
R-Sq(adj) = 58.3 %
80
Sabor
40
Regression
95% CI
95% PI
4.5
5.5
6.5
AA
97
Ejercicios
En cada uno de los siguientes casos efecte lo siguiente:
-
0
100
2
92
4
95
8
90
12
98
16
85
30
67
2. Se desea investigar la relacin entre el porcentaje de nios que han sido inmunizados
contra la difteria, tos ferina y ttano (DPT) y la mortalidad infantil (tasa de mortalidad por
cada 1000 nios menores de 5 aos). Los datos (informacin para el 1999)
correspondientes a una muestra aleatoria de 20 pases son:
Nacin
Bolivia
Brasil
Canad
China
Egipto
Etiopa
Finlandia
Francia
Grecia
India
Inmunizacin
40
54
85
95
81
26
90
95
83
83
Mortalidad
165
85
9
43
94
226
7
9
12
145
Nacin
Inmunizacin
Italia
85
Japn
83
Mxico
65
Polonia
98
Senegal
47
Turqua
74
Reino Unido
75
USA
97
URSS
79
Yugoslavia
91
Mortalidad
11
6
51
18
189
90
10
12
35
27
3. Los grillos hacen sus chirridos rozando rpidamente una de sus alas sobre la otra.
Mientras ms rpido ellos mueven sus alas, mas fuerte es el chirrido que ellos producen.
Los cientficos han notado que los grillos mueven sus alas ms rpido cuando hace calor
que cuando hace fro. Por lo tanto, escuchando el tono de los chirridos, es posible
establecer la temperatura del aire. A continuacin se presentan registros del tono (en
vibraciones por segundo) de los chirridos de grillos en 15 diferentes temperaturas:
Vibraciones por segundo 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
Temperatura
89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
98
22
22
24
24
26
26
28
28
30
30
20.8 22.3 24.1 25.6 25.7 27.2 27.3 28.8 29.4 31.9
Temperatura (C)
Latidos/minuto
32
32
34
34
36
36
38
38
40
40
32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0
5. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva (X) para predecir la concentracin del esteroide en
plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos:
X
Y
1
30
7
25
8
31
9
27
9
39
11
38
13
43
14
49
14
55
16
48
17
51
18
64
20
63
23
68
99