Vous êtes sur la page 1sur 12

Departamento de Estadstica e Informtica

Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple


Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
88
Captulo VI
Regresin Lineal Simple
Estadstica no es solo una coleccin de tcnicas computacionales. Es una forma de
pensamiento acerca del mundo.
G. E. Dallal
1. Introduccin
En 1889 en su libro Herencia Natural, Francis Galton se refiri a la ley de la regresin
universal. El dijo que cada peculiaridad en un hombre es compartida por sus parientes, pero
en promedio, en un grado menor. A lo que l se refera era a que si un individuo tena alguna
caracterstica extrema (por ejemplo muy alto, muy bajo, muy gordo, etc.) entonces su
descendencia tendera tambin hacia esos extremos, pero stos no seran tan extremos como el
padre.
En 1903, Karl Pearson, amigo de Galton, colect ms de 1000 registros de tallas de padres e
hijos y con est informacin estim la siguiente lnea para explicar la talla del hijo en funcin
a la del padre (en pulgadas):
Talla del hijo = 33.73 + 0.516 Talla del padre
Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson not una tendencia en los padres bajos a tener hijos bajos pero en promedio no tan
bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendan a tener hijos de 64.5 a 67
pulgadas). De igual manera observ que padres altos tendan a tener hijos altos pero en
promedio no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendan a tener
hijos de 70 a 72 pulgadas). Este es el concepto de regresin a la media, es decir, existe una
tendencia a que los valores extremos se muevan hacia el promedio de la poblacin.
Este mismo fenmeno es observado frecuentemente en la prctica. Por ejemplo, individuos
con una presin arterial alta en un momento tendern en forma natural a disminuir su presin
al cabo de un tiempo ms que a aumentarla. As, si un tratamiento para disminuir la presin es
aplicado solo a personas con presin alta, el efecto del tratamiento se ver confundido con la
disminucin natural, haciendo difcil su deteccin.
2. Regresin Lineal Simple
El anlisis de regresin lineal simple trata el problema de predecir o estimar una variable,
llamada respuesta, a partir de otra variable llamada predictora o explicativa. A la primera se le
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
89
conoce tambin como variable dependiente y se le representa generalmente con la letra Y,
mientras que a la segunda se le conoce como variable independiente y se le representa
generalmente con la letra X.
Ejemplo 1: Conforme los quesos maduran, ocurren varios procesos qumicos que
determinan el sabor del producto final. En un estudio en queso cheddar, 10 muestras de
queso fueron analizadas en su composicin qumica. Adems, una medida subjetiva del
sabor fue obtenida combinando los escores asignados por varios sujetos que probaron el
queso. Los datos se dan a continuacin:
Muestra 1 2 3 4 5 6 7 8 9 10
Sabor 12.3 47.9 37.3 21 0.7 40.9 18 15.2 16.8 0.7
AA 4.543 5.759 5.892 5.242 4.477 6.365 5.247 5.298 5.366 5.328
H
2
S 3.135 7.496 8.726 4.174 2.996 9.588 6.174 5.22 3.664 3.912
AL 0.86 1.81 1.29 1.58 1.06 1.74 1.63 1.33 1.31 1.25
Las variables son:
Sabor: Puntaje de sabor subjetivo, obtenido combinando los puntajes de varios sujetos.
AA: Logaritmo natural de la concentracin de cido actico.
H
2
S: Logaritmo natural de la concentracin de sulfuro de hidrgeno.
AL: Concentracin de cido lctico.
El objetivo de este estudio es evaluar el efecto de las variables AA, H
2
S y AL (variables
independientes o predictoras) en el sabor del queso (variable dependiente o respuesta). A
continuacin se presenta un grfico de dispersin entre las variables Sabor y AA:
6.5 5.5 4.5
50
40
30
20
10
0
AA
S
a
b
o
r
En este caso la variable respuesta Y sera el sabor y la variable predictora X la
concentracin de cido actico. El grfico muestra una aparente relacin de dependencia
entre ambas variables en el sentido de que a mayor concentracin de cido mayor ser la
calificacin del sabor.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
90
2.1. Modelo Estadstico
El modelo poblacional de regresin lineal simple es el siguiente:
i i i
X Y + + =
donde Y
i
es la variable dependiente; X
i
es la variable independiente; y son parmetros
desconocidos llamados coeficientes de regresin (intercepto y pendiente respectivamente) y
i
son los errores del modelo, independientes y normalmente distribuidos con media cero y
variancia
2
, esto es, ~ N (0,
2
).
2.2. Estimacin del Modelo
Dada una muestra de n observaciones bivariadas (X,Y), el modelo estimado es el siguiente:
i i i
e bX a Y + + = i = 1 . . . n
donde a es el estimador de y b el estimador de .
Los parmetros del modelo son estimados por el mtodo de Mnimos Cuadrados. Este mtodo
permite obtener los valores estimados de y de modo que la suma de los errores al
cuadrado sea mnima; es decir, de lo que se trata es de calcular a y b de modo que se
minimice la siguiente expresin:
2 2
1 1
( )
n n
i i i
i i
e Y a bX
= =
=

La aplicacin de este mtodo da los siguientes resultados para la estimacin de los
parmetros:
1 1
2 2 2
1 1
( )( )
( )

( )
( )
n n
i i i i
i i
n n
i i
i i
X X Y Y X Y nXY
SP XY
b
SC X
X X X nX

= =
= =

= = = =



a Y bX = =
La interpretacin de estos valores, desde una perspectiva matemtica, es clara. El intercepto a
es el valor estimado de la variable Y cuando la variable X es cero y la pendiente b es el cambio
estimado en Y por cambio unitario en X. Sin embargo, la interpretacin de a tendr sentido
solo en el caso en que un valor de X = 0 sea posible y adems, cuando valores cercanos a
X = 0 hallan sido utilizados en la estimacin. Para ilustrar estas ideas vea el siguiente caso.
En el grfico que se presenta a continuacin se observa la relacin entre las variables dimetro
y volumen para una muestra de 7 rboles con dimetros de entre 16 y 18 pulgadas.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
91
18 17 16
60
50
40
Dimetro
V
o
l
u
m
e
n
La ecuacin de regresin estimada en este caso es:
Volumen = -79.27 + 7.5 Dimetro
El intercepto estimado es 79.27, lo cual indicara que a un dimetro de cero el volumen
estimado es de 79.27 pies cbicos. Obviamente esto no tiene ningn sentido ya que un
dimetro de cero es imposible (no habra rbol).
Aun suponiendo que un dimetro de cero fuera posible, la interpretacin del valor estimado de
Y cuando X = 0 no sera vlida ya que para la construccin del modelo se emplearon datos de
dimetros comprendidos entre 16 y 18 pulgadas. Para llevar la discusin a un plano ms
realista suponga que se desea estimar, a partir del modelo anterior, el volumen de un rbol con
un dimetro de 10 pulgadas. A continuacin se presenta un diagrama de dispersin con la
muestra completa de 31 rboles cuyos dimetros van desde 8.3 hasta 20.4.
20 15 10
80
70
60
50
40
30
20
10
Dimetro
V
o
l
u
m
e
n
La curva slida muestra la relacin entre ambas variables para los datos de los 31 rboles y la
lnea punteada corresponde a la ecuacin estimada con los 7 rboles iniciales. Como se puede
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
92
apreciar, la lnea recta es bastante buena para describir la relacin entre el dimetro y el
volumen para rboles con dimetros de entre 16 y 18 pulgadas, pero su ajuste ya no es tan
bueno conforme los valores de X se alejan de dicho rango. El modelo lineal simple podra ser
aceptable para estimar el volumen de un rbol con un dimetro de 15 inclusive 14 pulgadas
pero definitivamente no para uno de 10.
Ejemplo 1 (Cont.): Se va a estimar el modelo de regresin que considera a la variable AA
como variable predictora. Quedan como ejercicios los anlisis de los casos de las variables
H
2
S y AL.
21.08 Y = 5.3517 X =
2
289.34
i
X =


2
6789.06
i
Y =

1193.91
i i
X Y =

44 . 22
) 3517 . 5 ( 10 34 . 289
) 3517 . 5 )( 08 . 21 ( 10 91 . 1193
2
=

= b
03 . 99 ) 3517 . 5 ( 44 . 22 08 . 21 = = a
El modelo estimado es:
X Y 44 . 22 03 . 99

+ =
6.5 5.5 4.5
50
40
30
20
10
0
AA
S
a
b
o
r
En este caso el intercepto, 99.03, correspondera al puntaje estimado del sabor de un
queso cuando el logaritmo natural de la concentracin de cido actico es igual a cero.
Dado que en la estimacin de este modelo se utilizaron valores de AA de 4.477 hasta
6.365, esta interpretacin no tiene validez. La pendiente en cambio, 22.44, es siempre
interpretable y en este caso indica que por cada incremento unitario en el logaritmo natural
de la concentracin de cido actico, se estima un incremento en el puntaje del sabor de
22.44 puntos.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
93
2.3. Anlisis de Variancia
El anlisis de variancia permite evaluar si el modelo es o no significativo (si X explica o no a
Y).
Hiptesis:
H
0
: = 0
H
1
: 0
Cuadro de Anlisis de Variancia (Cuadro ANVA):
Las hiptesis anteriores son evaluadas a travs del anlisis de la variancia de Y. Dado el
modelo
i i i
e bX a Y + + = , la variancia de Y es explicada por la regresin (
i
bX ) y por el error
(e
i
). El trmino a no participa del anlisis ya que es una constante.
El cuadro de anlisis de variancia es el siguiente:
Fuentes de variacin gl SC CM Fc
Regresin 1 b SP(XY)
SC(Reg)
gl(Reg)
CM(Reg)
CM(Error)
Error n 2 SC(Y) b SP(XY)
SC(Error)
gl(Error)
Total n 1 SC(Y)
Estadstico de Prueba:
CM(Error)
CM(Reg)
= Fc
) 2 , 1 ( n
F
Regla de Decisin:
La hiptesis nula se rechaza con un nivel de significacin si el Fc resulta mayor que el valor
de tabla
) 2 , 1 , 1 ( n
F

.
Ejemplo 1 (Cont.): Para el caso de las variables Y = sabor y X = AA, se tiene lo siguiente:
H
0
: = 0
H
1
: 0
o dicho literalmente:
H
0
: El sabor del queso no depende de la concentracin de cido actico.
H
1
: El sabor del queso s depende de la concentracin de cido actico.
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
94
Cuadro ANVA:
Fuentes de variacin gl SC CM Fc
Regresin 1 1476 1476 13.58
Error 8 869 109
Total 9 2345
El valor de tabla para un nivel de significacin del 5% es
) 8 , 1 , 95 . 0 (
F = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H
0
. En conclusin, existe suficiente
evidencia estadstica para aceptar que el sabor del queso depende de la concentracin de
cido actico a travs de un modelo lineal.
2.4. Coeficiente de Correlacin y de Determinacin
El coeficiente de determinacin mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente
expresin:
SC(Total)
n) SC(Regresi
2
= r
El coeficiente de correlacin es una medida de la asociacin existente entre dos variables
cuantitativas. Este coeficiente toma valores desde 1 hasta 1. Para interpretar un coeficiente
de correlacin tenga en cuenta lo siguiente:
- Un valor de 1 significa una perfecta correlacin negativa, es decir, todos los puntos caen
sobre una lnea con pendiente negativa.
- Un valor de 0 significa no correlacin.
- Un valor de 1 significa una perfecta correlacin positiva, es decir, todos los puntos caen
sobre una lnea con pendiente positiva.
El coeficiente de correlacin es la raz cuadrada del coeficiente de determinacin con el signo
de b (pendiente estimada).
Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin se tiene:
63 . 0
2345
1476
2
= = r
El 63% de la variabilidad del sabor es explicado por la concentracin de cido actico.
79 . 0 63 . 0 = = r
0.79 indica una elevada correlacin positiva.
Es preciso tener en cuenta que asociacin estadstica no implica la existencia de una relacin
causal. Por ejemplo, el siguiente grfico muestra la relacin entre las variables X: Nmero de
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
95
cigeas y Y: Nmero de habitantes (en miles) de la ciudad de Oldenburg entre los aos 1930
y 1936.
250 200 150
75
65
55
Nmero de cigeas
P
o
b
l
a
c
i

n

(
e
n

m
i
l
e
s
)
Note que el ajuste es bastante bueno.
2.5. Prediccin
El objetivo principal del anlisis de regresin es construir un modelo que permita predecir el
valor de Y cuando la variable X toma un valor determinado. Una vez que se ha determinado la
validez del modelo de regresin lineal simple, la ecuacin de pronstico estar dada por:

i i
Y a bX = +
El valor

Y puede interpretarse de dos maneras; como el valor individual predicho de Y para


un valor dado de X, y como la media estimada de Y para un valor dado de X. Tanto el
pronstico como la estimacin pueden tomar la forma de un intervalo, y al igual que en el
caso puntual, el intervalo puede tomar dos formas (aunque aqu no solo la interpretacin ser
diferente, sino tambin el clculo); un intervalo de prediccin para el valor individual de Y
dado un valor de X, y un intervalo de confianza para el valor medio de Y dado un valor X.
Por ejemplo, si se ha construido un modelo para predecir la precipitacin anual en funcin a
ciertos factores observables en el ao anterior, uno podra estar ms interesado en predecir la
precipitacin del prximo ao y evaluar cunto podra esta variar (intervalo de prediccin)
que en estimar la precipitacin media en aos posteriores a aos con las caractersticas del
actual. Por otro lado, si se est estudiando la relacin entre el volumen de madera y el
dimetro del rbol, uno estara ms interesado (por cuestiones de manejo forestal) en el
volumen medio de madera de un conjunto d rboles para determinado dimetro que en el
volumen de madera de un rbol en particular con dicho dimetro. De hecho, el valor de
pronstico tendr mayor variabilidad que la media estimada.
El intervalo de prediccin de 100 (1 )% para un valor de Y dado X est dado por:
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
96
2
(1 / 2, 2) 2
1 ( )

( ) CME 1
( )
n
X X
IP Y X Y X t
n X X

= + +

El intervalo de confianza de 100 (1 )% para la media de Y dado X est dado por:


2
(1 / 2, 2) 2
1 ( )

( ) CME
( )
n Y X
X X
IC Y X t
n X X

= +

Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin, se estimar puntualmente y


por intervalo el sabor de un queso en el que la variable AA es igual a 6.
La estimacin puntual est dada por:

99.03 22.44(6) 35.63 Y = + =


Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro lado,
no todos los quesos con AA = 6 tendrn el mismo sabor, pero el puntaje promedio
estimado de estos ser tambin igual a 35.61.
El intervalo de prediccin del 95% para el valor individual est dado por:
2
(0.975, 2) 2
2
1 ( )

( ) CME 1
( )
1 (6 5.352)
35.63 2.306 108.7 1
10 2.93
35.63 26.81
[8.82; 62.44]
n
X X
IP Y X Y X t
n X X

= + +




= + +


=
=

El intervalo de confianza del 95% para la media de Y es:


2
(0.975, 2) 2
2
1 ( )

( ) CME
( )
1 (6 5.352)
35.63 2.306 108.7
10 2.93
35.63 11.86
[23.77; 47.49]
n Y X
X X
IC Y X t
n X X

= +




= +


=
=

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
97
Anexo: Salida de Minitab
Regression Analysis: Sabor versus AA
The regression equation is
Sabor = - 99.0 + 22.4 AA
Predictor Coef SE Coef T P
Constant -99.03 32.76 -3.02 0.016
AA 22.443 6.090 3.69 0.006
S = 10.42 R-Sq = 62.9% R-Sq(adj) = 58.3%
Analysis of Variance
Source DF SS MS F P
Regression 1 1476.0 1476.0 13.58 0.006
Residual Error 8 869.4 108.7
Total 9 2345.4
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 35.63 5.14 ( 23.77, 47.49) ( 8.82, 62.44)
Values of Predictors for New Observations
New Obs AA
1 6.00
6.5 5.5 4.5
80
40
0
AA
S
a
b
o
r
S = 10.4246 R-Sq = 62.9 % R-Sq(adj) = 58.3 %
Sabor = -99.0302 + 22.4434 AA
95% PI
95% CI
Regression
Regression Plot
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
98
Ejercicios
En cada uno de los siguientes casos efecte lo siguiente:
- Estime la lnea de regresin lineal simple.
- Interprete los coeficientes de regresin (pendiente e intercepto).
- Efecte el anlisis de variancia.
- Calcule e interprete el coeficiente de determinacin y el de correlacin.
- Calcule el intervalo de prediccin y de confianza para el valor individual y valor medio de
Y dado un valor de X (escogido por conveniencia)
1. Se efectu un experimento para evaluar el efecto del zinc en el peso de cacatas. En el
experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de zinc y sus
prdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios
por grupo al final de la semana estn expresados como porcentajes sobre los pesos
iniciales.
Ingesta de zinc 0 2 4 8 12 16 30
Peso Medio % 100 92 95 90 98 85 67
2. Se desea investigar la relacin entre el porcentaje de nios que han sido inmunizados
contra la difteria, tos ferina y ttano (DPT) y la mortalidad infantil (tasa de mortalidad por
cada 1000 nios menores de 5 aos). Los datos (informacin para el 1999)
correspondientes a una muestra aleatoria de 20 pases son:
Nacin Inmunizacin Mortalidad Nacin Inmunizacin Mortalidad
Bolivia 40 165 Italia 85 11
Brasil 54 85 Japn 83 6
Canad 85 9 Mxico 65 51
China 95 43 Polonia 98 18
Egipto 81 94 Senegal 47 189
Etiopa 26 226 Turqua 74 90
Finlandia 90 7 Reino Unido 75 10
Francia 95 9 USA 97 12
Grecia 83 12 URSS 79 35
India 83 145 Yugoslavia 91 27
3. Los grillos hacen sus chirridos rozando rpidamente una de sus alas sobre la otra.
Mientras ms rpido ellos mueven sus alas, mas fuerte es el chirrido que ellos producen.
Los cientficos han notado que los grillos mueven sus alas ms rpido cuando hace calor
que cuando hace fro. Por lo tanto, escuchando el tono de los chirridos, es posible
establecer la temperatura del aire. A continuacin se presentan registros del tono (en
vibraciones por segundo) de los chirridos de grillos en 15 diferentes temperaturas:
Vibraciones por segundo 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
Temperatura 89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
Departamento de Estadstica e Informtica
Curso: Mtodos Estadsticos para la Investigacin I Regresin Lineal Simple
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe
99
4. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie de
lagarto. Los lagartos fueron colocados en un recinto cerrado de modo la temperatura
dentro del recinto pudo ser controlada. Los resultados obtenidos son los siguientes:
Temperatura (C) 22 22 24 24 26 26 28 28 30 30
Latidos/minuto 20.8 22.3 24.1 25.6 25.7 27.2 27.3 28.8 29.4 31.9
Temperatura (C) 32 32 34 34 36 36 38 38 40 40
Latidos/minuto 32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0
5. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva (X) para predecir la concentracin del esteroide en
plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos:
X 1 7 8 9 9 11 13 14 14 16 17 18 20 23
Y 30 25 31 27 39 38 43 49 55 48 51 64 63 68

Vous aimerez peut-être aussi