Vous êtes sur la page 1sur 12

Departamento de Estadstica e Informtica

Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

Captulo VI
Regresin Lineal Simple
Estadstica no es solo una coleccin de tcnicas computacionales. Es una forma de
pensamiento acerca del mundo.
G. E. Dallal

1. Introduccin
En 1889 en su libro Herencia Natural, Francis Galton se refiri a la ley de la regresin
universal. El dijo que cada peculiaridad en un hombre es compartida por sus parientes, pero
en promedio, en un grado menor. A lo que l se refera era a que si un individuo tena alguna
caracterstica extrema (por ejemplo muy alto, muy bajo, muy gordo, etc.) entonces su
descendencia tendera tambin hacia esos extremos, pero stos no seran tan extremos como el
padre.
En 1903, Karl Pearson, amigo de Galton, colect ms de 1000 registros de tallas de padres e
hijos y con est informacin estim la siguiente lnea para explicar la talla del hijo en funcin
a la del padre (en pulgadas):
Talla del hijo = 33.73 + 0.516 Talla del padre
Si bien queda claro que padres altos suelen tener hijos altos y padres bajos hijos bajos,
Pearson not una tendencia en los padres bajos a tener hijos bajos pero en promedio no tan
bajos como ellos (por ejemplo padres de 59 a 65 pulgadas tendan a tener hijos de 64.5 a 67
pulgadas). De igual manera observ que padres altos tendan a tener hijos altos pero en
promedio no tan altos como ellos (por ejemplo padres de 70 a 75 pulgadas tendan a tener
hijos de 70 a 72 pulgadas). Este es el concepto de regresin a la media, es decir, existe una
tendencia a que los valores extremos se muevan hacia el promedio de la poblacin.
Este mismo fenmeno es observado frecuentemente en la prctica. Por ejemplo, individuos
con una presin arterial alta en un momento tendern en forma natural a disminuir su presin
al cabo de un tiempo ms que a aumentarla. As, si un tratamiento para disminuir la presin es
aplicado solo a personas con presin alta, el efecto del tratamiento se ver confundido con la
disminucin natural, haciendo difcil su deteccin.

2. Regresin Lineal Simple


El anlisis de regresin lineal simple trata el problema de predecir o estimar una variable,
llamada respuesta, a partir de otra variable llamada predictora o explicativa. A la primera se le
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

88

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

conoce tambin como variable dependiente y se le representa generalmente con la letra Y,


mientras que a la segunda se le conoce como variable independiente y se le representa
generalmente con la letra X.
Ejemplo 1: Conforme los quesos maduran, ocurren varios procesos qumicos que
determinan el sabor del producto final. En un estudio en queso cheddar, 10 muestras de
queso fueron analizadas en su composicin qumica. Adems, una medida subjetiva del
sabor fue obtenida combinando los escores asignados por varios sujetos que probaron el
queso. Los datos se dan a continuacin:
Muestra
1
Sabor
12.3
AA
4.543
H2S
3.135
AL
0.86

2
47.9
5.759
7.496
1.81

3
37.3
5.892
8.726
1.29

4
21
5.242
4.174
1.58

5
0.7
4.477
2.996
1.06

6
40.9
6.365
9.588
1.74

7
18
5.247
6.174
1.63

8
15.2
5.298
5.22
1.33

9
16.8
5.366
3.664
1.31

10
0.7
5.328
3.912
1.25

Las variables son:


Sabor: Puntaje de sabor subjetivo, obtenido combinando los puntajes de varios sujetos.
AA: Logaritmo natural de la concentracin de cido actico.
H2S: Logaritmo natural de la concentracin de sulfuro de hidrgeno.
AL: Concentracin de cido lctico.
El objetivo de este estudio es evaluar el efecto de las variables AA, H2S y AL (variables
independientes o predictoras) en el sabor del queso (variable dependiente o respuesta). A
continuacin se presenta un grfico de dispersin entre las variables Sabor y AA:
50

Sabor

40
30
20
10
0
4.5

5.5

6.5

AA
En este caso la variable respuesta Y sera el sabor y la variable predictora X la
concentracin de cido actico. El grfico muestra una aparente relacin de dependencia
entre ambas variables en el sentido de que a mayor concentracin de cido mayor ser la
calificacin del sabor.
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

89

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

2.1. Modelo Estadstico


El modelo poblacional de regresin lineal simple es el siguiente:
Yi = + X i + i
donde Yi es la variable dependiente; Xi es la variable independiente; y son parmetros
desconocidos llamados coeficientes de regresin (intercepto y pendiente respectivamente) y i
son los errores del modelo, independientes y normalmente distribuidos con media cero y
variancia 2, esto es, ~ N (0, 2).
2.2. Estimacin del Modelo
Dada una muestra de n observaciones bivariadas (X,Y), el modelo estimado es el siguiente:
Yi = a + bX i + ei

i=1...n

donde a es el estimador de y b el estimador de .


Los parmetros del modelo son estimados por el mtodo de Mnimos Cuadrados. Este mtodo
permite obtener los valores estimados de y de modo que la suma de los errores al
cuadrado sea mnima; es decir, de lo que se trata es de calcular a y b de modo que se
minimice la siguiente expresin:
n

i =1

i =1

ei2 = (Yi a bX i )2
La aplicacin de este mtodo da los siguientes resultados para la estimacin de los
parmetros:
n

SP( XY )
= b =
=
SC ( X )

( X i X )(Yi Y )
i =1

(X
i =1

X )2

X Y nXY
i =1
n

i i

X
i =1

2
i

nX 2

= a = Y bX
La interpretacin de estos valores, desde una perspectiva matemtica, es clara. El intercepto a
es el valor estimado de la variable Y cuando la variable X es cero y la pendiente b es el cambio
estimado en Y por cambio unitario en X. Sin embargo, la interpretacin de a tendr sentido
solo en el caso en que un valor de X = 0 sea posible y adems, cuando valores cercanos a
X = 0 hallan sido utilizados en la estimacin. Para ilustrar estas ideas vea el siguiente caso.
En el grfico que se presenta a continuacin se observa la relacin entre las variables dimetro
y volumen para una muestra de 7 rboles con dimetros de entre 16 y 18 pulgadas.

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

90

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

Volumen

60

50

40

16

17

18

Dimetro
La ecuacin de regresin estimada en este caso es:
Volumen = -79.27 + 7.5 Dimetro
El intercepto estimado es 79.27, lo cual indicara que a un dimetro de cero el volumen
estimado es de 79.27 pies cbicos. Obviamente esto no tiene ningn sentido ya que un
dimetro de cero es imposible (no habra rbol).
Aun suponiendo que un dimetro de cero fuera posible, la interpretacin del valor estimado de
Y cuando X = 0 no sera vlida ya que para la construccin del modelo se emplearon datos de
dimetros comprendidos entre 16 y 18 pulgadas. Para llevar la discusin a un plano ms
realista suponga que se desea estimar, a partir del modelo anterior, el volumen de un rbol con
un dimetro de 10 pulgadas. A continuacin se presenta un diagrama de dispersin con la
muestra completa de 31 rboles cuyos dimetros van desde 8.3 hasta 20.4.
80

70

Volumen

60

50

40

30

20

10
10

15

20

Dimetro

La curva slida muestra la relacin entre ambas variables para los datos de los 31 rboles y la
lnea punteada corresponde a la ecuacin estimada con los 7 rboles iniciales. Como se puede
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

91

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

apreciar, la lnea recta es bastante buena para describir la relacin entre el dimetro y el
volumen para rboles con dimetros de entre 16 y 18 pulgadas, pero su ajuste ya no es tan
bueno conforme los valores de X se alejan de dicho rango. El modelo lineal simple podra ser
aceptable para estimar el volumen de un rbol con un dimetro de 15 inclusive 14 pulgadas
pero definitivamente no para uno de 10.
Ejemplo 1 (Cont.): Se va a estimar el modelo de regresin que considera a la variable AA
como variable predictora. Quedan como ejercicios los anlisis de los casos de las variables
H2S y AL.
Y = 21.08

X = 5.3517
b=

2
i

= 289.34

= 6789.06

X Y = 1193.91
i i

1193.91 10(21.08)(5.3517)
= 22.44
289.34 10(5.3517) 2

a = 21.08 22.44(5.3517) = 99.03


El modelo estimado es:
Y = 99.03 + 22.44 X
50

40

Sabor

30

20

10

0
4.5

5.5

6.5

AA

En este caso el intercepto, 99.03, correspondera al puntaje estimado del sabor de un


queso cuando el logaritmo natural de la concentracin de cido actico es igual a cero.
Dado que en la estimacin de este modelo se utilizaron valores de AA de 4.477 hasta
6.365, esta interpretacin no tiene validez. La pendiente en cambio, 22.44, es siempre
interpretable y en este caso indica que por cada incremento unitario en el logaritmo natural
de la concentracin de cido actico, se estima un incremento en el puntaje del sabor de
22.44 puntos.

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

92

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

2.3. Anlisis de Variancia


El anlisis de variancia permite evaluar si el modelo es o no significativo (si X explica o no a
Y).
Hiptesis:
H0: = 0
H1: 0
Cuadro de Anlisis de Variancia (Cuadro ANVA):
Las hiptesis anteriores son evaluadas a travs del anlisis de la variancia de Y. Dado el
modelo Yi = a + bX i + ei , la variancia de Y es explicada por la regresin ( bX i ) y por el error
(ei). El trmino a no participa del anlisis ya que es una constante.
El cuadro de anlisis de variancia es el siguiente:
Fuentes de variacin

gl

SC

Regresin

b SP(XY)

Error

n2

SC(Y) b SP(XY)

Total

n1

SC(Y)

CM

Fc

SC(Reg)
gl(Reg)
SC(Error)
gl(Error)

CM(Reg)
CM(Error)

Estadstico de Prueba:
Fc =

CM(Reg)
F(1, n 2 )
CM(Error)

Regla de Decisin:
La hiptesis nula se rechaza con un nivel de significacin si el Fc resulta mayor que el valor
de tabla F(1 , 1, n 2) .
Ejemplo 1 (Cont.): Para el caso de las variables Y = sabor y X = AA, se tiene lo siguiente:
H0: = 0
H1: 0
o dicho literalmente:
H0: El sabor del queso no depende de la concentracin de cido actico.
H1: El sabor del queso s depende de la concentracin de cido actico.

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

93

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

Cuadro ANVA:
Fuentes de variacin
Regresin
Error
Total

gl
1
8
9

SC
1476
869
2345

CM
1476
109

Fc
13.58

El valor de tabla para un nivel de significacin del 5% es F( 0.95, 1, 8) = 5.318. Como el valor
calculado es mayor al valor de tabla se rechaza H0. En conclusin, existe suficiente
evidencia estadstica para aceptar que el sabor del queso depende de la concentracin de
cido actico a travs de un modelo lineal.
2.4. Coeficiente de Correlacin y de Determinacin
El coeficiente de determinacin mide el porcentaje de la variabilidad de la respuesta que es
explicado por la variable predictora. Su valor va de 0 a 1 y se calcula mediante la siguiente
expresin:
r2 =

SC(Regresin)
SC(Total)

El coeficiente de correlacin es una medida de la asociacin existente entre dos variables


cuantitativas. Este coeficiente toma valores desde 1 hasta 1. Para interpretar un coeficiente
de correlacin tenga en cuenta lo siguiente:
-

Un valor de 1 significa una perfecta correlacin negativa, es decir, todos los puntos caen
sobre una lnea con pendiente negativa.

Un valor de 0 significa no correlacin.

Un valor de 1 significa una perfecta correlacin positiva, es decir, todos los puntos caen
sobre una lnea con pendiente positiva.

El coeficiente de correlacin es la raz cuadrada del coeficiente de determinacin con el signo


de b (pendiente estimada).
Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin se tiene:
r2 =

1476
= 0.63
2345

El 63% de la variabilidad del sabor es explicado por la concentracin de cido actico.


r = 0.63 = 0.79
0.79 indica una elevada correlacin positiva.
Es preciso tener en cuenta que asociacin estadstica no implica la existencia de una relacin
causal. Por ejemplo, el siguiente grfico muestra la relacin entre las variables X: Nmero de
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

94

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

cigeas y Y: Nmero de habitantes (en miles) de la ciudad de Oldenburg entre los aos 1930
y 1936.

Poblacin (en miles)

75

65

55
150

200

250

Nmero de cigeas
Note que el ajuste es bastante bueno.
2.5. Prediccin
El objetivo principal del anlisis de regresin es construir un modelo que permita predecir el
valor de Y cuando la variable X toma un valor determinado. Una vez que se ha determinado la
validez del modelo de regresin lineal simple, la ecuacin de pronstico estar dada por:
Yi = a + bX i
El valor Y puede interpretarse de dos maneras; como el valor individual predicho de Y para
un valor dado de X, y como la media estimada de Y para un valor dado de X. Tanto el
pronstico como la estimacin pueden tomar la forma de un intervalo, y al igual que en el
caso puntual, el intervalo puede tomar dos formas (aunque aqu no solo la interpretacin ser
diferente, sino tambin el clculo); un intervalo de prediccin para el valor individual de Y
dado un valor de X, y un intervalo de confianza para el valor medio de Y dado un valor X.
Por ejemplo, si se ha construido un modelo para predecir la precipitacin anual en funcin a
ciertos factores observables en el ao anterior, uno podra estar ms interesado en predecir la
precipitacin del prximo ao y evaluar cunto podra esta variar (intervalo de prediccin)
que en estimar la precipitacin media en aos posteriores a aos con las caractersticas del
actual. Por otro lado, si se est estudiando la relacin entre el volumen de madera y el
dimetro del rbol, uno estara ms interesado (por cuestiones de manejo forestal) en el
volumen medio de madera de un conjunto d rboles para determinado dimetro que en el
volumen de madera de un rbol en particular con dicho dimetro. De hecho, el valor de
pronstico tendr mayor variabilidad que la media estimada.
El intervalo de prediccin de 100 (1 )% para un valor de Y dado X est dado por:
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

95

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

1
( X X )2
IP(Y X ) = Y X t(1 / 2,n 2) CME 1 + +
2
n ( X X )
El intervalo de confianza de 100 (1 )% para la media de Y dado X est dado por:
1
( X X )2
IC ( Y X ) = Y X t(1 / 2,n 2) CME +
2
n ( X X )
Ejemplo 1 (Cont.): Para el ejemplo tratado en esta seccin, se estimar puntualmente y
por intervalo el sabor de un queso en el que la variable AA es igual a 6.
La estimacin puntual est dada por:
Y = 99.03 + 22.44(6) = 35.63
Este valor es el puntaje de sabor estimado para un queso en el que AA = 6. Por otro lado,
no todos los quesos con AA = 6 tendrn el mismo sabor, pero el puntaje promedio
estimado de estos ser tambin igual a 35.61.
El intervalo de prediccin del 95% para el valor individual est dado por:
1
( X X )2
IP(Y X ) = Y X t(0.975,n 2) CME 1 + +
2
n ( X X )

1 (6 5.352) 2
= 35.63 2.306 108.7 1 + +

2.93
10

= 35.63 26.81
= [8.82; 62.44]
El intervalo de confianza del 95% para la media de Y es:
1
( X X )2

IC ( Y X ) = Y X t(0.975,n 2) CME +
2
n ( X X )
1 (6 5.352) 2
= 35.63 2.306 108.7 +

2.93
10

= 35.63 11.86
= [23.77; 47.49]

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

96

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

Anexo: Salida de Minitab


Regression Analysis: Sabor versus AA
The regression equation is
Sabor = - 99.0 + 22.4 AA
Predictor
Constant
AA

Coef
-99.03
22.443

S = 10.42

SE Coef
32.76
6.090

R-Sq = 62.9%

T
-3.02
3.69

P
0.016
0.006

R-Sq(adj) = 58.3%

Analysis of Variance
Source
Regression
Residual Error
Total

DF
1
8
9

SS
1476.0
869.4
2345.4

MS
1476.0
108.7

F
13.58

P
0.006

Predicted Values for New Observations


New Obs
1

Fit
35.63

SE Fit
5.14

95.0% CI
23.77,
47.49)

95.0% PI
8.82,
62.44)

Values of Predictors for New Observations


New Obs
1

AA
6.00

Regression Plot
Sabor = -99.0302 + 22.4434 AA
S = 10.4246

R-Sq = 62.9 %

R-Sq(adj) = 58.3 %

80

Sabor

40

Regression
95% CI
95% PI
4.5

5.5

6.5

AA

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

97

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

Ejercicios
En cada uno de los siguientes casos efecte lo siguiente:
-

Estime la lnea de regresin lineal simple.


Interprete los coeficientes de regresin (pendiente e intercepto).
Efecte el anlisis de variancia.
Calcule e interprete el coeficiente de determinacin y el de correlacin.
Calcule el intervalo de prediccin y de confianza para el valor individual y valor medio de
Y dado un valor de X (escogido por conveniencia)

1. Se efectu un experimento para evaluar el efecto del zinc en el peso de cacatas. En el


experimento, a 7 grupos de cacatas adultas se les dio diferentes dosis de zinc y sus
prdidas de peso tras la primera semana fueron registradas. Los datos de los pesos medios
por grupo al final de la semana estn expresados como porcentajes sobre los pesos
iniciales.
Ingesta de zinc
Peso Medio %

0
100

2
92

4
95

8
90

12
98

16
85

30
67

2. Se desea investigar la relacin entre el porcentaje de nios que han sido inmunizados
contra la difteria, tos ferina y ttano (DPT) y la mortalidad infantil (tasa de mortalidad por
cada 1000 nios menores de 5 aos). Los datos (informacin para el 1999)
correspondientes a una muestra aleatoria de 20 pases son:
Nacin
Bolivia
Brasil
Canad
China
Egipto
Etiopa
Finlandia
Francia
Grecia
India

Inmunizacin
40
54
85
95
81
26
90
95
83
83

Mortalidad
165
85
9
43
94
226
7
9
12
145

Nacin
Inmunizacin
Italia
85
Japn
83
Mxico
65
Polonia
98
Senegal
47
Turqua
74
Reino Unido
75
USA
97
URSS
79
Yugoslavia
91

Mortalidad
11
6
51
18
189
90
10
12
35
27

3. Los grillos hacen sus chirridos rozando rpidamente una de sus alas sobre la otra.
Mientras ms rpido ellos mueven sus alas, mas fuerte es el chirrido que ellos producen.
Los cientficos han notado que los grillos mueven sus alas ms rpido cuando hace calor
que cuando hace fro. Por lo tanto, escuchando el tono de los chirridos, es posible
establecer la temperatura del aire. A continuacin se presentan registros del tono (en
vibraciones por segundo) de los chirridos de grillos en 15 diferentes temperaturas:
Vibraciones por segundo 20 16 20 18 17 16 15 17 15 16 15 17 16 17 14
Temperatura
89 72 93 84 81 75 70 82 69 83 80 83 81 84 76
Ing. Ral Eyzaguirre Prez
reyzaguirre@lamolina.edu.pe

98

Departamento de Estadstica e Informtica


Curso: Mtodos Estadsticos para la Investigacin I

Regresin Lineal Simple

4. Se desea investigar el efecto de la temperatura sobre el ritmo cardiaco de una especie de


lagarto. Los lagartos fueron colocados en un recinto cerrado de modo la temperatura
dentro del recinto pudo ser controlada. Los resultados obtenidos son los siguientes:
Temperatura (C)
Latidos/minuto

22
22
24
24
26
26
28
28
30
30
20.8 22.3 24.1 25.6 25.7 27.2 27.3 28.8 29.4 31.9

Temperatura (C)
Latidos/minuto

32
32
34
34
36
36
38
38
40
40
32.4 33.8 32.8 34.1 32.4 37.9 38.0 36.5 39.0 41.0

5. Se realiza un estudio para establecer una ecuacin mediante la cual se pueda utilizar la
concentracin de estrona en saliva (X) para predecir la concentracin del esteroide en
plasma libre (Y). Se extrajeron los siguientes datos de 14 varones sanos:
X
Y

1
30

7
25

8
31

Ing. Ral Eyzaguirre Prez


reyzaguirre@lamolina.edu.pe

9
27

9
39

11
38

13
43

14
49

14
55

16
48

17
51

18
64

20
63

23
68

99

Vous aimerez peut-être aussi