Académique Documents
Professionnel Documents
Culture Documents
ndice
1. Correlacin
1.1. Grficos de dispersin (o scatter plots) . . . . . . . . . . . .
1.1.1. Desventajas de los scatter plots . . . . . . . . . . . .
1.2. Coeficiente de correlacin de Pearson . . . . . . . . . . . . .
1.2.1. Definicin del coeficiente de correlacin . . . . . . . .
1.2.2. Propiedades del coeficiente de correlacin muestral (y
tambin de ) . . . . . . . . . . . . . . . . . . . . . .
1.2.3. Inferencia de . . . . . . . . . . . . . . . . . . . . .
1.3. Coeficiente de correlacin de Spearman . . . . . . . . . . . .
2. Regresin lineal simple
2.1. Introduccin . . . . . . . . . . . . . . . . . .
2.2. Modelo lineal simple . . . . . . . . . . . . .
2.3. Ecuacin de la recta . . . . . . . . . . . . .
2.4. Supuestos del modelo lineal . . . . . . . . .
2.5. Estimacin de los parmetros 0 y 1 . . . .
2.6. Recta ajustada, valores predichos y residuos
2.6.1. Aplicacin al ejemplo . . . . . . . . .
2.7. Estimacin de 2 . . . . . . . . . . . . . . .
2.8. Inferencia sobre 1 . . . . . . . . . . . . . .
2.8.1. Aplicacin al ejemplo . . . . . . . . .
2.9. Inferencia sobre 0 . . . . . . . . . . . . . .
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
. 6
. 9
. 10
. 10
. 16
. 18
. 23
.
.
.
.
.
.
.
.
.
.
.
29
29
33
34
35
38
40
41
44
46
50
52
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 53
. 55
. 57
.
.
.
.
60
66
67
68
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
71
71
71
72
73
73
74
74
76
77
78
79
80
80
80
83
88
.
.
.
.
.
.
.
.
.
93
93
95
96
98
99
100
102
104
104
. 109
NDICE
.
.
.
.
.
.
188
188
188
190
190
191
192
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
193
194
195
195
196
197
197
198
198
201
201
202
202
203
204
. 204
. 206
Apndice A: Ejercicios
207
231
Referencias
247
NDICE
Prefacio
Las notas de regresin lineal que componen estas pginas fueron escritas
como material terico y prctico para el curso Regresin Lineal de la Carrera
de Especializacin en Estadstica para Ciencias de la Salud, que se dicta en la
Facultad de Ciencias Exactas y Naturales, de la Universidad de Buenos Aires
que tuve la alegra de dar durante algo ms de dos meses, en 2011 y 2013.
Presuponen un conocimiento estadstico obtenido en un curso bsico y hacen
nfasis en un enfoque aplicado de la regresin lineal, para un pblico que
viene, en general, de las ciencias mdicas o biolgicas. La informacin sigue un
programa estndar en el tema: correlacin, regresin lineal simple y regresin
lineal mltiple y representa una primera introduccin al tema. La idea es
hacer un nfasis en los modelos y la interpretaciones, sin perder (del todo)
el entusiasmo en el camino. En esa direccin, estas notas buscan presentar
al modelo lineal como el primer modelo estadstico a estudiar en detalle, e
intenta mostrar cules de las herramientas presentadas se generalizan a otros
modelos estadsticos. En el Apndice A, al final, figuran una serie de ejercicios
que (espero) complementen el aprendizaje.
Los grficos y las salidas que acompaan las notas fueron realizados usando el paquete R [10], principalmente, y tambin el SPSS. En el Apndice
B hay varias salidas obtenidas con este paquete para los datos. El resto de las
figuras fueron extraidas de varios buenos textos disponibles sobre el tema (y
debidamente citados). Quiz la mejor hoja de estas notas sea la bibliografa.
Finalmente agradezco a varios colegas las conversaciones y opiniones sobre
los temas que aparecen a continuacin, que ayudaron a dar (esta) forma a
estas notas, en especial a Liliana Orellana y a Andrs Farall.
Este material puede descargarse de la web de la siguiente direccin
http://mate.dm.uba.ar/~meszre/apunte_regresion_lineal_szretter.pdf
En la misma direccin, hay una carpeta con todos los archivos de datos
mencionados en el texto, o necesarios para los ejercicios. La direccin de la
carpeta es http://mate.dm.uba.ar/~meszre/datos_regresion
1.
Correlacin
Variable Y
Y1
Y2
..
.
Yn
1.1.
1.1.1.
Los scatter plots son herramientas bsicas del estudio de varias variables
simultneas. Sin embargo adolescen de dos problemas, esencialmente.
1. Si hay muchas observaciones todas iguales, en general no se las puede
graficar a todas. En el grfico de dispersin uno no puede notar si hay
puntos repetidos en la muestra observada.
2. Slo se pueden visualizar los vnculos entre dos variables. En grficos
tridimensionales se podran graficar hasta tres variables, y luego habra
que elegir con mucho cuidado el punto de vista del observador para
exhibir las caractersticas ms sobresalientes del grfico. Cuando el inters est puesto en estudiar varias variables simultneamente, pueden
hacerse varios grficos de dispersin simultneos. Es decir, cuando tenemos las variables (X, Y, Z) haremos tres grficos: Y versus X, Z versus
X, y Z versus Y . Los haremos en la Seccin 5.
10
1.2.
1.2.1.
11
2X = E [X E (X)]2 = V ar (X)
12
bX en realidad es un
bX (X1 , X2 , . . . , Xn )), y escribimos
1X
bX = X n =
Xi
n i=1
n
b2X = SX
Xi X ,
n 1 i=1
bX = SX =
Xi X .
n 1 i=1
Ahora estamos en condiciones de pensar en cmo definir un coeficiente que
resuma el vnculo entre dos variables aleatorias X e Y medidas en el mismo
individuo. El ms utilizado de todos es el que se conoce como coeficiente de
correlacin, que se simboliza con una letra griega rho: o XY y se define
por
Y Y
X X
XY = E
X
Y
cov (X, Y )
,
=
X Y
Pn
1
X
Y
Y
X
i
i
i=1
r = n1
.
SX Sy
Al numerador, se lo denomina covarianza muestral entre X e Y ,
1 X
covarianza muestral =
Xi X Yi Y
n 1 i=1
n
13
t
SX =
Xi X
n 1 i=1
v
u
n
u 1 X
2
t
SY =
Yi Y
n 1 i=1
Otra forma de escribir a r es la siguiente
Pn
Yi Y
i=1 Xi X
.
r = rh
2 i hPn
2 i
Pn
i=1 Xi X
i=1 Yi Y
Pn
Xi X Yi Y puede ser positivo o
i=1
rh
2 i hPn
2 i
Pn
negativo, pero el denominador
siem
X
Y
X
Y
i
i
i=1
i=1
si Xi es ms grande que X
+
signo de Xi X =
si Xi es ms chico que X
y tambin
signo de Yi Y =
Luego, el
si Yi es ms grande que Y
si Yi es ms chico que Y
signo de Xi X Yi Y =
si + +
si + +
Hacemos
un scatter plot de las observaciones. Luego ubicamos en el plano el
punto X, Y . Trazamos una lnea vertical que pase por X y otra lnea horizontal que pase a la altura de Y . Esto divide al grfico en cuatro cuadrantes,
como puede verse en la Figura 4. Luego, el signo del sumando isimo de r ser
14
positivo, si para el individuo isimo tanto Xi como Yi son mayores que su respectivo promedio (es decir, la observacin cae en el cuadrante noreste, lo que
hemos denotado por ++) o bien ambos valores son simultneamente menores
que su promedio, es decir, la observacin cae en el cuadrante suroeste, que
hemos denotado por . En cambio, el sumando isimo de r ser negativo
en el caso en el que la observacin isima tenga un valor Xi por encima de
su promedio pero la Yi sea menor que su promedio, o bien la Xi sea menor a
su promedio y la Yi sea mayor a su promedio.
Figura 4: Scatter plot de la tasa de mortalidad versus el porcentaje de nios
menores
aun ao inmunizados, con la recta vertical y horizontal que pasan
15
16
Ejemplo 1.2 Veamos qu ocurre en nuestro ejemplo. Calculamos los promedios de ambas variables, obtenemos
X = 77,4
Y = 59
y le superponemos al scatter plot dos lneas rectas, una vertical que corta al
eje x en 77,4 y otra horizontal que corta al eje y en Y = 59. Las Figuras 4 y 5
muestran el grfico de esta situacin. Observamos que en los dos cuadrantes
coloreados hay muy pocas observaciones (exactamente 3 de un total de 20).
El coeficiente de correlacin muestral en este caso da 0,791, un valor
negativo, lo cual hubiramos podido anticipar ya que la mayora de los trminos involucrados en el clculo de r (17 de los 20 sumandos) sern menores
o iguales a cero.
1.2.2.
A continuacin damos las propiedades del coeficiente de correlacin muestral r, pero estas tambin son vlidas para el coeficiente de correlacin poblacional .
1. 1 r 1. El valor del coeficiente r est entre 1 y menos 1 porque
puede probarse que el denominador es ms grande que el numerador.
2. El valor absoluto de r, |r| mide la fuerza de la asociacin lineal entre X
e Y, a mayor valor absoluto, hay una asociacin lineal ms fuerte entre
X e Y.
3. El caso particular r = 0 indica que no hay asociacin lineal entre X e
Y.
4. El caso r = 1 indica asociacin lineal perfecta. O sea que los puntos
estn ubicados sobre una recta de pendiente (o inclinacin) positiva.
5. En el caso r = 1 tenemos a los puntos ubicados sobre una recta de
pendiente negativa (o sea, decreciente).
6. El signo de r indica que hay asociacin positiva entre las variables (si
r > 0); o asociacin negativa entre ellas (si r < 0).
7. r = 0,90 indica que los puntos estn ubicados muy cerca de una recta
creciente.
17
8. r = 0,80 indica que los puntos estn cerca, pero no tanto, de una recta
creciente. En la Figura 6 se pueden ver distintos grados de correlacin,
que estn comentados ms abajo.
9. r no depende de las unidades en que son medidas las variables (milmetros, centmetros, metros o kilmetros, por ejemplo) .
10. Los roles de X e Y son simtricos para el clculo de r.
11. Cuidado: el coeficiente de correlacin de Pearson es muy sensible a
observaciones atpicas. Hay que hacer siempre un scatter plot de los
datos antes de resumirlos con r.
Un ejemplo de fuerte correlacin positiva se da entre el volumen espiratorio esforzado (FEV: forced expiratory volume), una medida de la funcin
pulmonar, y la altura. En la Figura 6 (a) se muestra un grfico de dispersin
de observaciones de estas variables, que tienen correlacin = 0,90. En la
18
Figura 6 (b) se puede observar una correlacin positiva ms dbil entre niveles sricos de colesterol y la ingesta de colesterol, aqu = 0,3. Una fuerte
correlacin negativa ( = 0,8) se da entre la frecuencia del pulso en reposo
y la edad, medidas en nios menores a diez aos. Ah vemos que a medida
que un chico crece, la frecuencia de su pulso desciende. Una correlacin negativa ms dbil = 02. existe entre FEV y nmero de cigarrillos fumados
por da (en nios!), como se ve en la Figura 6 (d).
Cabe hacer un comentario respecto de la interpretacin del coeficiente de
correlacin. Altos grados de asociacin lineal entre X e Y no son seales de
causalidad, es decir, una relacin de causa y efecto entre ambas variables. Una
alta correlacin observada entre dos variables es compatible con la situacin
de que existan modelos que explican a Y por X, o bien a X por Y , o bien
que exista una tercer variable que las determine a ambas simultneamente.
1.2.3.
Inferencia de
19
que no es ms que b
dividido por un estimador de su desvo estndar, tiene
distribucin t de Student con n 2 grados de libertad, lo cual notaremos
T tn2 bajo H0 .
20
Figura 7: Regin de rechazo y aceptacin para el test de t para una correlacin. Fuente: [11], pg. 457.
1
1+r
z = ln
.
2
1r
21
1
1
1 + 0
N
,
ln
.
2
1 0
n3
Luego, esta distribucin se utiliza para calcular el p-valor del test, o dar la
regin de rechazo de nivel . El p-valor se obtendr estandarizando el valor de
z observado y calculando la probabilidad de obtener un valor tan alejado del
cero o ms alejado an como el observado, usando la funcin de distribucin
acumulada normal estndar, es decir
1+r 1 1+0
1
ln
2 ln 1
2
1r
0
q
zest =
1
n3
22
1+r
1
ln
=
2
1r
I =
D =
1
2 zo b s z1 n3
1
2 zo b s z1 n3
2
e
1
2 zo b s +z1 n3
1
2 zo b s +z1 n3
1
+1
1
+1
23
1.3.
Existen otras medidas de asociacin entre dos variables que no son tan
sensibles a observaciones atpicas como el coeficiente de correlacin de Pearson, ni necesitan el supuesto de normalidad para testearse. La ms difundida
de ellas es el coeficiente de correlacin de Spearman, que presentamos en esta
seccin. El coeficiente de correlacin de Spearman se encuadra entre las tcnicas estadsticas no paramtricas, que resultan robustas bajo la presencia de
outliers ya que reemplazan los valores observados por los rangos o rankings
de las variables. Se calcula del siguiente modo.
24
1. Se ordena cada muestra por separado, de menor a mayor. A cada observacin se le calcula el ranking que tiene (o rango, o nmero de observacin en la muestra ordenada). De este modo, la observacin ms
pequea de las X 0 s recibe el nmero 1 como rango, la segunda recibe
el nmero 2, etctera, la ms grande de todas las X 0 s recibir el rango n. Si hubiera dos o ms observaciones empatadas en algn puesto
(por ejemplo, si las dos observaciones ms pequeas tomaran el mismo
valor de X, entonces se promedian los rangos que les tocaran: cada
una tendr rango 1,5, en este ejemplo, ya que 1+2
= 1,5. En el caso
2
en el que las tres primeras observaciones fueran empatadas, a las tres
les tocara el promedio entre 1, 2 y 3, que resultar ser 1+2+3
= 2). A
3
este proceso se lo denomina ranquear las observaciones X. Llamemos
R (Xi ) al rango obtenido por la i-sima observacin X.
2. Se reemplaza a cada observacin Xi por su rango R (Xi ) .
3. Se ranquean las observaciones Y , obtenindose R (Yi ) de la misma forma en que se hizo en el tem 1 para las X 0 s.
4. Se reemplaza a cada observacin Yi por su rango R (Yi ) . Observemos
que conocemos la suma de todos los rangos de ambas muestras (es la
suma de 1 + 2 + 3 + + n = n(n+1)
).
2
5. Se calcula el coeficiente de correlacin de Pearson entre los pares
(R (Xi ) , R (Yi )) . El valor obtenido es el coeficiente de correlacin de
Spearman, que denotaremos rS .
Ilustramos el procedimiento con los datos del Ejemplo 1.1, de la vacunacin de DPT, en la Tabla 4. All figuran las originales X e Y en las
columnas 1 y 3, y los rangos de cada muestra: los rangos de las X 0 s en la
columna 2 y los rangos de las Y 0 s en la columna 4. Ah vemos que Etiopa
es el pas de la muestra con menor tasa de vacunacin, por eso su valor X
recibe el rango 1. Lo sigue Camboya. Observamos que hay dos pases cuyo
porcentaje de vacunacin es 89 %: Egipto e India. Ambos empatan en los
puestos 11 y 12 de la muestra ordenada, por eso reciben el rango 11,5. Y
tambin hay 3 pases con un 95 % de bebs vacunados (Finlandia, Francia e
Italia) que, a su vez, empatan en los puestos 16, 17 y 18 y reciben el rango
promedio de esos tres valores, o sea, 17. Es interesante observar que Etiopa
recibe el rango 1 (el menor) para el porcentaje de vacunacin, y el rango 20
(el mayor) para la tasa de mortalidad menor a 5 aos, Camboya, a su vez,
recibe el rango 2 (el segundo ms chico) para el porcentaje de vacunacin,
y el rango 19 (el penltimo) para la tasa de mortalidad. En ambos rdenes,
25
Porcentaje
Rangos Tasa de mortalidad Rangos
vacunado (X) de X
menor a 5 aos (Y ) de Y
Bolivia
77,0
8
118,0
16
Brasil
69,0
5
65,0
14
Camboya
32,0
2
184,0
19
Canad
85,0
9
8,0
3
China
94,0
15
43,0
12
Repblica Checa
99,0
20
12,0
8
Egipto
89,0
11,5
55,0
13
Etiopa
13,0
1
208,0
20
Finlandia
95,0
17
7,0
2
Francia
95,0
17
9,0
5
Grecia
54,0
4
9,0
5
India
89,0
11,5
124,0
17
Italia
95,0
17
10,0
7
Japn
87,0
10
6,0
1
Mxico
91,0
14
33,0
11
Polonia
98,0
19
16,0
9
Federacin Rusa
73,0
6
32,0
10
Senegal
47,0
3
145,0
18
Turqua
76,0
7
87,0
15
Reino Unido
90,0
13
9,0
5
26
Figura 10: Grfico de dispersin entre los rangos de Y (es decir, los rangos
de la tasa de mortalidad menor a 5 aos) y los rangos de X (es decir, del
porcentaje de nios menores a un ao vacunados contra la DPT). Se ve una
asociacin negativa, aunque no muy estrecha.
27
(X1 , Y1 ) , . . . , (Xn , Yn ) sean independientes entre s, idnticamente distribuidos. No es necesario asumir nada respecto de la distribucin de cada muestra,
de hecho basta que la escala de las observaciones sea ordinal para poder aplicarlo. Puede utilizarse si hay observaciones atpicas. La desventaja radica en
la potencia del test. El test de Spearman tiene una potencia menor en el
caso en el que ambas muestras son normales (en cualquier otro caso, el de
Pearson no puede aplicarse). Pero, por supuesto que si con el test de Spearman se logra rechazar la hiptesis nula, ya no es necesario preocuparse por
la potencia, ni utilizar el coeficiente de Pearson, que resulta ms eficiente.
Tabla 5: Clculo de la correlacin de Spearman entre el porcentaje de chicos
vacunados contra la DPT (immunized) y la tasa de mortalidad para chicos
menores a 5 aos (under5), con el clculo del p-valor con el coeficiente de
Spearman, para el test de las hiptesis H0 : = 0, versus H1 : 6= 0. Salida
del R.
28
lineal mltiple cuando se ajusta para modelos con muchas covariables muy
correlacionadas entre s.
Ejercicio 1.4 Hacer el ejercicio 1, de correlacin, que est en el Apndice
A, correspondiente a datos de peso y presin.
Ejercicio 1.5 Hacer el ejercicio 2, de correlacin, que est en el Apndice
A, correspondiente a datos de colesterol y triglicridos.
2.
29
2.1.
Introduccin
30
2.1 Introduccin
31
32
33
Observemos que si bien ahora sabemos que ambas variables estn linealmente asociadas, todava no podemos usar esta informacin para mejorar
nuestra prediccin del permetro ceflico de un beb recin nacido, de bajo
peso. Para hacerlo, proponemos el modelo lineal.
2.2.
El modelo de regresin lineal es un modelo para el vnculo de dos variables aleatorias que denominaremos X = variable predictora e Y = variable
dependiente o de respuesta. El modelo lineal (simple pues slo vincula una
variable predictora con Y ) propone que
Y = 0 + 1 X + ,
(1)
donde es el trmino del error. Esto es que para cada valor de X, la correspondiente observacin Y consiste en el valor 0 + 1 X ms una cantidad ,
que puede ser positiva o negativa, y que da cuenta de que la relacin entre
X e Y no es exactamente lineal, sino que est expuesta a variaciones individuales que hacen que el par observado (X, Y ) no caiga exactamente sobre
la recta, sino cerca de ella, como puede anticiparse viendo el scatter plot de
los datos que usualmente se modelan con este modelo (ver, por ejemplo, la
Figura 13). En el modelo (1) los nmeros 0 y 1 son constantes desconocidas que se denominan parmetros del modelo, o coeficientes de la ecuacin.
El modelo se denomina lineal puesto que la Y depende linealmente de
estas constantes, es lineal en los parmetros: los 0 s no aparecen como exponentes ni multiplicados o divididos por otros parmetros. Los parmetros se
denominan
0 = ordenada al origen
1 = pendiente.
Otra forma de escribir el mismo modelo es pensando en las observaciones
(Xi , Yi ) . En tal caso, el modelo (1) adopta la forma
Yi = 0 + 1 Xi + i ,
(2)
34
2.3.
Ecuacin de la recta
35
2.4.
(3)
(4)
36
i N 0, 2 , 1 i n, independientes entre s.
(5)
(6)
E (Y | X = xi ) = 0 + 1 xi
(7)
37
Si para algn conjunto de datos estos supuestos no se verifican (por ejemplo, las observaciones no son independientes porque hay varias mediciones de
los mismos pacientes, o la varianza de Y crece a medida que crece X) no se
puede aplicar el modelo de regresin lineal a dichos datos. Es necesario trabajar con modelos ms refinados, que permitan incluir estas estructuras en
los datos, por ejemplo, modelos de ANOVA con alguna predictora categrica
que agrupe observaciones realizadas a los mismos individuos, o modelo lineal
38
estimado con mnimos cuadrados pesados, que permiten incluir ciertos tipos
de heteroscedasticidades.
El modelo de regresin lineal tiene tres parmetros a ser estimados, 0 , 1
y . Qu nos interesa resolver?
2
2.5.
n
X
i=1
39
g (a, b) X
2 (Yi (a + bXi )) (Xi )
=
b
i=1
n
X
b
b
Yi 0 + 1 Xi = 0
(8)
i=1
X
b0 +
b1 Xi Xi = 0.
Yi
(9)
i=1
Pn
X
Y
Y
X
i
i
b1 = i=1P
,
(10)
2
n
X
X
i
i=1
b
b
(11)
0 = Y 1 X.
La pendientes estimada tambin se puede escribir de la siguiente forma
Pn
1
Xi X Yi Y
cov
c (X, Y )
i=1
n1
b1 =
=
,
P
2
n
1
d
V
ar
(X)
X
X
i
i=1
n1
40
donde es una funcin muy parecida al cuadrado para valores muy cercanos
al cero, pero que crece ms lentamente que la cuadrtica para valores muy
grandes. Estos ltimos se denominan M-estimadores de regresin, y, en
general, estn programados en los paquetes estadsticos usuales.
2.6.
el punto
(Xi , Yi ) y el punto predicho por el modelo ajustado, Xi , Ybi , como puede
observarse en la Figura 17. Los residuos reflejan la inherente asimetra en los
roles de las variables predictora y respuesta en los problemas de regresin.
Hay herramientas estadsticas distintas para tratar problemas donde no se da
41
2.6.1.
Aplicacin al ejemplo
42
43
y el residuo sera
y el residuo sera
44
Figura 19: Grfico de dispersin del permetro ceflico versus la edad gestacional, con la recta ajustada por mnimos cuadrados.
quiero predecir su permetro ceflico, ahora contamos con una herramienta que (confiamos) mejorar nuestra prediccin. Le podemos preguntar a la
madre la duracin de la gestacin del nio. Si contesta 25 semanas, predecir, 23,417 cm. de permetro ceflico; si contesta 29 semanas, predecir
26,537, si contesta 33 semanas, predecir 29,658. Si dice x0 semanas, diremos
3,9143 + 0,7801 x0 cm. Qu error tiene esta prediccin? Para contestar a
esta pregunta, tenemos que estimar la varianza condicional de Y , es decir,
2 .
Ejercicio 2.3 Hacer el ejercicio 3, de regresin lineal simple, que est en el
Apndice A, correspondiente a datos de peso y presin.
Ejercicio 2.4 Hacer los ejercicios del Taller 1 de Correlacin y Regresin
lineal simple, que figura en el Apndice A.
2.7.
Estimacin de 2
Modelo poblacional
Modelo ajustado
(12)
2.7 Estimacin de 2
45
Modelo ajustado.
(13)
X
X
b
b
0=
ei .
Yi 0 + 1 Xi =
i=1
(14)
i=1
X
b0 +
b1 Xi Xi
0 =
Yi
i=1
n
X
i=1
ei Xi =
n
X
i=1
(ei e) Xi =
n
X
i=1
(ei e) Xi X
(15)
La segunda igualdad de (15) se debe a que por (14) el promedio de los residuos e, es igual a cero, y la tercera puede verificarse haciendo la distributiva
46
Pn
i=1 (ei e) Xi X
q
r = r ((X1 , ei ) , . . . , (Xn , en )) = qP
2 = 0.
Pn
n
2
(e
e)
X
X
i
i
i=1
i=1
Luego, los residuos satisfacen dos ecuaciones lineales (las dadas por (14)
y (15)) y por lo tanto, tienen ms estructura que los errores. Adems, los
errores tienen todos la misma varianza, pero los residuos no. Ms adelante
las calcularemos.
El estimador de 2 que usaremos ser
2
1 X
1 X 2
1 X
Yi Ybi .
(ei e)2 =
ei =
n 2 i=1
n 2 i=1
n 2 i=1
n
b2 =
(16)
b2 =
1
SSRes = MSRes.
n2
Hallmoslo en el caso del ejemplo. Para ello, vemos otra de las tablas de la salida del SPSS en la Figura 20. Ms adelante analizaremos en detalle esta salida,
por ahora slo nos interesa la estimacin de 2 que resulta ser 2,529, la celda
en gris correspondiente a la media cuadrtica residual. Luego la estimacin
de que proporciona el modelo es su raz cuadrada, que es 1,5903. Al compararla con la obtenida sin el modelo de regresin, cuando slo disponamos
de la variable Y , vemos que el desvo estndar se redujo considerablemente
(el desvo estndar muestral de las Ys es 2,53). Esta informacin adems nos
permite proponer tests e intervalos de confianza para 0 y 1 .
2.8.
Inferencia sobre 1
Intentaremos construir un intervalo de confianza y tests para 1 , la pendiente de la recta del modelo lineal poblacional o terico que describe a la
poblacin de la que fueron muestreados nuestros datos. Recordemos que el
47
Figura 20: ANOVA para el ajuste de regresin lineal, para los 100 bebs de
bajo peso.
X
i
i=1
y tambin
b1 N
1 , Pn
2
i=1 Xi X
Un estimador de la varianza es
b2
SSRes/ (n 2)
b1 = P
=
Vd
ar
2 .
P
2
n
n
X
X
X
i
i
i=1
i=1
r 1 1 = 1
see1
b1
Vd
ar
48
b2
b
t
1 tn2;1 2 Pn
2 , o bien
i=1 Xi X
b1 tn2;1 see
1
2
(17)
Pn
n
X
X
Y
Y
X
1
i
i
i=1
b
1 =
= Pn
Xi X Yi
2
2
Pn
i=1
j=1 Xj X
j=1 Xj X
n
n
X
X
Xi X
=
ci Yi
(18)
2 Yi =
Pn
i=1
i=1
j=1 Xj X
49
donde
ci
SXX
Xi X
Xi X
= Pn
,
2 =
S
XX
X
X
j
j=1
n
X
2
=
Xj X .
(19)
j=1
T =r 1 = 1 =r
see1
SSRes
b1
S
2
Vd
ar
(n2) n (Xi X )
(20)
i=1
tiene distribucin tn2 . Finalmente, un test de nivel para las hiptesis (17)
rechazar H0 cuando el valor de T observado en la muestra sea mayor que
el percentil 1 2 de la distribucin tn2 , es decir, tn2 ,1 2 , o menor que
tn2 , 2 = tn2 ,1 2 , segn la Figura 21.
Es decir, el test rechaza H0 con nivel si
Tobs tn2 , 2 tn2 ,1 2 Tobs ,
donde Tobs es el valor del estadstico T definido en (20) calculado en base a las
observaciones (X1 , Y1 ) , . . . , (Xn , Yn ) . O bien, se puede calcular el p valor
del test de la siguiente forma
p valor = 2P (T |Tobs |) ,
ya que se trata de un test a dos colas. Reportar el p-valor cuando uno realiza
un test sobre un conjunto de datos siempre permite al lector elegir su punto
de corte respecto de aceptar o rechazar una hiptesis.
Un comentario final. Hay una importante distincin entre significatividad
estadstica, la observacin de un pvalor suficientemente pequeo y la significatividad cientfica (mdica, biolgica, econmica, dependiendo del contexto)
en el hecho de considerar significativa un efecto de una cierta magnitud. La
significatividad cientfica requerir examinar, en la mayora de las aplicaciones, ms que slo un p-valor.
50
2.8.1.
Aplicacin al ejemplo
Sn
i=1
(Xi X )
n1
51
n
X
2
=
Xi X = 2,5342 (n 1) = 2,5342 (99) = 635,69
i=1
Finalmente,
see1 =
=
SSRes/ (n 2)
2 =
Pn
X
X
i
i=1
247,883/98
635,69
2,529418
= 0,06307941
635,69
1
2
0,7801 1,984467 0,06307941
[0,654921, 0,905279]
Es decir, como el intervalo est ntegramente contenido en los reales positivos, el verdadero valor de la pendiente, 1 , ser positivo, confirmando que
la asociacin positiva que encontramos en la muestra se verifica a nivel poblacional. Observemos tambin que el intervalo es bastante preciso, esto se debe
a que la muestra sobre la que sacamos las conclusiones es bastante grande.
b1 disminuye (la estimacin es ms precisa o
Notemos que la variabilidad de
el intervalo de confianza ms pequeo) cuando:
La varianza de los errores 2 disminuye.
La varianza de la variable regresora aumenta, o sea, mientras ms amplio el rango de valores de la covariable, mayor la precisin en la estimacin de la pendiente
El tamao de muestra aumenta.
Si en vez del intervalo de confianza queremos hacer un test de nivel 0,05
para las hiptesis siguientes
H0 : 1 = 0
H1 : 1 6= 0,
52
b1
0,7801
=
= 12,36695.
see1
0,06307941
Para decidir la conclusin del test debemos comparar el valor Tobs con el
percentil tn2;1 2 = t98,0,975 = 1,984467. Como claramente Tobs = 12,367 >
t98,0,975 = 1,984, entonces rechazamos H0 , concluyendo que el parmetro
poblacional que mide la pendiente del modelo lineal es distinto de cero. Como
sabemos, una forma alternativa de llevar a cabo este test es calcular el p
valor, que en este caso ser
p valor = 2P (T > Tobs ) = 2P (T > 12,367) ' 0
como figura en la ltima columna de la Figura 18. Como p valor < 0,05,
se rechaza la hiptesis nula.
Observemos que el intervalo de confianza para 1 construido en base a
los datos es ms informativo que el test, ya que nos permite decir que para
los tests de hiptesis
H0 : 1 = b
H1 : 1 6= b.
la hiptesis nula ser rechazada para todo b fijo que no quede contenido en
el intervalo [0,655, 0,905] en base a la muestra observada (esto es lo que se
conoce como dualidad entre intervalos de confianza y tests).
2.9.
Inferencia sobre 0
Esta inferencia es de mucho menor inters. Aunque los paquetes estadsticos la calculan es infrecuente encontrarla en aplicaciones. Bajo los supuestos
del modelo lineal, puede calcularse la esperanza y varianza del estimador de
0 , que resultan ser
b0 = 0
E
!
2
X
1
b0 = 2
V ar
+
.
n Pn Xj X 2
j=1
!
2
X
1
2
b0 =
+
b
Vd
ar
n Pn Xj X 2
j=1
53
el estadstico
2
es N 0 , 2 n1 + Sn X
, luego
2
j=1 (Xj X )
b
r 0 0 tn2
b0
V ar
0 tn2; 2
+
b
n Pn Xi X 2
(21)
i=1
Esto quiere decir que el (1 ) 100 por ciento de los intervalos construidos
de esta forma contendrn al verdadero valor 0 con el que fueron generados
los datos.
Ejemplo 2.5 Para el ejemplo de los 100 bebs vemos en la Figura 18 que el
estadstico T observado en este caso vale 2,14 y el p-valor para testear
H0 : 0 = 0
H1 : 0 6= 0,
es 0,035, indicando que se rechaza la H0 y la ordenada al origen poblacional
es no nula.
2.10.
54
X
x
1
h
V ar Ybh = 2
+
.
n Pn Xi X 2
i=1
| {z 1 }
e
b1 xh X
= Y +
n
n
X
X
1
ci Yi xh X
Yi +
=
n
i=1
i=1
n
X
1
+ ci xh X Yi
=
n
i=1
55
con los mismos Xi , ambas pasan por el mismo X, Y , se observa la variabilidad mayor en el ajustado para E (Y | x2 ) que para E (Y | x1 ) si la distancia
al X es mayor para x2 que para x1 .
(Xi X )
con ci = SXX . De la normalidad de los errores se deduce la normalidad de
Ybh . Luego, un intervalo de confianza de nivel 1 para E (Yh ) resulta ser
v
2
u
u1
xh X
t
b
b
+
Yh tn2;1 2
.
n Pn Xi X 2
i=1
2.11.
56
P an Yh(nuevo) bn = 1 .
u
u
xh X
1
t
b 1 + + Pn
2
n
Xi X
i=1
57
A partir de este error estndar podemos construir un intervalo de prediccin de nivel (1 ) para el valor predicho de Y cuando X = xh por
v
2
u
u
X
x
1
h
b t1 + + Pn
Ybh tn2;1 2
2
n
Xi X
i=1
2.11.1.
Aplicacin al ejemplo
Ybh
21,85549
23,417
25,75575
26,537
29,658
31,21612
Ybh
21,85549
23,417
25,75575
26,537
29,658
31,21612
Intervalo de
[21,05352
[22,83534
[25,42106
[26,21989
[29,05247
[30,38878
Intervalo de
[18,59907
[20,20657
[22,58193
[23,36391
[26,44271
[27,95336
58
La teora nos dice que el IC de nivel 0,95 para E(Yh | X = xh ) se obtiene por
Ybh tn2;1 2
v
2
u
u1
X
x
h
b t + Pn
2
n
Xi X
i=1
Sabemos que (ver los estadsticos descriptivos de la edad gestacional) calculados en la Seccin 2.8
X = 28,89
SXX = 635,69
n = 100
La varianza estimada por la regresin es
de dnde surge
b2 =
b=s=
SSRes
= 2,529
n2
p
2,529 = 1,5903
1
(xh x)2
+ Pn
2
n
i=1 (xi x)
s
(29 28,89)2
1
+
26,537 1,984467 1,5903
100
635,69
Ybh tn2; 2
b
26,537 0,3159
[26,22; 26,85]
que coincide con lo hallado por el SPSS: [26,21989; 26,85172] .
En cuanto al intervalo de prediccin para una nueva observacin de permetro
ceflico a realizarse en un beb de 29 semanas de gestacin, el intervalo de
59
b 1 + + Pn
Yh tn2; 2
2
n
i=1 (xi x)
s
(29 28,89)2
1
+
26,537 1,984467 1,5903 1 +
100
635,69
26,537 3,1717
[23,365; 29,709]
que coincide con lo hallado por el SPSS: [23,36391; 29,70770] . Vemoslo
grficamente. Si construimos un IC y un IP para cada xh tenemos el grfico
de la Figura 24.
Figura 24: Recta ajustada e intervalos de confianza y de prediccin para el
ejemplo de los 100 bebs.
60
(xh X )
2 tendiera a cero,
i=1 (Xi X )
entonces la longitud de los IC tendera a cero, pero la longitud de los IP no.
Una observacin sobre el grfico anterior es que las conclusiones tienen nivel
de confianza 1 para cada valor (o nivel de prediccin para cada IP)
calculado, pero no hay nivel de confianza simultneo. (O sea, la probabilidad
de que un IC contenga al verdadero parmetro es 1 , sin embargo la
probabilidad de que simultneamente el IC calculado para xh = 29 y el IC
calculado para xh+1 = 30 ambos contengan a los dos verdaderos parmetros,
no puede asegurarse que sea 1 ).
infinito) y eligiramos los Xi de manera tal que
2.12.
Sn
con ui N 0, 2Y , 1 i n,
Yi = + ui
independientes entre s.
tienen
n 1 grados de libertad ya que si uno conoce los valores de Y1 Y , . . . ,
61
(22)
E (Y | X) = 0 + 1 X, o escrito de otro modo
2
Yi = 0 + 1 Xi + i ,
con i N 0, , 1 i n,
independientes entre s.
Yn Ybn ya que los residuos satisfacen las dos ecuaciones normales (suman
0 y su correlacin muestral con las X 0 s es cero, las ecuaciones (14) y (15)).
Si comparamos los dos modelos disponibles para las Y 0 s vemos que el
Modelo A est includo en el Modelo B, ya que tomando 0 = y 1 = 0 en
el Modelo B obtenemos el Modelo A como un caso particular del modelo B.
Estadsticamente se dice que ambos modelos estn anidados. Es decir, que
ajustar bajo el Modelo A corresponde a encontrar la mejor recta horizontal
que ajuste a los datos, mientras que ajustar bajo el Modelo B es encontrar
la mejor recta (no vertical) que ajuste a los datos. La Figura 25 muestra los
ajustes de ambos modelos para un mismo conjunto de datos.
Si todas las Yi cayeran sobre la recta, SSResiduos sera igual a cero.
Cunto mayor sea la variacin de las Yi alrededor de la recta ajustada, mayor
ser la SSResiduos.
Cul de las dos ser mayor? Vale que
SSRes SSTotal
n
X
i=1
62
Figura 25: Las dos esperanzas o medias condicionales ajustadas bajo ambos
modelos, para un conjunto de veinte datos
Por lo tanto,
n
n
X
2 X
2
b
b
b
b
b
SSRes = g 0 , 1 =
Yi Yi =
Yi 0 + 1 Xi
i=1
g (a, b) =
n
X
i=1
i=1
para todo a y b.
(23)
P
2
En particular, tomando a = Y y b = 0 tenemos g Y , 0 = ni=1 Yi Y y
de (23) tenemos
n
X
2
SSRes
Yi Y = SSTo.
(24)
i=1
63
desviacin total
Yi Ybi
+
Ybi Y
| {z }
| {z }
desvo alrededor
desvo de los predichos
de la recta de regresin
respecto de la media
ajustada
(25)
64
de la derecha es decir,
2
2
2
b
b
Yi Y 6= Yi Yi + Yi Y
para cada i.
Sin embargo vale la siguiente igualdad, cuando sumamos sobre todas las
observaciones
n
n
n
2
2 X
X
2 X
b
b
Yi Yi +
Yi Y .
Yi Y =
i=1
i=1
(26)
i=1
n
n
n
2
2 X
X
2 X
Ybi Y =
Yi Ybi
Yi Y
i=1
i=1
i=1
= SSTo SSRes.
65
Figura 27: El primer grfico contiene las distancias (con signo) que intervienen en la SSTo, es decir, las diferencias entre los valores observados de Y
y la media muestral Y , el segundo tiene las diferencias entre las observaciones
y los valores predichos por la recta ajustada, que conforman la SSRes y el
tercer grfico muestra la deferencia entre los valores predichos por el modelo
lineal y el promedio Y , que forman la SSReg o SSM. Fuente: [2], pg. 149.
66
p-valor
MSReg
MSRes
P (F1,n2 Fobs )
donde
2
Pn b
SSReg = i=1 Yi Y
2
P
SSRes = ni=1 Yi Ybi
2
P
SSTo = ni=1 Yi Y
MSReg =
MSRes =
F =
MSReg
MSRes
SSReg
1
SSRes
n2
SSReg(n2)
SSRes
Figura 28: La tabla de ANOVA para los 100 bebs con bajo peso, que ya fue
exhibida en la pgina 47.
2.13.
El coeficiente de determinacin R2
67
que sin conocer el valor de X, entonces las variables estn asociadas. Para
ello usaremos la descomposicin de la suma de cuadrados vista en la seccin
anterior. Por lo descripto all, la mejora en el ajuste a los datos conseguida
por la inclusin del modelo B resulta ser SSTo SSRes. Cunto de la variabilidad total de las Y queda explicada por la regresin? Podemos plantear
la siguiente regla de tres simple:
100 % de variabilidad
SSTo
Propiedades de R2
0 R2 1
No depende de las unidades de medicin.
Es el cuadrado del coeficiente de correlacin de Pearson para la muestra.
Mientras mayor es R2 mayor es la fuerza de la variable regresora (X)
para predecir la variable respuesta (Y ).
Mientras mayor sea R2 menor es la SSRes y por lo tanto, ms cercanos
estn los puntos a la recta.
68
2.14.
69
n
n
2 X
2
X
b0 +
b1 Xi Y
b
Yi Y =
MSReg = SSReg =
i=1
i=1
n
n
2
2 X
X
b1 X +
b
b
b1 Xi
=
Y 1 X + 1 Xi Y =
i=1
b2
=
1
i=1
n
X
i=1
Xi X
SSRes
MSRes =
n2
Luego, si recordamos el estadstico T definido en las ecuaciones (20) para
testear la hiptesis de pendiente igual a cero, tenemos
b1
b
b 0
T =r 1 = 1 =r
see1
SSRes/(n2)
b1
Sn
2
Vd
ar
i=1 (Xi X )
y el estadstico F que resulta ser
b2 Pn Xi X 2
MSReg
1
i=1
F =
=
=
SSRes
MSRes
n2
b2
SSRes/(n2)
Sn
2
i=1 (Xi X )
70
vemos que
F = T2
y el p-valor del test t se calculaba
p valor = 2P (T |Tobs |) = P (T |Tobs | T |Tobs |)
2
= P (|T | |Tobs |) = P |T |2 |Tobs |2 = P T 2 Tobs
= P (F Fobs )
dando el mismo p-valor que el test de Fisher.
Ejemplo 2.8 Si miramos la tabla de ANOVA para el ejemplo de los 100
bebs (Figura 28), vemos que el estadstico del test F toma el valor
F = 152,947.
3. Diagnstico en Regresin
3.
71
Diagnstico en Regresin
3.1.
3.1.1.
Medidas de diagnstico
Leverage de una observacin
donde
Xi X Xk X
1
hik = +
n
SXX
Xi X
1
.
hii = +
n
SXX
Recordemos que hemos llamado SXX a la cantidad
SXX
n
X
2
=
Xk X .
k=1
(28)
72
Vale que
n
X
k=1
n
X
hik = 1,
n
X
hik = 1
(29)
i=1
hii = 2
i=1
1
1
hii 1.
(30)
n
s
donde s es la cantidad de observaciones con predictor igual a Xi en la muestra.
La cantidad hii se denomina leverage del dato i-simo. Es una medida que
resume cun lejos cae el valor de Xi de la media muestral de las X. Mide,
de alguna manera, cunto es el aporte de la observacin isima a la varianza
XX
muestral de las X (que es Sn1
). La traduccin de leverage al castellano es
usualmente palanca, o influencia. Observemos que es un concepto que no
depende del valor Yi observado.
3.1.2.
Residuos
E (ei ) = 0
V ar (ei ) = 2 (1 hii )
(31)
(Xi X )
donde hii = n1 + SXX , el leverage de la observacin isima. En consecuencia
la varianza del residuo de un dato depende del valor de la covariable, y los
residuos de distintos casos tienen diferentes varianzas. De la ecuacin (31)
vemos que cunto mayor sea hii , menor ser la varianza del ei : mientras ms
cercano a uno sea hii ms cercana a cero ser la varianza del residuo de la
observacin isima. Esto quiere decir que para observaciones con gran hii ,
Ybi tender a estar cerca del valor observado Yi , sin importar cunto sea el
valor Yi observado. En el caso extremo e hipottico en que hii = 1, la recta
ajustada sera forzada a pasar por el valor observado (Xi , Yi ).
3.1.3.
73
Residuos estandarizados
b2 (1 hii )
(32)
b2 =
n2
Puede probarse que los residuos estandarizados tienen media poblacional cero
(igual que los residuos), e igual varianza poblacional igual a uno, es decir
E (resti ) = 0
V ar (resti ) = 1.
3.1.4.
Para chequear que los supuestos del modelo lineal son apropiados para un
conjunto de datos, suelen hacerse una serie de grficos. El ms importante es
el scatter plot de residuos versus la covariable. Esto se conoce como grfico
de residuos (o residual plot). En el caso de regresin lineal simple, los valores
ajustados o predichos Ybi representan un cambio de escala lineal respecto de
b0 +
b1 Xi . Luego, es equivalente al grfico recin
los valores Xi ya que Ybi =
descripto el scatter plot de residuos versus los valores ajustados. Cmo debe
lucir este grfico si el modelo es correcto?
1. Puede probarse que E (e | X) = 0. Esto quiere decir que el scatter plot
de los residuos versus las X debe estar centrado alrededor del cero (de
la recta horizontal de altura cero).
2. Vimos que cuando el modelo es correcto, V ar (ei | X) = 2 (1 hii ) .
Luego el grfico de residuos versus la covariable debera mostrar mayor
variabilidad para los valores de X ms alejados de la media muestral
(sern los que tengan mayor leverage hii ). Por este motivo, suele ser
ms frecuente graficar los residuos estandarizados versus la covariable.
En ese caso, deberamos ver la misma variabilidad para los distintos
valores de la covariable.
74
75
Figura 30: Grficos de residuos: (a) nube de datos sin estructura, (b) varianza
que crece con X (forma de megfono abierto a la derecha), (c) varianza que
decrece con X (forma de megfono abierto a la izquierda), (d) varianza que
depende de la covariable, (e)-(f) no linealidad, (g)-(h) combinacin de no
linealidad y funcin de varianza no constante. Fuente:[15] , pg. 172.
el grfico, que es un scatter plot de los puntos Ybi , ei para las 100 observaciones de la muestra.
76
un valor mucho menor que el observado, por lo tanto el residuo resulta grande
e31 = Y31 Yb31 = 35 28,097 = 6,903.
3.1.7.
77
78
o wls) en vez del mtodo usual de mnimos cuadrados (ordinary least squares,
ols) para obtener estimadores. En este caso, se buscan los valores de los
parmetros que minimizan la funcin
gwls (a, b) =
n
X
i=1
Existen expresiones explcitas para los parmetros estimados con este mtodo, y los softwares ms difundidos realizan el ajuste. En las aplicaciones, por
supuesto, se agrega la complejidad extra de elegir los pesos wi que en general no vienen con los datos. Muchas veces se usan pesos empricos, que se
deducen de algunos supuestos tericos que se tengan sobre las variables, por
ejemplo. Si hubiera replicaciones, es decir varias mediciones de la variable
respuesta realizadas para el mismo valor de la covariable, podra estimarse la
varianza dentro de cada grupo y conseguirse de este modo pesos aproximados. Tambin es posible usar modelos de mnimos cuadrados generalizados,
en los que se estiman simultneamente los parmetros del modelo y los pesos, que exceden por mucho estas notas (consultar por ejemplo Pinheiro, J.
y Bates, D. (2000) [9], Seccin 5.1.2).
La tercera posibilidad es no hacer nada. Los estimadores de los parmetros, ajustados considerando una funcin de varianza incorrecta o mal especificada, son de todos modos insesgados, aunque ineficientes. Los tests e
intervalos de confianza calculados con la funcin de varianza errada sern
inexactos, pero se puede recurrir a mtodos de bootstrapping para obtener
resultados ms precisos.
La ltima opcin es usar modelos de regresin que contemplan la posibilidad de una funcin de varianza no constante que dependa de la media.
Estos modelos se denominan modelos lineales generalizados, de los cuales por
ejemplo, los modelos de regresin logstica forman parte. Puede consultarse
el texto clsico McCullagh y Nelder, (1989) [7] y tambin el libro de Weisberg
(2005) [15], Seccin 8.3 y Seccin 12.
3.1.9.
Si las observaciones con las que contamos fueron producto de haber tomado una muestra aleatoria de sujetos de alguna poblacin, entonces en principio, tendremos observaciones independientes. Algunas situaciones en las que
este supuesto puede fallar se describen a continuacin.
Los estudios en los cuales los datos se recolectan secuencialmente pueden
dar lugar a observaciones que no resulten independientes. Lo mismo puede
suceder en las determinaciones de laboratorio hechas secuencialmente en el
79
tiempo, ya que pueden mostrar un cierto patrn, dependiendo de cmo funcionan los equipos, los observadores, etc. El modo de deteccin de estas situaciones suele ser graficar los residuos versus la secuencia temporal en la que
fueron relevados.
Si los datos fueron obtenidos por dos observadores distintos A y B, podramos esperar que las observaciones de un observador tiendan a parecerse
ms entre ellas. La manera de detectar que esto sucede es graficar las Y
versus las X identificando los puntos de cada grupo. En ocasiones, la variabilidad debida a la regresin puede ser explicada por la pertenencia al grupo.
Tampoco sern independientes las observaciones si varias de ellas fueron realizadas sobre los mismos sujetos (o animales). Si este fuera el caso, puede
considerarse un modelo de regresin mltiple donde el operador (o el sujeto) entre como covariable. Nos ocuparemos de discutir esto ms adelante, ya
que los modelos correctos para este tipo de situaciones son los modelos de
ANOVA con efectos aleatorios, o los modelos de efectos mixtos, que exceden
el contenido de estas notas. Ver para ello, el libro de Pinheiro, J. y Bates, D.
(2000) [9].
3.1.10.
80
3.2.
3.2.1.
Outliers
3.2.2.
81
Yi Ybi(i)
ti = r
,
Vd
ar Yi Ybi(i)
la versin estandarizada del estadstico en consideracin. Si la observacin isima sigue el modelo, entonces la esperanza de Yi Ybi(i) debera
ser cero. Si no lo sigue, ser un valor no nulo. Luego, si llamamos a
la esperanza poblacional de esa resta, = E Yi Ybi(i) , y asumimos
normalidad de los errores, puede probarse que la distribucin de ti bajo
la hiptesis H0 : = 0 es una t de Student con n 3 grados de libertad,
ti tn3 (recordar que hemos excluido una observacin para el clculo
del error estndar que figura en el denominador, por eso tenemos un
grado de libertad menos que con los anteriores tests), y rechazar cuando
este valor sea demasiado grande o demasiado pequeo.
Hay una frmula computacionalmente sencilla para expresar a ti sin necesidad de reajustar el modelo lineal con un dato menos, ya
que
es fcil escribir
al desvo estndar estimado sin la observacin isima
b(i) en trminos del
leverage de la observacin isima (hii ) y el desvo estndar estimado con toda
la muestra (b
). Es la siguiente
r
n3
ei
= resti
(33)
ti =
n 2 resti
b(i) 1 hii
82
percentil 1 2n
de la tn3 . Por ejemplo, si n = 20 (pensamos en una muestra
con 20 observaciones) y nivel simultneo 0,05, entonces en vez de comparar
con el percentil 0,975 de una t17 que es 2,11, la comparacin correcta es con
el percentil 1 2n
= 1 0,05
= 0,99875 de una t17 que es 3,543.
220
Apliquemos este test al ejemplo de los bebs de bajo peso
Ejemplo 3.1 En el caso de los 100 bebs, para detectar outliers a nivel 0,05
debemos computar el residuo estudentizado para cada caso, y compararlo con
el percentil
0,05
=1
= 0,99975
1
2n
2 100
de una t97 , que resulta ser 3,602. El nico residuo estudentizado cuyo valor
absoluto sobrepasa este punto de corte es el correspondiente a la observacin
31, que es 4,857. En la Figura 33 pueden verse los boxplots de los residuos,
los residuos estandarizados y los residuos estudentizados para el ajuste de
permetro ceflico en funcin de la edad gestacional.
Este test ubica un outlier, pero no nos dice qu hacer con l. Cuando
detectamos un outlier, sobre todo si es severo, es importante investigarlo.
Puede tratarse de un dato mal registrado, o que fue mal transcripto a la base
de datos. En tal caso podremos eliminar el outlier (o corregirlo) y analizar
los casos restantes. Pero si el dato es correcto, quizs sea diferente de las
otras observaciones y encontrar las causas de este fenmeno puede llegar a
ser la parte ms interesante del anlisis. Todo esto depende del contexto del
83
Figura 33: Los boxplots de los residuos, los residuos estandarizados y los
residuos estudentizados para el ajuste de permetro ceflico en funcin de la
edad gestacional en el ejemplo.
Observaciones influyentes
84
85
86
Grfico (2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
7.8387
3.6856
2.127 0.049338
pendiente
2.3281
0.5469
4.257 0.000602
Residual standard error: 5.184 on 16 degrees of freedom
Multiple R-squared: 0.5311, Adjusted R-squared: 0.5018
F-statistic: 18.12 on 1 and 16 DF, p-value: 0.000602
Grfico (3)
Coefficients:
(Intercept)
pendiente
Grfico (4)
Coefficients:
(Intercept)
pendiente
87
Figura 35: Nuevamente los scatter plots de los 4 conjunto de datos, esta vez
con las rectas ajustadas.
Una vez realizado el ajuste vemos que se verifica lo anticipado. Las pendientes de las rectas estimadas en los 3 primeros grficos no difieren demasiado entre s, en el grfico (2) la ordenada al origen es mayor ya que la
observacin A est ubicada muy por encima de los datos. La recta estimada
en (3) pasa casi exactamente por el dato B y la significatividad del test para
la pendiente aumenta en este caso, comparada con la del grfico (1). Adems
tambin se incrementa el R cuadrado, que pasa de 0,79 en (1) a 0,86 en (3).
En el grfico (4) vemos que la recta ajustada difiere completamente de la
recta estimada para el conjunto (1), de hecho la pendiente que era significativa para los datos del grfico (1) deja de serlo en este caso. Vemos que la
observacin C arrastr la recta hacia ella.
Una observacin ms que habra que hacer con respecto a la influencia es
que en este caso hemos presentado un ejemplo muy sencillo donde para cada
conjunto de datos hay un slo dato sospechoso. En las situaciones prcticas,
cuando hay ms de un dato anmalo en un conjunto de datos, esta presencia
simultnea puede enmascararse: la tcnica de sacar las observaciones de a
88
una muchas veces no logra detectar los problemas. En regresin simple nos
salva un poco el hecho de que podemos graficar muy bien los datos. No ser
esta la situacin en regresin mltiple, por lo que se vuelve importante tener
medidas cuantitativas que permitan medir el grado de influencia (al menos
potencial) que tiene cada dato en un conjunto de datos.
Observacin 3.1 Si uno ajustara una recta usando un procedimiento de
ajuste robusto, por ejemplo un M-estimador de regresin con la funcin de
penalizacin conocida con el nombre de rho de Huber, presentada en la Observacin 2.1 (rutina rlm en el paquete R) para los datos (4) obtendramos
la salida que figura a continuacin. En ella vemos que los valores de la pendiente y ordenada al origen estimados resultan ser muy parecidos a los que se
obtienen al ajustar por el mtodo de mnimos cuadrados a los datos (1). La
dificultad con los mtodos robustos de ajuste yace en que no es fcil hallar los
p-valores para medir la significatividad de los tests. Pero vemos que en cuanto
a la estimacin el mtodo robusto prcticamente ignora a la observacin C
que estaba distorsionando el ajuste. Y que esto lo hace automticamente, sin
que tengamos que informarle que se trata de una observacin potencialmente
problemtica.
Coefficients:
(Intercept)
pendiente
3.2.4.
89
2
Yb(i)i Ybi
,
Di =
2b
2
90
Figura 37: Histogramas de los leverage para los cuatro conjuntos de datos
graficados en la Figura 34.
donde Yb(i) corresponde al valor predicho para la isima observacin si se usaron las n 1 restantes observaciones para hacer el ajuste, como lo habamos
definido en la Seccin 3.2.2 y Ybi es el valor predicho para la isima observacin en el modelo ajustado con las n observaciones. Como en el caso de
los residuos estudentizados, no es necesario recalcular el ajuste por mnimos
cuadrados para calcular los Di , ya que otra expresin para ellos es la siguiente
Di =
1
hii
(resti )2
.
2
1 hii
91
Existen otras medidas de influencia. Los DFfits y los DFbetas son medidas bastante estudiadas. Una referencia para leer sobre ellos es el libro de
Neter [6]. Los grficos de variables agregadas (en el caso de regresin mltiple) pueden servir tambin para identificar observaciones influyentes, pueden
verse en [15] secciones 3.1 y 9.2.4 o [6] seccin 10.
92
4.
93
4.1.
El modelo
(34)
94
modelo (34) en trminos de las variables (en vez de sus valores esperados) es
la siguiente
(35)
Yi = 0 + 1 Xi1 + 2 Xi2 + i ,
donde i es el trmino del error para el individuo isimo, que no es observable.
A la ecuacin (34) se la suele llamar funcin de respuesta. En analoga con la
regresin lineal simple donde la funcin E (Y | X) = 0 + 1 X1 es una recta,
la funcin de regresin (34) es un plano. En la siguiente figura se representa
una porcin de la funcin de respuesta
E (Y | X1 , X2 ) = 10 + 2X1 + 5X2 .
(36)
Observemos que cualquier punto de la Figura 39 corresponde a una respuesta media E (Y ) para una combinacin dada de X1 y X2 . La Figura 39
tambin muestra una observacin Yi correspondientes a los niveles (Xi1 , Xi2 )
de las dos variables predictoras. El segmento vertical entre Yi y el grfico
95
4.2.
Consideremos ahora el significado de los coeficientes en la funcin de regresin mltiple (35). El parmetro 0 es el intercept u ordenada al origen
del plano. Si dentro de los valores que estamos ajustando el modelo, se encuentra incluido el punto X1 = 0, X2 = 0, el origen de coordenadas, entonces
0 representa la respuesta media E (Y ) en X1 = 0, X2 = 0. De lo contrario,
0 no tiene ningn significado en particular como un trmino separado del
modelo de regresin.
El parmetro 1 indica el cambio en la respuesta media E (Y ) cuando
aumentamos a X1 en una unidad, manteniendo a X2 constante (en cualquier
valor). Del mismo modo, 2 indica el cambio en la respuesta media E (Y )
cuando aumentamos a X2 en una unidad, manteniendo a X1 constante. En
el ejemplo (36) graficado, supongamos que fijamos X2 en el nivel X2 = 3. La
funcin de regresin (36) ahora es la siguiente:
E (Y ) = 10 + 2X1 + 5(3) = 25 + 2X1 ,
X2 = 3.
Notemos que esta funcin de respuesta es una lnea recta con pendiente
1 = 2. Lo mismo es cierto para cualquier otro valor de X2 ; slo el
intercept de la funcin de respuesta ser diferente. Por lo tanto, 1 = 2 indica
que la respuesta media E (Y ) aumenta en 2 unidades, cuando se produce un
incremento unitario en X1 , cuando X2 se mantiene constante, sin importar
el nivel de X2 .
Del mismo modo, 1 = 5, en la funcin de regresin (36) indica que la
respuesta media E (Y ) se incrementa en 5 unidades, cuando se produce un
incremento unitario en X2 , siempre que X1 se mantenga constante.
Cuando el efecto de X1 en la respuesta media no depende del nivel de
X2 , y adems el efecto de X2 no depende del nivel de X1 , se dice que las dos
variables predictoras tienen efectos aditivos o no interactuan. Por lo tanto,
el modelo de regresin tal como est propuesto en (34) est diseado para
las variables predictoras cuyos efectos sobre la respuesta media son aditivos.
Los parmetros 1 y 2 a veces se llaman coeficientes de regresin parcial
porque reflejan el efecto parcial de una variable de prediccin cuando la otra
96
4.3.
(37)
i N 0, 2 , 1 i n, independientes entre s.
(38)
Es decir,
p1
X
j=0
j Xij + i
97
Observemos que del hecho de que los i son independientes y tienen dis2
tribucin
P N (0, ) y de (37) se deduce que, condicional a X1 , . . . , Xp1 , Yi
p1
2
N
independientes entre s. Tomando esperanza (condicional)
j=0 j Xij ,
en (37) obtenemos
E (Y | X1 , ..., Xp1 ) = 0 + 1 X1 + 2 X2 + + p1 Xp1 ,
que es una manera alternativa de escribir el modelo (37). Las variables predictoras pueden ser acomodadas para contemplar una serie de situaciones
cuyo tratamiento iremos desarrollando a lo largo del curso. Esencialmente
pueden ser
- variables continuas, y todas distintas. En la Seccin 4.7 veremos un
ejemplo de dos continuas.
- variables categricas o cualitativas, en la Seccin 4.12 veremos varios
ejemplos donde aparecern categricas de dos categoras, que se suelen
denominar binarias o dicotmicas o dummies, o de ms de dos categoras.
- variables continuas, algunas representando potencias de otras. A esta
situacin se le suele llamar regresin polinomial.
- variables continuas, pero aparecen en el modelo transformaciones de
las originales.
- variables modelando efectos de interaccin entre dos o ms variables,
continuas o categricas (ver Secciones 4.15 y 4.17).
- combinaciones de algunos o de todos los casos anteriores.
98
4.4.
Y1
Y2
Y = ..
n1
.
Yn
0
1
= ..
.
p1
p1
1
1
X = ..
np
.
1
..
..
..
.
.
.
Xn1 Xn2 Xn,p1
1
2
= ..
n1
.
n
(39)
Observemos que los vectores Y y son los mismos que para la regresin
lineal simple. El vector contiene los parmetros de regresin adicionales.
Cada fila de la matriz X corresponde a las observaciones correspondientes a
cada individuo (la fila isima contiene las observaciones del individuo isimo)
y las columnas identifican a las variables.
El modelo (37) se escribe matricialmente en la siguiente forma
Y=X +
n1
npp1
n1
donde
Y es un vector de respuestas
es un vector de parmetros
X es una matriz de constantes
es un vector de variables aleatorias normales independientes con espe-
99
2 0 0
0 2 0
2
V ar () = ..
..
.. = I.
.
.
.
0 0 2
Entonces tomando a las variables equis como fijas, el vector Y tiene esperanza
E (Y) = X
o, bien, condicional a las variables equis, resulta que
E (Y | X) = X
y la matriz de covarianza de las Y resulta ser la misma que la de
V ar (Y) = 2 I.
4.5.
n
X
i=1
(40)
b
b
b
y los estimadores 0 , 1 , . . . , p1 sern aquellos valores de b0 , b1 , . . . , bp1
que minimicen a g. Los denominamos estimadores de mnimos cuadrados.
b
Denotaremos al vector de coeficientes estimados por .
b0
b1
b
= .
..
p1
bp1
b = Xt X 1 Xt Y
100
Observacin 4.3 En el caso de la regresin lineal, los estimadores de mnimos cuadrados coinciden tambin con los estimadores de mxima verosimilitud para el modelo antes descripto.
Observacin 4.4 Para encontrar los estimadores de no se necesita que
los errores sean normales.
4.6.
b = X Xt X 1 Xt Y
b = X
Y
que son los valores que estn en la superficie de respuesta ajustada (o sea, en
el plano ajustado en el caso p = 3). Los residuos se escriben matricialmente
como
Llamando
b
b = Y X
e = YY
t 1 t
=YX X X
XY
t 1 t
= IX X X
X Y
1 t
H = X Xt X
X Rnn
(41)
b = HY
Y
e = (I H) Y.
V ar (e) = 2 (I H) .
(42)
101
1
X
= [fila i de X] Xt X
[fila j de X]t
Hij = X Xt X
ij
1
= xti Xt X
xj
donde xti representa la isima fila de X. Luego,
1 t
V ar (ei ) = 2 (1 Hii ) = 2 1 xi Xt X
xi
1 t
Observacin 4.6 (terica) H, y por lo tanto I H, son matrices de proyeccin (es decir que H2 = H y lo mismo ocurre con I H). H proyecta al
subespacio de Rn generado por las columnas de Xt . Algunos textos la notan
con la letra P.
102
4.7.
Antes de seguir con las sumas de cuadrados, las estimaciones de los intervalos de confianza para los coeficientes y el test F, presentaremos un ejemplo
numrico con p = 3.
Consideremos los datos correspondientes a mediciones de 100 nios nacidos con bajo peso en Boston, Massachusetts presentados en el artculo de
Leviton y coautores [5], tratados en el libro de Pagano y Gauvreau [8]. Al
estudiar el modelo de regresin lineal simple encontramos una relacin lineal
significativa entre el permetro ceflico y la edad gestacional para la poblacin
de nios nacidos con bajo peso. La recta ajustada a esos datos era
Yb = 3,9143 + 0,7801X1
103
32
30
28
26
24
22
34
Figura 40: Permetro ceflico versus peso al nacer para la muestra de 100
bebs de bajo peso.
600
800
1000
1200
1400
104
= birthwt
1360
1490
1490
1180
1200
680
620
4.8.
4.8.1.
=
Yi Y
=
i=1
n
X
i=1
Yi2 nY
1
1 t
t
SSTo = Y Y Y JY = Y I J Y,
n
n
t
105
Tabla 11: Ajuste del modelo lineal para los datos de bebs de bajo peso,
headcirc con dos explicativas continuas: gestage y birthwt
> ajuste2<-lm(headcirc~gestage+birthwt)
>
> summary(ajuste2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3080154 1.5789429
5.262 8.54e-07
gestage
0.4487328 0.0672460
6.673 1.56e-09
birthwt
0.0047123 0.0006312
7.466 3.60e-11
--Residual standard error: 1.274 on 97 degrees of freedom
Multiple R-squared: 0.752,
Adjusted R-squared: 0.7469
F-statistic: 147.1 on 2 and 97 DF, p-value: < 2.2e-16
i=1
b
b
= et e = Y X
Y X
t
b X0 Y = Yt [I H] Y
= Yt Y
b t Xt Y = Yt [I H] Y
SSRes = Yt Y
y vale
t t
1
1 t
t
b
SSReg = X Y Y JY = Y H J Y.
n
n
106
(Yi )2 ,
sin tener en cuenta para nada los valores de las covariables (X1 , . . . , Xp1 ). Es
un resultado de un curso inicial de estadstica que el valor de que minimiza
dicha suma es el promedio de las Y s es decir, = Y . Esencialmente, estamos
tomando como medida de cuan bien ajusta un modelo, a la suma de los
cuadrados; en general
X
(observados modelo)2
(43)
modelo =
donde el modelo es la superficie de respuesta (37) en regresin lineal mltiple
y un slo parmetro en el modelo ms bsico. Para cada modelo usamos la
ecuacin (43) para ajustar ambos modelos, es decir, encontramos los valores
de los parmetros que minimizan (43) entre todos los valores posibles y, luego,
bsicamente si el modelo lineal es razonablemente bueno ajustar a los datos
significativamente mejor que el modelo bsico. Es decir, la resta
modelo bsico regresin lineal = SSTo SSRes = SSReg
ser pequea comparada con lo que era la SSTo. Esto es un poco abstracto
as que mejor lo miramos en un ejemplo.
Imaginemos que nos interesa predecir el permetro ceflico de un nio
al nacer (Y ) a partir de la edad gestacional del beb (X1 ) y de su peso al
nacer (X2 ) . Cunto ser el permetro ceflico de un beb con 33 semanas
de edad gestacional y que pesa 1490 gramos al nacer? Si no tuviramos un
modelo preciso de la relacin entre las tres variables en nios nacidos con
107
bajo peso, cul podra ser nuestro mejor pronstico? Bueno, posiblemente
la mejor respuesta sea dar el nmero promedio de permetros ceflicos en
nuestra base de datos, que resulta ser 26,45 cm. Observemos que la respuesta
sera la misma si ahora la pregunta fuera: cunto ser el permetro ceflico
de un nio con 25 semanas de gestacin y que pes 680 g. al nacer? Nuevamente, en ausencia de un vnculo preciso, nuestro mejor pronstico sera dar
el promedio observado de permetros ceflicos, o sea 26,45 cm. Claramente
hay un problema: no importa cual es la edad gestacional o el peso al nacer
del nio, siempre predecimos el mismo valor de permetro ceflico. Debera
ser claro que la media es poco til como modelo de la relacin entre dos
variables, pero es el modelo ms bsico del que se dispone.
Repasemos entonces los pasos a seguir. Para ajustar el modelo ms bsico, predecimos el outcome Y por Y , luego calculamos las diferencias entre
los valores observados y los valores que da el modelo (Y siempre para el modelo bsico) y la ecuacin (43) se convierte en la SSTo (es decir, SSTo es la
cantidad total de diferencias presentes cuando aplicamos el modelo bsico a
los datos). La SSTo representa cuan bueno es el promedio como modelo de
los datos observados. En un segundo paso ajustamos el modelo ms sofisticado a los datos (el modelo de regresin lineal mltiple con dos predictores).
Este modelo permite pronosticar un valor distinto para cada combinacin de
covariables. A este valor lo hemos llamado valor predicho y resulta ser
b0 +
b1 Xi1 +
b2 Xi2 .
Ybi =
b1 25 +
b2 680 = 8,3080 + 0,4487 25 + 0,0047 680 = 22,722.
b0 +
Hemos visto que el modelo de regresin lineal mltiple encuentra los valores
b1 y
b2 por el mtodo de mnimos cuadrados, es decir minimizando
b0 ,
de
las diferencias entre el modelo ajustado a los datos y los propios datos. Sin
embargo, aun en este modelo optimizado hay todava imprecisiones que se
representan por las diferencias
entre cada valor observado (Yi ) y cada valor
predicho por la regresin Ybi . Como antes, calculamos esas diferencias,
elevamos al cuadrado cada una de ellas y las sumamos (si las sumramos sin
elevarlas al cuadrado la suma terminara dando cero). El resultado se conoce
como la suma de los cuadrados de los residuos (SSRes). Este valor representa
el grado de imprecisin cuando el modelo se ajusta a los datos. Podemos usar
108
estos dos valores para calcular cuanto mejor es usar la superficie de respuesta
estimada en vez de la media como modelo (es decir, cunto mejor es el mejor
modelo posible comparado con el peor?) La mejora en prediccin resultante
al usar el mejor modelo en vez de la media se calcula al hacer la resta entre
SSTo y SSRes. Esta diferencia nos muestra la reduccin en la imprecisin
que se obtiene por usar un modelo de regresin lineal. Como en el caso de
regresin lineal simple, puede verse que esta resta da SSReg, es decir
SSTo SSRes = SSReg.
La Figura 41 muestra ambas distancias para una misma observacin, en
el caso de regresin lineal simple.
Figura 41: Distancias que intervienen en las sumas de cuadrados para una
observacin. Fuente: [11], pg. 473.
4.8.2.
109
=1
SSRes
np
SSTo
n1
=1
n1
np
SSRes
SSTo
110
Pn
b
b
Yi Y
i=1 Yi Y
r=r
2
2 Pn
Pn
b
b
Y
Y
Y
i
i
i=1
i=1
r
0,316
0,632
0,775
0,837
0,949
0,995
Desde esta ptica, otra interpretacin del R2 es pensar que un buen modelo debera producir valores predichos altamente correlacionados con los
valores observados. Esta es otra manera de visualizar por qu un R2 alto es,
en general, una buena seal de ajuste.
111
Figura 42: Funcin raz cuadrada comparada con la funcin elevar al cuadrado y la identidad en el intervalo (0, 1) . Estn graficadas las imgenes del
2
x = 0,4, con
tres puntos cuyas alturas son (en orden ascendente) 0,4 =
0,16; 0,4 y 0,4 = 0,632.
4.8.3.
Test F
112
Del
mismo
modo que suceda con la regresin lineal simple, las diferencias
b
Yi Y quedan determinadas al fijar los p 1 coeficientes que acompaan
b
a las p 1 covariables, luego las diferencias Yi Y tienen p 1 grados de
libertad.
Para la SSRes son el nmero de observaciones menos el nmero de parmetros que se estiman (es decir, el nmero de coeficientes beta incluyendo el 0 ),
en este caso n p. Esto proviene, al igual que en el caso de regresin lineal simple, del hecho de que los residuos satisfacen p ecuaciones normales.
Luego, si conocemos n p de ellos, podemos hallar los restantes p a partir
de despejarlos de las p ecuaciones lineales.
Los resultados son, respectivamente, el cuadrado medio de regresin (que
notaremos MSReg o MSM, es decir regression mean square o model mean
square) y el cuadrado medio de residuos (MSRes o MSE, es decir, residual
mean square o mean square error). Por supuesto, hay teora que garantiza
estos resultados pero no nos concentraremos en ella. S es relevante retener
que el estadstico F es una medida de cunto mejora el modelo la prediccin
de la variable respuesta comparada con el nivel de imprecisin de los datos
originales. Si el modelo es bueno, esperamos que la mejora en la prediccin
debida al modelo sea grande (de manera que MSReg sea grande) y que la
diferencia entre el modelo y los datos observados sea pequea (o sea, MSRes
pequea). Para hacerla corta, un buen modelo debe tener un estadstico F
grande (al menos mayor a 1 porque el numerador, de decir, la mitad superior de (44) ser mayor que el denominador -la mitad inferior de (44)). El
estadstico F es
MSReg
F =
=
MSRes
SSReg
p1
SSRes
np
SSReg (n p)
.
SSRes (p 1)
(44)
Observemos que H0 dice que no hay vnculo entre la variable respuesta y las
regresoras. En cambio, H1 dice que al menos una de las variables regresoras
sirve para predecir a Y . La distribucin de F cuando H0 es cierta es la
distribucin F (de Snedecor o de Fisher) con p 1 grados de libertad en el
numerador y n p grados de libertad en el denominador. El test rechaza H0
cuando F > Fp1,np,1 , el 1 percentil de la distribucin vlida cuando
H0 es verdadera. Para valores grandes de F (es decir, p-valores pequeos) el
113
SS
2
Pn b
SSReg = i=1 Yi Y
2
P
SSRes = ni=1 Yi Ybi
2
P
SSTo = ni=1 Yi Y
g.l.
MS
p1
MSReg =
SSReg
p1
np
MSRes =
SSRes
np
n1
Usualmente la tabla se completa con dos ltimas columnas que se denominan F y p-valor. La columna F tiene un nico casillero completo (el
correspondiente a la primer fila) con el valor del estadstico, es decir
F =
MSReg
.
MSRes
La columna p-valor tiene tambin un nico casillero con el p-valor del test,
p valor = P (Fp1,np > Fobs ) .
4.8.4.
Estimacin de 2
El modelo de regresin lineal dado en (37) y (38) impone que los errores 1 , . . . , n sean variables aleatorias independientes con esperanza cero y
V ar (i ) = 2 . Si tuviramos los errores, sabemos que un estimador insesgado
de 2 es
n
1 X
(i )2 .
n 1 i=1
114
b =
(ei e) =
(ei )2
n p i=1
n p i=1
n
2 SSRes
1 X
b
Y i Yi =
=
n p i=1
np
2
= MSRes.
(45)
4.9.
115
b est dada por una
La matriz de covarianza de dichos estimadores V ar
bk y que
bj y
matriz p p que en la coordenada jk tiene la covarianza entre
resulta ser
b = 2 X t X 1 .
V ar
b =
= MSRes X t X
.
Vd
ar
b2 X t X
4.9.1.
Para el modelo de errores normales dado por (37) y (38) tenemos que
b
r k k tnp para k = 0, 1, . . . , p 1.
bk
Vd
ar
(46)
2
4.9.2.
Tests para k
bk
T =r
bk
Vd
ar
116
Inferencias conjuntas
El objetivo de los intervalos de confianza y tests presentados en las secciones 4.9.1 y 4.9.2 es proveer conclusiones con un nivel prefijado de confianza
sobre cada uno de los parmetros 0 , 1 , . . . , p1 por separado. La dificultad es que stos no proporcionan el 95 por ciento de confianza de que las
conclusiones de los p intervalos son correctas. Si las inferencias fueran independientes, la probabilidad de que los p intervalos construidos cada uno a
nivel 0.95, contengan al verdadero parmetro sera (0,95)p , o sea, solamente
0,857 si p fuese 3. Sin embargo, las inferencias no son independientes, ya que
son calculadas a partir de un mismo conjunto de datos de la muestra, lo que
hace que la determinacin de la probabilidad de que ambas inferencias sean
correctas sea mucho ms difcil.
En esta seccin propondremos intervalos de confianza de nivel conjunto 0,95. Esto quiere decir que nos gustara construir una serie de intervalos
(o tests) para los cuales tengamos una garanta sobre la exactitud de todo
el conjunto de intervalos de confianza (o tests). Al conjunto de intervalos de
confianza (o tests) de inters lo llamaremos familias de intervalos de confianza
de nivel conjunto o simultneo (o regiones de confianza de nivel simultneo o
tests o inferencias conjuntas). En nuestro ejemplo, la familia se compone de p
estimaciones, para 0 , 1 , . . . , p1 . Podramos estar interesados en construir
regiones de confianza para una cantidad g entre 1 y p de estos parmetros,
con g prefijado. Distingamos entre un intervalo de confianza de nivel 0.95
para un parmetro, que nos resultan familiares ya que hemos trabajado con
ellos hasta ahora, donde 0,95 es la proporcin de intervalos construido con el
mtodo en cuestin que cubren al verdadero parmetro de inters cuando se
seleccionan repetidamente muestras de la poblacin de inters y se construyen
los intervalos de confianza para cada una de ellas. Por otro lado, cuando construimos una familia de regiones o intervalos de confianza de nivel simultneo
0.95 para g parmetros, el valor 0,95 indica la proporcin de familias de g
intervalos que estn enteramente correctas (cubren a los g parmetros de
inters, simultneamente) cuando se seleccionan repetidamente muestras de
la poblacin de inters y se construyen los intervalos de confianza especficos para los g parmetros en cuestin. Luego, el nivel simultneo de una
familia de regiones o intervalos de confianza corresponde a la probabilidad,
calculada previa al muestreo, de que la familia entera de afirmaciones sea
117
correcta.
Ilustremos esto en el caso del ejemplo de los 100 bebs de bajo peso. Si
nos interesara construir intervalos de confianza de nivel simultneo 0,95 para
1 y 2 , una familia de intervalos de confianza simultneos para estos datos
consistira en dos intervalos de confianza de modo tal que si tomramos
muestras de 100 bebs de bajo peso, les midiramos la edad gestacional,
el permetro ceflico y el peso al nacer, y luego construyramos para cada
muestra los dos intervalos de confianza para 1 y 2 , para el 95 % de las
muestras ambos intervalos construidos con este mtodo cubriran tanto al
verdadero 1 como al verdadero 2 . Para el 5 % restante de las muestras,
resultara que uno o ambos intervalos de confianza sera incorrecto.
En general es sumamente deseable contar con un procedimiento que provea
una familia de intervalos de confianza de nivel simultneo cuando se estiman
varios parmetros con una misma muestra de datos, ya que le permite al
analista entrelazar dos resultados juntos en un conjunto integrado de conclusiones con la seguridad de que todo el conjunto de inferencias es correcto.
Para obtenerlos hay bsicamente dos herramientas estadsticas disponibles.
Una de ellas es el estudio matemtico en detalle del fenmeno en cuestin,
en este caso, estudiar matemticamente las propiedades de los estimadores
b0 , . . . ,
bp1 de manera de poder obtener la distribucin exacta de alguna me
b
dida numrica que los resuma, como el max0kp1
k o las descripciones
118
As, se pueden construir los intervalos de confianza simultneos de Bonferroni para estimar varios coeficientes de regresin de manera simultnea Si se
desean estimar simultneamente g parmetros (donde g p), los intervalos
de confianza con nivel simultneo 1 son los siguientes
r
b
bk .
d
k tnp,1 2g V ar
Ms adelante discutiremos tests que conciernan varios parmetros de regresin en forma simultnea.
4.9.4.
Aplicacin al ejemplo
0,4487
T =r 1 =
= 6,67
0,0672
b
d
V ar 1
119
cuando k = 1 y
b 0
0,0047
T =r 2 =
= 7,46
0,00063
b
d
V ar 2
cuando k = 2. En ambos casos, los p-valores resultan ser menores que 0,001.
Observemos que en la salida de cualquier paquete estadstico figuran tanto las
estimaciones de los betas, como sus desvos estndares estimados, los valores
de t observados y los p-valores respectivos. En ambos casos rechazamos las
hiptesis nulas a nivel 0,05 y concluimos que 1 es distinta de cero cuando en
el modelo aparece X2 como explicativa (en el primer test) y que 2 es distinta
de cero cuando en el modelo aparece X1 como explicativa (en el segundo test).
Como adems ambos estimadores son positivos, concluimos que el permetro
ceflico aumenta cuando aumenta tanto la edad gestacional como cuando
aumenta el peso al nacer. Debemos tener presente, sin embargo, que varios
tests de hiptesis basados en los mismos datos no son independientes; si cada
test se realiza a nivel de significacin , la probabilidad global de cometer
un error de tipo I o rechazar la hiptesis nula cuando es verdadera es,
de hecho, mayor que . Para eso se pueden realizar los tests simultneos
presentados, como los de Bonferroni.
Los intervalos de confianza para ambos parmetros de la regresin resultan ser
r
b
b1
d
1 t97,0,975 V ar
= [0,4487 1,9847 0,06724;
= [0,315 25; 0,582 15]
y
b2 t97,0,975
r
b2
Vd
ar
0,05
=1
= 0,99167
2g
23
120
Tabla 14: Intervalos de confianza de nivel 0,95 para 0 , 1 y 2 para los datos
de nios de bajo peso al nacer
> confint(ajuste2)
2.5 %
97.5 %
(Intercept) 5.174250734 11.441780042
gestage
0.315268189 0.582197507
birthwt
0.003459568 0.005964999
de una t97, es decir, t97,0,9917 = 2,43636 en vez de t97,0,975 = 1,9847, que nos
dar intervalos ms anchos, como puede observarse comparando los intervalos
de confianza de las Tablas 14 y 15, la primera contiene a los intervalos de
confianza de nivel 0,95 cada uno, y la segunda contiene los intervalos de
confianza de nivel simultneo 0,95.
Tabla 15: Intervalos de confianza de nivel simultneo 0,95 para 0 , 1 y 2
para los datos de nios de bajo peso al nacer, construidos con el mtodo de
Bonferroni
> confint(ajuste2,level=(1-(0.05/3)))
0.833 %
99.167 %
(Intercept) 4.461384677 12.154646098
gestage
0.284907765 0.612557932
birthwt
0.003174601 0.006249966
> 0.05/(2*3)
[1] 0.008333333
Si calculamos el R2 para este modelo (que figura en la Tabla 11) vemos
que es R2 = 0,752, luego el modelo que contiene a la edad gestacional y el
peso al nacer como variables explicativas explica el 75,20 % de la variabilidad
en los datos observados de permetro ceflico; el modelo que tena solamente
a la edad gestacional explicaba el 60,95 %. Este aumento en el R2 sugiere
que agregar la variable peso al modelo mejora nuestra habilidad para predecir el permetro ceflico para la poblacin de bebs nacidos con bajo peso.
Pero, como ya vimos, debemos ser muy cuidadosos al comparar coeficientes
de determinacin de dos modelos diferentes. Ya dijimos que la inclusin de
una nueva covariable al modelo nunca puede hacer que el R2 decrezca; el
121
122
modelo de regresin lineal simple que slo tiene a la edad gestacional como
explicativa, que era 2,529 (ver Tabla 2.7) observamos que con la inclusin del
peso hemos reducido la variabilidad no explicada por el modelo, mejorando
la calidad del ajuste obtenido (y de las predicciones que pueden hacerse con
l).
4.10.
4.10.1.
1
Xh1
Xh = ..
.
Xh,p1
de modo que la respuesta a ser estimada es
1
b Xh .
V ar Ybh = 2 Xth Xt X
Xh = Xth V ar
Como
la esperanza del predicho es igual a lo que queremos estimar, es decir,
E Ybh = E (Yh ), el estimador resulta ser insesgado. La varianza estimada
resulta ser
t 1
t
t d b
d
b
Xh = Xh V ar Xh .
(49)
V ar Yh = MSRes Xh X X
123
La regin de confianza para toda la superficie de regresin es una extensin de la banda de confianza de Hotelling para una recta de regresin
(cuando hay una sola variable predictora). Los puntos de la frontera de la
regin de confianza en Xh , se obtienen a partir de
r
b
ar Ybh .
Yh W Vd
donde
W 2 = pFp,np;1 .
(51)
b
d
donde Yh , W y V ar Ybh estn definidos respectivamente en (48), (51)
y (49). Como la regin de confianza para la superficie de regresin
124
B = tnp,1 2g .
Para una aplicacin en particular, podemos comparar los valores de W y
B para ver cul procedimiento conduce a tener los intervalos de confianza ms
angostos. Si los niveles Xh no son conocidos antes de aplicar el modelo, sino
que surgen del anlisis, es mejor usar los intervalos basados en la distribucin
de Hotelling, puesto que la familia de estos intervalos incluye a todos los
posibles valores de Xh .
4.11.
4.11.1.
125
126
Figura 44: Distribucin de Yh cuando Xth = (1, 30, 1360) . Fuente: [6], pg. 57.
(52)
Cuando los parmetros de regresin son desconocidos, deben ser estimados. La media de la distribucin de Y se estima por Ybh , como de costumbre, y
la varianza de la distribucin de Y se estima por la MSRes. No podemos, sin
embargo slo utilizar los lmites de la prediccin de (52) con los parmetros
reemplazados por los estimadores puntuales correspondientes. La razn de
ello es ilustrada de manera intuitiva en la Figura 45. En ella se muestran dos
distribuciones de probabilidad de Y , que corresponde a los lmites superior e
inferior de un intervalo de confianza para E (Yh ). En otras palabras, la distribucin de Y puede ser ubicada tan a la izquierda como la distribucin que
127
Los lmites de prediccin para una nueva observacin Yh(nueva) en un determinado nivel Xh se obtienen por medio del siguiente resultado
ch
Yh(nueva) Y
tnp
s (pred)
(53)
128
1
= MSRes 1 + X0h (X0 X) Xh ,
b
Yh tnp,1/2 MSRes 1 + X0h (X0 X)1 Xh
c
V ar (pred) = V ar Yh(nueva) Yh
ch
= V ar Yh(nueva) + V ar Y
2
ch
= + V ar Y
Luego, la varianza del error de prediccin V ar (pred) tiene dos componentes:
1. La varianza de la distribucin de Y en X = Xh , es decir, 2 .
ch .
ch , es decir, V ar Y
2. La varianza de la distribucin muestral de Y
Un estimador insesgado de V ar (pred) es
d
s (pred) = MSRes + V ar Ybh .
2
129
Por supuesto, como este estimador es siempre mayor que Vd
ar Ybh , que
aparecen en el intervalo de confianza (50), el intervalo de prediccin de la
Yh(nueva) correspondiente a Xh de nivel 1 siempre ser ms largo que el
intervalo de confianza de nivel 1 para E (Yh ) , la respuesta media esperada
cuando las covariables son Xh .
4.11.3.
Apliquemos estos dos resultados (clculo de intervalo de confianza e intervalo de prediccin) a un caso particular, usando los datos de bebs de
bajo peso. Buscamos un intervalo de confianza para la media del permetro
ceflico de un beb con 30 semanas de gestacin y que pes 1360g. al nacer,
de nivel 0,95. El intervalo de confianza resulta ser
Tabla 16: Intervalos de confianza y prediccin de nivel 0,95 para los datos de
nios de bajo peso al nacer, para edad gestacional de 30 semanas y peso al
nacer de 1360g.
> vcov(sal2)
(Intercept)
gestage
birthwt
(Intercept) 2.4930607944 -9.986181e-02 3.714576e-04
gestage
-0.0998618122 4.522022e-03 -2.801056e-05
birthwt
0.0003714576 -2.801056e-05 3.983870e-07
130
Recordemos que Vd
ar Ybh est definida en (49), luego
Vd
ar Ybh
b Xh
= Xth Vd
ar
2
3,714576 104
1
28,537]
Como
30,730] .
4.11.4.
131
4.12.
Predictores Categricos
Predictores Binarios
132
vida que es modificable, podra ayudar a las personas a reducir sus niveles de
glucosa y, por ende, evitar la diabetes. Responder a esta pregunta de manera concluyente requerira un ensayo clnico aleatorizado, lo cual es a la vez
difcil y costoso. Por ello, preguntas como estas son con frecuencia, inicialmente respondidas utilizando datos observacionales. Pero esto es complicado
por el hecho de que las personas que hacen ejercicio fsico difieren en muchos
aspectos de las que no lo hacen, y algunas de las otras diferencias podran
explicar cualquier asociacin (no ajustada) entre el ejercicio fsico y el nivel
de glucosa.
Usaremos un modelo lineal simple para predecir el nivel base de glucosa
usando una medida de ejercicio, para 2.032 participantes sin diabetes en el
ensayo clnico HERS de terapia hormonal (Hulley et al., 1998 [4]). Excluimos
a las mujeres con diabetes porque la pregunta que queremos responder es si
el hecho de hacer actividad fsica puede ayudar a prevenir la progresin a
133
la diabetes entre las mujeres en riesgo, y porque las causas que determinan
la glucosa pueden ser diferentes en dicho grupo. Este conjunto de datos es
tratado en el libro de Vittingho [14].
Hay muchas manera de identificar cuantitativamente las clases de una
variable cualitativa. Usaremos variables indicadoras que valen 0 1. Estas
variables indicadoras son fciles de usar y son ampliamente utilizadas, pero
de ninguna manera son la nica forma de cuantificar una variable cualitativa. Ver, por ejemplo, ms adelante en la Observacin 4.12 una propuesta
alternativa de codificacin. Para el ejemplo, definimos la variable indicadora
(o binaria, o dummy) por
1
al menos 3 veces por semana
Xi1 =
(54)
0
si no
El modelo de regresin lineal para este caso es
Yi = 0 + 1 Xi1 + i
La funcin de respuesta para este modelo de regresin es
(55)
E (Y | X1 ) = 0 + 1 X1 .
no ejercita
ejercita
134
135
Observacin 4.11 Qu pasa si ponemos dos variables binarias para modelar ejercicio? O sea, si definimos:
0
si no
y
Xi2 =
Ac decimos que ejercita si hace actividad fsica ms de tres veces por semana.
Entonces el modelo sera
Yi = 0 + 1 Xi1 + 2 Xi2 + i
(56)
Esta manera intuitiva de incorporar una variable indicadora para cada clase
de la predictora cualitativa, desafortunadamente, conduce a problemas tanto
estadsticos (de identificacin de parmetros) como computacionales. Para
verlo, supongamos que tuviramos n = 4 observaciones, las primeras dos
compuestas por mujeres que ejercitan (X1 = 1, X2 = 0 ) y las dos segundas
que no lo hacen (X1 = 0, X2 = 1 ) . Entonces la matriz X sera
1
1
X=
1
1
X1 X2
1
1
0
0
0
0
1
1
136
1 1 0
4 2 2
1 1 1 1
1 1 0
X tX = 1 1 0 0
1 0 1 = 2 2 0
2 0 2
0 0 1 1
1 0 1
si ejercita
0 + 1
E (Y | X2 , X3 ) = 0 + 1 X1 + 2 X2 =
0 + 2
si no ejercita
En particular, tomando
0 = a
1 = b
2 = c
o bien
0 = a b
1 = 2b
2 = c
resulta, en ambos casos
E (Y | X2 , X3 ) =
a+b
a+c
si ejercita
si no ejercita
137
es la nica pero, como hemos visto, permite una interpretacin sencilla de los
parmetros. Otra posibilidad en este caso consiste en eliminar 0 y proponer
el modelo
si ejercita
1
E (Y | X2 , X3 ) = 1 X1 + 2 X2 =
2
si no ejercita
Sin embargo, no la exploraremos ya que nuestra propuesta anterior es satisfactoria.
Comparemos este modelo lineal con una sola regresora dicotmica con el
test t para comparar las medias de dos poblaciones, a travs de dos muestras
independientes. El test t permite decidir entre las hiptesis
H0 : 0 = 1
H1 : 0 6= 1
donde 0 = E (Y | X1 = 0) es decir, la esperanza de la glucosa para las
mujeres que no ejercitan y 1 = E (Y | X1 = 1) la esperanza de la glucosa
para las mujeres que s lo hacen. Recordemos que este test presupone que las
observaciones de cada poblacin tienen distribucin normal con las medias
0 y 1 respectivamente, y la misma varianza (aunque desconocida). Para
este conjunto de datos la salida de correr el test t figura en la Tabla 18.
Recordemos que el estadstico del test es
X n Y n2
n1 + n2 1
Sp
Bajo H 0
tn1 +n2 2
1
2
2
Sp2 =
Xi X n1 +
Yj Y n2
n1 + n2 i=1
j=1
es la varianza pooleada o combinada de ambas muestras. Por otra parte, para
el modelo (17), el test de H0 : 1 = 0 es tambin un test t, observemos que el
estadstico calculado es el mismo y tambin el pvalor. En el caso en el que
el modelo lineal tiene una sola variable explicativa categrica, el test de si el
coeficiente que la acompaa es estadsticamente significativo es equivalente
a un test t de comparacin de medias entre dos poblaciones normales, con
igual varianza.
Dos observaciones con respecto a la codificacin de la variable binaria
dada en (54):
138
Tabla 18: Test t para dos muestras normales independientes, datos her1.
> t.test(glucose~ exercise,data=her1,var.equal=T)
Two Sample t-test
data: glucose by exercise
t = 3.8685, df = 2030, p-value = 0.000113
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.8346242 2.5509539
sample estimates:
mean in group 0 mean in group 1
97.36104
95.66825
b0 =
- Comparemos el valor de 0 estimado en la Tabla 17 (que es
97,361) con el promedio de la glucosa de las mujeres que no ejercitan
(el grupo correspondiente a exercise = 0) calculado en la Tabla 18,
que es 93,361, como anticipramos. De igual modo, recuperamos el
promedio de glucosa de las mujeres que ejercitan (95,66825 en la Tabla
b0 +
b1 de la Tabla 17
18) a partir de sumar
b0 +
b1 = 97,36104 1,692789 = 95,668.
Max.
1.0000
139
4.12.2.
140
a grandes rasgos se divide en tres categoras: delgadez (si BMI < 18,5),
peso normal (cuando 18,5 BMI < 25) y sobrepeso (si BMI 25), con
subclasificaciones que contemplan los casos de infrapeso u obesidad.
Luego el modelo de regresin lineal mltiple que proponemos es
Yi = 0 + 1 Xi1 + 2 Xi2 + i .
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 .
(57)
Interpretemos los parmetros. Para las mujeres que no hacen ejercicio (X1 =
0) la funcin de respuesta es
E (Y ) = 0 + 1 0 + 2 X2 = 0 + 2 X2
no ejercita
(58)
E (Y ) = 0 + 1 1 + 2 X2 = ( 0 + 1 ) + 2 X2
ejercita
(59)
Esta funcin tambin es una lnea recta, con la misma pendiente 2 pero con
ordenada al origen ( 0 + 1 ) . En la Figura 47 se grafican ambas funciones.
141
Figura 47: Significado de los coeficientes del modelo de regresin (57) con
una variable indicadora X1 de ejercicio y una variable continua X2 = BMI
(ejemplo de las mujeres del ensayo clnico HERS).
142
Tabla 20: Ajuste de la regresin para la variable glucosa con ejercicio y BMI
como explicativas
> summary(lm(glucose ~ exercise + BMI, data = her1 ))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 83.94220
1.19935 69.990
<2e-16
exercise
-0.91729
0.42981 -2.134
0.0329
BMI
0.47361
0.04119 11.498
<2e-16
--Residual standard error: 9.418 on 2027 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.06817,
Adjusted R-squared: 0.06725
F-statistic: 74.14 on 2 and 2027 DF, p-value: < 2.2e-16
> anova(lm(glucose ~ exercise + BMI, data = her1 ))
Analysis of Variance Table
Response: glucose
Df Sum Sq Mean Sq F value
Pr(>F)
exercise
1
1427 1426.6 16.083 6.283e-05
BMI
1 11727 11727.2 132.206 < 2.2e-16
Residuals 2027 179802
88.7
---
libertad (n = 2030, hay dos observaciones menos porque falta el BMI de ellas). Como t (0,975, 2027) = 1,961135 ' 1,959964 = z0,975 , los lmites para el
intervalo de confianza resultan ser
0,91729 1,96 0,42981
o sea
0,91729 1,96 0,42981 1 0,91729 + 1,96 0,42981
1,759 7 1 0,07486 2
Luego, con el 95 por ciento de confianza concluimos que las mujeres que
ejercitan tienen un nivel de glucosa entre 0,07 y 1,76 mg/dL, ms bajo que
las que no lo hacen, en promedio, para un cada nivel de BMI fijo. Un test
143
formal de
H0 : 1 = 0
H1 : 1 6= 0
con nivel de significatividad de 0,05 nos conducira a rechazar H0 y aceptar
H1 , es decir, que el ejercicio tiene efecto cuando en el modelo incluimos el
BMI, pues el intervalo de confianza del 95 % para 1 no contiene al cero. Eso
lo vemos tambin en la tabla de salida del paquete estadstico, en el p-valor
de dicho coeficiente, que es 0,0329 < 0,05.
Observacin 4.13 Por qu no ajustar dos regresiones lineales separadas
(una para las mujeres que ejercitan y otra para las que no) en vez de hacer
un ajuste con el total de datos? O sea, ajustar
(0)
(0)
E (Y | X2 ) = 0 + 2 X2
no ejercitan
(60)
ejercitan
(61)
(1)
E (Y | X2 ) = 0 + 2 X2
para las que ejercitan. Hay dos razones para esto.
144
4.13.
4.13.1.
Las 2.763 mujeres de la cohorte HERS tambin respondieron a una pregunta acerca de cun activas fsicamente se consideraban a s mismas, en
comparacin con otras mujeres de su edad. La respuesta, de cinco niveles, se
denomina physact: va desde mucho menos activa a mucho ms activa,
y fue codificada en orden de 1 a 5. Este es un ejemplo de una variable ordinal
(con valores o categoras cuyo orden relativo es relevante, pero separados por
incrementos que pueden no estar reflejados en forma precisa en la codificacin
numrica asignada). Por ejemplo, las respuestas mucho menos activa y un
poco menos activa pueden representar entre s una mayor diferencia en la
actividad fsica que las que hay entre un poco menos activa y casi tan
activa. Es de resaltar que esta variable no es la variable exercise que consideramos antes, sino otra variable reportada por cada mujer sobre s misma.
Las categoras de la variable physact figuran en la Tabla 21.
Tabla 21: Niveles de la variable physact, en respuesta a la pregunta cun
activa fsicamente se considera a usted misma en comparacin con otras mujeres de su edad?
Categoras de physact
codificacin original
Mucho menos activa (Much less active)
1
Algo menos activa (Somewhat less active)
2
Casi tan activa (About as active)
3
Un poco ms activa (Somewhat more active)
4
Mucho ms activa (Much more active)
5
Las variables categricas de muchos niveles tambin puede ser nominales,
en el sentido que no hay un orden intrnseco en las categoras. Etnia, estado
civil, ocupacin y regin geogrfica son ejemplos de variables nominales. Con
las variables nominales es an ms claro que la codificacin numrica usada
habitualmente para representar a la variable en la base de datos no puede
ser tratada como los valores de una variable numrica como nivel de glucosa
en sangre.
Las categoras se suelen crear para ser mutuamente excluyentes y exhaustivas, por lo que que cada miembro de la poblacin se encuentra en una y slo
una categora. En ese caso, tanto las categoras ordinales como las nominales
definen subgrupos de la poblacin.
Es secillo acomodar ambos tipos de variables tanto en la regresin lineal
mltiple como en otros modelos de regresin, usando variables indicadoras o
145
(62)
146
0 + 2
0 + 3
E (Y | X) =
+ 4
0
0 + 5
si
si
si
si
si
physact = 1
physact = 2
physact = 3
physact = 4
physact = 5
(63)
147
Tabla 23: Ajuste de regresin lineal mltiple para explicar a la variable glucosa con la variable actividad fsica mirada como categrica (datos de la base
HERS).
> summary(lm(glucose ~Iphysact_, data = her1))
Call:
lm(formula = glucose ~ Iphysact_, data = her1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 112.7980
0.8350 135.09
<2e-16
Iphysact_2 -13.3139
0.9576 -13.90
<2e-16
Iphysact_3 -13.6174
0.9039 -15.06
<2e-16
Iphysact_4 -17.8211
0.9006 -19.79
<2e-16
Iphysact_5 -22.8094
0.9247 -24.67
<2e-16
--Residual standard error: 8.308 on 2027 degrees of freedom
Multiple R-squared: 0.2752,
Adjusted R-squared: 0.2737
F-statistic: 192.4 on 4 and 2027 DF, p-value: < 2.2e-16
148
Figura 48: Boxplot de los datos de glucosa para las mujeres sin diabetes de
la cohorte HERS, segn sus niveles de physact.
60
80
100
120
4.13.2.
Una alternativa al uso de variables indicadoras de una variable de prediccin cualitativa es pensarla como numrica. En el ejemplo de la glucosa,
podramos utilizar una nica variable predictora Z y asignar valores 1,2,3, 4
y 5 a las clases, como se describe en la Tabla 24.
Los valores numricos son, por supuesto, arbitrarios y podran ser cualquier
otro conjunto de nmeros. El modelo en este caso sera
Yi = 0 + 1 Zi + i
(64)
149
0 + 1
si physact = 1
si physact = 2
0 + 2 1
0 + 3 1
si physact = 3
E (Y | Z) =
+
4
si physact = 4
0
0 + 5 1
si physact = 5
E (Y | physact = 2) E (Y | physact = 1)
= E (Y | physact = 3) E (Y | physact = 2)
=
= E (Y | physact = 5) E (Y | physact = 4)
= 1
Luego, la codificacin 1 a 5 implica que pensamos que la respuesta media
cambia en la misma cantidad cuando pasamos de physact=1 a physact=2
o de physact=4 a physact=5. Esto puede no estar en coincidencia con la
realidad y resulta de la codificacin 1 a 5 que asigna igual distancia entre los 5
tipos de actividad fsica. Por supuesto, con distintas codificaciones podemos
imponer espaciamientos diferentes entre las clases de la variable cualitativa
pero esto sera siempre arbitrario.
En contraposicin, el uso de variables indicadoras no hace supuestos sobre
el espaciamiento de las clases y descansa en los datos para mostrar los efectos diferentes que ocurren. En el caso del modelo (63) no se impone ningun
patrn o vnculo entre s a las cinco medias de los grupos definidos por la
variable categrica, tanto en el modelo sin covariables como si las tuviera.
Aqu 2 da la diferencia en el promedio de glucosa en el grupo physact=2
comparado con el grupo physact=1, y 3 da la diferencia en el promedio
de glucosa en el grupo physact=3 comparado con el grupo physact=1 y,
150
El test F
A pesar de que todos los contrastes entre los niveles de una variable explicativa categrica estn disponibles para ser estimados y comparados luego
de ajustar un modelo de regresin, los test t para estas comparaciones mltiples en general no proporcionan una evaluacin conjunta de la importancia
de la variable categrica para predecir a la variable respuesta, o ms pre-
151
(65)
Comparaciones Mltiples
152
4.14.
Ajustemos ahora un modelo de regresin lineal mltiple con una covariable numrica y una categrica. Siguiendo con los datos de HERS, proponemos
ajustar un modelo donde aparezcan physact y BMI como variables explicativas, donde la primera es categrica (como ya vimos, la incluimos en el modelo
como las 4 dummies definidas por Iphysact_) y la segunda es continua. Proponemos ajustar el siguiente modelo
E (Y | X) = 0 + 2 Iphysact_2 + 3 Iphysact_3
+ 4 Iphysact_4 + 5 Iphysact_5 + BMI BMI
(66)
153
0 + BMI BMI
si physact = 1
si physact = 2
0 + 2 + BMI BMI
0 + 3 + BMI BMI
si physact = 3
E (Y | X) =
+ 4 + BMI BMI
si physact = 4
0
0 + 5 + BMI BMI
si physact = 5
es decir, que este modelo propone ajustar una recta distinta para la glucosa
media de cada grupo, todas con igual pendiente que en este caso hemos denominado BMI , y cinco ordenadas al origen diferentes, una por cada grupo.
Como vemos, estamos ajustando cinco rectas paralelas. Ac 2 indica cunto aumenta (o disminuye, dependiendo del signo) el valor medio de glucosa
para las mujeres cuyo nivel de actividad fsica es 2 (las mujeres algo menos
activa) respecto de aquellas cuyo nivel de actividad fsica es 1 (las mujeres
mucho menos activas). En la Figura 49 puede verse el grfico que proponemos para el valor esperado de la glucosa en funcin de la actividad fsica
de las mujeres y del BMI. Como esperamos que a mayor actividad fsica haya
menos glucosa, hemos acomodado las rectas de manera que vayan bajando al
aumentar la actividad fsica de las mujeres. As mismo, es de esperar que a
mayor BMI aumente el nivel de glucosa, por eso en el dibujo proponemos una
pendiente (comn a todos los grupos) positiva, como ya vimos que pasaba
en el ajuste anterior.
La Tabla 25 exhibe el modelo ajustado.
En este caso vemos que cuando incorporamos la variable BMI al modelo,
todos los coeficientes asociados a la variable physact siguen siendo significativos. El test de, por ejemplo, H0 : 2 = 0 da significativo (t = 13,705,
p valor < 2 1016 ) indicando que hay diferencia significativa en los niveles medios de glucosa para mujeres cuya actividad fsica es mucho menos
activa que las mujeres de su entorno (grupo basal) y aquellas del grupo
algo menos activa. Lo mismo sucede al testear las restantes igualdades.
Por ejemplo, el test de H0 : 5 = 0 en el modelo (57), es decir, cuando se
ajusta por BMI y se incluyen las otras tres categricas, resulta significativo (t = 23,782, p valor < 2 1016 ) . Es decir que los niveles medios de
glucosa en los distintos grupos definidos por la actividad fsica desarrollada difieren del basal. Adems, como sus coeficientes estimados decrecen al
aumentar el nivel de actividad, vemos que los valores estimados son consistentes con lo que bosquejamos a priori en la Figura 49. Antes de comparar
los niveles medios de los distintos grupos entre s observemos que si queremos
evaluar a la variable physact en su conjunto, debemos recurrir a un test F
que evalue las hiptesis (65), cuando adems en el modelo aparece BMI como
explicativa. A presentarlo nos abocamos en la siguiente seccin.
154
Figura 49: Modelo propuesto para explicar la glucosa con una covariable
explicativa continua (BMI) y otra categrica (Iphysact_) con cinco niveles.
105
95
100
glucosa
110
115
120
85
90
physact = 1
physact = 2
physact = 3
physact = 4
physact = 5
20
30
40
50
BMI
4.14.1.
155
t value Pr(>|t|)
77.449
<2e-16
-13.705
<2e-16
-15.065
<2e-16
-19.456
<2e-16
-23.782
<2e-16
9.288
<2e-16
(67)
Para ello, ajustamos dos modelos lineales a los datos y usaremos la suma de
cuadrados propuesta en (43) como medida de cuan bueno es cada ajuste, es
decir, calcularemos y compararemos las
X
modelo =
(observados modelo)2
para cada uno de dos modelos. En este caso el modelo bsico ser el que
vale si H0 es verdadera, el modelo lineal simple que tiene a BMI como nica
explicativa del nivel medio de glucosa:
Yi = bsico
+ bsico
0
BMI BMIi + i .
bbsico y
Para este modelo se calculan las estimaciones de los parmetros
0
bsico
b
BMI , y con ellos los predichos
bbsico +
bbsico BMIi
Ybibsico =
0
BMI
156
n
2
X
Yi Ybibsico .
i=1
BMI
y la suma de cuadrados que mide el desajuste que tienen los datos a este
modelo complejo
modelo complejo
n
2
X
Yi Ybicomp .
=
i=1
Por supuesto, como el modelo complejo tiene al modelo bsico como caso
particular, resulta que el ajuste del modelo complejo a los datos ser siempre tan satisfactorio como el del modelo bsico o mayor an, de modo que
modelo complejo modelo bsico . Es de inters observar que la estimacin del
coeficiente que acompaa al BMI depende de qu covariables hay en el modelo, excepto cuando todas las covariables presentes en el modelo sean no
correlacionadas con BMI, lo cual ocurrir las menos de las veces: en general
las variables explicativas estn vinculadas entre s de manera ms o menos
estrecha, eso significa que en general estarn (linealmente) correlacionadas.
Nuevamente se puede construir una tabla de ANOVA para resumir la
informacin descripta hasta ahora. Dicha tabla ser de la forma
La resta modelo bsico modelo complejo mide la mejora en el ajuste debida
al modelo ms complejo respecto del ms sencillo. Los grados de libertad
de esta resta ser la resta de los grados de libertad de los dos ajustes, en el
ejemplo (n 6) (n 2) = 4 (recordemos que hay 2032 mujeres sin diabetes
en la base HERS, pero las mediciones de BMI de dos de ellas faltan, de modo
que aqu n = 2030). El test F se basa en la comparacin de la mejora en el
ajuste debido al modelo ms complejo respecto del simple relativa al ajuste
157
SS
mod bs
g.l.
n2
Diferencia
g.l.
(m o d b s m o d co m p )/4
m o d
c o m p /(n6)
c0
p1
X
ck Xik + i
(68)
k=1
q1
Modelo simple: Yi = s0 +
sk Xik + i
k=1
Comparaciones mltiples
158
Tabla 27: Comparacin de sumas de cuadrados para evaluar la significatividad de physact (categrica) una vez que se tiene a BMI (numrica) como
regresora de glucosa
> uno<-lm(glucose ~BMI, data = her1)
> dos<-lm(glucose ~Iphysact_+BMI, data = her1)
> anova(uno,dos)
Analysis of Variance Table
Model 1: glucose ~ BMI
Model 2: glucose ~ Iphysact_ + BMI
Res.Df
RSS Df Sum of Sq
F
Pr(>F)
1
2028 180206
2
2024 134184 4
46023 173.55 < 2.2e-16
--> drop1(lm(glucose~Iphysact_+BMI, data = her1),test="F")
Single term deletions
Model:
glucose ~ Iphysact_ + BMI
Df Sum of Sq
RSS
AIC F value
Pr(F)
<none>
134184 8520.1
Iphysact_ 4
46023 180206 9110.7 173.550 < 2.2e-16
BMI
1
5720 139903 8602.8 86.274 < 2.2e-16
---
b5
b2 = Vd
b2 .
b5 + Vd
b2 + 2Cov
b5 ,
d
Vd
ar
ar
ar
159
diff
-13.3139034
-13.6174242
-17.8211203
-22.8071541
-0.3035209
-4.5072169
-9.4932507
-4.2036961
-9.1897299
-4.9860338
lwr
-15.876247
-16.036045
-20.231224
-25.282072
-1.862943
-6.053397
-11.138635
-5.497834
-10.600904
-6.382560
upr
-10.751560
-11.198804
-15.411017
-20.332236
1.255901
-2.961037
-7.847867
-2.909558
-7.778556
-3.589507
p adj
0.0000000
0.0000000
0.0000000
0.0000000
0.9841303
0.0000000
0.0000000
0.0000000
0.0000000
0.0000000
160
4.15.
161
Como ya dijimos, cuando proponemos un modelo de regresin lineal mltiple del estilo de
Yi = 0 + 1 Xi1 + 2 Xi2 + i ,
(69)
(70)
Ejemplo 4.3 Consideremos datos sobre la frecuencia cardaca o pulso medido a 40 personas antes y despus de ejercitar. Estos datos aparecen publicados
en el manual del paquete BMDP, sin citar las fuentes
http://www.statistical-solutions-software.com/BMDP-documents
/BMDP-2D.pdf. Se les pidi que registraran su pulso, luego que corrieran una
milla, y luego volvieran a registrar su pulso. Adems se registr su sexo, edad
y si eran o no fumadores. De este modo, para cada individuo, se midieron
162
si la persona es mujer
1
X2 =
0
en caso contrario
si la persona fuma
1
X3 =
0
en caso contrario
X4 = edad
Interesa explicar el pulso post-ejercicio, en funcin de algunas de las dems
covariables. Es de inters saber si la edad, o el hbito de fumar inciden en
l. La frecuencia cardaca es el nmero de contracciones del corazn o pulsaciones por unidad de tiempo. Su medida se realiza en unas condiciones
determinadas (reposo o actividad) y se expresa en latidos por minuto.
Tanto el sexo como la condicin de fumador son variables dummies o
binarias. En la base de datos se las denomina X2 = mujer y X3 = fuma.
Las restantes son variables continuas. En la Figura 51 hacemos un scatter
plot de Y versus X1 . En l se puede ver que a medida que X1 crece tambin
lo hace Y , y que una relacin lineal es una buena descripcin (inicial) de la
relacin entre ellas.
Si identificamos en ese grfico a las observaciones segn su sexo, obtenemos el grfico de dispersin que aparece en la Figura 52. En l observamos
que el gnero de la persona parece influir en la relacin entre ambas variables.
Querramos cuantificar el efecto del gnero en el pulso medio post ejercicio. Para ello vamos a ajustar un modelo de regresin lineal mltiple con el
pulso post ejercicio como variable dependiente. Proponemos un modelo lineal
mltiple para estos datos. El modelo mltiple sera en este caso
Yi = 0 + 1 Xi1 + 2 Xi2 + i ,
(71)
Como ya vimos en la Seccin 4.12.2, este modelo sin interaccin propone que
el pulso medio post-ejercicio es una funcin lineal del pulso pre-ejercicio, con
dos rectas diferentes para las mujeres y los hombres, pero estas rectas tienen
la misma pendiente. O sea, la ecuacin (71) propone que para las mujeres,
(o sea, cuando X2 = 1)
E (Y | X1 , X2 = 1) = 0 + 1 X1 + 2
= ( 0 + 2 ) + 1 X1
163
Figura 51: Grfico de dispersin del pulso post-ejercicio versus el pulso preejercicio, para 40 adultos. Archivo: pulso.txt
164
Figura 52: Grfico de dispersin del pulso post-ejercicio versus el pulso preejercicio, identificando el sexo de cada observacin.
asumiendo que el modelo contiene al pulso en reposo. El estadstico observado resulta ser tobs = 3,927 y pvalor = 0,000361. Entonces, rechazamos
la hiptesis nula y concluimos que 2 6= 0. Si construyramos un intervalo
de confianza para 2 , ste resultara contenido enteramente en (, 0) . Por
eso concluimos que el verdadero valor poblacional de 2 es menor a cero. Es
decir, para las dos poblaciones de personas (hombres y mujeres) con el mismo pulso en reposo, en promedio los pulsos medios luego de ejercitar sern
mayores en las mujeres que en los hombres.
Para entender mejor este modelo escribimos las dos rectas ajustadas en
cada caso. El modelo ajustado para las mujeres, (X2 = 1) es
Yb = (93,0970 + 12,7494) + 0,5157 X1
= 105,85 + 0,5157 X1
Yb = 93,0970 + 0,5157 X1 .
165
Las dos rectas estn graficadas en la Figura 53, junto con las observaciones
identificadas por sexo. Observemos que ambas rectas son paralelas: en ambos
grupos una unidad (un latido por minuto) de aumento en el pulso en reposo
est asociado con un incremento en 0,5157 latidos por minuto de la frecuencia cardaca post ejercicio, en promedio. Esto es consecuencia del modelo
propuesto.
Ahora queremos proponer un modelo con interaccin para estos datos. Es
decir proponemos el modelo
Yi = 0 + 1 Xi1 + 2 Xi2 + 1:2 Xi1 Xi2 + i
(72)
Como la variable X2 asume solamente valores 0 y 1, el trmino de la interaccin Xi1 Xi2 valdr 0 siempre que X2 = 0 (o sea para los hombres), y ser
igual a X1 siempre que X2 = 1 (o sea para las mujeres). En la poblacin de
personas ejercitando, esta nueva variable tendr coeficiente 1:2 . Llamemos
X = (X1 , X2 ) . Si escribimos el modelo propuesto para los dos grupos de
observaciones, tendremos que cuando mujer = 1,
E (Y | X) = 0 + 1 X1 + 2 1 + 1:2 X1 1
= ( 0 + 2 ) + ( 1 + 1:2 ) X1 mujeres
166
Figura 53: Rectas ajustadas para los dos gneros (modelo sin interaccin).
167
168
Tabla 29: Ajuste del modelo lineal con interaccin.entre X1 = pulso pre
ejercicio (Pulso1), X2 = indicador de mujer (mujer), Y = pulso post ejercicio
(Pulso2).
169
Figura 55: Rectas ajustadas por mnimos cuadrados para distintos niveles de
sexo, con el trmino de interaccin incluido.
170
lidad ocurre cuando dos o ms variables explicativas estn altamente correlacionadas, a tal punto que, esencialmente, guardan la misma informacin
acerca de la variabilidad observada de Y . En la Seccin 5.3.1 presentaremos
algunas maneras de detectar y resolver la multicolinealidad.
En este caso, la variable artificial Pulso1 mujer est fuertemente correlacionada con mujer ya que el coeficiente de correlacin de Pearson es
rmujer,Pulso1mujer = 0,99, como aparece en la Tabla 31. Como la correlacin
entre las variables es tan grande, la capacidad explicativa de Pulso1 mujer
cuando mujer est en el modelo es pequea.
Tabla 30: Tabla comparativa de los ajustes con y sin interaccin para las
covariables Pulso1 y mujer.
b2
Coeficiente
b2
Error estndar de
Valor del estadstico t
pvalor
R2
R2 ajustado
4.16.
En la seccin anterior presentamos la interaccin entre dos variables cuando una es cualitativa y la otra cuantitativa. Ahora nos ocuparemos de estudiar la situacin en la que las dos variables que interesan son cuantitativas.
171
(73)
Para cada nivel posible de peso al nacer, por cada unidad de aumento en
la edad gestacional se espera un aumento de 0,448 unidades (cm.) en el
permetro ceflico al nacer. Grficamente, esto se ve representado en la Figura
56. Lo mismo sucedera si controlramos por X1 en vez de X2 : tendramos
rectas paralelas, de pendiente 0,0047.
Este modelo asume que no existe interaccin entre las variables. El modelo
(73) fuerza a que los efectos de las covariables en la variable dependiente sean
aditivos, es decir, el efecto de la edad gestacional es el mismo para todos los
valores del peso al nacer, y viceversa, porque el modelo no le permitir ser
de ninguna otra forma. A menudo este modelo es demasiado simple para ser
adecuado, aunque en muchos conjuntos de datos proporciona una descripcin
satisfactoria del vnculo entre las variables.
Cuando esto no suceda, es decir, cuando pensemos que tal vez la forma
en que el permetro ceflico vare con la edad gestacional dependa del peso
172
al nacer del beb, ser necesario descartar (o validar) esta conjetura. Una
manera de investigar esta posibilidad es incluir un trmino de interaccin
en el modelo. Para ello, creamos la variable artificial que resulta de hacer el
producto de las otras dos: X3 = X1 X2 = gestage birthwt, y proponemos
el modelo
Y
Y
= 0 + 1 X1 + 2 X2 + 3 X3 +
= 0 + 1 X1 + 2 X2 + 1:2 X1 X2 +
(74)
Este es un caso especial de un modelo de regresin con tres variables regresoras. Cmo se interpreta este modelo para dos variables cuantitativas? En
este caso decimos que existe interaccin estadstica cuando la pendiente
de la relacin entre la variable respuesta y una variable explicativa cambia
para distintos niveles de las otras variables. Para entenderlo, escribamos el
173
pendiente
pendiente
pendiente
En general
E (Y | X1 , X2 ) = 0 + 1 X1 + 2 X2 + 1:2 X1 X2
= 0 + 2 X2 + ( 1 + 1:2 X2 )X1
| {z }
|
{z
}
ordenada al origen
(75)
pendiente
174
> summary(drogaA)
Min. 1st Qu. Median
3.207
4.449
7.744
Max.
13.590
> summary(drogaB)
Min. 1st Qu. Median
10.18
38.44
63.02
Max.
93.76
drogaA = 7
Yb = 53,92 + 16,59 7 + 6,22X2 + 2,77 7 X2
Yb = 62,21 + 25,61X2
drogaA = 11
Yb = 53,92 + 16,59 11 + 6,22X2 + 2,77 11 X2
Yb = 128,57 + 36,69X2
175
ajuste5)
Call:
lm(formula = YY ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
-53.92176
42.27242 -1.276 0.21027
drogaA
16.59288
4.92500
3.369 0.00181
drogaB
6.22153
0.63436
9.808 1.04e-11
drogaA:drogaB
2.77152
0.07774 35.651 < 2e-16
--Residual standard error: 44.04 on 36 degrees of freedom
Multiple R-squared: 0.9979,
Adjusted R-squared: 0.9977
F-statistic: 5650 on 3 and 36 DF, p-value: < 2.2e-16
176
177
Tabla 34: Modelo ajustado para los datos del archivo ejemploint3.txt, con
las variables explicativas X1 = drogaA y X2 = drogaB y la interaccin entre
ellas, para explicar a Y .
> summary(ajuste7)
Call:
lm(formula = Y7 ~ drogaA * drogaB)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
2488.19403
31.27861
79.55 < 2e-16
drogaA
151.87124
3.64415
41.67 < 2e-16
drogaB
4.92268
0.46938
10.49 1.71e-12
drogaA:drogaB
-3.00872
0.05752 -52.30 < 2e-16
--Residual standard error: 32.59 on 36 degrees of freedom
Multiple R-squared: 0.9965,
Adjusted R-squared: 0.9962
F-statistic: 3427 on 3 and 36 DF, p-value: < 2.2e-16
drogaB = 50
Yb = 2488,194 + 151,871X1 + 4,923 50 3,0087 X1 50
Yb = 2734,2 + 1,436X1
drogaB = 90
Yb = 2488,194 + 151,871X1 + 4,923 90 3,0087 X1 90
Yb = 2931,3 118,91X1
En este caso observamos que para hablar del efecto que tiene en la media de
Y el aumento de una unidad de la drogaA debemos saber cul es el valor
de la drogaB (ya que Y podra crecer, quedar constante o incluso disminuir)
con un aumento de una unidad de la drogaA. En el modelo aditivo (sin interaccin) uno poda siempre cuantificar la variacin de la respuesta ante un
aumento de una unidad de una covariable sin necesidad de conocer siquiera
el valor de la otra covariable, mientras se mantuviera constante. Decamos,
178
4.17.
Finalmente restara presentar un modelo de regresin lineal con interaccin entre dos variables cualitativas. Retomemos el ejemplo del pulso post
ejercicio.
179
X3
si la persona es mujer
1
=
0
en caso contrario
si la persona fuma
1
=
0
en caso contrario
Antes de presentar el modelo con interaccin, proponemos un modelo aditivo para explicar el pulso post-ejercicio, en funcin de las covariables X2 y
X3 . Tanto el sexo como la condicin de fumador son variables dummies o
binarias. En la base de datos se las denomina X2 = mujer y X3 = fuma.
El modelo (aditivo) es
E (Y | X2 , X3 ) = 0 + M mujer + F fuma.
(76)
= fuma
0
1
0
1
E (Y | X2 , X3 )
0
0 + F
0
+ M
0 + F + M
180
(77)
X2 X3 =
181
Tabla 36: Modelo de regresin lineal mltiple con interaccin, para el pulso
post-ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2 = mujer X3
1
0
2
0
3
1
4
1
= fuma X2 X3
0
0
1
0
0
0
1
1
E (Y | X2 , X3 )
0
0 + F
0
+ M
0 + F + M + M:F
Yi1 N 1 , 2
grupo 1 (hombres no fumadores) (78)
(1 i n1 )
Yi2 N 2 , 2
grupo 2 (hombres fumadores)
(1 i n2 )
2
Yi3 N 3 ,
grupo 3 (mujeres fumadoras)
(1 i n3 )
Yi4 N 4 , 2
grupo 4 (mujeres no fumadoras).
(1 i n4 )
182
= 0
= 0 + F
= 0 + M
= 0 + F + M + F :M .
(79)
i1
Yi2 = 2 + i2
Yi3 = 3 + i3
Yi4 = 4 + i4
donde los ik N 0, 2
(1 i n1 )
(1 i n2 )
(1 i n3 )
(1 i n4 )
Vemos pues que ambos modelos (77) y (78) son equivalentes, ya que conociendo los parmetros de uno de ellos (los k por ejemplo) podemos despejar
los valores del otro (los h por ejemplo) por medio de las ecuaciones (79). O
al revs, obtener los k a partir de los h . La varianza del error se estimar
en forma conjunta en ambos modelos. La diferencia est en el significado
de los parmetros. En el modelo (78), k representa el valor esperado de la
variable respuesta en el grupo ksimo, mientras que en el modelo (77) los
h representan (algunas de) las diferencias entre los valores de las respuestas
medias entre los distintos grupos.
En las Tablas 37 y 38 se muestran los valores ajustados de los modelos
aditivos (76) y con interaccin (77).
Analicemos primero el modelo con interaccin. En la salida vemos que
el coeficiente de la interaccin no resulta significativo (el pvalor es 0,245
que no es menor a 0,05), por lo tanto concluimos que el efecto de fumar en
el pulso medio post-ejercicio de mujeres y varones es el mismo. Luego, para
los datos del pulso el modelo apropiado es el aditivo (76). En dicho ajuste
183
Tabla 37: Ajuste del modelo lineal mltiple aditivo Yi = 0 + M Xi2 + F Xi3 +
i , donde X2 = indicador de mujer (mujer), X3 = indicador de fumar (fuma),
e Y = pulso post ejercicio (Pulso2).
> ajusteA<-lm(Pulso2 ~ mujer + fuma)
> summary(ajusteA)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 126.926
2.452 51.754 < 2e-16
mujer
18.064
3.027
5.967 6.96e-07
fuma
7.362
3.074
2.395
0.0218
--Residual standard error: 9.453 on 37 degrees of freedom
Multiple R-squared: 0.5093,
Adjusted R-squared: 0.4828
F-statistic: 19.2 on 2 and 37 DF, p-value: 1.906e-06
vemos que todos los coeficientes son significativos, y que el hecho de fumar
aumenta el pulso post-ejercicio en 7,36 pulsaciones por minuto, cuando uno
controla por sexo. Es interesante graficar las cuatro medias muestrales y los
cuatro valores esperados bajo el modelo. Esos valores figuran en la Tabla 39.
184
Tabla 38: Ajuste del modelo lineal mltiple con interaccin Yi = 0 + M Xi2 +
F Xi3 + M:F Xi2 Xi3 + i , donde X2 = indicador de mujer (mujer), X3 =
indicador de fumar (fuma), Y = pulso post ejercicio (Pulso2).
> ajusteB <-lm(Pulso2 ~ mujer * fuma)
> summary(ajusteB)
Coefficients:
Estimate Std. Error t value
(Intercept) 128.333
2.714 47.280
mujer
15.250
3.839
3.973
fuma
4.267
4.026
1.060
mujer:fuma
7.317
6.190
1.182
---
Pr(>|t|)
< 2e-16
0.000326
0.296306
0.244922
Figura 59: Grfico de las medias muestrales de los cuatro grupos, de los datos
de pulso-post ejercicio.
185
Tabla 39: Medias muestrales calculadas por grupos, comparadas con el ajuste
de los modelos sin y con interaccin, para el pulso post-ejercicio con covariables X2 = mujer y X3 = fuma.
Grupo X2
1
0
2
0
3
1
4
1
X3
0
1
0
1
Media muestral
128,3333
132,6
143,5833
155,1667
E (Y | X2 , X3 ) sin interaccin
b0 = 126,926
b0 +
bF = 126,926 + 7,362 = 134,29
b0 +
bM = 126,926 + 18,064 = 144,99
b0 +
bF +
bM = 126,926 + 7,362
+18,064 = 152,35
Grupo X2
1
0
2
0
3
1
4
1
X3
0
1
0
1
Media muestral
128,3333
132,6
143,5833
155,1667
E (Y | X2 , X3 ) con interaccin
b0 = 128,333
b0 +
bF = 128,333 + 4,267 = 132,6
b0 +
bM = 128,333 + 15,25 = 143,58
b0 +
bF +
bM +
bF :M = 128,333 + 4,267
186
Figura 60: Grficos de las medias de una variable respuesta Y para dos ejemplos ficticios, en las figuras A y B.
4.18.
187
188
5.
5.1.
Los boxplots, histogramas, diagramas de tallo y hojas, y grficos de puntos para cada una de las variables predictoras y para la variable de respuesta
pueden proporcionar informacin univariada preliminar y til sobre estas variables. Los diagramas de dispersin (scatter plots) de la variable de respuesta
versus cada variable predictora pueden ayudar a determinar la naturaleza y
la fuerza de las relaciones bivariadas entre cada una de las variables de prediccin y la variable de respuesta as como pueden permitir la identificacin de
lagunas en las regiones de datos. Tambin pueden permitir identificar outliers
u observaciones atpicas o alejadas del patrn del resto de los datos. Los diagramas de dispersin de cada variable predictora versus cada una de las otras
variables de prediccin son tiles para el estudio de las relaciones bivariadas
entre las distintas variables predictoras y tambin para buscar espacios con
ausencia de datos y detectar valores atpicos.
El anlisis resulta ms fcil si los grficos de dispersin se ensamblan
en una matriz diagrama de dispersin (scatter plot matrix), como vemos
en la Figura 61. En esta figura, la variable graficada en el eje vertical para
cualquier grfico de dispersin es aquella cuyo nombre se encuentra en su
fila, y la variable graficada en el eje horizontal es aquella cuyo nombre se
encuentra en su columna. Por lo tanto, la matriz de grfico de dispersin en
la Figura 61 muestra en la primera fila los grficos de Y (permetro ceflico:
189
190
1
rY X1
rY X2 rY Xp1
rY X
1
rX1 X2 rX1 Xp1
1
..
..
..
..
.
.
.
.
1
rY Xp1 rX1 Xp1 rX2 Xp1
y en el caso de los datos de bebs de bajo peso es
> cor(infants[,c(1,3,4)])
headcirc
gestage
birthwt
headcirc 1.0000000 0.7806919 0.7988372 gestage 0.7806919 1.0000000
0.6599376 birthwt 0.7988372 0.6599376 1.0000000
Observemos que la matriz de correlacin es simtrica y en la diagonal
contiene unos pues el coeficiente de correlacin de una variable consigo misma
es 1.
5.1.2.
5.1.3.
Grficos de residuos
191
5.2.
192
5.2.1.
Leverage
n
X
hii = p
i=1
193
La matriz H de proyeccin tambin es til para determinar si una inferencia respecto de la respuesta media o de la prediccin para una nueva
observacin Xnueva de valores de las predictoras involucra una extrapolacin
sustancial respecto del rango de los valores observados. Cuando slo tenemos
dos predictoras X1 y X2 esto puede resolverse con un scatter plot como mues-
194
Y
j
j(i)
j=1
Di =
pMSRes
donde Ybj es el valor ajustado para la j-sima observacin, cuando se usaron
las n observaciones en el ajuste del modelo, y Ybj(i) es el valor ajustado para
la j-sima observacin, cuando se usaron n 1 observaciones en el ajuste del
modelo, todas menos la i-sima. Esto se repite para cada observacin, para
poder calcular todas las Distancias de Cook. Afortunadamente, las Di pueden
ser calculadas sin necesidad de ajustar una nueva funcin de regresin cada
vez, en la que se deja una observacin distinta afuera del conjunto de datos.
Esto es porque puede probarse la siguiente igualdad que permite calcular las
distancias de Cook
hii
e2i
Di =
.
pMSRes (1 hii )2
Observemos que las Distancias de Cook dependen de dos factores:
1. el tamao del residuo isimo, ei
195
Yi Ybi(i)
MSRes(i)
1hii
donde Ybi(i) es el valor ajustado para la i-sima observacin, cuando se usaron n 1 observaciones en el ajuste del modelo, todas menos la i-sima y
MSRes(i) es el cuadrado medio de los residuos cuando el caso isimo es omitido en el ajuste de la regresin lineal. Nuevamente, no necesitamos ajustar
las regresiones excluyendo los casos de a uno por vez, pues una expresin
alternativa para el residuo estudentizado es
1/2
np1
restudi = ei
SSRes (1 hii ) e2i
Los puntos de corte sugeridos para detectar una observacin influyente con
el residuo estudentizado estn dados por el criterio de Bonferroni y consiste
en declarar influyente a una observacin si
|restudi | > tnp1,
.
1 2n
5.3.
5.3.1.
Diagnstico de multicolinealidad
Cuando las variables predictoras incluidas en el modelo estn correlacionadas entre ellas, decimos que existe intercorrelacin o multicolinealidad.
Algunos de los problemas tpicos que aparecen cuando las variables regresoras
estn fuertemente correlacionadas son:
196
Diagnstico informal
197
Diagnstico formal
1
,
1 Rk2
1 k p 1,
198
desarrollo humano), o el ndice de inflacin, construidos como promedios ponderados de variables que miden el bienestar en una cierta regin o bien los
precios asociados a una determinada canasta, son ejemplos clsicos de esta construccin. En aplicaciones en las que se miden varias covariables muy
correlacionadas esta puede resultar una buena solucin.
En modelos polinmicos o que contienen interacciones, una solucin al
problema de multicolinealidad es trabajar con los datos centrados para la
o las variables predictoras que aparecen en ms de un trmino del modelo.
Esto es, no usar la variable X tal como fue medida, sino la diferencia entre
el valor observado y el valor medio de X en la muestra.
Existen otros procedimientos para tratar multicolinealidad (que escapan
a los objetivos de este curso) como anlisis factorial (factor analysis) o componentes principales. Estos mtodos permiten crear nuevas variables no correlacionadas a partir de un conjunto de covariables. En general, unas pocas
de estas nuevas variables capturan la mayor parte de la informacin contenida en las variables originales. El problema es que no siempre las nuevas
variables tienen una interpretacin simple.
5.4.
Seleccin de modelos
8 modelos de regresin lineal simple, cada uno con una sola covariable, 82 =
28 modelos
con dos covariables {X1 , X2 } , {X1 , X3 } , {X1 , X4 } , {X2 , X3 } ,
8
etc. , 3 = 56 modelos con tres covariables, etctera.
Lo que se denomina seleccin de modelos corresponde a la tarea de elegir
el mejor modelo para nuestros datos.
5.4.1.
Una vez que se tienen todas las variables, es de inters contar con un
criterio numrico para resumir la bondad del ajuste que un modelo lineal
con un cierto conjunto de covariables da a la variable dependiente observada.
199
SSResp
,
SST otal
MSResp
n 1 SSResp
2
Ra,p = 1
= 1 SST otal .
n p SST otal
n1
200
otal
Como SST
est fijo en un conjunto de datos dado (slo depende
n1
2
de las Y observadas), el Ra,p
aumenta si y slo si el MSResp dismi2
nuye. Luego, el coeficiente de determinacin mltiple ajustado Ra,p
y
el cuadrado medio del error MSResp , proveen informacin equivalente
acerca del ajuste obtenido. Al usar este criterio buscamos el subcon2
junto de p 1 covariables que maximicen el Ra,p
, o un subconjunto
2
de muchas menos covariables para las cuales Ra,p est muy cerca del
2
max Ra,p
, en el sentido que el aumento en el Ra2 sea tan pequeo que
no justifique la inclusin de la o las covariables extra.
5.4.2.
201
Todos estos criterios miden cualidades deseables en un modelo de regresin. Ocasionalmente, una nica ecuacin de regresin produce valores ptimos de los cuatro criterios simultneamente, con lo que uno puede confiar
que ste es el mejor modelo en trminos de estos criterios.
Desafortunadamente esto raramente ocurre y diferentes instrumentos identifican diferentes modelos. Sin embargo, tomados en conjunto estos criterios
permiten identificar un conjunto pequeo de modelos de regresin que pueden
ser construidos a partir de las variables independientes relevadas. Conviene
entonces estudiar estos pocos modelos ms detalladamente, teniendo en cuenta los objetivos del estudio, nuestro conocimiento del sistema bajo estudio
y la evaluacin de los supuestos del anlisis de regresin para realizar una
seleccin criteriosa de cual es el mejor modelo.
5.4.3.
202
5.4.4.
El procedimiento comienza construyendo el modelo con todas las predictoras y en cada paso se elimina una variable. La secuencia del procedimiento
es la siguiente:
1. El modelo inicial contiene todos los potenciales predictores (que hemos
denominado K).
2. Se define un nivel de significacin fijo . Si todas las variables producen
una contribucin parcial significativa (es decir, un estadstico t con
pvalor < ) entonces el modelo completo es el modelo final.
3. De otro modo, se elimina la variable que tenga la menor contribucin
parcial (es decir, el mayor pvalor de su estadstico t) cuando todas
las dems estn en el modelo.
203
204
Seleccin stepwise
205
206
Validacin de modelos
Apndice A: Ejercicios
207
Apndice A: Ejercicios
Ejercicio 1, de Correlacin (peso y presin)
La tabla que se presenta a continuacin contiene el peso y la presin sangunea sistlica
de 11 hombres seleccionados al azar en el grupo de edades de 25 a 30 aos. Queremos
estudiar la relacin entre estas dos variables.
Persona
1
2
3
4
5
6
7
8
9
10
11
165
167
180
155
175
190
149
158
169
170
172
Presin sangunea
sistlica
130
133
150
128
146
150
125
133
135
150
153
145
140
135
125
130
150
150
160
170
180
190
Peso
208
Persona
1
2
3
4
5
6
7
8
9
10
11
Suma
Media
xi
(peso)
165
167
180
155
175
190
149
158
169
170
172
1850
168.182
yi
(presin)
130
133
150
128
146
150
125
133
135
150
153
1533
139.364
( x i x )2
xi x
yi y
-3.182
-1.182
-9.364
-6.364
1.397
-13.182
6.818
21.818
-11.364
6.636
173.760
46.488
-14.364
-6.364
367.942
103.669
0.669
3.306
14.578
-10.182
0.818
3.818
10.636
13.636
( y i y )2
(xi x )( yi y )
87.678
40.496
29.793
7.521
129.132
44.041
113.132
206.314
40.496
19.041
149.793
45.248
232.066
185.950
64.793
19.339
52.066
xi x
yi y
( x i x )2
-3
-1.5
3
-4
5
-5
-3
0
1
2
3
5
( yi y )2 (xi x )( yi y )
9
2.25
9
16
25
25
9
0
1
4
6
1.5
12
16
9
25
0
3
10
Apndice A: Ejercicios
209
1
2
3
4
5
6
7
8
9
10
Colesterol
5.12
6.18
6.77
6.65
6.36
5.90
5.48
6.02
10.34
8.51
Triglicridos
2.30
2.54
2.95
3.77
4.18
5.31
5.53
8.83
9.48
14.20
Para analizar estos datos, el primer paso es construir un scatter plot de ellos.
En SPSS, por men: Grficos Cuadro de dilogos antiguos Dispersin
Dispersin simple Definir
a) Parece haber alguna evidencia de una relacin lineal entre los niveles de colesterol
y de triglicridos antes de la dieta?
210
y=
chol tri
1
5.12 2.30
2
6.18 2.54
3
6.77 2.95
4
6.65 3.77
5
6.36 4.18
6
5.90 5.31
7
5.48 5.53
8
6.02 8.83
9
10.34 9.48
10
8.51 14.20
media 6.733 5.909
total
xi x
yi y
(xi x )( yi y ) (xi x )2
( y i y )2
-0.833
-1.253
-0.713
3.607
1.777
0
-0.599
-0.379
2.921
3.571
8.291
0
0.4990
0.4749
-2.0827
12.8806
14.7331
0.6939
1.5700
0.5084
13.0104
3.1577
0.3588
0.1436
8.5322
12.7520
68.7407
34.90223
21.99541
131.2229
(x
i =1
(x
i =1
x )( y i y )
x)
(y
i =1
y)
d) Calcular rs, el coeficiente de correlacin de Spearman para los datos. Para ello,
completar los valores correspondientes a los rangos de cada muestra y luego las dems
columnas de la siguiente tabla. Hemos puesto algunos valores para facilitar las cuentas.
Apndice A: Ejercicios
Paci
ente
chol
5.12
6.18
6.77
6.65
6.36
5.90
5.48
6.02
10.34
8.51
medi 6.733
x
=Rango
1
2
3
4
5
6
7
8
9
10
a
total
5.5
211
tri
y
=Rango
2.30
2.54
2.95
3.77
4.18
5.31
5.53
8.83
9.48
14.20
5.909 5.5
xi x
y i y (xi x )( y i y )
( x i x )2 ( y i y )2
20.25
0.25
6.25
2.25
0.25
6.25
12.25
2.25
20.25
12.25
0.25
2.25
6.25
12.25
20.25
82.5
82.5
0
34.5
Observar que ac los que juegan el papel de xi y yi son los rangos de las respectivas
observaciones.
n
(x
i =1
(x
i =1
x )( y i y )
x)
(y
i =1
y)
e) Comparar r y rs.
f) Testear, a nivel 0.05, la hiptesis nula de que el coeficiente de correlacin poblacional
es igual a cero, pero esta vez usando el rs. Cul es su conclusin?
Con el SPSS Analizar Correlaciones Bivariadas Spearman
Hacerlo a mano. Recordar que t8, 0.975 = 2.306004. Son slo diez datos, la aproximacin
normal no ser lo mejor, pero la tomamos como vlida para no hacer tantas cuentas.
212
Con los datos del Ejercicio 1: Peso y la Presin Sangunea Sistlica (PSS) de
11 hombres seleccionados al azar en el grupo de edades de 25 a 30 aos
Persona
1
2
3
4
5
6
7
8
9
10
11
165
167
180
155
175
190
149
158
169
170
172
Presin sangunea
sistlica
130
133
150
128
146
150
125
133
135
150
153
Apndice A: Ejercicios
213
214
Apndice A: Ejercicios
215
y un diagrama de dispersin para cada gnero por separado (use Segmentar archivo
por men , o SPLIT FILE por sintaxis).
216
Abra y examine las variables del archivo ingresos1.sav. Corresponde a una base de
datos de 40 individuos, para los que se registraron las variables: Id (identificador, un
nmero entre 1 y 40 que identifica al nmero de observacin), educacin, edad y
salario. La variable educacin est codificada de 1 a 10, donde 1 corresponde al
menor nivel de educacin alcanzado y 10 al mayor. La variable salario corresponde al
salario bruto mensual (es decir, antes de impuestos), en dlares. La variable edad est
medida en aos.
a) Obtenga el coeficiente de correlacin y su p-valor entre educacin y salario.
Interprete el resultado. Realice el diagrama de dispersin (con educacin en el eje
horizontal). Describa el tipo de asociacin que muestran las variables. Le parece que es
un resultado lgico? Justifique brevemente.
b) Obtenga el coeficiente de correlacin y su p-valor entre educacin y salario para
cada edad. Interprete el resultado. Realice los diagramas de dispersin (con educacin
en el eje horizontal). Describa el tipo de asociacin que muestran las variables. Le
parece que es un resultado lgico? Justifique brevemente. Compare con el resultado
obtenido en a).
Para ello, Datos Segmentar archivo
Tildar en la opcin Organizar los resultados por grupos
Arrastrar la edad y luego, aceptar.
Cuando pidamos la correlacin lo separar por grupos de edad.
c) Realice el diagrama de dispersin entre educacin y salario utilizando edad como
Variable de agrupacin/apilado. Qu observa? Puede explicar ahora las
contradicciones entre a) y b)?
Observar que si seguimos con el archivo segmentado, la opcin de graficar devuelve un
diagrama de dispersin para cada edad. Si queremos poner todas las observaciones en el
mismo grfico, con un color diferente para cada edad, hacer:
Datos Segmentar archivo Reestablecer Aceptar
Ir a Datos Segmentar archivo Restablecer
Grficos Generador de grficos Dispersion/puntos
Arrastrar el segundo grfico que aparece. Y poner en el
Eje Y: salario
Eje X: educacin
Color: Establecer marcas por: edad
Aceptar
Apndice A: Ejercicios
217
d) Haremos un cambio de unidades en las que est expresada la variable salario, para
que las sumas de cuadrados queden expresadas en valores ms pequeos. Para ello
defina una nueva variable: sal (salario en cientos) que es igual a la variable salario
dividida por 100. Para ello:
Transformar calcular variable
Variable de destino: sal
Expresin numrica: salario/100
Ajuste una recta de cuadrados mnimos para la variable respuesta sal y la variable
explicativa educacin sin tener en cuenta la variable edad.
En SPSS: Analizar Regresin Lineales
218
6. Apndice A: Ejercicios
219
Ejercicio domiciliario
Para entregar la clase antes del examen
El valor energtico (en kcal. por cada 100g.) de galletitas de agua de marca
A (Y ) se relaciona con la cantidad de grasas totales (en g.) (X) involucradas
en su produccin. Un experimentador toma una muestra de tamao 22 (es
decir, compra 22 paquetes de galletitas y elige una de cada uno) para verificar
la adecuacin de un modelo de regresin lineal a esta relacin. Utilizando el
archivo de datos galletitas.xls responda a las siguientes preguntas: (no hace
falta que copie en su respuesta las salidas del SPSS, simplemente responda
brevemente a las preguntas, en general bastar con una o dos oraciones).
1. Exprese el modelo de regresin lineal indicando claramente los parmetros y variables involucradas. Escriba los supuestos necesarios para que
sean vlidas las conclusiones respecto de los tests y los intervalos de
confianza.
2. Ajuste el modelo. D la ecuacin de la recta estimada.
3. Es la pendiente del modelo significativa? Es decir, hay un vnculo
lineal entre las valor energtico (en kcal. por cada 100g.) de galletitas
de agua de marca A (Y ) y la cantidad de grasas totales (en g.) (X)
involucradas en su produccin? Conteste a nivel 0.05. Al escribir su
respuesta, escriba claramente las hiptesis que testea, el pvalor obtenido
y su conclusin.
4. Es la ordenada al origen significativa al nivel 0.05?
5. Estime la varianza del error ( 2 ).
6. Interprete los parmetros estimados (en su respuesta a esta pregunta
debera aparecer una frase que comience ms o menos as: Por cada
aumento de 1g. en la cantidad de grasas totales....)
7. Al investigador le interesa calcular la cantidad de caloras esperadas
para 100g de galletitas de agua de marca A producidas con X = 30g.
de grasas totales. Diga cul es el valor esperado, en base a los datos
dados.
8. D un intervalo de confianza de nivel 0,95 del valor calculado en el tem
anterior.
9. Halle un intervalo de confianza para la pendiente correspondiente al
ajuste de la marca A de nivel 0,95.
220
Apndice A: Ejercicios
221
El objetivo de este ejercicio es ver cmo influyen las observaciones, aclarar lo que
quiere decir punto influyente y punto que sigue el modelo lineal. Pondremos
artificialmente observaciones atpicas y veremos cmo influyen sobre el ajuste
obtenido, y cmo las medidas de diagnstico (en este caso, el leverage y los residuos
estudentizados) reaccionan a esta contaminacin. Es ms un trabajo de simulacin
que de anlisis. Recordemos las definiciones: (segn el apunte de Diana Kelmansky):
Un dato atpico (outlier) en una regresin es aquel que no sigue la estructura de los dems datos,
en general produce un residuo grande.
Una observacin potencialmente influyente (con alta palanca) es aquella cuya variable
explicativa se encuentra lejos del promedio, al ser excluida del anlisis podra provocar un
cambio importante en la recta ajustada.
Si un dato yace fuera el patrn lineal, es decir que es un outlier, y tiene adems alta palanca, la
posicin de la recta de regresin estar influida por dicha observacin. La influencia de estos
puntos en la regresin por cuadrados mnimos generalmente garantiza que sus residuos no sean
demasiado grandes, pues acercan la recta ajustada hacia ellos. Un punto de alta palanca que no
sigue el patrn lineal puede quedar enmascarado y no aparecer con un residuo grande.
No sirve buscar simplemente residuos grandes ya que puntos de alta palanca fuera del patrn
lineal general podran producir residuos pequeos.
Los puntos influyentes y los valores atpicos son fciles de detectar mientras haya una sola
variable explicativa. Un diagrama de dispersin clsico, de y versus x, alertar adems sobre las
observaciones que son extremas en x y que pueden por lo tanto ser influyentes. Una observacin
influyente debera ser investigada para asegurarse que es correcta. Incluso cuando no se halle error
se debera determinar si esa observacin pertenece a la poblacin en estudio.
Las medidas de influencia se calculan caso por caso, como los residuos, los residuos
estandarizados y los residuos estudentizados. El leverage de la observacin isima queda definido
por
1
( xi - x ) 2
=
+
h ii
n n
( x k - x ) 2
k =1
Otras medidas son la distancia de Cook, los DFFITS, los DFBETAS. Como su anlisis es similar,
nos dedicaremos a mirar en detalle al leverage.
Un caso influyente es aquel que produce cambios importantes en el ajuste de la regresin cuando
ese punto se omite. Uno de los objetivos principales del diagnstico es la deteccin y el estudio de
estos casos potencialmente influyentes. Los siguientes estadsticos miden el efecto que produce
eliminar la observacin i-sima:
1. Distancia de Cook (COO). Puede interpretarse como un efecto global sobre todos los
coeficientes estimados y tambin como el efecto sobre el valor predicho y i .
2. DFFITS. Mide el efecto sobre el valor predicho y i
3. DFBETA. Mide el efecto sobre cada coeficiente estimado.
222
Las tres medidas estn relacionadas. Las dos primeras son muy similares y debe elegirse una de
ellas si el inters est en la prediccin. En cambio el inters est en la estimacin de un parmetro
de la regresin el DFBETA para ese parmetro ser de mayor utilidad.
El leverage o palanca, hii, es un estadstico fundamental para detectar puntos potencialmente
influyentes. El SPSS presenta una versin centralizada (hii -1/n) Puede tomar valores entre 0 y 11/n. Existen distintas propuestas de corte para identificar los casos influyentes:
o sea, si los
es un caso seguro
es un caso riesgoso
es un caso que debe evitarse si es posible
Resumen de la forma en que puede afectar un nico dato el ajuste de una recta por el mtodo de
Cuadrados Mnimos
Dato con
alta palanca
S
No
Ejercicio 1
a) Abra los datos que se encuentran en el archivo low birth weight infants.sav.
Corresponden a los datos que analizamos en clase, tratados en el libro de Pagano y
Gauvreau:
Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition, Duxbury
Thomson Learning. 2000.
Apndice A: Ejercicios
223
c) Escriba el modelo propuesto, con lpiz (bueno, puede ser lapicera) y papel. Indique
qu significan 0 y 1.
d) Realice el ajuste por cuadrados mnimos. Guarde los residuos estandarizados, los
residuos estudentizados y los valores de influencia para utilizarlos ms adelante. Observe
cmo se ha modificado el archivo contiene que los datos. Describa cada una de las nuevas
variables que aparecen.
Analizar Regresin Lineales
Dependiente: headcirc
Independientes: pesokg
Guardar:
Valores pronosticados (o sea, predichos): No tipificados
Residuos:
- No tipificados (son los residuos que conocemos)
- Tipificados (son los estandarizados, se los divide por un estimador de
sigma)
- Mtodo de Student (son los residuos estudentizados)
Distancias:
Valores de influencia (leverage centrado)
Distancias de Cook
224
Apndice A: Ejercicios
225
pesokg
0.4
0.35
headcirc
50
20
caso
101
102
estimado 1
estimado R cuadrado
0
(pvalor)
(pvalor)
100
datos
1 al 102
1 al 101
1 al 100
y 102
226
Al hacer el ajuste sin la observacin 101 debera verse que el ajuste resultante es muy
parecido al original, suben un poco los niveles de significatividad y algo el R cuadrado.
El 102 es un punto influyente que sigue el modelo lineal. No tiene residuo grande.
Al hacer el ajuste sin la observacin 102 cambia mucho el ajuste original, cambian los
parmetros estimados, baja mucho el R cuadrado. El caso 101 es un punto influyente
que no sigue el modelo lineal. Su residuo es grande.
Ejercicio 2
Apndice A: Ejercicios
227
Para los datos de nios de bajo peso, se encontr una relacin lineal significativa entre
la presin sistlica y la edad gestacional. Los datos estn el archivo lowbwt. Las
mediciones de presin sistlica estn guardadas bajo el nombre sbp, y las
correspondientes edades gestacionales en gestage. Tambin en ese archivo figuran los
datos de apgar5, el score Apgar a los 5 minutos para cada nio recin nacido. (El score
Apgar es un indicador del estado general de salud del nio a los 5 minutos de haber
nacido; aunque en realidad es una medida ordinal se lo suele tomar como si fuera
continua).
a)
b)
c)
Cul es la presin media estimada para la poblacin de nios de bajo peso cuya
edad gestacional es 31 semanas y cuyo score Apgar es 7?
d)
e)
f)
g)
Ejercicio2
228
2. 4 modelos lineales simples basados en 10 datos cada uno, con salario como
variable respuesta y educacin como variable explicativa, pero separados por
tramos de edad (edad = 20, 30, 40 y 50, respectivamente).
Ahora buscamos modelarlos usando lo aprendido de modelo lineal mltiple.
a) Abra los datos que se encuentran en el archivo ingresos1.sav.
b) En el taller 1 ajustamos el modelo siguiente. Lo llamaremos
modelo A
Para este modelo, cules son los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza?
Interprete los parmetros del modelo. Recuerde, en su respuesta a esta pregunta debera
aparecer una frase que comience ms o menos as: Para cada aumento de 1 ao en la
edad ....
c) Ajuste el modelo B. Al hacerlo, incluya la opcin de graficar residuos (en la opcin
grficos, cliquear el histograma de residuos tipificados y el grfico de probabilidad
normal), tambin pedirle al SPSS que haga el grfico de los residuos estudentizados
eliminados en el eje vertical versus los valores predichos en el eje horizontal.
D los parmetros estimados. Mejor an, escriba el modelo ajustado, con lpiz y papel.
d) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene a educacion y a edad como
explicativas?
Ejercicio 3
Apndice A: Ejercicios
229
media de los varones con una edad gestacional fija significativamente distinta de la
presin sistlica media de las nenas con la misma edad gestacional?
c) Agregue la interaccin sexo edad gestacional. Ajuste el modelo.
d) Incluira al sexo como variable explicativa al modelo que tiene a la edad
gestacional?Incluira a la interaccin como variables explicativas al modelo? Por
qu?
Ejercicio 4
Observe que para este modelo, los supuestos necesarios para que sean vlidas las
conclusiones respecto de los tests y los intervalos de confianza son los mismos que
antes.
Interprete los parmetros del modelo. Debera quedar clara la diferencia con el modelo
B. Si no es as, pregunte hasta aclararlo!!
b) Ajuste el modelo C. D los parmetros estimados. Mejor an, escriba el modelo
ajustado, con lpiz y papel.
Para hacerlo, es necesario crear una nueva variable que sea el producto de las variables
educacin y edad.
Para eso, ir al men: Transformar Calcular variable
Variable de destino: educ.edad
Expresin numrica: educacion*edad
Y ahora, al poner las variables independientes en el ajuste del modelo de regresin
lineal asegurarse de poner las 3.
c) Evale la bondad del ajuste con el test F. Diga si los coeficientes son significativos.
Evale la adecuacin del modelo con el R2. Qu porcentaje de variabilidad del
salario queda explicada por el modelo que tiene educacion, edad y la
interaccin entre educacin y edad como explicativas? Con cul de los dos
modelos (B o C) se quedara?
d) Ajustemos ahora el modelo con la variable edad como categrica. Cuntas
dummies o variables binarias hay que poner en el ajuste?
Como la edad toma 4 valores, nos bastar con poner 3 dummies. Queda claro esto? Las
dummies sern:
edad_20 = Indicadora del grupo cuya edad es igual a 20
edad_30 = Indicadora del grupo edad edad es igual a 30
230
Antes de responder a las mismas preguntas de los otros modelos, diga cul es la
diferencia (si la hay) entre este modelo y los 4 modelos lineales simples basados en 10
datos cada uno, con salario como variable respuesta y educacin como variable
explicativa, pero separados por tramos de edad (edad = 20, 30, 40 y 50,
respectivamente) que fueron ajustados en el Taller 1.
231
Estadsticos descriptivos
Desviacin
tpica
Media
26,45
2,532
100
Edad gestacional
28,89
2,534
100
1098,85
269,993
100
Peso
Correlaciones
Correlacin de Pearson
Sig. (unilateral)
ceflico al nacer
gestacional
Peso
1,000
,781
,799
Edad gestacional
,781
1,000
,660
Peso
,799
,660
1,000
,000
,000
Edad gestacional
,000 .
Peso
,000
,000 .
100
100
100
Edad gestacional
100
100
100
Peso
100
100
100
Variables
Variables
introducidas
eliminadas
Peso, Edad
Edad
Variables introducidas/eliminadasb
Modelo
Permetro
Mtodo
Introducir
gestacional
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Permetro ceflico al nacer
,000
232
Modelo
R cuadrado
,867a
R cuadrado
Error tp. de la
corregida
estimacin
,752
,747
1,274
ANOVAb
Suma de
cuadrados
Modelo
1
Media
cuadrtica
gl
Regresin
477,327
238,663
Residual
157,423
97
1,623
Total
634,750
99
Sig.
,000a
147,058
Coeficientesa
Coeficientes no estandarizados
Modelo
1
B
(Constante)
Error tp.
8,308
1,579
Edad gestacional
,449
,067
Peso
,005
,001
Coeficientesa
Modelo
1
Coeficientes
tipificados
para B
t
Beta
(Constante)
Sig.
Lmite inferior
Lmite superior
5,262
,000
5,174
11,442
Edad gestacional
,449
6,673
,000
,315
,582
Peso
,502
7,466
,000
,003
,006
233
Mximo
Media
tpica
21,74
31,03
26,45
2,196
100
-2,145
2,088
,000
1,000
100
,129
,378
,213
,057
100
21,79
31,19
26,45
2,196
100
Residual
-2,035
8,540
,000
1,261
100
Residuo tp.
-1,597
6,704
,000
,990
100
Residuo estud.
-1,656
6,866
,000
1,009
100
Residuo eliminado
-2,186
8,958
-,001
1,310
100
-1,671
9,526
,028
1,213
100
Dist. de Mahalanobis
,029
7,729
1,980
1,630
100
Distancia de Cook
,000
,768
,013
,077
100
,000
,078
,020
,016
100
[Conjunto_de_datos2] D:\reglin\her1.sav
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
exercise
Mtodo
Introducir
Modelo
1
R
,082a
R cuadrado
R cuadrado
Error tp. de la
corregida
estimacin
,007
,006
36,731
234
ANOVAb
Suma de
Modelo
1
Media
cuadrados
Regresin
gl
cuadrtica
25456,730
25456,730
Residual
3725004,730
2761
1349,151
Total
3750461,460
2762
Sig.
,000a
18,869
B
(Constante)
Error tp.
Beta
114,561
,892
-6,233
1,435
exercise
tipificados
Sig.
128,408
,000
-4,344
,000
-,082
Modelo
1
Media
Regresin
cuadrtica
gl
25456,730
25456,730
Residual
3725004,730
2761
1349,151
Total
3750461,460
2762
Sig.
,000a
18,869
B
(Constante)
exercise
Error tp.
114,561
,892
-6,233
1,435
tipificados
t
Beta
-,082
Sig.
128,408
,000
-4,344
,000
235
Frecuencias
Estadsticos
diabetes
N
Vlidos
2763
Perdidos
diabetes
Frecuencia
Vlidos
Porcentaje
Porcentaje
vlido
acumulado
Porcentaje
2032
73,5
73,5
73,5
731
26,5
26,5
100,0
2763
100,0
100,0
Total
Estadsticos
Diabetes
N
Vlidos
2032
Perdidos
diabetes
Frecuencia
Vlidos
Porcentaje
Porcentaje
vlido
acumulado
Porcentaje
2032
100,0
100,0
100,0
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
exercise
Mtodo
Introducir
Modelo
1
R
,086a
R cuadrado
R cuadrado
Error tp. de la
corregida
estimacin
,007
,007
9,715
236
ANOVAb
Suma de
cuadrados
Modelo
1
Media
Regresin
cuadrtica
gl
1412,504
1412,504
Residual
191605,195
2030
94,387
Total
193017,699
2031
Sig.
,000a
14,965
tipificados
Error tp.
(Constante)
97,361
,282
Exercise
-1,693
,438
Beta
345,848
,000
-3,868
,000
-,086
Informe
Glucose
exercise
Media
Desv. tp.
97,36
1191
9,898
95,67
841
9,450
Total
96,66
2032
9,749
Prueba T
Estadsticos de grupo
Error tp. de la
Exercise
glucose
Media
Desviacin tp.
media
>= 1
841
95,67
9,450
,326
<1
1191
97,36
9,898
,287
Sig.
1,762
,184
Sig.
237
gl
Sig. (bilateral)
medias
-3,868
2030
,000
-1,693
-3,899
1858,333
,000
-1,693
iguales
No se han asumido
varianzas iguales
Prueba de muestras independientes
Prueba T para la igualdad de medias
95% Intervalo de confianza para
la diferencia
Error tp. de la
diferencia
glucose
Inferior
Superior
,438
-2,551
-,835
,434
-2,544
-,841
iguales
No se han asumido
varianzas iguales
Regresin
[Conjunto_de_datos2] D:\reglin\her1.sav
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
BMI, exercise
Mtodo
Introducir
Modelo
1
R cuadrado
a
,261
R cuadrado
Error tp. de la
corregida
estimacin
,068
,067
9,418
238
ANOVAb
Suma de
Modelo
1
Media
cuadrados
Regresin
gl
cuadrtica
13153,784
6576,892
Residual
179802,433
2027
88,704
Total
192956,217
2029
Sig.
,000a
74,144
B
(Constante)
exercise
BMI
Error tp.
83,942
1,199
-,917
,430
,474
,041
tipificados
t
Beta
Sig.
69,990
,000
-,046
-2,134
,033
,250
11,498
,000
Regresin
DATASET CLOSE Conjunto_de_datos1.
RECODE physact0 (1=0) (2=1) (3 thru 5=0) INTO Iphysact_2.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=1) (4 thru 5=0) INTO Iphysact_3.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (5=0) (4=1) INTO Iphysact_4.
EXECUTE.
RECODE physact0 (1=0) (2=0) (3=0) (4=0) (5=1) INTO Iphysact_5.
EXECUTE.
239
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
Iphysact_5,
Mtodo
Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: glucose
Modelo
R cuadrado
a
,525
R cuadrado
Error tp. de la
corregida
estimacin
,275
,274
8,308
ANOVAb
Suma de
Modelo
1
cuadrados
Regresin
Media
gl
cuadrtica
53113,477
13278,369
Residual
139904,222
2027
69,020
Total
193017,699
2031
Sig.
,000a
192,383
Error tp.
(Constante)
112,798
,835
Iphysact_2
-13,314
,958
Iphysact_3
-13,617
Iphysact_4
Iphysact_5
a. Variable dependiente: glucose
tipificados
t
Beta
Sig.
135,092
,000
-,494
-13,904
,000
,904
-,630
-15,065
,000
-17,821
,901
-,837
-19,788
,000
-22,809
,925
-,962
-24,666
,000
240
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
BMI,
Mtodo
Introducir
Iphysact_4,
Iphysact_2,
Iphysact_5,
Iphysact_3
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: glucose
Modelo
R cuadrado
a
,552
R cuadrado
Error tp. de la
corregida
estimacin
,305
,303
8,142
Media
cuadrados
Regresin
gl
cuadrtica
58772,626
11754,525
Residual
134183,591
2024
66,296
Total
192956,217
2029
Sig.
,000a
177,303
Error tp.
(Constante)
103,053
1,331
Iphysact_2
-12,878
,940
Iphysact_3
-13,352
Iphysact_4
Iphysact_5
BMI
a. Variable dependiente: glucose
tipificados
t
Beta
Sig.
77,449
,000
-,478
-13,705
,000
,886
-,617
-15,065
,000
-17,221
,885
-,808
-19,456
,000
-21,733
,914
-,915
-23,782
,000
,332
,036
,175
9,288
,000
241
Regresin
[Conjunto_de_datos3] D:\datos\her1.sav
Variables introducidas/eliminadasb
Modelo
Variables
Variables
introducidas
eliminadas
BMI
Iphysact_4,
Mtodo
Introducir
Introducir
Iphysact_2,
Iphysact_5,
Iphysact_3
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: glucose
242
Modelo
R cuadrado
R cuadrado
Error tp. de la
corregida
estimacin
,257a
,066
,066
9,427
,305
,303
8,142
,552
Sig. Cambio en
cuadrado
Cambio en F
gl1
gl2
,066
143,483
2028
,000
,239
173,550
2024
,000
ANOVAc
Suma de
Modelo
1
cuadrados
Regresin
Media
gl
cuadrtica
12749,758
12749,758
Residual
180206,458
2028
88,859
Total
192956,217
2029
58772,626
11754,525
Residual
134183,591
2024
66,296
Total
192956,217
2029
Regresin
Sig.
143,483
,000a
177,303
,000b
243
Coeficientesa
Coeficientes
Coeficientes no estandarizados
Modelo
1
B
(Constante)
Error tp.
Beta
83,176
1,145
,488
,041
103,053
1,331
,332
,036
Iphysact_2
-12,878
Iphysact_3
Sig.
72,619
,000
11,978
,000
77,449
,000
,175
9,288
,000
,940
-,478
-13,705
,000
-13,352
,886
-,617
-15,065
,000
Iphysact_4
-17,221
,885
-,808
-19,456
,000
Iphysact_5
-21,733
,914
-,915
-23,782
,000
BMI
2
tipificados
(Constante)
BMI
,257
Modelo
1
Beta dentro
Sig.
Correlacin
colinealidad
parcial
Tolerancia
Iphysact_2
,116
5,454
,000
,120
,999
Iphysact_3
,137a
6,398
,000
,141
,989
Iphysact_4
-,108
-5,069
,000
-,112
1,000
Iphysact_5
-,325a
-15,859
,000
-,332
,974
244
Mtodo: Introducir
Siguiente
Bloque 2 de 2
Independientes:
BMI
Iphysact_2
Iphysact_3
Iphysact_4
Iphysact_5
Mtodo: Introducir
Siguiente
Se obtiene
Regresin
[Conjunto_de_datos3] D:\datos\her1.sav
Variables introducidas/eliminadasb
Modelo
1
Variables
Variables
introducidas
eliminadas
Iphysact_5,
Mtodo
Introducir
Introducir
Iphysact_2,
Iphysact_3,
Iphysact_4
2
BMIa
Modelo
R cuadrado
R cuadrado
Error tp. de la
corregida
estimacin
,524a
,275
,274
8,312
,305
,303
8,142
,552
245
Sig. Cambio en
cuadrado
Cambio en F
gl1
gl2
,275
191,976
2025
,000
,030
86,274
2024
,000
Media
cuadrados
Regresin
gl
cuadrtica
53052,975
13263,244
Residual
139903,242
2025
69,088
Total
192956,217
2029
58772,626
11754,525
Residual
134183,591
2024
66,296
Total
192956,217
2029
Regresin
Sig.
191,976
,000a
177,303
,000b
Error tp.
(Constante)
112,798
,835
Iphysact_2
-13,314
,958
Iphysact_3
-13,617
Iphysact_4
tipificados
t
Beta
Sig.
135,026
,000
-,494
-13,897
,000
,904
-,630
-15,058
,000
-17,821
,901
-,836
-19,776
,000
Iphysact_5
-22,807
,925
-,961
-24,646
,000
(Constante)
103,053
1,331
77,449
,000
Iphysact_2
-12,878
,940
-,478
-13,705
,000
Iphysact_3
-13,352
,886
-,617
-15,065
,000
Iphysact_4
-17,221
,885
-,808
-19,456
,000
Iphysact_5
-21,733
,914
-,915
-23,782
,000
,332
,036
,175
9,288
,000
BMI
a. Variable dependiente: glucose
246
Variables excluidasb
Estadsticos de
Modelo
1
Beta dentro
BMI
t
a
,175
9,288
Sig.
,000
Correlacin
colinealidad
parcial
Tolerancia
,202
,966
REFERENCIAS
247
Referencias
[1] Draper N., Smith H. Applied Regression Analysis. Third Edition, Wiley
Series in Probability and Statistics, 1998.
[2] Field, A. Discovering Statistics Using SPSS. 2nd. ed. SAGE Publications
LTD, London UK. 2007.
[3] Kelmansky, Diana. Apunte de Regresin Lineal para la CEECS, 2009.
[4] Hulley, S., Grady, D., Bush, T., Furberg, C., Herrington, D., Riggs, B .
and Vittingho, E. (1998). Randomized trial of estrogen plus progestin
for secondary prevention of heart disease in postmenopausal women.
The Heart and Estrogen/progestin Replacement Study. Journal of the
American Medical Association, 280(7), 605613.
[5] Leviton, A., Fenton, T., Kuban, K. C. K., Pagano, M., Labor and
Delivery Characteristics and the Risk of Germinal Matrix Hemorrhage
in Low Birth Weight Infants, Journal of Child Neurology, Volumen 6,
October 1991, 35-40.
[6] Kutner, M. H., Nachtsheim, C. J. , Neter, J., Li, W. Applied linear statistical models. 5th ed. McGraw-Hill/Irwin series Operations and decision
sciences. 2005.
[7] McCullagh, P., Nelder, J. Generalized Linear Models, Second Edition.
London: Chapman & Hall. 1989.
[8] Pagano, M., Gauvreau, K. Principles of Biostatistics, Second Edition,
Duxbury Thomson Learning. 2000.
[9] Pinheiro, J., Bates, D. Mixed-Eects Models in S and S-plus. New York:
Springer. 2000.
[10] R Development Core Team. R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria.
ISBN 3-900051-07-0, URL http://www.R-project.org/. 2011
[11] Rosner, B. Principles of Biostatistics. 6th. ed. Thomson Brooks Cole.
2006.
[12] Sche, H. The Analysis of Variance. New York: Wiley. 1959.
[13] Seber, G. A. F. Linear Regression Analysis. New York: Wiley. 1977.
248