Académique Documents
Professionnel Documents
Culture Documents
6.1. Introduccin
En este tema vamos a considerar estudios en los que intervienen dos variables cuantitativas X e Y. El objetivo de estos estudios ser analizar la relacin entre X e Y. Como veremos, las tcnicas de REGRESIN LINEAL Y CORRELACIN se basan en el ajuste de una lnea recta sobre los datos para explicar la relacin entre X e Y. Las observaciones de X e Y pueden ser de dos tipos: Los valores de la variable X son especificados por el experimentador. Para cada valor de X se eligen individuos con dicho valor y se observa su valor aleatorio para la variable Y (Ejemplo 1). Las dos variables X e Y son aleatorias. Se eligen al azar n individuos y observamos los valores de las variables X e Y en ellos (Ejemplo 2). En los dos casos los clculos son iguales pero la interpretacin puede ser diferente.
Ejemplo 1. ANFETAMINAS Y CONSUMO DE COMIDA Las anfetaminas son frmacos que inhiben la ganas de comer. En un estudio sobre este efecto, un farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron una inyeccin de anfetamina con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del tercer grupo recibieron una inyeccin de una solucin salina. Se midi la cantidad de comida consumida para cada animal en un perodo de tres horas despus de la inyeccin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores cazaron nueve hembras adultas y midieron la longitud y el peso.
Ejemplo 1. AMFETAMINES I CONSUM DE MENJAR Las anfetaminas son frmacos que inhiben las ganas de comer. En un estudio sobre este efecto, un farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron una inyeccin de anfetaminas con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del tercer grupo recibieron una inyeccin de una solucin salina. Se medi la cantidad de comida consumida por cada animal en un perodo de tres horas despus de la inyeccin. Los resultados (gramos consumidos por kilogramo de peso corporal) fueron los siguientes: Dosis de anfetamina (mg/kg) 0 112,6 102,0 90,2 81,5 105,6 93,0 106,6 108,3 Media s n 100,0 10,7 8 2,5 73,3 81,8 67,3 55,3 80,7 90,0 75,5 77,1 75,5 10,7 8 5,0 38,5 81,3 57,1 62,3 51,5 48,3 42,7 57,9 55,0 13,3 8 Si representamos los datos, parece que al aumentar la dosis de anfetamina disminuye el consumo de alimento. Consideremos: X = dosis (mg/Kg) de anfetamina que no es una variable aleatoria sino que est fijada por el investigador con valores x = 0, 2.5 i 5. Y = cantidad de comida consumida por el animal en las tres horas posteriores a la inyeccin
x=
x = 63 cm
n
2
n=9
y=
y = 152
n
g
2
(x x)
n 1
= 4.6 cm
sY =
( y y)
n 1
= 35.3 g
2 = (n 1) sY = 9990
SS X =
SPXY =
(x x)
2 = (n 1) s X = 8 4.6 2 = 172
SSY =
( y y)
( x x )( y y ) = (60 63)(136 152) + (69 63)(198 152) + (66 63)(194 152) + (64 63)(140 152) +
s XY = SPXY 1237 = = 176.9 n 1 8
(54 63)(93 152) + (67 63)(172 152) + (59 63)(116 152) + (65 63)(174 152) + (63 63)(145 152) = 1237
Covarianza muestral
( x x )( y y )
s negatiu
( x x )( y y )
s positiu
SPXY = ( x x )( y y )
El signo (+ o ) de SPXY determina la direccin o tendencia de los datos: SPXY >0 corresponde a datos crecientes (la Y se hace grande cuando crece la X) SPXY < 0 corresponde a datos decrecientes (la Y se hace pequea cuando crece la X) Si dividimos los cuadrantes en base a las medias muestrales de X e Y, los productos del sumatorio sern positivos cuando X e Y tengan el mismo comportamiento respecto a las medias muestrales (y el par correspondiente estar en el primer o en el tercer cuadrante), y sern negativos cuando no tengan el mismo comportamiento (y estarn en el segundo o cuarto cuadrante). La suma nos dar ( x x )( y y ) una medida del comportamiento global. s negatiu
( x x )( y y )
s positiu
SPXY =
( x x )( y y ) = ( xy ) x y
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En el ejemplo tenemos SPXY=1237>0, que corresponde a una relacin creciente entre las dos variables, ya que la mayora de pares estn en el primer cuadrante (y por tanto a un valor de X pequeo respecto a la media le corresponde un valor pequeo de Y respecto a la media) y en el tercer cuadrante (a un valor grande de X respecto a la media le corresponde un valor grande de Y respecto a la media).
= b0 + b1 x y
Vamos a definir el residuo asociado al valor x como la diferencia entre el valor observado y y el valor ajustado con la recta de regresin y
residuo = y y
Este residuo es una medida del error del ajuste correspondiente al valor x. Queremos obtener los valores b0 y b1 que definen la recta de regresin que minimiza: 2
) (y y
= SS (resid )
Esta recta Y = b0 + b1X se denomina recta de regresin o de mnimos cuadrados. Segn el formulario, tenemos: Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa
Tema 6. Regresin lineal y correlacin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En este caso, la recta de regresin ajustada sera: Y = b0 + b1X
b1 =
En el ejemplo de la longitud y peso de las serpientes, la recta de regresin ajustada es: Y = -301 + 7.19 X El valor b1=7.19 significa que para cada centmetro adicional de longitud tenemos 7.19 g de peso.
Observar que la recta de regresin siempre pasa por el par ( x, y) formado por las medias de las dos variables, ya que:
Para cada valor x tenemos un valor observado y, y un valor ajustado mediante la recta de regresin. Se define el residuo asociado como (y ) y la suma de cuadrados de los residuos o suma de cuadrados residual como:
SS (resid ) =
) ( y y
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En el ejemplo de la longitud y peso de las serpientes, tenemos:
x
60 69 66 64 54 67 59 65 63
y
136 198 194 140 93 172 116 174 145
=b0+b1x
130,42 195,15 173,57 159,19 87,27 180,76 123,23 166,38 152,00 SUMA
(y- ) 5,57 2,84 20,42 19,19 5,72 8,76 7,23 7,61 7,00 0
(y- ) 31,08 8,11 417,15 368,32 32,79 76,86 52,30 58,00 49,00 1093,66 SS(resid)
El valor SS(resid)=1093.66 es la suma del cuadrado de las distancias entre los valores observados y los valores ajustados con la recta de regresin. Tambin se puede obtener como:
2 SPXY 1237 2 = 9990 = 1093.66 SS (resid ) = SSY 172 SS X
Tema 6. Regresin lineal y correlacin. Llamaremos desviacin tpica residual al valor: Este valor mide la variabilidad de Y alrededor de la recta de regresin ajustada, es decir, la variabilidad de Y que no est explicada por la variable X.
sY | X =
) (y y n2
SS (resid ) n2
sY | X =
sY =
( y y)
n 1
SSY = 35.3 g n 1
que mide la variabilidad de Y alrededor de su media muestral de 152 g. Por tanto, de una variabilidad de la variable Y de 35.3 unidades, no est explicada por la variable X nicamente 12.5 unidades.