Vous êtes sur la page 1sur 34

1

Tema 6. Regresin lineal y correlacin.


Modelo lineal: contraste de hiptesis e intervalos de confianza. Intervalos de prediccin. Anlisis de los residuos. Correlacin.

6.1. Introduccin
En este tema vamos a considerar estudios en los que intervienen dos variables cuantitativas X e Y. El objetivo de estos estudios ser analizar la relacin entre X e Y. Como veremos, las tcnicas de REGRESIN LINEAL Y CORRELACIN se basan en el ajuste de una lnea recta sobre los datos para explicar la relacin entre X e Y. Las observaciones de X e Y pueden ser de dos tipos: Los valores de la variable X son especificados por el experimentador. Para cada valor de X se eligen individuos con dicho valor y se observa su valor aleatorio para la variable Y (Ejemplo 1). Las dos variables X e Y son aleatorias. Se eligen al azar n individuos y observamos los valores de las variables X e Y en ellos (Ejemplo 2). En los dos casos los clculos son iguales pero la interpretacin puede ser diferente.
Ejemplo 1. ANFETAMINAS Y CONSUMO DE COMIDA Las anfetaminas son frmacos que inhiben la ganas de comer. En un estudio sobre este efecto, un farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron una inyeccin de anfetamina con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del tercer grupo recibieron una inyeccin de una solucin salina. Se midi la cantidad de comida consumida para cada animal en un perodo de tres horas despus de la inyeccin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores cazaron nueve hembras adultas y midieron la longitud y el peso.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 2

Ejemplo 1. AMFETAMINES I CONSUM DE MENJAR Las anfetaminas son frmacos que inhiben las ganas de comer. En un estudio sobre este efecto, un farmaclogo asign aleatoriamente 24 ratones a tres grupos de tratamiento. Dos grupos recibieron una inyeccin de anfetaminas con dos niveles diferentes (dosis 2.5 y dosis 5 mg/kg). Los ratones del tercer grupo recibieron una inyeccin de una solucin salina. Se medi la cantidad de comida consumida por cada animal en un perodo de tres horas despus de la inyeccin. Los resultados (gramos consumidos por kilogramo de peso corporal) fueron los siguientes: Dosis de anfetamina (mg/kg) 0 112,6 102,0 90,2 81,5 105,6 93,0 106,6 108,3 Media s n 100,0 10,7 8 2,5 73,3 81,8 67,3 55,3 80,7 90,0 75,5 77,1 75,5 10,7 8 5,0 38,5 81,3 57,1 62,3 51,5 48,3 42,7 57,9 55,0 13,3 8 Si representamos los datos, parece que al aumentar la dosis de anfetamina disminuye el consumo de alimento. Consideremos: X = dosis (mg/Kg) de anfetamina que no es una variable aleatoria sino que est fijada por el investigador con valores x = 0, 2.5 i 5. Y = cantidad de comida consumida por el animal en las tres horas posteriores a la inyeccin

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.


Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En un estudio de una poblacin salvaje de la serpiente Vipera berus, un grupo de investigadores caz nueve hembras adultas y midi sus longitudes y pesos. La siguiente tabla muestra la longitud y el peso de las nueve serpientes: Consideremos: Longitud (cm) 60 69 66 64 54 67 59 65 63 Media s 63 4,6 Peso (g) 136 198 194 140 93 172 116 174 145 152 35,3 Si representamos los datos, parece que a mayor longitud de la serpiente se corresponde un peso mayor. X = longitud (cm) de la serpiente Y = peso (g) de la serpiente

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 4

6.2. Estadsticos bsicos.


Antes de introducir las expresiones a utilizar para el ajuste de la recta de regresin entre las dos variables consideradas, vamos a introducir el clculo de algunos estadsticos bsicos necesarios.
Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En este ejemplo tenamos X = longitud (cm) de la serpiente Y = peso (g) de la serpiente. Los estadsticos bsicos necesarios para la regresin lineal y la correlacin son: Nmero de pares observados Medias muestrales
X 60 69 66 64 54 67 59 65 63 Y 136 198 194 140 93 172 116 174 145

x=

x = 63 cm
n
2

n=9
y=

y = 152
n

g
2

Desviaciones tpicas muestrales


sX =

(x x)
n 1

= 4.6 cm

sY =

( y y)
n 1

= 35.3 g
2 = (n 1) sY = 9990

Suma de cuadrados muestrales

SS X =
SPXY =

(x x)

2 = (n 1) s X = 8 4.6 2 = 172

SSY =

( y y)

Suma de productos muestral

( x x )( y y ) = (60 63)(136 152) + (69 63)(198 152) + (66 63)(194 152) + (64 63)(140 152) +
s XY = SPXY 1237 = = 176.9 n 1 8

(54 63)(93 152) + (67 63)(172 152) + (59 63)(116 152) + (65 63)(174 152) + (63 63)(145 152) = 1237

Covarianza muestral

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

( x x )( y y )
s negatiu

( x x )( y y )
s positiu

SPXY = ( x x )( y y )

El signo (+ o ) de SPXY determina la direccin o tendencia de los datos: SPXY >0 corresponde a datos crecientes (la Y se hace grande cuando crece la X) SPXY < 0 corresponde a datos decrecientes (la Y se hace pequea cuando crece la X) Si dividimos los cuadrantes en base a las medias muestrales de X e Y, los productos del sumatorio sern positivos cuando X e Y tengan el mismo comportamiento respecto a las medias muestrales (y el par correspondiente estar en el primer o en el tercer cuadrante), y sern negativos cuando no tengan el mismo comportamiento (y estarn en el segundo o cuarto cuadrante). La suma nos dar ( x x )( y y ) una medida del comportamiento global. s negatiu

( x x )( y y )
s positiu

Para su clculo podemos utilizar la expresin:

SPXY =

( x x )( y y ) = ( xy ) x y

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En el ejemplo tenemos SPXY=1237>0, que corresponde a una relacin creciente entre las dos variables, ya que la mayora de pares estn en el primer cuadrante (y por tanto a un valor de X pequeo respecto a la media le corresponde un valor pequeo de Y respecto a la media) y en el tercer cuadrante (a un valor grande de X respecto a la media le corresponde un valor grande de Y respecto a la media).

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 6

6.3. Ajuste de la recta de regresin.


Dados n pares de datos (xi,yi), estos datos formarn una nube de puntos que no estarn en general sobre una recta. El objetivo del anlisis de regresin ser encontrar la recta Y = b0 + b1X que mejor ajuste la nube de datos en el sentido que minimice la distancia entre los puntos observados y los valores ajustados con la recta (es decir, la recta que est ms prxima de los datos observados). Para cada par (x,y) observado, vamos a definir el valor ajustado con la recta de regresin como

= b0 + b1 x y

Vamos a definir el residuo asociado al valor x como la diferencia entre el valor observado y y el valor ajustado con la recta de regresin y

residuo = y y

Este residuo es una medida del error del ajuste correspondiente al valor x. Queremos obtener los valores b0 y b1 que definen la recta de regresin que minimiza: 2

) (y y

= SS (resid )

Esta recta Y = b0 + b1X se denomina recta de regresin o de mnimos cuadrados. Segn el formulario, tenemos: Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En este caso, la recta de regresin ajustada sera: Y = b0 + b1X

b1 =

SPXY 1237 = = 7.19 SS X 172

b0 = y b1 x = 152 7.19 63 = 301

Interpretacin de los coeficientes de la recta de regresin

En el ejemplo de la longitud y peso de las serpientes, la recta de regresin ajustada es: Y = -301 + 7.19 X El valor b1=7.19 significa que para cada centmetro adicional de longitud tenemos 7.19 g de peso.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 8

Observar que la recta de regresin siempre pasa por el par ( x, y) formado por las medias de las dos variables, ya que:

( x) = b0 + b1x = y b1x + b1x = y y

Para cada valor x tenemos un valor observado y, y un valor ajustado mediante la recta de regresin. Se define el residuo asociado como (y ) y la suma de cuadrados de los residuos o suma de cuadrados residual como:

SS (resid ) =

) ( y y

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En el ejemplo de la longitud y peso de las serpientes, tenemos:

x
60 69 66 64 54 67 59 65 63

y
136 198 194 140 93 172 116 174 145

=b0+b1x
130,42 195,15 173,57 159,19 87,27 180,76 123,23 166,38 152,00 SUMA

(y- ) 5,57 2,84 20,42 19,19 5,72 8,76 7,23 7,61 7,00 0

(y- ) 31,08 8,11 417,15 368,32 32,79 76,86 52,30 58,00 49,00 1093,66 SS(resid)

El valor SS(resid)=1093.66 es la suma del cuadrado de las distancias entre los valores observados y los valores ajustados con la recta de regresin. Tambin se puede obtener como:
2 SPXY 1237 2 = 9990 = 1093.66 SS (resid ) = SSY 172 SS X

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Llamaremos desviacin tpica residual al valor: Este valor mide la variabilidad de Y alrededor de la recta de regresin ajustada, es decir, la variabilidad de Y que no est explicada por la variable X.

sY | X =

) (y y n2

SS (resid ) n2

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES

En el ejemplo de la longitud y peso de las serpientes tenemos:

sY | X =

SS ( resid ) 1093.66 = = 12.5 g n2 92

Podemos comparar este valor con la desviacin tpica de la variable Y:

sY =

( y y)
n 1

SSY = 35.3 g n 1

que mide la variabilidad de Y alrededor de su media muestral de 152 g. Por tanto, de una variabilidad de la variable Y de 35.3 unidades, no est explicada por la variable X nicamente 12.5 unidades.

Hacer los ejercicios 1, 2, 3, 4 y 5. Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Ejercicio 1. En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un bilogo inyecta leucina etiquetada como radioactiva en oocitos individuales. En distintos instantes de tiempo posteriores a la inyeccin, se realizan medidas de la radioactividad y se calcula la cantidad de leucina que se ha incorporado a la protena. Los resultados se presentan en la siguiente tabla; cada valor de la leucina es el contenido de leucina registrado en dos oocitos, siendo todos los oocitos de la misma hembra. Tiempo (min) Leucina (ng) 0 0,02 10 0,25 20 0,54 30 0,69 40 1,07 50 1,50 60 1,74 Media 30 0,83 SS 2800 2,4308 SPXY = 81,9 a) Utilizar regresin lineal para estimar la tasa de incorporacin de la leucina a la protena. Sea X el tiempo (en minutos) y Y la cantidad de leucina (en ng) incorporada a la protena registrada, vamos a calcular la recta de regresin lineal que ajuste los datos anteriores. Sabemos que: SP 81.9 Departament dEstadstica i Investigaci Operativa 10

b1 =

XY

SS X

2800

= 0.02925

b0 = y b1 x = 0.83 0.02925 30 = 0.0475


La recta de regresin que nos permite estimar la cantidad de leucina incorporada a la protena a partir del tiempo posterior a la inyeccin es: Y = 0.0475 + 0.02925 X Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Representar grficamente los datos y dibuja en la grfica la recta de regresin obtenida.
2,00

11

1,50

1,00

0,50

0,00 0 10 20 30 40 50 Sq r lineal = 0,986 60

El grfic pot fer-se: Amb lordinador, utilitzant qualsevol programa amb ferramentes grfiques com Excel, SPSS,... A m amb paper millimetrat, on representarem els parells observats i la recta de regressi. Per a dibuixar la recta necessitem nicament dos punts per a no passe. Per exemple, podem emprar: (0, b0 ) = (0,0.0475) ( x , y ) = (30,0.83)
Temps

c) Calcular la desviacin tpica residual. La desviacin tpica residual es:

Leucina

sY | X =

SS (resid ) n2

2 SPXY 81.9 2 = 2.4308 = 0.03522 SS (resid ) = SS Y 2800 SS X

sY | X =

SS (resid ) = n2

0.03522 = 0.08393 72

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 12

Ejercicio 2. En una investigacin sobre los efectos fisiolgicos del alcohol (etanol), se asignan de forma aleatoria 15 ratones a tres grupos de tratamiento. En cada uno de estos grupos se suministran dosis orales de alcohol diferentes, concretamente 1.5, 3.0 y 6.0 gr. alcohol por kg. de peso corporal en el grupo 1, 2 y 3 respectivamente. Inmediatamente despus de la dosis se registra la temperatura corporal (en grados centgrados) de cada ratn. Transcurridos 20 minutos se registra nuevamente la temperatura corporal de todos los ratones. En la siguiente tabla se presenta la reduccin (antes menos despus) de la temperatura corporal de cada ratn. Alcohol Reduccin en la temperatura corporal Dosis log(dosis) Valores individuales Media 1.5 0.176 0.2 1.9 -0.1 0.5 0.8 0.66 3.0 0.477 4.0 3.2 2.3 2.9 3.8 3.24 6.0 0.778 3.3 5.1 5.3 6.7 5.9 5.26 a) Representar grficamente la reduccin media de la temperatura corporal contra la dosis. Representar grficamente la reduccin media de la temperatura corporal contra log(dosis). Qu grfica parece ms cercana a la linealidad?
6,0
6,0

4,0

4,0

reduccion

2,0

2,0

La segunda grfica parece ms cercana a la linealidad.

reduccion

0,0

Sq r lineal = 0,778

0,0

Sq r lineal = 0,829

2,0

4,0

6,0

0,100

0,200

0,300

0,400

0,500

0,600

0,700

0,800

Dosis

log_dosis

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Para el clculo de la recta de regresin de la reduccin de la temperatura corporal (Y) sobre el logaritmo de la dosis (X) se obtienen los siguientes valores preliminares: y = 3.053 x = 0.4771 SSX = 0.906191 SSY = 63.7773 SPXY = 6.92369 Obtener la correspondiente recta de regresin as como la desviacin tpica residual. Los coeficientes de la recta de regresin son:

13

b1 =

SPXY 6.92369 = = 7.6404 0.906191 SS X

b0 = y b1 x = 3.053 7.6404 0.4771 = 0,5922

La recta de regresin de la reduccin de la temperatura corporal (Y) sobre el logaritmo de la dosis (X) es: Y = 0,5922 + 7.6404 X La desviacin tpica residual es:

SS (resid ) = SS Y

2 SPXY 6.92369 2 = 63.7773 = 10.8773 0.906191 SS X

sY | X =

SS ( resid ) 10.8773 = = 0.9147 n2 15 2

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 14

Ejercicio 3. Se seleccionan de forma aleatoria veinte parcelas, cada una de 10 x 4 metros, de un gran campo de maz. En cada parcela, se observa la densidad (nmero de plantas en la parcela) y el peso medio de una mazorca (gr. de grano por mazorca). Los resultados se presentan en la siguiente tabla. Densidad, X Peso mazorca, Y Densidad, X Peso mazorca, Y 137 212 173 194 107 241 124 241 132 215 157 196 135 225 184 193 115 250 112 224 103 241 80 257 102 237 165 200 65 282 160 190 149 206 157 208 85 246 119 224 Si para estos datos y = 224,1 x = 128,05 SSX = 20209,0 SSY = 11831,8 SPXY = 14563,1 a) Obtener la recta de regresin de Y sobre X. Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de una mazorca (gr. de grano por mazorca), vamos a calcular la recta de regresin lineal que ajusta los resultados de la tabla anterior. Sabemos que: SP 14563.1 = 0.721 b1 = XY = 20209.0 SS X

b0 = y b1 x = 224.1 (0.721) 128.05 = 316.376


Por tanto, la recta de regresin que nos permite estimar el peso medio de una mazorca a partir de la densidad de la parcela es: Y = 316.376 0.721 X Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.
300

15

280

260

Pes

240

220

200

180 60 80 100 120 140 160 180 Sq r lineal = 0,887 200

Densitat

c) Calcular sY y sY|X.

sY =

SS Y 11831.8 = = 24.954 n 1 20 1

SS (resid ) = SS Y

2 SPXY (14563.1) 2 = 11831.8 = 1337.3 20209.0 SS X

sY | X =

SS (resid ) 1337.3 = = 8.619 n2 18


Departament dEstadstica i Investigaci Operativa 16

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Ejercicio 4. El serbal (Sorbus aucuparia) es un rbol que crece en zonas de diferentes alturas. Con objeto de estudiar la adaptacin de estos rboles a distintos hbitats, se recogen ramas con brotes de 12 rboles que crecen a diferentes alturas en North Angus, Scotland. Se llevaron los brotes al laboratorio y se registr la tasa de respiracin nocturna de cada uno de ellos. En la siguiente tabla se muestra la altitud del origen (en metros) de cada grupo de brotes y la tasa de respiracin nocturna (expresada como l de oxgeno por hora por mg de peso en seco de tejido). Altitud de origen Tasa de respiracin 90 0.11 230 0.20 240 0.13 260 0.15 330 0.18 400 0.16 410 0.23 550 0.18 590 0.23 610 0.26 700 0.32 790 0.37 Media 433.3 0.21 SS 506667 0.0654 SPXY = 161.400 a) Obtener la recta de regresin que permite predecir la tasa de respiracin a partir de la altitud. Los coeficientes de la recta de regresin de la tasa de respiracin (Y) sobre la altitud (X) son: SP 161.400 b0 = y b1 x = 0.21 0.0003 433 .3 = 0.0720 b1 = XY = = 0.0003 SS X 506667 La recta de regresin que permite predecir la tasa de respiracin (Y) a partir de la altitud (X) sera: Y = 0,0720 + 0.0003 X Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.
0,40

17

0,30

Taxa de respiraci

0,20

0,10

Sq r lineal = 0,786

0,00 0 200 400 600 800

Altitud d'origen

c) Calcular la desviacin tpica residual. La desviacin tpica residual es:


2 SPXY 161.4 2 = 0.0654 = 0.0140 506667 SS X

SS (resid ) = SS Y

sY | X =

SS ( resid ) 0.0140 = = 0.0374 n2 12 2

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 18

Ejercicio 5. El cido laetisrico es un compuesto recientemente descubierto cuyos efectos parecen prometedores en el control de enfermedades causadas por hongos en plantas de cultivo. En la siguiente tabla se muestran los resultados del crecimiento del hongo Pythium ultimum bajo diferentes concentraciones de cido laetisrico. Cada valor del crecimiento es el promedio de cuatro medidas radiales de una colonia de Pythium ultimum cuyo crecimiento se ha desarrollado en una placa de petri durante 24 horas; se han utilizado dos placas de petri para cada una de las concentraciones consideradas.
[ ] de cido laetisrico 0 0 3 3 6 6 10 10 20 20 30 30 Media 11,5 SS 1303 Crecimiento 33,3 31,0 29,8 27,8 28,0 29,0 25,5 23,8 18,3 15,5 11,7 10,0 23,64 677,349

a) Obtener la recta de regresin apropiada para estudiar la relacin entre las variables.
Sea X la concentracin de cido laetisrico e Y el crecimiento medio de cuatro medidas radiales de una colonia de Pythium ultimum. Vamos a calcular la recta de regresin lineal que ajuste los datos anteriores. Sabemos que:

SPXY = 927,75

b1 =

SPXY 927.75 = = 0.712 1303 SS X

b0 = y b1 x = 23.64 (0.712) 11.5 = 31.828

Por tanto, la recta de regresin que nos permiten estimar el crecimiento a partir de la concentracin de cido laetisrico es: Y = 31.828 0.712 X

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Representar grficamente los datos y dibujar en la grfica la recta de regresin obtenida.
35

19

30

Creixement

25

20

15

10 0 5 10 15 20 25 30

Concentraci

Sq r lineal = 0,975

c) Calcular el valor de la desviacin tpica residual. Cmo son sus unidades?

SS (resid ) = SS Y
sY | X =

2 SPXY (927.75) 2 = 677.349 = 16.781 1303 SS X

SS (resid ) 16.781 = = 1.295 n2 10

Sus unidades son las mismas que las utilizadas para medir el crecimiento en el experimento.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Or Orgenes de la regresi regresin:

Departament dEstadstica i Investigaci Operativa 20

El trmino regresin fue introducido por Francis Galton en su llibro Natural Inheritance (1889), partiendo de los anlisis estadsticos de Karl Pearson. Sir Francis Galton (18221911), explorador y cientfico britnico, contribuy a diferentes reas de la ciencia como la psicologa, la biologa, la tecnologa, la geografa, la estadstica o la meteorologa. Primo de Charles Darwin, aplic sus principios a numerosos campos, principalmente al estudio del ser humano y de las diferencias individuales. Su trabajo se centr en la descripcin de las caracteres fsicos de los descendientes (variable A) a partir de los de sus padres (variable B). Estudiando la altura de padres e hijos a partir de ms de mil registros de grupos familiares, lleg a la conclusin que los padres muy altos tenan una tendencia a tener hijos que heredaban parte de esta altura, pero que revelaban tambin una tendencia a regresar a la media. Galton generaliz esta tendencia bajo la "ley de la regresin universal": Cada peculiaridad en un hombre es compartida por sus descendientes, pero en media, en un grado menor.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

21

6.4. Interpretacin paramtrica de la regresin: el modelo lineal.


Dadas dos variables aleatorias cuantitativas X e Y, el modelo lineal establece unas condiciones en la distribucin de Y|X, es decir, en la distribucin de los valores de la variable Y con un determinado valor de la variable X. Para cada valor de la variable X, tendremos unos posibles valores de la variable Y asociados a ese valor de X. La distribucin de estos valores es una distribucin condicional que denotamos por Y|X. En el ejemplo de la relacin entre la altura de padres (X) y la altura de hijos (Y), si consideramos la poblacin de todos los hijos con padres de altura x=62 tendremos diferentes valores posibles para sus hijos, y la distribucin de estos valores se representa por Y|x=62. La distribucin de Y|X tendr una determinada media poblacional y una determinada desviacin tpica poblacional, que denotaremos por: Y|X = media poblacional de la variable Y para un valor determinado de X Y|X = media poblacional de la variable Y para un valor determinado de X En el ejemplo de la relacin entre la altura de padres (X) y la altura de hijo (Y), los hijos de padres de x=62 de altura pueden tomar muchos posibles valores, con una distribucin de media poblacional Y|X=62 y desviacin tpica poblacional Y|X=62. El modelo lineal asume las siguientes suposiciones para esta distribucin condicional Y|X: Normalidad: La distribucin condicional Y|X es normal. Linealidad: Se supone que la media de la distribucin condicional es una funcin lineal del valor de X, es decir: Y|X = 0 + 1 X Homocedasticidad: Se supone que la desviacin tpica de la distribucin condicional es independiente del valor de X, es decir: Y|X es constante Los parmetros 0, 1 y Y|X son valores poblacionales de la relacin entre las dos variables que en general sern desconocidos. Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Ejemplo 3. ALTURA Y PESO DE HOMBRES JVENES Tenemos una poblacin de hombres jvenes y estamos interesados en estudiar la distribucin condicional del peso (Y) dada la altura (X). El modelo lineal asume que, para cada valor X, el peso correspondiente Y|X sigue una distribucin con: Media: Y|X = 0 + 1 X Desviacin tpica: Y|X = constante Vamos a suponer que en la poblacin que estamos estudiando Y|X = 0 + 1 X = -145 + 4.25X y Y|X = 20. Por tanto tendramos: Departament dEstadstica i Investigaci Operativa 22

Por tanto, para cualquier valor de X, la distribucin condicional Y|X sigue una distribucin con media dada por 0+1X y una desviacin tpica constante que no depende de X. Ejemplo 1. AMFETAMINAS Y CONSUMO DE COMIDA En el ejemplo del consumo de comida de los ratones, el modelo lineal afirma que (1) el consumo medio de comida es una funcin lineal de la dosis y (2) la desviacin tpica de los valores de consumo de comida es la misma para todas las dosis. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Si tenemos dos variables aleatorias X e Y, y suponemos que el modelo lineal es una descripcin adecuada de la verdadera relacin entre las dos variables, entonces los valores obtenidos en el anlisis de regresin son estimaciones de los valores poblacionales del correspondiente modelo lineal: bo = b0 es una estimacin del parmetro 0 0 b1 es una estimacin del parmetro 1 sY|X es una estimacin del parmetro X|Y

23

b1 = 1 Y | X sY | X =

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En este ejemplo tenamos dos variables X = longitud (cm) de la serpiente y Y = peso (g) de la serpiente. Tenamos: Y = 301 + 7.19X sY|X = 12.5 Si asumimos el modelo lineal, - el peso medio de las serpientes con una longitud X es Y|X = 0 + 1X, que se puede estimar con:

= 301 g 0

= 7.19 g / cm 1

- la desviacin tpica del peso de las serpientes con una longitud X es X|Y, que se puede estimar con:

Y | X = 12.5

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 24

Si el modelo lineal es aplicable para estudiar la relacin entre las variables X e Y, podemos utilizarlo para hacer estimaciones de la media y la desviacin tpica de la poblacin Y dado un valor concreto de X.

Y | X = x = 0 + 1 x

Y | X = x = sY | X

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) Si en este ejemplo queremos estimar el peso medio y la desviacin tpica de las serpientes con una longitud de x=68 cm tenemos:

Y | X =68 = 301 + 7.19 68 = 187.9 g Y | X = x = sY | X = 12.5 g

Por tanto estimamos que las serpientes con una longitud de 68 cm tienen un peso de media 187.9 g y desviacin tpica 12.5 g.

Si queremos hacer una prediccin del valor de Y para un determinado valor de X, podemos utilizar la estimacin de la media de la distribucin condicional de Y|X. Esta prediccin de valores en el rango de estudio recibe el nombre de interpolacin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) Si queremos hacer una prediccin del peso de una serpiente con una longitud de 68 cm podemos utilizar la media de la distribucin condicional dada por:

( x = 68) = Y | X =68 = 187.9 g y

que es una interpolacin ya que 68 cm est en el rango de valor de X observados [54,69].

La extrapolacin, es decir, la prediccin de valores de Y para valores de X fuera del rango observado no debe realizarse en regresin ya que no sabemos si, para esos valores, el modelo sigue siendo vlido.

Por ejemplo, si intentamos estimar la media del peso para serpientes de una longitud de 30 cm obtenemos un peso de -85.3g !!! Departament dEstadstica i Investigaci Operativa

Estadstica en Ciencias Medioambientales

Tema 6. Regresin lineal y correlacin. Problema 1. (Continuacin) En un estudio sobre la sntesis de las protenas en el oocito de la rana Xenopus laevis, un bilogo inyecta leucina etiquetada como radioactiva en oocitos individuales. En diferentes momentos posteriores a la inyeccin se realizan medidas de la radioactividad y se calcula la cantidad de leucina que se ha incorporado a la protena. Los resultados se presentan en la siguiente tabla; cada valor de la leucina es el contenido de leucina registrado en dos oocitos y todos los oocitos son de la misma hembra.
Tiempo (min) 0 10 20 30 40 50 60 30 2800 Leucina (ng) 0,02 0,25 0,54 0,69 1,07 1,50 1,74 0,83 2,4308

25

Media SS

d) Estimar la media y la desviacin tpica del contenido de leucina a los 25, 50 i 70 minutos despus de la inyeccin. Para x = 25 minutos, la media y desviacin tpica estimada del contenido de leucina es:

SPXY = 81,9

Y | X = 25 = b0 + b125 = 0.0475 + 0.0292525 = 0.68375 Y | X =25 = sY | X = 0.08393


Para x = 50 minutos, la media y desviacin tpica estimada del contenido de leucina es:

Y | X =50 = b0 + b150 = 0.0475 + 0.0292550 = 1.4150 Y | X =50 = sY | X = 0.08393


Para x = 70 minutos no podemos dar una estimacin de la media y de la desviacin tpica por estar fuera del rango de estudio. Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Departament dEstadstica i Investigaci Operativa 26

6.5. Inferencia estadstica sobre la pendiente.


En estos problemas estamos suponiendo un modelo lineal

Y | X = 0 + 1 X

donde 1 y 2 son dos parmetros que expresan la relacin entre las variables X e Y en la poblacin, y que por tanto sern desconocidos. A partir de la muestra, podemos hacer inferencia de estos parmetros desconocidos y obtener dos estimaciones muestrales b1 y b2.

=b 0 0

=b 1 1

Veremos en este apartado como podemos, adems de hacer inferencia de este parmetro, calcular intervalos de confianza y resolver contrastes de hiptesis. La pendiente 1 es el parmetro ms interesante, ya que mide la existencia de relacin lineal y el incremento unitario en Y dado por un incremento unitario en X. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) Como hemos visto anteriormente, podemos dar una estimacin del valor de la pendiente 1 con: 1237 SP b1 = XY = = 7.19 g / cm = 1 172 SS X Como esta estimacin est sujeta a un error de muestreo, podemos calcular su error estndar:

27

sY | X = 12.5, SS X = 172 SE (b1 ) =

2 sY |X

SS X

12.52 = 0.953 g / cm 172

Podemos ver que el error estndar de la estimacin de la pendiente de la regresin depende de la varianza residual y de la variabilidad de la variable independiente X. Como SSX est en el denominador, podemos ver que cuanto mayor sea esta medida, menor es el error estndar de la estimacin b1. Tambin podemos calcular un intervalo de confianza para la pendiente poblacional 1 con un nivel de confianza determinado. Por ejemplo, un intervalo de confianza al 95% para la pendiente poblacional de la relacin entre el peso y la longitud de las serpientes vendr dado por:

) = [b t IC95% ( 1 1 0.05, n 2 SE (b1 ), b1 + t 0.05, n 2 SE (b1 )]


donde t0.05,n-2 es el percentil 0.05 de una distribucin t de Student con n-2=9-2=7 grados de libertad. En la tabla asociada podemos ver que t0.05,7 = 2.365

) = [b t IC95% ( 1 1 0.05, n 2 SE (b1 ), b1 + t 0.05, n 2 SE (b1 )] = [7.19 2.365 0.953,7.19 + 2.365 0.953] = = [4.94,9.44]g / cm

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 28

Contrastes de hiptesis sobre 1 En los estudios de regresin podemos estar interesados en demostrar si realmente existe una relacin entre les variables X e Y. Para resolver esta cuestin, tendremos que plantear un contraste de hiptesis con hiptesis nula H0: Y|X no depende de X Si el modelo lineal es aplicable para explicar la relacin entre X e Y, esta hiptesis es equivalente a H0: 1 = 0 Para resolver el contraste de hiptesis: H0: 1 = 0 consideraremos el estadstico de contraste: HA: 1 0

ts =

b1 que bajo la hiptesis nula sigue una distribucin t de Student con n2 grados de libertad. SE (b1 )

Respecto a la hiptesis alternativa, podemos considerar un contraste no direccional HA: 1 0 (es decir, no hay relacin entre las dos variables) O un contraste direccional: a la derecha: HA: 1 > 0 (es decir, hay relacin y es creciente) a la izquierda: HA: 1 < 0 (es decir, hay relacin y es decreciente) Ejemplo 2. LONGITUD Y PESO DE SERPIENTES (Continuacin) En el ejemplo de las serpientes podemos estar interesados en analizar si el peso de las serpientes aumenta cuando aumenta su longitud. H0: El peso medio de las serpientes es independiente de su longitud (1=0) HA: El peso medio de las serpientes aumenta cuando aumenta la longitud (1>0)

= b = 7.19 > 0 Direccin de los datos: 1 1


b1 7.19 = 5.408 < t s = 7.57 < t0.0001 = 7.885 t = = 7.57 0.001 SE (b1 ) 0.95 0.0001 < p - valor(bilateral) < 0.001 0.00005 < p - valor < 0.0005 Hay evidencia de que el peso medio de las serpientes aumenta con su longitud. ts =
Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa Estadstico del contraste:

Tema 6. Regresin lineal y correlacin.

29

6.6. El coeficiente de correlacin.


El coeficiente de correlacin es un ndice que mide la relacin lineal entre dos variables cuantitativas. El coeficiente de correlacin poblacional, , es un parmetro definido por:

XY X Y

donde XY es la covarianza poblacional entre las variables X e Y, X es la varianza poblacional de la variable X y Y es la varianza poblacional de la variable Y.

Como siempre, este parmetro poblacional ser desconocido. No obstante, obtendremos una estimacin de este valor a partir de la muestra con el coeficiente de correlacin muestral, r , que es un estadstico muestral que aproxima el valor de y se define: Ejemplo 2. LONGITUD Y PESO DE SERPIENTES Tenemos las variables X=longitud (cm) y Y=peso (g). Los estadsticos bsicos observados en la muestra son:

x = 63 cm

y = 152 g

SS X = 172

SS Y = 9990
r=

El coeficiente de correlacin muestral entre peso y longitud sera:

SPXY = 1237 SPXY 1.237 = = 0 , 9436 SS X SSY 172 9.990

Alternativamente, como sabemos que SS(resid)=1093.669, podemos calcular el coeficiente de correlacin muestral entre peso y longitud como:

r2 = 1

SS ( resid ) 1093.669 = 1 = 0.8905 SS Y 9990

r = r 2 = 0.8905 = 0.9436

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Propiedades del coeficiente de correlacin muestral:

Departament dEstadstica i Investigaci Operativa 30

Es adimensional. -1 r +1 |r| 1 cuando SS(resid) << SSY La nube de puntos es larga y estrecha. |r| 0 La nube de puntos est muy dispersa. |r|=1 SOLO cuando SS(resid)=0 Todas las observaciones estn sobre la recta. El signo de r es el mismo que el de b1 (b1=SPXY / SSX) e indica la tendencia de la recta. Los signos positivos y negativos nicamente indican si el valor de una variable aumenta (+) o disminuye (-) al aumentar el valor de la otra. Una correlacin 0.5 es tan grande o importante como una de -0.5

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. La relacin exacta entre el coeficiente de correlacin, la desviacin tpica de Y y la desviacin tpica residual de Y despus de la regresin es: s
Y|X

31

sY

n 1 (1 r 2 ) n2

El coeficiente de correlacin cumple la siguiente relacin aproximada:

1 r2

sY | X sY

Cuando no ha relacin lineal (r = 0), la desviacin tpica de Y y la desviacin tpica residual de Y despus del ajuste de la regresin coinciden, por lo que la regresin no est explicando nada de la variabilidad de la variable dependiente Y. Cuanto ms prximo a 1 sea r (mejor ajuste lineal), menor ser la desviacin tpica residual de Y despus de la regresin en comparacin con la desviacin tpica de Y sin regresin. Ejemplo 2. LONGITUD Y PESO DE SERPIENTES Tenemos las variables X=longitud (cm) y Y=peso (g). A partir de la muestra tenemos:

sY | X = 12.5

sY = 35.3

r = 0.9436

sY | X sY

1 r 2 = 1 0.9436 2 = 0.3311

Del valor de r deducimos que la desviacin tpica residual del peso no explicada por la longitud de la serpiente es nicamente un 33% de la desviacin tpica global del peso La relacin lineal es bastante fuerte.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 32

Simetra del coeficiente de correlacin A partir de dos variables cuantitativas X e Y observadas aleatoriamente sobre una muestra de individuos de una poblacin, podemos obtener la regresin de X sobre Y o la regresin de Y sobre X. Se cumple que: - La recta de regresin no es simtrica - Pero el coeficiente de correlacin es el mismo Ejemplo 2. LONGITUD Y PESO DE SERPIENTES Para la muestra de n = 9 serpientes, tenemos: X = longitud (cm) Y = peso (g)

x = 63 SS X = 172 s X = 4.6 SPXY = 1237

y = 152 SSY = 9990 sY = 35.3

Recta de regresin de Y (peso) sobre X (longitud)

Recta de regresin de X (longitud) sobre Y (peso)

El coeficiente de correlacin s es simtrico respecto a las dos variables:

r=

SPXY SS X SSY

La proximidad de los puntos a las lneas, medida por r, es la misma para ambas rectas de regresin. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Inferencia sobre el coeficiente de correlacin. Deseamos contrastar la hiptesis: H0: = 0 que afirma que las variables X i Y son incorreladas en la poblacin. Si el modelo lineal es aplicable, se cumple que:

33

Por tanto, la hiptesis nula anterior es equivalente a la que ya hemos estudiado anteriormente: H0: 1 = 0 El estadstico del contraste es:

XY X = XY = 1 X 2 XY X Y Y

t=

b1 n2 =r SE (b1 ) 1 r 2

Y el p-valor se obtiene a partir de una t de Student con n-2 grados de libertad.

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES Para la muestra de n = 9 serpientes, podemos plantear el siguiente contraste de hiptesis para el coeficiente de correlacin poblacional: H0: La longitud y el peso de las serpientes no estn correlacionados ( = 0) HA: La longitud y el peso de las serpientes estn positivamente correlacionados ( > 0) Como tenemos un contraste direccional, vamos en primer lugar a comprobar la direccionalidad de los datos: = r = 0.9436 > 0 El estadstico que nos permite resolver el contraste anterior es:

ts = r

n2 92 = 0.9436 = 7.54 2 1 r 1 0.9436 2

Que es equivalente al que ya habamos calculado para el contraste de la pendiente de la regresin: b1 7.19 ts = = = 7.54 SE (b1 ) 0.9531 Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n-2=9-2=7 grados de libertad.

t 0 .001 = 5.408 < t s = 7.54 < t 0 .0001 = 7.885 0.0001 < p - valor(bila teral) < 0.001 0.00005 < p - valor < 0.0005
Hay evidencia que existe una correlacin positiva entre la longitud y el peso de las serpientes.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 34

El coeficiente de determinacin El coeficiente de determinacin es el cuadrado del coeficiente de correlacib. Tenemos que - SS(resid) es una medida de la variabilidad de Y que no es explicada por el modelo de regresin - SSY es una medida de la variabilidad total de Y Por tanto:

SS (resid ) es la fraccin de la variabilidad total de Y no explicada por la regresin sobre X SSY 1 SS (resid ) = r2 SSY
2
2 2

Luego la fraccin de la variabilidad total de Y que es explicada por el modelo de regresin sera:

Tenemos que:

)2 + ( y y) SSY = ( y y ) 2 = ( y y
SS (resid .) SSY SS (resid .) = = r = 1 SSY SSY
2

y) (y ( y y)

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En este problema tenemos r = 0.9436 y r2= 0.89. Se interpreta como que aproximadamente el 89% de la variabilidad del peso de las serpientes est explicada por la variabilidad en la longitud de acuerdo con el modelo de regresin lineal. El 11% restante no explicado por la regresin lineal se debe a factores aleatorios no controlables.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

35

6.7. La tabla ANOVA en regresin.


Una medida de la variabilidad explicada por el modelo de regresin de Y sobre X es: SSY SS(resid) = SS(regresin) Luego, a partir del modelo de regresin tenemos una descomposicin de la variabilidad total de la variable dependiente Y como suma de la variabilidad explicada por la regresin y la variabilidad residual o no explicada por la regresin: SSY = SS(regresin) + SS(residual) Esta descomposicin puede expresarse mediante la tabla de Anlisis de la Varianza (ANOVA) siguiente:
Suma de Cuadrados Regresin Residual Total SS(regre) = SSY SS(resid) = 0.7736 SS(resid) = 0.2955 SSY = 1.069067
Grados de libertad

MS 0,7736 0,0296
2 = sY |X

1 n 2 = 10 n 1 = 11

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES En el ejemplo de las serpientes tenemos:

SS Y = 9990 SS (resid ) = 1093.7


Suma de Cuadrados Regresin Residual Total SS(regre) = 8896.3 SS(resid) SSY = 1093.7 = 9990.0

SS (regre) = SSY SS (resid ) = 9990 1093.7 = 8896.3


Grados de libertad 1 n2=7 n1=8 MS 8896.3 156.2

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Contrastes de hiptesis en la Tabla ANOVA

Departament dEstadstica i Investigaci Operativa 36

Con la tabla ANOVA podemos contrastar si la variabilidad explicada por la regresin es significativa, es decir, si la regresin explica una parte importante de la variabilidad de la variable dependiente Y: H0: La regresin no explica una parte importante de la variabilidad de la variable Y HA: La regresin explica una parte importante de la variabilidad de la variable Y Para resolver este contraste de hiptesis utilizaremos el estadstico F:

MS (regresin) Fs = MS (residual )

Bajo la hiptesis nula, este estadstico sigue una distribucin F de Snedecor con 1 grado de libertad en el numerador y n-2 grados de libertad en el denominador.

Ejemplo 2. LONGITUD Y PESO DE SERPIENTES Vamos a resolver el contraste de hiptesis asociado a la tabla ANOVA: H0: La longitud de la serpiente explica una parte significativa de la variabilidad del peso HA: La longitud de la serpiente no explica una parte significativa de la variabilidad del peso
Suma de Cuadrados Regresin Residual Total SS(regresin) = 8896.3 SS(residual) SSY = 1093.7 = 9990.0 Grados de libertad 1 n2=7 n1=8 MS 8896.3 156.2

Fs =

MS (regresin) 8896.3 = = 56.95 MS (residual ) 156.2

Comparando este estadstico con una distribucin F de Snedecor con 1 grado de libertad en el numerador y 7 grados de libertad en el denominador, tenemos:

0.0001 < p valor < 0.001

Por tanto, el modelo de regresin lineal explica una parte significativa de la variabilidad de la variable dependiente. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. A continuacin podemos ver la salida de SPSS para el problema de les serpientes:
Estadsticos descriptivos Media 152,00 63,00 Desviacin tp. 35,338 4,637 N 9 9
Coeficientes no estandarizados
200

37
Variables introducidas/eliminadasb Modelo 1 Variables introducidas longitud a Variables eliminadas . Mtodo Introducir
b Resumen del modelo

Modelo 1

R ,944a

R cuadrado ,891

R cuadrado corregida ,875

Error tp. de la estimacin 12,500

a. Todas las variables solicitadas introducidas b. Variable dependiente: pes

a. Variables predictoras: (Constante), longitud b. Variable dependiente: pes


Coeficientesa Coeficientes estandarizad os Beta ,944 t -5,002 7,546 Sig. ,002 ,000 Intervalo de confianza para B al 95% Lmite superior Lmite inferior -443,410 -158,764 4,938 9,446

pes longitud

Modelo 1

180

(Constante) longitud

B -301,087 7,192

Error tp. 60,188 ,953

a. Variable dependiente: pes


160

ANOVAb Modelo 1 Suma de cuadrados 8896,331 1093,669 9990,000 gl 1 7 8 Media cuadrtica 8896,331 156,238 F 56,941 Sig. ,000a

pes

140

120

Regresin Residual Total

100 Sq r lineal = 0,891 80

a. Variables predictoras: (Constante), longitud b. Variable dependiente: pes

Grfico de dispersin
55 57,5 60 62,5 65 67,5

longitud
Variable dependiente: pes
Regresin Residuo tipificado
2

Correlaciones Correlacin de Pearson Sig. (unilateral) N pes longitud pes longitud pes longitud pes 1,000 ,944 . ,000 9 9 longitud ,944 1,000 ,000 . 9 9

-2 -2 0 2

Regresin Valor pronosticado tipificado

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 38

6.8. Condiciones para la validez de los mtodos presentados.

1. Linealidad. Y | X es una funcin lineal de X, es decir: Y | X = 0 + 1 X 2. Homocedasticidad. La varianza poblacional de Y condicionada a X debe ser constante, es decir, Y | X no depende de X. 3. Normalidad. La distribucin condicionada de Y a X debe ser normal.

Anlisis de la linealidad y la homocedasticidad Los grficos de los residuos frente a los valores estimados por la regresin pueden ser de gran utilidad para detectar incumplimientos de la hiptesis de linealidad y de homocedasticidad.

a) Patrn correcto. b) No homocedasticidad, tendencia a incrementar la varianza a medida que la variable independiente aumenta. c) No homocedasticidad, tendencia a incrementar la varianza para valores centrales de la variable independiente. d) No linealidad. Subestimacin para valores pequeos y grandes de la variable independiente. Sobreestimacin para valores centrales. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Consecuencias de la presencia de tendencias curvilneas: (1) La recta de regresin no representa de forma adecuada los datos. (2) La correlacin es pequea. (3) La desviacin tpica residual se ve aumentada. Se pueden realizar transformaciones no lineales de los datos para corregir la tendencia curvilnea.

39

Consecuencias de la presencia de valores atpicos (outliers): (1) Disminuye el coeficiente de correlacin. (2) Aumenta la desviacin tpica residual. (3) Tienen gran influencia en la recta de regresin.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 40

Uso de transformaciones Si las suposiciones de linealidad, homocedasticidad o normalidad fallan, a veces un remedio consiste en transformar los datos mediante un cambio de escala que puede afectar X, Y o ambas variables. Ejemplo 3. CRECIMIENTO DE LAS PLANTAS DE SOJA Un botnico plant 60 brotes de soja. A los 12 das de crecimiento, recogi 12 plantas y las pes despus de secarlas. Repiti el experimento a los 23, 27, 31 y 34 das de crecimiento. Tenemos dos variables: Tiempo de crecimiento (das) = X Peso de la planta despus de secarla (gramos) = Y

Una transformacin logartmica puede cambiar este grfico no lineal en otro aproximadamente lineal. Adems se consigue la homocedasticidad.

La transformacin es (X,Y) ------------------------------------------------>

(X, log (Y))

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejercicio 6. Con respecto a los datos del problema 2 y suponiendo que el modelo lineal es aplicable, estimar la media y la desviacin tpica de la reduccin en la temperatura corporal que debera producirse en ratones que reciben una dosis de alcohol de 2 gr./kg. Aplicando el modelo lineal, podemos estimar la media y la desviacin tpica de la reduccin en la temperatura corporal Y cuando los ratones reciben una dosis de alcohol de 2 g./kg. (X = log(2) = 0.301) como:

41

Y | X =log( 2 ) = 0.5922 + 7.6404 log(2) = 1.7077 Y | X =log(2) = sY | X = 0.9147

Esta prediccin es vlida, ya que el valor investigado est dentro del rango de estudio.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 42

Ejercicio 7. Con respecto a los datos del peso de las mazorcas de maz del problema 3, y suponiendo que el modelo lineal es aplicable: a) Estimar el peso medio de las mazorcas de maz en una parcela que contiene (i) 100 plantas y (ii) 120 plantas. Sea X la densidad (nmero de plantas en la parcela) y Y el peso medio de las mazorca (gr. de grano por mazorca), la recta de regresin que permite la estimacin del peso medio de las mazorca de maz en funcin del nmero de plantas en la parcela era:

Y = 316.376 0.721 X

Para una parcela con x=100 plantes, el valor estimado de Y con la recta de regresin anterior es:

= 316.38 0.721 100 = 316.38 72.1 = 244.28 y


Para una parcela con x=120 plantes, el valor estimado de Y con la recta de regresin anterior es:

= 316.38 0.721 120 = 316.38 85.52 = 229.86 y


b) Suponiendo que cada planta tiene una mazorca, cuntos gramos podramos esperar en una parcela con 100 plantas? y en una con 120 plantas? Si suponemos que cada planta tiene una mazorca y que en la parcela hay 100 plantas, tendremos 100 mazorcas en total. Como el peso medio estimado de cada mazorca es de = 244.28 g, el peso total sera:

244.28 100 = 24428 g = 24.428 kg


En cambio, si suponemos que hay 120 plantas y cada una tiene una mazorca, teniendo en cuenta los valores obtenidos en el apartado anterior, el peso total esperado sera:

229.86 120 = 27583 g = 27.583 kg

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejercicio 8. Con respecto a los datos de la leucina del problema 1, construir un intervalo de confianza al 95% para 1. La pendiente estimada en el problema 1 era:

43

b1 =

SPXY 81.9 = = 0.0292 = 1 2800 SS X

Vamos a construir un intervalo de confianza al 95% para 1, que es el parmetro poblacional de la pendiente de la relacin lineal entre X e Y. 2 sY 0.0839 2 |X = = 0.0016 SE (b1 ) = 2800 SS X

IC95% ( 1 ) = [0.0292 1.96 0.0016,0.0292 + 1.96 0.0016] = [0.0261,0.0323]


Ejercicio 9. Con respecto a los datos de la temperatura corporal del problema 2, construir un intervalo de confianza al 95% para 1. SP 6.92369 Para construir un intervalo de confianza b1 = XY = = 7.6404 0.906191 SS X para el parmetro 1, necesitamos una 2 estimacin y el error estndar de la sY 0.9147 2 |X = 0.9147, SS = 0 . 906191 ( ) = = = 0.9609 s SE b Y|X X 1 misma: SS X 0.906191

IC95% ( 1 ) = [b1 t 0.05,15 2 SE (b1 ), b1 + t 0.05,15 2 SE (b1 )] = = [7.6404 2.160 0.9609,7.6404 + 2.160 0.9609] = [5.5649,9.7 160]

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 44

Ejercicio 10. Con respecto a los datos de crecimiento del hongo del problema 5: a) Calcular el error estndar de la pendiente b1. El error estndar del estimador de la pendiente de la recta de regresin se calcula como:

1.2954 2 = 0.0359 SS X 1303 b) Consideremos la hiptesis nula de que el cido laetisrico no afecta al crecimiento del hongo. Suponiendo que el modelo lineal es aplicable, formular esta afirmacin como una hiptesis sobre la verdadera recta de regresin, y contrastar esta hiptesis contra la alternativa de que el cido laetisrico inhibe el crecimiento del hongo. Considerar = 0.05. Vamos a construir un contraste de hiptesis sobre la pendiente de la verdadera recta de regresin entre estas variables. Consideramos como hiptesis nula que el cido laetisrico no afecta al crecimiento del hongo, o lo que es lo mismo, que la pendiente de la regresin entre ambas variables es cero. Como hiptesis alternativa vamos a considerar que el cido inhibe el crecimiento del hongo, o lo que es lo mismo, que la pendiente de la regresin es negativo: SE (b1 ) = =
Para nuestros datos tenemos que: = b = 0.712 < 0 1 1
H0: 1 = 0 HA: 1 < 0

2 sY |X

Los datos estn en la direccin de la hiptesis alternativa

Para resolver este contraste, calculamos el estadstico: b1 0.712 = = 19.840 ts = SE (b1 ) 0.0359 Bajo la hiptesis nula este estadstico de contraste tiene una distribucin t de Student con n2=10 grados de libertad.

t 0.0001 = 6.211<| t s |= 19.840 p - valor(bilateral) < 0.0001 p - valor < 0.00005

Luego para un nivel de significacin =0.05 hay evidencia que el cido laetisrico inhibe el crecimiento del hongo. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejercicio 11. Un equipo de fisilogos cultiva 13 tiestos individuales de plantas de soja en un invernadero. En la tabla siguiente se presentan las medidas del rea total de las hojas (en cm2) y el peso total en seco (en gr.) de cada planta despus de 16 das de crecimiento.
Planta rea hojas (X) Peso en seco (Y) 1 411 2.00 2 550 2.46 3 471 2.11 4 393 1.89 5 427 2.05 6 431 2.30 7 492 2.46 8 371 2.06 9 470 2.25 10 419 2.07 11 407 2.17 12 489 2.32 13 439 2.12 443.8 2.174 28465.7 0.363708 SPXY = 82.8977

45

Media SS

a) Calcular el coeficiente de correlacin entre ambas variables. El coeficiente de correlacin entre ambas variables es: SPXY 82.8977 r= = = 0.8147 SS X SSY 28465.7 0.363708

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 46

b) Calcular el valor de sY y sY|X especificando las unidades de cada uno. Comprobar que se cumple la relacin aproximada entre sY, sY|X y r. La desviacin tpica muestral de la variable Y es: La desviaci tpica residual seria:
2 82.8977 2 SPXY = 0.363708 = 0.1223 SS (resid ) = SSY 28465.7 SS X

sY =

SSY 0.363708 = = 0.1741 g n 1 12

sY | X =

SS (resid ) 0.1223 = = 0.1054 g n2 11

Vamos a comprobar que se cumple la relacin aproximada entre estas desviaciones tpicas y el coeficiente de correlacin: s
Y|X

sY

0.10544 = 0.6056 1 r 2 = 1 0.8147 2 = 0.3362 = 0.5799 0.1741


2,50

c) Calcular la recta de regresin de Y sobre X. La recta de regresin de Y sobre X sera: Y = b0 + b 1 X con:


Pes en sec
2,40

2,30

SP 82.8977 b1 = XY = = 0.0029 SS X 28465.7


b0 = y b1 x = 2.174 0.0029 443.8 = 0.8816
d) Dibujar la nube de puntos de los datos y dibujar la recta de regresin en la grfica.

2,20

2,10

2,00

1,90

1,80 350 400 450 500 550 R Sq Linear = 0,664

rea fulles

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejercicio 12. Proceder como en el problema 11 pero con los datos del problema 2. El coeficiente de correlacin entre la reduccin de la temperatura corporal (Y) sobre el logaritmo de la dosis (X) es: SPXY 6.92369 = = 0.9107 r= 0.906191 63.7773 SS X SSY La desviacin tpica de la variable dependiente es:

47

sY =
La desviacin tpica residual es:
sY | X =

SSY = n 1

63.7773 = 2.1344 C 15 1

SS ( resid ) 10.8773 = = 0.9147 C n2 15 2

Podemos ver que:

sY | X sY

0.9147 = 0.4286 1 r 2 = 1 0.9107 2 = 0.1706 = 0.4130 2.1344

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 48

Ejercicio 13. Un veterinario anatomista mide la densidad de las clulas nerviosa en regiones especficas del intestino de nueve caballos. Cada valor de la densidad es el promedio del nmero de clulas nerviosas en cinco secciones iguales de tejido. Los resultados se muestran en la siguiente tabla para la regin 1 (regin media del yeyuno) y regin 2 (regin mesentrica del yeyuno).
Animal 1 2 3 4 5 6 7 8 9 Media SS Regin 1 50.6 39.2 35.2 17.0 11.2 14.2 24.2 37.4 35.2 29.36 1419.82 Regin 2 38.0 18.6 23.2 19.0 6.6 16.4 14.4 37.6 24.4 22.02 853.396

SPXY = 893.689

a) Obtener el coeficiente de correlacin entre las densidades de las dos regiones. El coeficiente de correlacin entre ambas variables es:

r=

893.689 SPXY = = 0.8119 1419.82 853.396 SS X SSY

b) Dibujar la nube de puntos.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. c) Contrastar la hiptesis de que el coeficiente de correlacin (naturalmente el poblacional) es cero contra la hiptesis alternativa de que es positivo. Para esta muestra de n = 9 caballos, podemos plantear el siguiente contraste de hiptesis para el coeficiente de correlacin poblacional: H0: El coeficiente de correlacin es cero ( = 0) HA: El coeficiente de correlacin es positivo ( > 0) Como tenemos un contraste direccional, en primer lugar vamos a comprobar la direccionalidad de los datos:

49

= r = 0.8119 > 0
El estadstico que nos permite resolver el contraste anterior es:

ts = r

n2 92 = 0.8119 = 3.680 2 1 r 1 0.8119 2

Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n-2=9-2=7 grados de libertad.

t 0 .01 = 3.499 < t s = 3.680 < t 0 .001 = 5.408 0.001 < p - valor(bila teral) < 0.01 0.0005 < p - valor < 0.005
En consecuencia, hay evidencia que existe una correlacin lineal positiva entre los datos de las dos regiones.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 50

Ejercicio 14. En un estudio, por medio de detectores radioactivos, de la capacidad corporal para absorber hierro y plomo, participaron diez sujetos. A cada uno se le da una dosis oral idntica de hierro (sulfato ferroso) y de plomo (cloruro de plomo-203). Despus de doce das se mide la cantidad de cada componente retenida en el sistema corporal y, a partir de stas, se determinan los porcentajes absorbidos por el cuerpo. Los datos obtenidos fueron: Hierro (%) 17 22 35 43 80 85 91 92 96 100 Plomo (%) 8 17 18 25 58 59 41 30 43 58 a) Dibuja la nube de puntos. Basndose en ella, se puede esperar que el coeficiente de correlacin est prximo a 1, -1 0?.
100,00

80,00

60,00

A partir de la nube de puntos, podemos esperar un coeficiente de correlacin prximo a 1, ya que la relacin entre ambas variables es positiva y adems bastante ajustada a una recta.

ferro
40,00 20,00 0,00 0,00 10,00 20,00 30,00 40,00 50,00 60,00

plom

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Halla e interpreta el coeficiente de determinacin. El coeficiente de determinacin se calcula como:

51

x=
y=

x = 35.7
y
n

sX =
sY =

SPXY

n n 1 = ( x x )( y y ) = 1360.07 + 824.67 + 550.47 + 247.17 + 309.97 + 440.37 + 131.97

= 66.1

n 1 ( y y)2

(x x)

= 18.84
= 32.90

2 SS X = (n 1) s X = 3196.1

2 SSY = (n 1) sY = 9740.9

El coeficiente de determinacin expresa el porcentaje de la variabilidad de la variable dependiente que est explicado por la 2 2 SP regresin. En este problema, podemos decir que el 70.69% de la 4691.3 XY = = 0.7069 variabilidad del porcentaje de plomo observado est determinada r2 = SS X SSY 3196.1 9740.9 por la regresin definida, y que por tanto queda un 29.31% de variabilidad sin explicar por este modelo. c) Comprueba la idoneidad del modelo de regresin lineal. Si ste es apropiado, estima la recta de regresin y utilzala para predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo ingerido. A la vista de les datos anteriores parece que es asumible la linealidad en nuestros datos, aunque la homocedasticidad es probablemente ms dudosa ya que parece existir ms variabilidad para los valores mayores de la variable independiente. Suponiendo que el modelo de regresin lineal es vlido, la recta de regresin ajustada en este caso sera:

- 147.63 + 218.27 + 755.97 = 4691.3

SPXY 4691 .3 = = 1.4678 b0 = y b1 x = 66.1 1.4678 35.7 = 13.6988 Y = 13.6988 + 1.4678 X SS X 3196 .1 A partir de la recta de regresin anterior, podemos predecir el porcentaje de hierro absorbido por un individuo cuyo sistema corporal absorbe el 15% del plomo ingerido ya que est dentro del rango de estudio: b1 =

Y | X =15 = 13.6988 + 1.4678 15 = 35.7161


Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Ejercicio 15. Una de las variables consideradas en los trabajos habituales que se dedican a estudiar la influencia de las aguas residuales de las alcantarillas en la contaminacin de las aguas de los lagos es la concentracin de nitrato en el agua. Para monitorizar esta variable se utiliza habitualmente un antiguo mtodo manual que aunque costoso proporciona una informacin prcticamente correcta acerca de dicha concentracin. Se propone un nuevo mtodo de lectura automtica mucho menos costoso que el manual. Si este nuevo mtodo fuera fiable, se desechara el antiguo mtodo manual pasando a utilizarse de forma habitual el automtico. A tal efecto se realiza un experimento que consiste en determinar la concentracin de nitrato (en microgramos de nitrato por litro de agua) en el agua de 10 muestras por ambos mtodos. Los resultados obtenidos son los siguientes: Manual: 25 40 120 75 150 300 270 400 450 575 Autom.: 30 80 150 80 190 350 240 360 470 585 a) Dibujar la nube de puntos. Vamos a considerar X = resultado con el mtodo automtico Y = resultado con el mtodo manual Queremos estudiar si a partir de los valores observados de la variable independiente (medida automtica, mucho menos costosa de obtener) podemos estimar los valores de la variable dependiente (medida manual). La nube de puntos sera:
Manual
600

Departament dEstadstica i Investigaci Operativa 52

500

400

300

200

100

0 0 100 200 300 400 500 600

Automtic

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Obtener el coeficiente de correlacin entre las dos variables consideradas. El coeficiente de correlacin entre ambas variables es: Para los datos obtenidos con el mtodo automtico x = x = 253.5 n tenemos: Para los datos obtenidos con el mtodo manual tenemos: La suma de productos ser:
y=
sX =

53

r=
2

SPXY SS X SSY
= 183.33
2 SS X = (n 1) s X = 302502.5

(x x)
n 1

y = 240.5
n

sY =

( y y)2
n 1

= 189.26

2 SSY = (n 1) sY = 322372.5

SPXY = ( x x )( y y ) = 308457.5

SS (resid ) 7842.8 La suma de cuadrados SP 2 308457.52 sY | X = = = 31.31 SS (resid ) = SSY XY = 322372.5 = 7842.8 y la desviacin tpica n2 8 SS X 302502.5 residual sera: 308457.5 SPXY En consecuencia, el coeficiente de correlacin entre = = 0.9878 r= 302502.5 322372.5 SS X SSY ambas variables ser:

c) Obtener la recta de regresin de Y sobre X, comentando la eleccin de la variable explicativa y de la variable respuesta en este problema. Los coeficientes de la recta de regresin de Y sobre X seran:

b1 =

SPXY 308457.5 = = 1.02 SS X 302502.5

b0 = y b1 x = 240.5 1.02 253.5 = 18.07

Por tanto, la recta de regresin que nos permite estimar la medida manual a partir de la medida automtica es: Y = 18.07 + 1.02 X d) Te parece que el nuevo mtodo es fiable? Comentar la respuesta. Depende del grado de exactitud que se necesite en las medidas. Evidentemente, no podemos decir que las dos medidas sean iguales, ya que: - La variabilidad no explicada por la regresin es bastante elevada para la magnitud de los datos. - La ordenada en el origen parece claramente diferente de 0. Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Ejercicio 16. Entre las aplicaciones ms frecuentes de las tcnicas de regresin se encuentran los problemas en los que la variable respuesta considerada es difcil costosa de observar directamente. En tales casos las tcnicas de regresin utilizan la relacin entre la variable respuesta y la variable explicativa para, a travs del comportamiento de esta ltima (que debera ser por contra fcilmente observable) estudiar el comportamiento de la variable respuesta. Por ejemplo, resulta extremadamente difcil obtener medidas del volumen de un objeto irregular, pero sin embargo resulta muy fcil pesarlo. En la siguiente tabla se presenta el peso en kilos y el volumen en decmetros cbicos de 18 nios de edades comprendidas entre los 5 y 8 aos.
Peso 17.1 10.5 13.8 15.7 11.9 10.4 15.0 16.0 17.8 Volumen 16.7 10.4 13.5 15.7 11.6 10.2 14.5 15.8 17.6 Peso 15.8 15.1 12.1 18.4 17.1 16.7 16.5 15.1 15.1 Volumen 15.2 14.8 11.9 18.3 16.7 16.6 15.9 15.1 14.5

Departament dEstadstica i Investigaci Operativa 54

18,0

volum

15,0

12,0

a) Dibujar la nube de puntos y obtener la recta de regresin de Y sobre X.

10,0

12,0

14,0

16,0

18,0

x=

x = 15.0
n

sX =

(x x)

pes

sY = = 2.36 SSY = (n 1) s = 94.75 n n 1 La recta de regresin del volumen en decmetros cbicos (Y) sobre el peso en kilos (X) sera: SP 95.24 Y = 0 .104 + 0 .988 X b0 = y b1 x = 14.7 0.988 15.0 = 0.104 b1 = XY = = 0.988 SS X 96.39
2 Y

y = 14.7 y=

n 1 ( y y) 2

= 2.38

2 SS X = (n 1) s X = 96.39

SPXY = ( x x )( y y ) = 95.24

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. b) Obtener el coeficiente de correlacin entre el peso y el volumen. Contrastar la hiptesis de que el coeficiente de correlacin entre el peso y el volumen es cero contra la hiptesis alternativa de que es positivo. El coeficiente de correlacin muestral entre el peso y el volumen es: SPXY 95.24 = = 0.9966 r= 96.39 94.75 SS X SS Y Siga el coeficiente de correlacin poblacional entre el peso y el volumen, vamos a resolver el siguiente contraste de hiptesis: H0: = 0 HA: > 0 Podemos ver que la estimacin obtenida a partir de los datos est en la direccin de la hiptesis alternativa. El estadstico que permite resolver este contraste es:

55

ts = r

18 2 n2 = 0.9966 = 48.082 2 1 r 1 0.99662

Bajo la hiptesis nula este estadstico sigue una distribucin t de Student con n 2 =182=16 grados de libertad.

t 0.0001 = 5.134 < t s = 48.082 p - valor(bilateral) < 0.0001 p - valor < 0.00005
Por tanto, hay evidencia que el coeficiente de correlacin entre el peso y el volumen es positivo.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 56

Ejercicio 17. En un estudio metablico, se observaron cuatro cerdos en tres instantes de tiempo determinados: cuando alcanzaron los 30, 60 y 90 kg. de peso. En cada uno de estos momentos, se analiz la cantidad de comida ingerida y el volumen fecal y urinario de cada uno de ellos durante 15 das consecutivos. A partir de estos datos se calcul la cantidad de nitrgeno incorporada en el tejido corporal por da. Los resultados fueron:
Animal Cantidad de nitrgeno Peso corporal 30 kg. 60 kg. 90 kg. 1 15.8 21.3 16.5 2 16.4 20.8 18.2 3 17.3 23.8 17.8 4 16.4 22.1 17.5 Media 16.47 22.00 17.50

Supongamos que los datos son analizados segn el modelo de regresin lineal. Si consideramos que el peso corporal es la variable explicativa y la cantidad de nitrgeno la variable respuesta, operando obtendramos: x = 60 y = 18.7 SSX = 7200 SSY = 77 SPXY = 123 La pendiente es b1 = 0.017 con un error estndar SE(b1) = 0.032. El valor del estadstico de contraste es ts = 0.53 que no es significativo a cualquier nivel de significacin razonable. De acuerdo con este anlisis, no existe suficiente evidencia experimental para concluir que la cantidad de nitrgeno depende del peso corporal bajo las condiciones de este estudio. El anlisis realizado es errneo en dos sentidos. Cules son? En primer lugar, no se cumple la independencia en las observaciones, ya que estamos comparando medidas de un mismo cerdo con datos de otros cerdos. Adems, si miramos los datos tampoco se cumple la hiptesis de linealidad, ya que los mayores valores se dan para x=60, mientras que los valores para x=30 y x=90 son ms pequeos. Parece que se ajuste mejor a la relacin una curva de segundo grado.

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Ejercicio 18. Con respecto a los datos del crecimiento del hongo del problema 5 a) Obtener el coeficiente de correlacin entre las dos variables involucradas. El coeficiente de correlacin entre las dos variables involucradas es: SPXY 927.75 = = 0.9875 r= 1303 677.349 SS X SS Y

57

b) Supongamos que un segundo investigador intenta repetir el experimento utilizando concentraciones de 0, 2, 4, 6 y 10 mg., con dos placas de petri para cada concentracin. El coeficiente de correlacin r que obtendra este segundo investigador, estara alrededor del valor calculado en el apartado anterior?, sera mayor o menor? Comentar la respuesta. A la vista de los datos, parece que cuanto menor sea el rango de valores de X peor ser la calidad esperada del ajuste, y por tanto menor ser el coeficiente de correlacin. Ejercicio 19. En un estudio sobre el grillo mormn (Anabrus simplex), se obtiene para las hembras un coeficiente de correlacin entre el peso corporal y el peso de los ovarios de r = 0.836. La desviacin tpica del peso de los ovarios de los grillos hembra fue de 0.429. Suponiendo que el modelo lineal es aplicable, estimar la desviacin tpica del peso de los ovarios de los grillos hembra cuyo peso corporal es de 4 gramos. Sabemos que si el modelo lineal es aplicable, la desviacin tpica del peso de los ovarios de los grillos hembra con un peso corporal de 4 gramos es:

Y | X =4 = sY | X sY 1 r 2 = 0.429 1 0.8362 = 0.2354

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 58

Ejercicio 20. En un estudio sobre las prdidas en cosechas debidas a la polucin del aire, se utilizan plantas de habichuelas colocadas en cmaras abiertas por la parte superior, y fumigadas con distintas concentraciones de dixido de azufre. Despus de un mes de fumigacin, se registra el rendimiento total de vainas de habichuelas en cada cmara. Los resultados son los siguientes: Concentracin de dixido de azufre (ppm), X 0 0,06 0,12 0,30 Cosecha (kg.), Y 1,15 1,19 1,21 0,65 1,30 1,64 1,00 0,76 1,57 1,13 1,11 0,69 Media 1,34 1,32 1,11 0,70 Si con estos datos se obtienen los resultados siguientes: Media x = 0,12 Media y = 1,117 SSX = 0,1512 SSY = 1,069067 SPXY = 0,342 a) Obtener la recta de regresin de Y sobre X. Los coeficientes de la recta de regresin son:
b1 = SPXY 0.342 = = 2.2619 0.1512 SS X
collita
1,75

b0 = y b1 x = 1.117 (2.2619) 0.12 = 1.3884

1,50

Por tanto, la recta de regresin de Y sobre X sera: Y = 1.3884 2.2619 X b) Dibujar la nube de puntos y dibujar en la grfica la recta de regresin obtenida.

1,25

1,00

0,75

0,00

0,05

0,10

0,15

0,20

0,25

0,30

dioxid

Sq r lineal = 0,724

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. c) Suponiendo que el modelo lineal es aplicable, obtener estimaciones de la media y la desviacin tpica del rendimiento de las plantas de habichuela expuestas a 0.24 ppm de dixido de azufre. Para x = 0.24 ppm, la estimacin de la media y desviacin tpica del rendimiento de las plantas de habichuela expuestas es: Y | X =0.24 = b0 + b1 25 = 1.3884 2.26190.24 = 0.8456

59

SS ( resid ) = SS Y

2 SPXY (-0.342) 2 = 1.069067 = 0.2955 SS X 0.1512

Y | X =0.24 = sY | X =

SS (resid ) = n2

0.2955 = 0.1719 12 2

d) Cul de las hiptesis del modelo lineal parece no cumplirse en este problema? Como se observa en el grfico anterior, no parece asumible la hiptesis de homocedasticidad, ya que la desviacin tpica de las concentraciones menores es mayor que la de las concentraciones mayores. Es decir, parece que al incrementarse la concentracin, las cosechas obtenidas tienen menos variabilidad. e) Consideremos la hiptesis nula de que la concentracin de dixido de azufre no influye en el rendimiento de las plantas de habichuela. Suponiendo que el modelo lineal es aplicable, formular esta afirmacin como un contraste de hiptesis sobre la verdadera recta de regresin. Utilizar los datos para contrastar la hiptesis contra una alternativa direccional. Suponiendo que el modelo lineal es aplicable, vamos a resolver el siguiente contraste de hiptesis: H0: La concentracin de dixido de azufre no influye en la cosecha H0: 1 = 0 HA: La concentracin de dixido de azufre influye negativamente en la cosecha HA: 1 < 0 Para nuestros datos tenemos que:

= b = 2.2619 < 0 Los datos estn en la direccin de la hiptesis alternativa 1 1

Para resolver este contraste sobre la pendiente de la relacin lineal entre ambas variables, vamos a considerar el siguiente estadstico de contraste: b

Hemos visto anteriormente que:

ts =

SE (b1 )

b1 =

SPXY = 2.2619 SS X

SS (resid ) = SS Y

2 SPXY = 0.2955 SS X

SE (b1 ) =

2 sY |X

SS X

0.1719 2 = 0.4421 0.1512

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin. Por tanto:

Departament dEstadstica i Investigaci Operativa 60

ts =

b1 2.2619 = = 5.117 SE (b1 ) 0.4421

t 0.001 = 4.587 <| t s |= 5.117 < t 0.0001

que bajo la hiptesis nula sigue una distribucin t de Student con n 2 = 10 grados de libertad. Por tanto: = 6.211 0.0001 < p - valor(bilateral) < 0.001 0.00005 < p - valor < 0.0005

Hay una fuerte evidencia de que la concentracin de dixido de azufre influye negativamente en la cosecha. f) Utilizar un anlisis de la varianza para contrastar la hiptesis de que la concentracin de dixido de azufre no influye en el rendimiento de las plantas de habichuela. Comparar con los resultados del apartado anterior. (Se puede comprobar que SS(entre) = 0.7984).
Suma de Cuadrados

La tabla ANOVA correspondiente a este problema es:

Grados de libertad 1 n 2 = 10 n 1 = 11

MS 0,7736 0,0296 0,0972

Regresin Residual Total

SS(reg) = SSY SS(resid) = 0.7736 SS(resid) = 0.2955 SSY = 1.069067

Vamos a considerar el contraste: H0: La concentracin de dixido de azufre no explica una parte significativa del valor de la cosecha HA: La concentracin de dixido de azufre si explica una parte significativa del valor de la cosecha El estadstico de este contraste sera: MS (reg ) 0.7736 Fs = = = 26.178 MS (resid ) 0.0296 Que bajo la hiptesis nula sigue una distribucin F de Snedecor con 1 grado de libertad en el numerador y 10 grados de libertad en el denominador. F0.001 = 21.04 < Fs = 26.178 < F0.0001 = 38.58 0.0001 < p - valor < 0.001 En consecuencia, la concentracin de dixido de azufre explica una parte significativa del valor de la cosecha. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin.

61

Ejercicio 21. Otra forma de analizar los datos del problema anterior es considerar como observacin a la media de cada tratamiento. En este caso los datos podran resumirse en la siguiente tabla: Dixido de azufre, X Rendimiento medio, Y 0 1.34 0.06 1.32 0.12 1.11 0.30 0.70 Media 0.12 1.117 SS 0.0504 0.264875 SPXY = -0.114 a) Para la regresin del rendimiento medio sobre X, calcular la recta de regresin y la desviacin tpica residual. Comparar los resultados obtenidos con los del problema anterior. Los coeficientes de la recta de regresin son: SP 0.114 b0 = y b1 x = 1.117 (2.2619) 0.12 = 1.3884 = 2.2619 b1 = XY = 0.0504 SS X Por tanto, la recta de regresin sobre las medias para cada tratamiento es la misma que la que habamos obtenido con los valores individuales. La desviacin tpica residual es:
SS (resid ) = SS Y
2 SPXY (-0.114) 2 = 0.264875 = 0.0070 0.0504 SS X

sY | X =

SS (resid ) 0.0070 = = 0.0592 n2 42

Luego la desviacin tpica residual sobre las medias es menor que la obtenida sobre los valores individuales. b) Obtener el coeficiente de correlacin entre el rendimiento medio y el dixido de azufre. Obtener tambin el coeficiente de correlacin entre el rendimiento individual por cmaras y el dixido de azufre. Comentar los resultados obtenidos. Sobre las medias: Para los valores individuales:
r=
r=

SPXY

SS X SS Y
SPXY SS X SS Y

=
=

0.114

0.0504 0.264875
0.342 0.1512 1.069067

= 0.9867
= 0,8506

El coeficiente de correlacin sobre las medias es mayor que sobre los valores individuales.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 62

Ejercicio 22. A lo largo de las costas protegidas del rea IndoPacfica se ha descubierto una especie de lapas que se pegan a las rocas. Un bilogo desea estudiar la relacin entre la altura de la concha del Patelloida Pygmaea (nombre con el que se ha bautizado la lapa) y su longitud. La informacin obtenida observando 13 ejemplares fue la siguiente: Altura: 0.9, 1.5, 1.6, 1.7, 1.8, 1.9, 2.0, 2.1, 2.2, 2.2, 2.3, 2.4, 2.7 Longitud: 3.1, 3.6, 4.3, 5.5, 5.2, 5.3, 5.3, 5.7, 5.3, 5.8, 6.4, 6.3, 6.3 Altura Media Longitud Media SS(altura) SS(longitud) SPxy 1.95mm 5.24mm 2.5523 12.3508 5.157 Realiza el correspondiente anlisis de regresin lineal y valora la conveniencia de utilizar la recta de regresin obtenida para predecir la longitud a partir de la altura de la concha. Sea X la altura de la concha y Y su longitud. Los coeficientes de la recta de regresin seran: SP 5.157 = 2.0205 b1 = XY = b0 = y b1 x = 5.24 (2.0205) 1.95 = 1.3000 SS X 2.5523 La recta de regresin de Y sobre X es: Y = 1.3 + 2.0205 X Vamos a dibujar una nube de punto con los datos y la recta de regresin obtenida: El coeficiente de correlacin es:
6,0

r=

SPXY SS X SS Y

5.157 2.5523 12.3508

= 0.9185

longitud

4,0

Sq r lineal = 0,844

1,0

1,5

2,0

2,5

alria

Como se observa, el coeficiente de correlacin es positivo y prximo a 1, lo que indica una buena correlacin lineal entre ambas variables. Adems, del grfico anterior no se detecta un incumplimiento destacable de las hiptesis del modelo lineal para estos datos, por lo que podemos utilizar la recta de regresin obtenida para predecir la longitud a partir de la altura de la concha. Departament dEstadstica i Investigaci Operativa

Estadstica en Ciencias Medioambientales

Tema 6. Regresin lineal y correlacin. Suponiendo que has decidido utilizar la recta como una descripcin de la relacin entre ambas variables, contesta a las siguientes preguntas, argumentando tus respuestas: i) Cul ser aproximadamente la longitud de una concha cuya altura es de 1.4 mm.?, y de una de 3 mm.? Vamos a estimar la longitud de una concha de altura 1,4 mm. Como este valor est en el rango de estudio, podemos utilizar la recta de regresin anterior:

63

( x = 1.4) = 1.3 + 2.0205 1.4 = 4.1287 y


Para la estimacin de la longitud de una concha de altura de 3 mm., debemos tener en cuenta que este valor est fuera del rango de estudio, y por tanto no podemos estar seguros de la validez del ajuste. ii) Qu porcentaje de las diferencias observadas en las longitudes de las lapas queda explicada por las diferentes alturas? Este valor vendr dado por el coeficiente de determinacin, definido como:

r 2 = 0.9185 2 = 0.8437 Por tanto, el 84.37% de las diferencias observadas en las longitudes de las conchas queda explicada por las diferentes alturas.
iii) Da un estimador de la desviacin tpica de las longitudes de las lapas cuyas alturas son iguales a 1.4 mm.
SS (resid ) = SS Y
2 SPXY 5.157 2 = 12.3508 = 1.9309 SS X 2.5523

Y | X =1.4 = sY | X =

SS (resid ) 1.9309 = = 0.4190 n2 13 2

Con qu valor estimaras la longitud media de esta subpoblacin de lapas? dem para la poblacin de lapas de altura igual a 1.7 mm.
Y | X =1.4 = b0 + b1 1.4 = 1.3 + 2.0205 1.4 = 4.1287

Y | X =1.7 = b0 + b1 1.7 = 1.3 + 2.0205 1.7 = 4.7349

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 64

Ejercicio 23. La siguiente tabla muestra las cantidades de metil mercurio consumidas al ingerir pescado contaminado y las correspondientes cantidades totales de mercurio en sangre de 12 individuos participantes en un estudio sobre los efectos de la contaminacin marina.
Cantidad de metil mercurio (g Hg/da) 180 200 230 410 600 550 275 580 105 250 460 650 Cantidad de mercurio en sangre (ng/g) 90 120 125 290 310 290 170 375 70 105 205 480 (SPXY = 253441,644)

Existe relacin lineal entre ambas variables? Obtener una medida de la fuerza de dicha relacin lineal y valorar el resultado obtenido. Sea X = cantidad de metil mercurio consumido y Y = cantidad de mercurio en sangre, vamos a estudiar si hay relacin lineal entre ambas variables. A partir de la muestra tenemos:

x = 374.2 x=
n

sX =

(x x)
n 1

= 189.63
2

2 SS X = (n 1) s X = 395541.667

y=

y = 219.2
n

sY =

( y y)
n 1

SPXY = 253441.644

= 129.30

2 SSY = (n 1) sY = 183891.667

Estadstica en Ciencias Medioambientales

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Luego los coeficientes de la recta de regresin de Y sobre X son:
500

65

b1 =

b0 = y b1 x = 219.2 0.641 374.2 = 20,579


El coeficiente de correlacin es una medida de la fuerza lineal entre ambas variables y vale: SPXY 253441.644 r= = = 0.9397 SS X SS Y 395541.667 183891.667

sang
200 100 0 100 200 300 400 500 600 700

SPXY 253441.644 = = 0.641 395541.667 SS X

400

300

ingerit

Sq r lineal = 0,774

Podemos ver que su valor est prximo a 1, lo que quiere decir que la relacin entre las dos variables est muy ajustada a una recta y, adems, es una relacin creciente. Cul sera la cantidad media de mercurio en sangre que correspondera a una persona que hubiera consumido 300 g Hg/da? Podramos calcularla para un consumo de 800 g Hg/da? Segn la relacin anterior, la cantidad media de mercurio en sangre que correspondera a una persona que hubiera consumido 300 g Hg/da sera:

Y | X =300 = b0 + b1 300 = 20.579 + 0.641 300 = 171.64


En cambio, no podemos calcular el valor para un nivel de consumo de 800 g Hg/da, ya que este valor est fuera del rango de estudio.

Estadstica en Ciencias Medioambientales Tema 6. Regresin lineal y correlacin.

Departament dEstadstica i Investigaci Operativa 66

Ejercicio 24. En un estudio sobre la interaccin de bicicletas y coches se intenta establecer la posible relacin entre una variable x = espacio disponible de trnsito (definido como la distancia entre el ciclista y el centro de la calle, medida en pies) e y = distancia de separacin entre el ciclista y un coche que pasa a su lado. Los datos de diez calles son: x 12.8 12.9 12.9 13.6 14.5 14.6 15.1 17.5 19.5 20.8 y 5.5 6.2 6.3 7.0 7.8 8.3 7.1 10.0 10.8 11.0 i) Puede considerarse que las variables siguen una relacin lineal? Vamos a representar grficamente los datos recogidos para estudiar si este modelo es o no aceptable:
11,0

10,0

9,0

8,0

A la vista del grfico, el modelo lineal parece aceptable.

7,0

6,0 Sq r lineal = 0,923 5,0 12,0 14,0 16,0 18,0 20,0 22,0

ii) Calcula la recta de regresin de la y sobre la x. A partir de los datos recogidos, tenemos los siguientes estadsticos muestrales:

x=

x = 15.42
n

sX =

(x x)
n 1

= 2.875

2 SS X = (n 1) s X = 74.416

sY = = 1.977 n n 1 Estadstica en Ciencias Medioambientales

y = 8.00 y=

( y y)

SPXY = ( x x )( y y ) = 49.140

SSY = (n 1) s = 35.160
2 Y

Departament dEstadstica i Investigaci Operativa

Tema 6. Regresin lineal y correlacin. Los coeficientes de la recta de regresin son:

67

b1 =

SPXY 49.140 = = 0.660 74.416 SS X

b0 = y b1 x = 8 0.660 15.42 = 2.182


Y = 2.182 + 0.660 X

Por tanto, la recta de regresin de Y sobre X es:

iii) Cul sera la separacin media estimada entre bicicleta y coche en una calle con espacio disponible de trnsito de 15 pies? Cul sera la estimacin de la desviacin tpica residual en este caso? Para un espacio disponible de trnsito (definido como la distancia entre el ciclista y el centro de la calle) de x = 15 pies, la distancia de separacin media entre el ciclista y un coche que pasa a su lado es: Y | X =15 = 2.182 + 0.660 15 = 7.718 La desviacin tpica residual estimada en este caso es:

SS (resid ) 2.711 = = 0.5821 n2 10 2 iv) Cmo variara la separacin media entre bicicleta y coche si el espacio disponible de trnsito de la calle fuese de 12 pies?
SS (resid ) = SS Y
2 SPXY 49.140 2 = 35.160 = 2.711 SS X 74.416

Y | X =15 = sY | X =

En este caso, el valor estara fuera del rango de estudio, por la que no podemos estar seguros de la validez de nuestras predicciones. v) Qu porcentaje de la variacin de la separacin es explicado por el modelo? El coeficiente de correlacin es: El coeficiente de determinacin sera:
r= SPXY SS X SS Y = 49.140 74.416 35.160 = 0.9607

r 2 = 0.9607 2 = 0.9229

Por tanto, el 92.29% de la variacin de la separacin es explicada por el modelo. Estadstica en Ciencias Medioambientales Departament dEstadstica i Investigaci Operativa

Vous aimerez peut-être aussi