Vous êtes sur la page 1sur 14

3.3.

DEPENDENCIA FUNCIONAL E INDEPENDENCIA

77

De la misma forma, es posible dividir la poblacin inicial en k subconjuntos, o cada uno de ellos caracterizados por la propiedad de que el isimo conjunto e todos los elementos verican la propiedad de presentar la modalidad xi . Sobre cada uno de estos conjuntos tenemos la variable condicionada Y|xi Y|X=xi , cuya distribucin de frecuencias relativas condicionadas es: o
i fj =

nij ni

j = 1, . . . , p

3.3.

Dependencia funcional e independencia

La relacin entre las variables X e Y , parte del objetivo de este cap o tulo y en general de un nmero importante de los estudios de las Ciencias u Sociales, puede ser ms o menos acentuada, pudiendo llegar sta desde la a e dependencia total o dependencia funcional hasta la independencia.

3.3.1.

Dependencia funcional

La dependencia funcional, que nos reeja cualquier frmula matemtica o o a f sica, es a la que estamos normalmente ms habituados. Al principio del a cap tulo consideramos un ejemplo en el que sobre una poblacin de alumnos o den amos las variables X Y altura medida en cent metros, altura medida en metros,

Al tomar a uno de los alumnos, hasta que no se realice una medida sobre el mismo, no tendremos claro cual ser su altura. Podemos tener cierta a intuicin sobre qu valor es ms probable que tome (alrededor de la meo e a dia, con cierta dispersin). Sin embargo, si la medida X ha sido realizada, o no es necesario practicar la de Y , pues la relacin entre ambas es exacta o (dependencia funcional): Y = X/100

78

Bioestad stica: Mtodos y Aplicaciones e

3.3.2.

Independencia

Existe un concepto que es radicalmente opuesto a la dependencia funcional, que es el de independencia. Se dice que dos variables X e Y son independientes si la distibucin marginal de una de ellas es la misma que la o condicionada por cualquier valor de la otra. Esta es una de entre muchas maneras de expresar el concepto de independencia, y va a implicar una estructura muy particular de la tabla bidimensional, en el que todas las las y todas las columnas van a ser proporcionales entre s .

3.4.

Covarianza

La covarianza SXY , es una medida que nos hablar de la variabilidad a conjunta de dos variables numricas (cuantitativas). Se dene como: e 1 n
n

SXY =

(xi x)(yi y)
i=1

Una interpretacin geomtrica de la covarianza o e Consideremos la nube de puntos formadas por las n parejas de datos (xi , yi ). El centro de gravedad de esta nube de puntos es (x, y), o bien podemos escribir simplemente (x, y) si los datos no estn ordenados en una tabla de a doble entrada. Trasladamos los ejes XY al nuevo centro de coordenadas (x, y). Queda as dividida la nube de puntos en cuatro cuadrantes como se observa en la gura 3.1. Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de SXY , y los que se encuentran en el segundo y el cuarto lo hacen negativamente. De este modo: Si hay mayor de puntos en el tercer y primer cuadrante, ocurrir que a a SXY 0, lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X;

3.4. COVARIANZA

79

( , ) x y

+
( , ) x y

Cuando X crece, Y crece

Cuando X crece, Y decrece Casi todos los puntos pertenecen a los cuadrantes segundo y cuarto .

Casi todos los puntos pertenecen a los cuadrantes primero y tercero

Figura 3.1: Interpretacin geomtrica de SXY o e

Si la mayor de puntos estn repartidos entre el segundo y cuarto a a cuadrante entonces SXY 0, es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan;

Si los puntos se reparten con igual intensidad alrededor de (x, y), entonces se tendr que SXY = 0. Vase la gura 3.2 como ilustracin. a e o

80

Bioestad stica: Mtodos y Aplicaciones e

. Sxy=0 S xy =0

Las dos variables son independientes.

Hay dependencia entre las dos variables, aunque la covarianza sea nula.

Figura 3.2: Cuando los puntos se reparte de modo ms o menos homogneo a e entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que SXY 0. Eso no quiere decir de ningn modo que no pueda existir ninguna u relacin entre las dos variables, ya que sta puede existir como se aprecia o e en la gura de la derecha.

La Covarianza Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente). Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de puntos decreciente). Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay relacin lineal). o

3.5. COEFICIENTE DE CORRELACION LINEAL DE PEARSON

81

3.5.

Coeciente de correlacin lineal de Pearson o

La covarianza es una medida de la variabilidad comn de dos variables u (crecimiento de ambas al tiempo o crecimiento de una y decremimiento de la otra), pero est afectada por las unidades en las que cada variable a se mide. As pues, es necesario denir una medida de la relacin entre dos o variables, y que no est afectada por los cambios de unidad de medida. Una e forma de conseguir este objetivo es dividir la covarianza por el producto de las desviaciones t picas de cada variable, ya que as se obtiene un coeciente adimensional, r, que se denomina coeciente de correlacin lineal de o Pearson SXY SX SY

r=

(3.1)

Propiedades del coeciente de correlacin lineal o Carece de unidades de medida (adimensional). Es invariante para transformaciones lineales (cambio de origen y escala) de las variables. Slo toma valores comprendidos entre 1 y 1, o Cuando |r| est prximo a uno, se tiene que existe una relacin lineal e o o muy fuerte entre las variables. Cuando r 0, puede armarse que no existe relacin lineal entre amo bas variables. Se dice en este caso que las variables son incorreladas.

3.6.

Regresin o

Las tcnicas de regresin permiten hacer predicciones sobre los valores de e o cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que existe una relacin. Para ilustrarlo retomemos o

82

Bioestad stica: Mtodos y Aplicaciones e

r=1

r=0,97

r=0,53

r=1

r=0,97

r=0

Figura 3.3: r = 1 es lo mismo que decir que las observaciones de ambas variables estn perfectamente alineadas. El signo de r, es el mismo que el a de SXY , por tanto nos indica el crecimiento o decrecimiento de la recta. La relacin lineal es tanto ms perfecta cuanto r est cercano a 1. o a a

los ejemplos mencionados al principio del cap tulo. Si sobre un grupo de personas observamos los valores que toman las variables

X Y

altura medida en cent metros, altura medida en metros,

(3.2) (3.3)

no es necesario hacer grandes esfuerzos para intuir que la relacin que hay o entre ambas es: Y = X . 100

Obtener esta relacin es menos evidente cuando lo que medimos sobre o el mismo grupo de personas es

3.6. REGRESION

83

X Y

altura medida en cent metros, peso en kilogramos.

La razn es que no es cierto que conocida la altura xi de un individuo, o podamos determinar de modo exacto su peso yi (v.g. dos personas que miden 1, 70m pueden tener pesos de 60 y 65 kilos). Sin embargo, alguna relacin entre ellas debe existir, pues parece mucho ms probable que un o a individuo de 2m pese ms que otro que mida 1, 20m. Es ms, nos puede a a parecer ms o menos aproximada una relacin entre ambas variables como a o la siguiente Y = X 110 error. A la deduccin, a partir de una serie de datos, de este tipo de relaciones o entre variables, es lo que denominamos regresin. o Mediante las tcnicas de regresin inventamos una variable Y como e o funcin de otra variable X (o viceversa), o Y = f (X). Esto es lo que denominamos relacin funcional. El criterio para construir o Y , tal como citamos anteriormente, es que la diferencia entre Y e Y sea pequea. n Y = f (X), Y Y = error, El trmino que hemos denominado error debe ser tan pequeo como sea e n posible (gura 3.4). El objetivo ser buscar la funcin (tambin denominada a o e modelo de regresin) Y = f (X) que lo minimice. Vase la gura 3.5. o e

84

Bioestad stica: Mtodos y Aplicaciones e

, Observacion (x , y ) i i

, Aproximacion ( x i , y i)

y=f(x) X

Figura 3.4: Mediante las tcnicas de regresin de una variable Y sobre una e o variable X, buscamos una funcin que sea una buena aproximacin de una o o = f (X). Para ello nube de puntos (xi , yi ), mediante una curva del tipo Y hemos de asegurarnos de que la diferencia entre los valores yi e yi sea tan pequea como sea posible. n

3.6.1.

Bondad de un ajuste

Consideremos un conjunto de observaciones sobre n individuos de una poblacin, en los que se miden ciertas variables X e Y : o X ; x1 , x2 , . . . , xn Y ; y1 , y 2 , . . . , y n

Estamos interesamos en hacer regresin para determinar, de modo aproxio mado, los valores de Y conocidos los de X, debemos denir cierta variable Y = f (X), que debe tomar los valores y Y ;1 = f (x1 ), y2 = f (x2 ), . . . , yn = f (xn ) de modo que:

3.6. REGRESION

85

Modelo lineal Buen ajuste

Modelo lineal Mal ajuste

Modelo no lineal Buen ajuste

Cuando x crece, y crece Cuando x crece, y crece Cuando x crece, y crece

Modelo lineal Buen ajuste

Modelo no lineal Buen ajuste

Variables no relacionadas Ninguna curva de regresion es adecuada

Cuando x crece, y decrece

Cuando x crece, y decrece

Figura 3.5: Diferentes nubes de puntos y modelos de regresin para ellas. o

Y Y ;y1 y1 0, y2 y2 0, . . . , yn yn 0 Ello se puede expresar deniendo una nueva variable E que mida las diferencias entre los autnticos valores de Y y los tericos suministrados por la e o regresin, o E = Y Y ;e1 = y1 y1 , e2 = y2 y2 , . . . , en = yn yn y calculando Y de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe ser una variable cuya media debe ser 0 , y cuya varianza 2 SE debe ser pequea (en comparacin con la de Y ). Por ello se dene el n o

86

Bioestad stica: Mtodos y Aplicaciones e

2 coeciente de determinacin de la regresin de Y sobre X, RY|X , o o como 2 SE 2 SY

2 RY|X = 1

(3.4)

Si el ajuste de Y mediante la curva de regresin Y = f (X) es bueno, cabe o 2 esperar que la cantidad RY|X tome un valor prximo a 1. o
2 La cantidad RY|X sirve entonces para medir de qu modo las diferene cias entre los verdaderos valores de una variable y los de su aproximacin o mediante una curva de regresin son pequeos en relacin con los de la o n o variabilidad de la variable que intentamos aproximar. Por esta razn estas o cantidades miden el grado de bondad del ajuste.

3.6.2.

Regresin lineal o

La regresin lineal consiste en encontrar aproximar los valores de una o variable a partir de los de otra, usando una relacin funcional de tipo lineal, o es decir, buscamos cantidades a y b tales que se pueda escribir Y =a+bX con el menor error posible entre Y e Y . Las cantidades a y b que minimizan dicho error son los llamados coecientes de regresin: o a = y bx (3.5)

b=

SXY 2 SX

La cantidad b se denomina coeciente de regresin de Y sobre X. o En el modelo lineal de regresin la bondad del ajuste es simplemente o r2 . Con lo cual el modelo lineal dar mejores predicciones cuando r sea a prximo a 1 -1. o o

3.6. REGRESION

87

Interpretacin de los coecientes de regresin o o Obsrvese que la relacin 3.5 explica cosas como que si X var en 1 e o a var la cantidad b. Por tanto: unidad, Y a Si b > 0, las dos variables aumentan o disminuyen a la vez; Si b < 0, cuando una variable aumenta, la otra disminuye. Ejemplo de clculo con un modelo de regresin lineal a o En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y . Los resultados se muestran resumidos en los e siguientes estad sticos:

x = 14

SX = 2 SXY = 45

y = 100 SY = 25 Obtener el modelo de regresin lineal que mejor aproxima Y en funcin o o de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X = 15. Solucin: o Lo que se busca es la recta, Y = a + b X, que mejor aproxima los valores de Y (segn el criterio de los m u nimos cuadrados) en la nube de puntos que resulta de representar en un plano (X, Y ) las 1.500 observaciones. Los coecientes de esta recta son: b= SXY 45 2 = 4 = 11, 25 SX

a = y b x = 100 11, 25 14 = 57, 5 As el modelo lineal consiste en: , Y = 57, 5 + 11, 25 X

88

Bioestad stica: Mtodos y Aplicaciones e

Por tanto, si x = 15, el modelo lineal predice un valor de Y de: y = 57, 5 + 11, 25 x = 57, 5 + 11, 25 15 = 111, 25 Propiedades de la regresin lineal o Una vez que ya tenemos perfectamente denida Y , (o bien X) nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y (o la de X). La respuesta nos la ofrece la siguiente proposicin: o Proposicin o En los ajustes lineales se conservan las medias, es decir y = y x = x (3.6) (3.7)

En cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus aproximaciones X y Y , 2 , es decir, pues slo se mantienen en un factor de r o S 2Y S Observacin o Como consecuencia de este resultado, podemos decir que la proporcin o de varianza explicada por la regresin lineal es del r2 100 %. o Nos gustar tener que r = 1, pues en ese caso ambas variables tendr a an la misma varianza, pero esto no es cierto en general. Todo lo que se puede armar, como sabemos, es que 1 r 1 y por tanto
2 X 2 = r2 SY

(3.8) (3.9)

= r

2 SX

3.6. REGRESION

89

2 2 0 SY SY

La cantidad que le falta a la varianza de regresin, S 2 Y , para llegar hasta o 2 la varianza total de Y , SY , es lo que se denomina varianza residual, Proposicin o La varianza residual del modelo de regresin es de Y sobre X es la o varianza de la variable E = Y Y . Obsrvese que entonces La bondad del ajuste es e
2 RY|X = 1 2 SE 2 2 2 = 1 (1 r ) = r SY

Para el ajuste contrario se dene el error como E = X X, y anlogamente a 2 . Todo esto se puede su varianza residual es tambin proporcional a 1 r e resumir como sigue: Proposicin o Para los ajustes de tipo lineal se tiene que los dos coecientes de determinacin son iguales a r2 , y por tanto representan adems la proporcin o a o de varianza explicada por la regresin lineal: o
2 2 RX|Y = r2 = RY|X

Por ello: Si | r | 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir de X y viceversa). Si | r | 0 las variables X e Y no estn relacionadas (linealmente al a menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo

90

Bioestad stica: Mtodos y Aplicaciones e

no es seguro que las dos variables no posean ninguna relacin en el o caso r = 0, ya que si bien el ajuste lineal puede no ser procentente, tal vez otro tipo de ajuste s lo sea.

Ejemplo De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y , se obtiene la siguiente informacin: o xi = 24; xi yi = 64; yi = 40;

2 SY = 12;

2 SX = 6.

Calcule: 1. La recta de regresin de Y sobre X. Explique el signicado de los o parmetros. a 2. El coeciente de determinacin. Comente el resultado e indique el o tanto por ciento de la variacin de Y que no est explicada por el o a modelo lineal de regresin. o 3. Si el modelo es adecuado, cul es la prediccin y para x = 4. a o Solucin: o 1. En primer lugar calculamos las medias y las covarianza entre ambas variables: x = x = SXY = ( xi /n = 24/8 = 3 yi /n = 40/8 = 5 xi yi )/n xy = 64/8 3 5 = 7 (3.10)

Vous aimerez peut-être aussi