Vous êtes sur la page 1sur 12

TEMA 2: ESTADSTICA DESCRIPTIVA BIVARIANTE O BIDIMENSIONAL

2. MEDIDAS DE RELACIN ENTRE VARIABLES O CARACTERSTICAS.

DOS

2.3 ESTUDIO DE UNA VARIABLE CUANTITATIVA FRENTE A OTRA VARIABLE CUANTITATIVA: CORRELACIN Y REGRESIN.

2.3.2 ANLISIS DE LA REGRESIN

Como se comprueba cuando representamos un grfico de dispersin o nube de puntos como el de abajo, podemos observar de manera intuitiva cierto grado de asociacin o correlacin lineal entre las dos variables cuantitativas. Incluso se podra imaginar una recta, llamada Recta de Regresin, que se ajustase lo ms posible a la nube de puntos.
100 90 80 70 60 50 40 30 140 150 160 170 180 190 200

Fuerte relacin directa.

No obstante, la apreciacin visual de la existencia de correlacin o asociacin no es suficiente.

El objetivo del Anlisis de la Regresin es encontrar un procedimiento de seleccin de la relacin funcional entre las variables cuantitativas (que suele ser un polinomio de grado 1). En principio, hay que obtener la funcin matemtica que mejor explica una variable cuantitativa Y (variable dependiente o a explicar) a partir de otra variable cuantitativa X (variable independiente o explicativa o factor). Adems de la finalidad explicativa, y una vez encontrada la funcin que representa esta dependencia de las variables, el anlisis de la regresin permite predecir los valores de la variable dependiente para distintos valores de la variable independiente. Finalmente, podremos calcular la fiabilidad de esta prediccin o bondad del ajuste. La relacin funcional entre las variables se puede buscar sin ningn tipo de limitacin (es la Regresin General, escaso inters prctico) o limitndose a algn tipo de funcin sencilla como, por ejemplo, la funcin lineal o polinomio de grado 1 (y=a+bx), la funcin cuadrtica o polinomio de grado 2 ( y = a + bx + cx 2 ), la funcin exponencial ( y = aebx o y = e a +bx ). El caso ms comn es el de la Regresin Lineal dado que diversos motivos avalan esta eleccin: a) La relacin ms o menos lineal entre variables es frecuente. Adems, en muchas situaciones en las que no se da originalmente esta relacin, ciertas transformaciones sencillas en las variables (transformaciones logartmicas, exponenciales, inversas, cuadrticas,...) permiten obtener la deseada linealidad. b) La relacin lineal es fcilmente interpretable. c) Los desarrollos matemticos se facilitan. Por tanto, la relacin funcional o regresin entre las variables puede o no representarse por una recta, es decir, se un polinomio de grado 1. En el caso de que elijamos una recta para ajustarla a la nube de puntos, estaremos hablando de Regresin Lineal. En otro caso, trataremos con una Regresin No Lineal. Asimismo, diremos que una Regresin Lineal es Simple cuando solamente exista una variable independiente o explicativa. Cuando sean ms de una las variables independientes diremos que la Regresin Lineal es Mltiple. Por tanto, vamos a obtener la funcin matemtica que mejor explica a la variable cuantitativa Y (variable dependiente o a explicar) a partir de otra variable cuantitativa X (variable independiente o explicativa o factor) que expresamos en la forma:
= f (X ) Y
y no Y en la expresin del modelo lineal porque el Obsrvese que se ha escrito Y resultado de ste es una aproximacin o estimacin de los valores de la muestra, Y. Para indicar este resultado se utiliza el acento circunflejo sobre la Y.

Por tanto, la estimacin no tiene porqu coincidir con Y en todos los puntos de la muestra y, por ello, se cometen errores. Veamos esta situacin en la siguiente representacin grfica en la se representan los pares de datos de la muestra (xi, yi) y las i y los errores asociados, ei : estimaciones, y

Consideremos que un modelo de regresin lineal:

= a + bX Y
El problema que se plantea es cmo calcular las cantidades a y b a partir del conjunto de n observaciones o datos de la muestra:

de forma que se minimicen los errores, ei que se expresan en la forma: ei = yi y Por tanto, para cada par de valores correspondiente a cada uno de los n individuos de la muestra, se tiene un error, ei. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemtica, las que siguen: 1.- Dadas dos variable X, Y se elige un modelo de regresin, en este caso, lineal: = a + bX , que se denomina Regresin de Y sobre X y que para cada valor de la Y muestra es: i = a + bxi y 2.- Se define el error o Residuo ei asociado a cada valor de la muestra:

= yi a bxi ei = yi y i calculando la suma de 3.- Medimos el error que se comete al aproximar yi mediante y i al cuadrado. Se elevan al las diferencias entre los valores reales yi y los aproximados y cuadrado para que dichas diferencias sean positivas y no se compensen los errores. De esta forma se define la funcin Error Total:
i ) = ( yi a bxi ) Error (a, b) = ei2 = ( yi y
2 i =1 i =1 i =1 n n n 2

i por su expresin segn el modelo lineal. donde se ha sustituido y Se observa que la funcin del error total Error(a,b) es una funcin que depende de dos variables: los parmetros a y b, que han de ser calculados. Obsrvese que xi e yi no son incgnitas ni variables, sino que son datos conocidos, los datos de la muestra. 4.- Por tanto, hemos de calcular los parmetros que caracterizan a la recta de regresin: a y b. Esto se realiza en base al mtodo de los mnimos cuadrados. Su fundamento es que de entre todas las posibles rectas de regresin, buscaremos aquella que produzca los errores ms pequeo; en concreto, buscaremos aquellos valores de a y b o aquella recta de regresin que minimice la suma de los errores al cuadrado, es decir, que minimice la funcin error total. Los parmetros a y b que minimizan la funcin error total se calculan derivando el error total con respecto a los parmetros a y b, y se iguala a cero:

Error (a, b) =0 a Error (a, b) =0 b Consideramos la expresin de la funcin error total y la derivamos parcialmente respecto de a y de b:
n Error (a, b) = 2 ( yi a bxi ) = 0 a i =1 n Error (a, b) = 2 ( yi a bxi ) xi = 0 b i =1

Las anteriores expresiones se conocen como Ecuaciones Normales, que tambin pueden expresarse en la forma siguiente:
n n Error (a, b) = 2 ( yi a bxi ) = 2 ei = 0 a i =1 i =1 n n Error (a, b) = 2 ( yi a bxi ) xi = 2b ei xi = 0 b i =1 i =1

La resolucin del as Ecuaciones Normales (que no detallaremos) nos conduce a las siguientes expresiones para los parmetros a y b: - Ordenada en el Origen: a = y bx . Este coeficiente a nos da el valor de Y cuando X es cero (que no es siempre interpretable con sentido) - Pendiente: b =
S XY = CYX , denominado Coeficiente de Regresin de Y sobre X, y 2 SX representa lo que crece o decrece Y cuando X crece en una unidad.

Estos parmetros dan lugar a la Recta de Regresin Lineal Mnimo Cuadrtica.

Regresin de X sobre Y
El mismo procedimiento y semejantes conclusiones se obtienen cuando intentamos hacer la regresin de X sobre Y, pero, atencin!, para calcular la recta de regresin de X sobre Y es totalmente incorrecto despejar de la recta de regresin de Y sobre X, es decir,
= a + bX Y a 1 X = + Y b b

, es decir, xi son los valores La regresin de X sobre Y se hace aproximando X por i son las estimaciones dadas por la recta de regresin reales de la muestra y x correspondiente como se observa en la siguiente figura:

Entonces, los errores o residuos se definen en la forma siguiente: i ei = xi x

El procedimiento restante es anlogo al visto en el caso anterior, utilizndose tambin el mtodo de los mnimos cuadrados. Entonces, se define la Recta de Regresin de X sobre Y en la forma siguiente:

= a + bY X
o en notacin muestral: i = a + byi x donde puede deducirse que los parmetros de este modelo lineal son:
b= S XY = C XY 2 SY

a = x by

que son los parmetros que minimizan, en el sentido de los mnimos cuadrados, los = a + byi . De nuevo, el parmetro b se errores ei entre las cantidades xi y las x denominado Coeficiente de Regresin de X sobre Y (Cxy), y representa lo que crece o decrece X cuando Y crece en una unidad.

Relaciones entre las dos Rectas de Regresin


a) Si la correlacin es nula, rxy =0, las rectas de regresin son perpendiculares entre s, y sus ecuaciones son: y = y y x = x .

b) Los dos Coeficientes de Regresin (CYX y CXY), en general, no son iguales, pero los dos tienen siempre el mismo signo que la covarianza y, por tanto, son los dos positivos o negativos.

c) La anterior propiedad implica que las dos rectas de regresin son crecientes o decrecientes a la vez. d) El ngulo entre las dos rectas de regresin (el menor de los dos ngulos suplementarios formados) es agudo o como mximo recto. Cuanto menor sea este ngulo mayor ser la relacin lineal entre las variables X e Y.

Ejemplo
En una muestra de 1.500 individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes estadsticos:

Obtener el modelo de regresin lineal que mejor aproxima Y en funcin de X. Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada cuando X=15. Solucin:

= a + bX , que mejor aproxima los valores de Y (segn el Lo que se busca es la recta, Y criterio de los mnimos cuadrados) en la nube de puntos que resulta de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de esta recta son:

As, el modelo lineal tiene la siguiente expresin:

Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente la prediccin proporcionada por la recta de regresin puede considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades de la regresin lineal que estn a continuacin.

2.3.3 MEDIDAS DE LA BONDAD DEL AJUSTE Error de prediccin

Para cada valor xi de X, se obtiene una diferencia o residuo entre el valor observado yi en i obtenido a partir del modelo la nube de puntos y el correspondiente valor terico y lineal: i ei = yi y que es una primera medida, intuitiva.

Varianza Residual y Error Tpico de Estimacin

La Varianza Residual es la media de todos los residuos elevados al cuadrado y elevada al cuadrado y viene dada por la siguiente expresin: ) ( y y
i =1 i i n 2

Se2 =

El Error Tpico de Estimacin es la raz cuadrada de la varianza residual:

Se = Se2

La interpretacin de la Varianza Residual es la siguiente:

Si la varianza residual es pequea (cercana a cero), la dependencia entre las variables ser grande. Entonces, el ajuste entre la recta y la nube de puntos ser bueno. Si la varianza residual es grande los residuos sern grandes y la dependencia ser pequea. Entonces, el ajuste entre la recta y la nube de puntos ser malo.

Varianza debida a la Regresin

La Varianza debida a la Regresin nos sirve para ver en qu medida mejora la descripcin de la variable dependiente a travs de la independiente. Matemticamente, se demuestra que 2 2 2 SY = SY + Se

La anterior expresin se conoce como Descomposicin de la Varianza. Y sirve para valorar la bondad de la recta de regresin. La anterior expresin nos dice que la varianza 2 total de la variable Y, que es SY , es la suma de dos varianzas:

, S2 la varianza de Y , que representara la parte de la dispersin o variabilidad Y de la variable Y explicada por la regresin lineal (por la relacin lineal con la variable X); la varianza residual, Se2 , que representara la parte de la dispersin o variabilidad de la variable Y que no es explicada por la regresin.

Por tanto, la variabilidad total o a explicar es la suma de la variabilidad de la regresin lineal ms la variabilidad residual o no explicada. As pues, cuando aumenta la varianza debida a la regresin, disminuye la varianza residual y el ajuste es bueno y al contrario.

Coeficiente de Determinacin

Un inconveniente de la varianza residual Se2 es que viene afectada por las unidades de medida de los datos (lo mismo que suceda con la covarianza) y esto imposibilita la comparacin de la dependencia entre grupos de variables.
l

Dividiendo la varianza debida a la regresin entre la varianza total de Y se obtiene una medida relativa de la bondad de ajuste que se encuentra entre cero y uno, denominada Coeficiente de Determinacion, R2:

R2 =

2 SY 2 SY

= 1

Se2 2 SY

es decir, este coeficiente es la variabilidad explicada (por la regresin) sobre la variabilidad a explicar (la total) expresado, normalmente, en porcentaje. Este coeficiente permite evaluar la capacidad explicativa y predictiva del modelo propuesto.

Cuando la regresin es lineal y slo se dispone de una variable independiente o explicativa, el coeficiente de determinacin es el cuadrado del coeficiente de correlacin lineal: R2 = r2xy, es decir, el coeficiente de determinacin (que mide la bondad del ajuste lineal) es igual al cuadrado del coeficiente de correlacin de Pearson (que mide la intensidad y el sentido de la relacin lineal). Interpretacin

El coeficiente de determinacin multiplicado por cien representa el porcentaje de la variabilidad de Y que es explicada por la recta de regresin, es decir, por su relacin con la variable X.

0 R 2 1. Si R2 = 1, todos los residuos valen cero y el ajuste es perfecto. Si R2 = 0 el ajuste es inadecuado. El coeficiente de determinacin de la recta de regresin de Y sobre X es el mismo que el de la recta de regresin de X sobre Y.

El objetivo ltimo de la regresin es la prediccin de una variable dependiente a partir de un valor determinado de la variable independiente, es decir, hacer una prediccin. La prediccin de Y para X=x* ser el valor obtenido en la recta de regresin de Y sobre X al sustituir el valor de x por x* . La fiabilidad de la prediccin ser mayor cuanto mayor sea la correlacin entre las variables, R2 o rxy.

Ejemplo
De una muestra de ocho observaciones conjuntas de valores de dos variables X e Y, se obtiene la siguiente informacin:

Calcule: 1. La recta de regresin de Y sobre X. Explique el significado de los parmetros. 2. El coeficiente de determinacin. Comente el resultado e indique el tanto por ciento de la variacin de Y que no est explicada por el modelo lineal de regresin. 3. Si el modelo es adecuado, cul es la prediccin Solucin: 1. 10 para x=4.

En primer lugar calculamos las medias y la covarianza entre ambas variables:

Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la misma es b, y mide la variacin de Ycuando X aumenta en una unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminucin de Y. En cuanto al valor de la ordenada en el origen, a, tenemos:

As, la recta de regresin de Y como funcin de X es:

2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de determinacin:

11

Es decir, el modelo de regresin lineal explica el 68% de la variabilidad de Y en funcin de la de X. Por tanto queda un 32% de variabilidad no explicada. 3. La prediccin que realiza el modelo lineal de regresin para x=4 es:

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior, hay una razonable cantidad de variabilidad que no es explicada por el modelo.

12