Vous êtes sur la page 1sur 15

TEMA 4: REGRESIN Y CORRELACIN.

4.1. Regresin y correlacin lineal simple.................................................. 1 4.2. El mtodo de los mnimos cuadrados y las ecuaciones normales. ........ 3 4.3. Regresin lineal: recta de regresin (mnimos cuadrados). ................. 4 4.3.1. Propiedades de las rectas de regresion. ........................................ 6 4.4. Regresin no lineal. ............................................................................. 6 4.4.1. Ajuste parablico........................................................................... 6 4.4.2. Ajuste Hiperblico. ........................................................................ 7 4.4.3. Ajuste Exponencial. ....................................................................... 8 4.4.4. Ajuste Potencial............................................................................. 8 4.5. El coeficiente de determinacin correlacin. El coeficiente de correlacin lineal. ..................................................................................... 10 4.5.1. La varianza residual. Coeficiente de determinacin. .................... 10 4.5.2. Valores del coeficiente de determinacin. ................................... 12 4.5.3. Valores del coeficiente de correlacin lineal: Posiciones relativas de las rectas de regresin. .................................................................... 12 4.6. Prediccin.......................................................................................... 15

4.1. Regresin y correlacin lineal simple. Uno de los objetivos de toda ciencia es encontrar relaciones entre los hechos que estudia. Estas relaciones se traducen en expresiones matemticas. As si observamos varias veces el tiempo que tarda un mvil en recorrer una distancia y su velocidad (supuesto que se desplaza con velocidad uniforme), los valores observados estn claramente relacionados y esa relacin puede expresarse matemticamente como v = s / t (v t = s). No obstante, existen otras variables como inflacin y tipo de inters, oferta y demanda, ahorro y renta, etc., entre las que no cabe duda de que existe una relacin, pero no existe una funcin matemtica que verifiquen rigurosamente. Pues bien en el primero de los casos (tiempo y velocidad) diremos que existe una dependencia funcional, y en el segundo (inflacin y tipo de inters) una dependencia estadstica. La diferencia es que en la primera la relacin entre las variables es estricta y perfecta, y en la segunda el modelo matemtico al que lleguemos deber aproximar la relacin entre variables razonablemente, por lo que deberemos determinar su forma y contrastar su bondad. Las dependencias de tipo estadstico, son muy frecuentes en economa, y en general en todas las ciencias sociales. A las tcnicas estadsticas utilizadas para determinar modelos o expresiones que relacionen el comportamiento de varias variables se les denomina tcnicas de regresin. Previamente a la aplicacin de tcnicas de regresin, se requiere un anlisis terico, que relacione las variables objeto de estudio, que de consistencia al anlisis estadstico: Este anlisis es necesario porque es posible distinguir distintos tipos de dependencia entre variables: A) Al azar: a la vista de la informacin disponible se plantea una relacin absurda entre variables. Ejemplo: los ciclos econmicos y las manchas solares: Una de las teoras cclicas mas atrevidas fue puesta sobre la mesa por Stanley Jewons a finales del siglo xix; esta (avanzada) teora atribua las causas ultimas del desarrollo de los ciclos econmicos a la evolucin de las manchas solares.

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 1-15

TEMA 4: REGRESIN Y CORRELACIN.

A este respecto jewons hizo notar que el sol tiene unos ciclos de actividad que, cuando estn en su fase lgida, generan un mayor numero de manchas solares que inducen alteraciones meteorolgicas en latierra; estos ciclos de actividad solar que segn lo calculado tenan una duracin media de 10,45 aos y precisamente la misma duracin media (10,46 aos) que los ciclos econmicos habidos entre 1.721 y 1.878, de acuerdo conlos clculos de Jewons. Obviamente tal coincidencia en cuanto a la dimensin temporal de estos fenmenos, se debe a la casualidad, ya que la correlacin, no tiene por que implicar necesariamente causalidad. Sin embargo Jewons pens que la correlacin entre los dos ciclos era demasiado estrecha para ser accidental, y en funcin de ello sugiri la causalidad generadora de los ciclos, es decir la evolucin de la actividad solar, determinara la evolucin de la actividad econmica. B) Una tercera variable influye sobre las dos variables consideradas: cuando dos variables se ponen en dependencia, se supone que una explicara el comportamiento de la otra, pero es posible que exista una tercera variable, que acte como motor de esa relacin. As es evidente la relacin entre consumo y ahorro de las familias, pero ello no implica que una explique la otra, ya que es una tercera variable (la renta), la que determina su relacin. (no hay relacin causa-efecto entre las dos primeras variables consideradas). C) Una variable influye en la otra: as por ejemplo el gasto en carne de una familia vendr determinado (aunque no de modo exclusivo) por el numero de miembros de la unidad familiar.

Si dos variables presentan una dependencia estadstica, es decir, no funcional, no es posible encontrar una ecuacin, tal que los valores que puedan presentar dichas variables la satisfagan. Grficamente, equivale al hecho de que no es posible encontrar una funcin, tal que su grafica pase por todos los puntos correspondientes al diagrama de dispersin asociado a las variables observadas.
35 30 25 EDAD 20 15 10 5 0 30 40 50 60

3 1

2
PESO

70

80

90

100

*el diagrama de dispersin consiste en representar grficamente nuestros pares de observaciones (xi , yi). Representaremos en el eje de abcisas los posibles valores de una variable(x), en el eje de ordenada los posibles valores de la otra variable (y). Los puntos del grafico sern las intersecciones (xi , yi) obtenidas de nuestras observaciones. Al conjunto de puntos obtenido se le denomina nube de puntos. Ante la imposibilidad de encontrar una grafica que pase por todos los puntos de la nube, la funcin cuya grafica ms se aproxime a los datos observados expresara mejor la relacin entre los mismos. En nuestro ejemplo la funcin grafica (1)
DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 2-15

TEMA 4: REGRESIN Y CORRELACIN.

expresa mejor la relacin que la (2), pero si tenemos que decidir entre la (1) y la (3), la eleccin no seria tan elemental. Esto indica que el mtodo grafico puede ser de gran ayuda, pero no es suficiente para determinar la mejor funcin, por ello recurriremos a mtodos matemticos, que no dependan de opiniones subjetivas. A la variable que se quiere predecir se le denomina dependiente o endgena y a la variable a partir de la cual queremos hacer la prediccin, se le llama independiente, exgena o explicativa. Cuando solo utilicemos una variable independiente, estaremos ante la regresin y correlacin simple. Si interviene ms de una la regresin o correlacin se denomina mltiple. Una de las aplicaciones mas interesantes de la regresin en economa es la de predecir, esto es, conociendo el valor de una de las variables, estimar el valor que presentara otra variable relacionada con la primera. Hay que advertir, que una relacin estadstica fuerte entre variables, no implica la existencia de una relacin causa-efecto entre ellas. Por ejemplo existe una fuerte correlacin entre el nmero de burros (de 4 patas) y el nmero de licenciados universitarios. Ello es fruto de la dependencia comn de ambas variables de una tercera variable (el desarrollo econmico industrial), sin que en ningn caso podamos afirmar que una es causa de la otra. 4.2. El mtodo de los mnimos cuadrados y las ecuaciones normales. Hacer regresin, consiste en ajustar lo mejor posible una funcin a una serie de valores observados, grficamente equivale a encontrar una curva (recta) que aunque no pase por todos los puntos de la nube, al menos este lo mas prxima posible a ellos. Supongamos que para poder predecir y en base al conocimiento de x, se ha ajustado una funcin que expresa de la mejor forma posible el comportamiento de Y en funcin de X (Y = f(X)):

35 30 25 20 15 10 5 0 30 40 50 60 PESO 70 80 90

y=f(x)

EDAD

100

Pues bien utilizando la mencionada funcin, pronosticaramos que si X= xi entonces la variable Y tendra una valor esperado y i = f ( x i ) . Este valor posiblemente no coincidir con el que realmente ha presentado la variable Y, yi, de manera que en dicha prediccin se habr cometido un error;

ei = y i y i

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 3-15

TEMA 4: REGRESIN Y CORRELACIN.

Esta diferencia se denomina residuo, y nos da una medida del error cometido en el ajuste para cada punto del diagrama de dispersin. Un criterio para obtener un buen ajuste que evite que se compensen residuos de signo positivo con residuos de signo negativo y que sea manejable (algebraicamente), seria minimizar la suma de los cuadrados de los residuos, es decir, hacer mnima la suma:

ei2 = ( yi yi ) 2 = ( yi f ( xi )) 2
i =1 i =1 i =1

Este criterio de minimizar la suma de cuadrados es el conocido como criterio de mnimos cuadrados. Se puede observar que el desarrollo anterior consiste en la bsqueda de un procedimiento para medir la distancia de un conjunto finito de puntos a una curva. Las funciones que se ajustan con ms frecuencia y sus ecuaciones generales, son: Recta: y = ax + b Parbola: y = a + bx + cx2 Polinomio de grado n : y = a + bx + cx2 + dx3 + ... + zxn Hiprbola equiltera: y = a + b/x Funcin potencial: y =axb Funcin exponencial: y = abx Curva logstica: y = a/(1 + be-cx) Exponencial modificada: y = a + be cx Si la funcin es una recta, la regresin se denomina lineal. 4.3. Regresin lineal: recta de regresin (mnimos cuadrados). Vamos a encontrar entre todas las rectas, cuya ecuacin general es y = a + bx, cual es la que segn el mtodo de mnimos cuadrados mejor se ajusta a los datos observados para una variable bidimensional (x, y). Conocido el valor xi de la variable X, el valor esperado de y ser:

y i = a +bxi,

cometindose un error respecto del valor observado de ei = yi a bxi. El mtodo de mnimos cuadrados, en el caso de la recta, trata de encontrar los coeficientes a y b que hagan mnima la expresin:

S ( a, b ) = ei2 = ( yi a bxi )2
Para que exista un mnimo en el punto (a0, b0) la condicin necesaria, es que se anulen las derivadas parciales de primer orden en dicho punto, es decir:

S ( a0 , b0 ) = - 2 ( yi a bxi ) = 0 a S( a0 , b0 ) = - 2 ( yi a bxi ) xi = 0 b

(1)

(2)

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 4-15

TEMA 4: REGRESIN Y CORRELACIN.

A las dos ecuaciones anteriores (1) y (2), se les denomina ecuaciones normales de la recta, y la solucin del sistema que forman (sistema de 2 ecuaciones con dos incgnitas) ser un punto (a0, b0) donde S(a,b) se hace mnima. Este sistema tambin lo podemos escribir como:

yi = n a + b xi yi xi = a xi+ b xi2

Vamos a despejar los valores de a y b solucin del sistema. Para ello dividimos las dos ecuaciones por n y nos encontramos con:

y = a + bx a11 = ax + ba X 2
Despejando a de la primera ecuacin:

a = y bx
Y sustituyendo en la segunda ecuacin:
2 a11 = ( y bx ) x + ba X 2 = yx bx 2 + ba X 2 = yx + b(a X 2 x 2 ) = yx + bS X

Si ahora despejamos b en esta expresin, tenemos;

b=

a11 yx S XY = 2 2 SX SX

Pues bien, si sustituimos los valores a y b que hemos calculado en la ecuacin general de la recta (y=a+bx), obtenemos;

y = (y
Que podemos expresar como;

S S XY x ) + XY x 2 2 SX SX

y y =

S XY (x x) 2 SX

A la expresin dentro del recuadro se le llama recta de regresin de Y/X. De modo anlogo podramos haber obtenido la recta de regresin de X/Y llegando a una expresin de la forma;
DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 5-15

TEMA 4: REGRESIN Y CORRELACIN.

xx =

S XY ( y y) S Y2

De las ecuaciones de las dos rectas de regresin se deduce que ambas pasan por el punto ( x , y ) , pudindose dar dos alternativas: que coincidan (sus pendientes debern ser iguales) o que se corten solo en dicho punto. 4.3.1. Propiedades de las rectas de regresion. Propiedad 1: la suma de los residuos ei vale 0 (y por tanto su media tambin), esto es: Demostracin: ei = 0

ei = ( yi a bxi ) = yi - a b xi= yi - n a b xi = 0 Ya que a y b son solucin de la primera ecuacin del sistema. Propiedad 2: Si la dependencia existente entre las dos variables es funcional, las dos rectas de regresin son coincidentes. Propiedad 3: La covarianza de las variables Y y e vale 0.

Sey = a11 a01 a10, y sabemos por la propiedad 1 que a10= 0, entonces bastar demostrar que a11 = 0 (sin demostracin).

Sey= 0

4.4. Regresin no lineal. Aunque la regresin lineal, tiene aplicacin en muchos problemas, en algunos casos, la relacin que liga las variables exige la utilizacin de ajustes no lineales. No obstante incluso en estas ultimas situaciones, por su sencillez, suele aplicarse la regresin lineal aprovechando el que casi toda funcin (curva) puede aproximarse por una recta en un pequeo dominio.

4.4.1. Ajuste parablico. Si predecimos la variable y mediante una parbola de ecuacin general y = a + b x + c x2 el valor esperado ser:

y i = a + b xi + c xi 2 Y el error cometido ser: ei = yi - y i = yi a - b xi - c xi 2.

El mtodo de mnimos cuadrados nos conduce a la parbola que hace mnima la funcin: S( a, b, c ) = ei2 = ( yi a bxi - c xi 2)2
DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 6-15

TEMA 4: REGRESIN Y CORRELACIN.

Para que esa funcin suma S(a,b,c,) alcance un mnimo, sus derivadas parciales debern valer 0:

(1) (2) (3)

S( a0 , b0, c0 )

= - 2

( yi a bxi - c xi 2) = 0
2

a S( a0 , b0, c0 ) = - 2 ( yi a bxi - c xi b S( a0 , b0, c0 ) = - 2 ( yi a bxi - c xi c

) xi = 0 ) xi2 = 0

Si dividimos las tres ecuaciones (sistema de ecuaciones normales) por n obtenemos un sistema de tres ecuaciones con tres incgnitas, cuya resolucin nos proporcionara los coeficientes a, b, y c de nuestra parbola de ajuste:

y = a + b x + c a20
a11 = a x + b a20+ c a30 a21 = a a20 + b a30+ c a40
Este tipo de ajuste se utiliza por ejemplo en microeconoma para la curva de costes marginales en funcin del volumen de produccin (que tiene forma de U). Este ajuste se puede generalizar, si queremos ajustar por un polinomio de grado superior a 2, que tendr una expresin general: y = b0 + b1 x + b2 x2 +.....+ bn xn El mtodo de mnimos cuadrados nos conducir a un sistema similar al anterior, pero con n ecuaciones y n incgnitas, cuya resolucin nos proporcionara los valores de b0, b1, b2,....., bn 4.4.2. Ajuste Hiperblico. Si predecimos la variable y mediante una hiprbola de ecuacin general: y = a + b (1/x) El valor esperado ser:

yi

= a + b (1/xi )

Y el error cometido ser: ei = yi -

y i = yi a b (1/ xi).

El mtodo de mnimos cuadrados nos conduce a la hiprbola que hace mnima la funcin: S( a, b ) = ei2 = ( yi a b(1/xi ))2 Ahora podemos razonar de forma alternativa a la empleada hasta ahora definiendo la variable z = 1 /x con lo que transformamos la hiprbola en la recta y = a + bz obteniendo un sistema de ecuaciones normales:

yi = n a + b (1/xi ) yi (1/xi )= a (1/xi )+ b (1/xi2)

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 7-15

TEMA 4: REGRESIN Y CORRELACIN.

Que resolveremos de modo anlogo al realizado en el ajuste lineal. Esta es una manera alternativa, pero podamos haber efectuado el mismo razonamiento que para el ajuste parablico. La curva de Engel que expresa la demanda de un bien en funcin de la renta, adopta en ocasiones la forma de una hiprbola equiltera. 4.4.3. Ajuste Exponencial. Si predecimos la variable y mediante una exponencial de ecuacin general: y = a ebx El valor esperado ser:

y i = ae bx bx Y el error cometido ser: ei = y i y i = y i ae


i

Al igual que en el caso anterior tenemos dos alternativas: Bien obtener el mnimo de la funcin: S( a, b ) = ei2 = ( yi a ebx )2 (Este mtodo nos conduce a un sistema de ecuaciones imposible de resolver). O bien transforma la funcin exponencial en una funcin lineal. Esto se hace tomando logaritmos en la ecuacin general. Nos decantamos por este procedimiento:

Lny = Ln(ae bx ) = Lna + Lne bx = Lna + bx


Llamando: Y = ln y ; A = ln a ; b=b ; x=x

Podemos presentar la ecuacin: Y=A+bx Cuyo sistema de ecuaciones normales seria: ln yi = n Lna + b xi xi ln yi = Lna xi + b xi2 4.4.4. Ajuste Potencial. Si predecimos la variable y mediante una potencial de ecuacin general y = a xb el valor esperado ser: Y el error cometido ser: ei =

y i = ax ib y i y i = y i ax ib

Nuevamente tenemos dos alternativas:


DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 8-15

TEMA 4: REGRESIN Y CORRELACIN.

A) Hacer mnima la suma de los cuadrados de los residuos (da lugar a un sistema de ecuaciones que no podemos resolver). B) Transformar la funcin en una funcin lineal (tomando logaritmos): Ln y =ln( a xb) = ln a + b lnx Llamando: Y = ln y ; A = ln a ; b=b ; X = ln x

Podemos presentar la ecuacin: Y=A+bX Cuyo sistema de ecuaciones normales seria: ln yi = n Ln a + b ln xi lnxi ln yi = Lna lnxi + b (ln xi)2 Ejercicio: ajustar a una funcin potencial y a una funcin exponencial, los siguientes datos: 2 4 3 1 Xi Yi 6 5 1 3 Para ajustar a una funcin potencial: A) y = a xb ln y = ln a + b ln x Y= A + b X Para ajustar a una funcin exponencial: B) y = a ebx ln y = ln a + bx Y = A + b x Ampliamos nuestra tabla con los datos que faltan: Yi Ln xi Ln yi Lnxiln yi Xi ln yi Xi 2 6 0.693 1.79 1.24 3.58 4 5 1.386 1.61 2.23 6.44 3 1 1.099 0 0 0 1 3 0 1.099 0 1.099 10 Sumas 3.178 4.5 3.47 11.119 a) FUNCION POTENCIAL: Xi2 (ln xi)2

4 16 9 1 30

0.48 1.92 1.21 0 3.61

SLn x Ln y Ln x Ln y B = b = ------- = -0.0967 ; A= Ln a = Ln y- ------- Ln x = 1.202;a = Exp A=3.326 S2 Ln x S2 Ln x SUSTITUYENDO ESTOS COEFICIENTES EN y = a xb TENEMOS NUESTRA FUNCION DE AJUSTE POTENCIAL: Y = 3.326 X-0.0967 b) FUNCION EXPONENCIAL: S x Ln y Sx Ln y B = b = ------- = -0.0262 ; A= Ln a = Ln y - ------ x = 1.190 S2 x S2x

a = Exp A=3.289

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 9-15

TEMA 4: REGRESIN Y CORRELACIN.

SUSTITUYENDO ESTOS COEFICIENTES EN y = a ebx TENEMOS NUESTRA FUNCION DE AJUSTE EXPONENCIAL: Y = 3.289 e-0.0262 X

4.5. El coeficiente correlacin lineal.

de

determinacin

correlacin.

El

coeficiente

de

Antes de enunciar y describir brevemente otras formas de ajuste deberemos plantearnos lo siguiente: La regresin nos permite ajustar una nube de puntos a una recta (ajuste lineal) o curva (ajuste no lineal), lo que equivale a conocer la forma en la que se relacionan las variables. De otra manera, la regresin determina la mejor de las rectas o curvas establece una relacin entre dos variables, pero el hecho de que sea la mejor posible, no quiere decir que sea buena (puede ocurrir que los errores que estemos cometiendo sean elevados), ya que es posible que exista otra funcin matemtica que modelice mejor la relacin entre las variables. Por tanto tan importante ser conocer la forma en que se relacionan las variables (de eso se ocupa la regresin), como conocer el grado de asociacin/dependencia de dichas variables (de esto se ocupa la correlacin), y encontrar alguna medida o coeficiente que nos mida el grado de bondad o de representatividad de la relacin que hemos establecido mediante tcnicas de regresin. 4.5.1. La varianza residual. Coeficiente de determinacin. El mtodo de mnimos cuadrados toma como medida del error que se comete, cuando ajustamos a una curva/recta, la suma de los residuos al cuadrado:

e
i =1

2 i

= ( y i y i ) 2 = ( y i f ( xi )) 2
i =1 i =1

Esa cantidad dividida por n se utiliza como medida de la bondad del ajuste. En el caso de funciones lineales (recta, parbola, hiprbola, etc.), la media de los residuos es 0(propiedad 1), por lo que la suma de los cuadrados de los residuos dividida por n no es otra cosa que la varianza de la variable ey se denomina varianza residual:

ei2
i =1

(e
i =1

e) = S e2

Veamos el significado de esta varianza residual:

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 10-15

TEMA 4: REGRESIN Y CORRELACIN.

2 2 e i = y i y i y i = y i + ei S y = S y + S e2

El primer sumando a la derecha de la igualdad se denomina varianza explicada por la regresin y nos indica en qu medida queda explicada la variable dependiente (y) mediante el modelo de ajuste, pudindose interpretar el segundo sumando -que es la varianza residual- como una medida de lo que queda sin explicar despus de haber efectuado la regresin. Esta varianza residual presenta el problema de determinar a partir de que valores es suficientemente pequea o grande como para admitir un buen o mal ajuste: la respuesta a este interrogante nos la dar el coeficiente de determinacin R2.

R =
2

2 Sy 2 Sy

2 S y S e2 2 Sy

= 1

S e2
2 Sy

Antes de estudiar el rango de variacin de este coeficiente, veamos una forma cmoda de calcular se 2 para el caso particular de un ajuste lineal:
2 S y i =1 2 y i a y i b xi y i i =1 i =1 n n n

R =
2

2 Sy 2 Sy

2 S y S e2 2 Sy

n
2 Sy

Si sustituimos a y b por sus valores: a = y bx ; b = que:


i =1

S xy S x2

y tenemos en cuenta

y n

2 i

=S +y
2 y

i =1

yi n

=y

x y
;
i =1 i

= S xy + x y

Tenemos que:

R2 =

2 Sy

2 y

2 S y S e2

S =
2 y

y i2 ( y
i =1

S XY
2 SX

x ) y i
i =1

S XY
2 SX

x y
i =1 i

n S
2 y

2 y

S S S S S 2 S y ( S Y2 + y 2 ) ( y XY x ) y XY ( S xy + x y ) XY x y + XY S xy + XY x y ) 2 2 2 2 2 SX SX SX SX SX = = 2 2 Sy Sy S = XY 2 2 S X SY S X SY
2 S XY

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 11-15

TEMA 4: REGRESIN Y CORRELACIN.

S xy SxS y

se le denomina coeficiente de correlacin lineal y se denota con la letra

r:

r=

S xy Sx Sy

Por tanto, en el caso (y nicamente en este caso) de un ajuste lineal, se tiene que:

R2 = r 2
4.5.2. Valores del coeficiente de determinacin. El coeficiente de determinacin toma valores entre 0 y 1;

0 R2 1

Toma el valor 0 cuando la regresin no explica nada de la variabilidad de los valores observados y por tanto el ajuste obtenido no modeliza adecuadamente (ni siquiera minimamente) la relacin entre variables.

R =
2

S y2 S
2 y

= 0 S y2 = 0 S y2 = S e2

Toma el valor 1 cuando el ajuste efectuado recoge toda la variabilidad de la variable original, y por tanto el ajuste es perfecto.

R =
2

S y2 S
2 y

= 1 S y2 = S y2 S e2 = 0

Para valores entre 0 y 1, el ajuste es tanto mejor cuanto ms se aproxima a 1 el coeficiente de determinacin. Los ajustes se consideran razonables cuando R 0,75 .
2

4.5.3. Valores del coeficiente de correlacin lineal: Posiciones relativas de las rectas de regresin. El coeficiente de correlacin lineal puede utilizarse como medida alternativa al coeficiente de determinacin para evaluar la bondad del ajuste exclusivamente en el caso de regresin lineal. Veamos las posiciones relativas de las rectas de regresin de Y/X y de X/Y y su relacin con los valores del coeficiente de correlacin lineal. Dado que el coeficiente de correlacin lineal se define como:

r=

S xy Sx Sy

con

R2 = r 2

Podemos asegurar que:

0 r 2 1 1 r 1

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 12-15

TEMA 4: REGRESIN Y CORRELACIN.

A) Cuando r = 0, esto supone nicamente que no existe relacin lineal alguna entre x e y, sin embargo pueden estar estrechamente ligadas de acuerdo con otro tipo de funcin por ejemplo x2 + y2 = 1(ver figura). Y/X

X/Y

Conclusin: por tanto cuando r = 0 el ajuste lineal no ser el indicado. Esta conclusin y la exposicin son tambin aplicables al ajuste hiperblico, considerando en lugar de las variables x e y, las variables z e y, siendo z = 1/x. B) r = 1. Cuando r = 1, r2 = 1, entonces la varianza residual s2e=0 Esto implica que todos los errores o residuos son nulos y que las rectas de regresin pasan por todos los puntos que se han observado. Por tanto las dos rectas coinciden. Si r=1 la pendiente de las rectas ser positiva y si r=-1 la pendiente de las rectas ser negativa (ver figura).

r = 1(corr.perfecta +)

r = -1(corr.perfecta -)

C) 1 < r < 0 0 < r < 1. Estas situaciones intermedias sern las que mas veces se presenten en la prctica. A medida que r se aleja de 0 mejor ser el ajuste por una recta de mnimos cuadrados. NOTAS: * Si consideramos las rectas de regresin Y / X Y = aX + b y X / Y X = cY + d sus pendientes son respectivamente a =

S xy
2 Sx

;c =

S xy
2 Sy

y por tanto el coeficiente de

correlacin lineal al cuadrado viene determinado como el producto de las pendientes de las dos recta de regresin:

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 13-15

TEMA 4: REGRESIN Y CORRELACIN.

S xy r = S S x y
2

S S = xy xy = bc 2 2 Sx Sy

* Ambas rectas se cortan en el punto x, y . Es decir las dos rectas de regresin siempre se cortan y lo hacen en ese punto:

x
* Las dos rectas tienen pendientes con el mismo signo por lo que no es posible la siguiente situacin:

x
* Si las variables son independientes su covarianza valdr 0 y por tanto las dos rectas de regresin sern de la forma: Y / X y = y y X / Y x = x

x
* Bondad del ajuste de la parbola. Debido a que la recta es un caso particular de parbola (la parbola tiene por ecuacin y = a + bx +cx2 .la recta es el caso particular cuando c = 0), se obtendrn siempre mejores ajustes mediante parbolas que mediante funciones lineales (rectas), siendo el coeficiente de determinacin para la parbola siempre mayor que el de la recta (recordemos que en la recta r2 = R2).

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 14-15

TEMA 4: REGRESIN Y CORRELACIN.

Por este mismo razonamiento puede pensarse que considerando polinomios de mayor grado se consiguen mejores ajustes (recordemos que la parbola es un polinomio de grado 2). Pero no debe pensarse que simplemente con incrementar el orden del polinomio de ajuste se puede llegar a obtener un ajuste tan bueno como se quiera. La bondad del ajuste depender del mayor o menor grado de asociacin entre las variables en estudio, si estas no presentan apenas relacin (de cualquier tipo) no podremos encontrar funciones que ajusten bien los datos observados. 4.6. Prediccin. Como ya indicamos, la prediccin es una de las aplicaciones ms importantes de la regresin. La prediccin consiste en determinar(a partir del modelo ajustado), el valor de la variable dependiente para un valor dado de la variable independiente. Cuando la estimacin/prediccin se hace para un valor de la variable independiente dentro del rango de nuestras observaciones se denomina interpolacin y si se hace para un valor de la variable fuera del rango se denomina extrapolacin. Para la interpolacin la fiabilidad de los valores pronosticados ser tanto mayor cuanto mejor sea el ajuste (cuanto mayor sea R2), en el supuesto, claro esta, de que exista relacin/asociacin entre las variables. Cuando hacemos predicciones para valores de la variable muy alejados del rango de variacin de la variable independiente, se corre el riesgo de que el modelo ajustado no sea valido para dichos valores en la medida dada por R2. Bibliografa bsica * M Angeles palacios, Fernando A. Lpez Hernndez , Jos Garca Crdoba y Manuel Ruiz Marn. INTRODUCCIN A LA ESTADSTICA PARA LA EMPRESA. Librera Escarabajal * Martn-Pliego Lpez, Fco. Introduccin a la estadstica econmica y empresarial. Ed. Thomson * Casas, J. M., Callealta, J., Nez, J., Toledo, M. y Urea, C. (1986). Curso Bsico de Estadstica Descriptiva. I.N.A.P. * Hermoso Gutirrez, J. A. y Hernndez Bastida, A. (1997). Curso Bsico de Estadstica Descriptiva y Probabilidad. Ed. Nmesis. Para saber ms o aclarar dudas:
http://www.monografias.com/trabajos26/estadistica-inferencial/estadisticainferencial.shtml http://descartes.cnice.mecd.es/Bach_CNST_1/Variables_estadisticas_bidimensionales_regre sion_correlacion/Indice.htm http://campusvirtual.uma.es/estadcomp/Cap2.pdf http://www.elprisma.com/apuntes/curso.asp?id=5946 http://isi-eh.usc.es/eipc1/MATERIALES/331102886.pdf http://www.eui.upm.es/~acorral/material/regresion.pdf http://www3.uji.es/~mateu/t2-ig12.doc

DEPARTAMENTO DE MTODOS CUANTITATIVOS E INFORMTICOS FACULTAD DE CIENCIAS DE LA EMPRESA UNIVERSIDAD POLITCNICA DE CARTAGENA 15-15

Vous aimerez peut-être aussi