Vous êtes sur la page 1sur 13

Captulo 7

Regresin y correlacin
Contenidos:

Dependencia funcional o exacta y dependencia estadstica


Concepto de regresin
Mtodo de mnimos cuadrados
Anlisis de la bondad de ajuste. Error cuadrtico medio, varianza residual
y coeficiente de determinacin lineal

Estadstica Econ
mica 2007-2008. S

Independencia - Dependencia
Cuando se estudian dos caractersticas simultneamente sobre una muestra, se
puede considerar que una de ellas influye sobre la otra de alguna manera.
Por ejemplo la altura y el peso o las horas de estudio y la calificacin en un
examen.
El objetivo principal de la regresin es descubrir el modo en que se relacionan.
Dos variables pueden considerarse:

Variables independientes No tienen relacin (una de ellas no sirve para


explicar los movimientos de la otra)
Dependencia funcional Y=f(x)
Dependencia estadstica

Independencia estadstica

Estadstica Econ

Dependencia
estadstica

Dependencia funcional

Grado de asociacin entre dos variables

mica 2007-2008. S

GRFICOS DE DISPERSIN: Permite ver si hay


asociacin
Dadas dos variables X y Y tomadas sobre el mismo
elemento de la poblacin, el diagrama de dispersin es
simplemente un grfico de dos dimensiones, donde en un
eje (la abscisa) se sita una variable, y en el otro eje (la
ordenada) se sita la otra variable. Si las variables estn
correlacionadas, el grfico mostrara algn nivel de
correlacin (tendencia) entre las dos variables. Si no hay
ninguna correlacin, el grfico presentara una figura sin
forma, una nube de puntos dispersos en el grfico.
Asociacin
positiva. Si
aumenta X
aumenta Y

Estadstica Econ
mica 2007-2008. S

GRFICOS DE DISPERSIN / RECTA DE


REGRESIN

La relacin entre dos variables mtricas puede ser


representada mediante la lnea de mejor ajuste a los
datos. Esta recta se le denomina recta de regresin,
regresin
que puede ser negativa o positiva, la primera con
tendencia decreciente y la segunda creciente.

Estadstica Econ
mica 2007-2008. S

GRFICOS DE DISPERSIN / RECTA DE


REGRESIN
Para el clculo de la
recta de regresin se aplica el
mtodo de mnimos cuadrados entre dos variables.
Esta lnea es la que hace mnima la suma de los
cuadrados de los residuos, es decir, es aquella recta en
la que las diferencias elevadas al cuadrado entre los
valores calculados por la ecuacin de la recta y los
valores reales de la serie, son las menores posibles.

y=a+
bx

Estadstica Econ
mica 2007-2008. S

Recta de regresin

Pendiente

yn

yi

yn 1

y3

u3

yi
y1

ui
yi

y2

Intercepto

x1

x2

x3

xi

xn 1

yi a bxi ui
Estadstica Econ
mica 2007-2008. S

xn

ui yi yi
Error

Llamemos a u perturbacin o error, siendo la diferencia que hay entre el


valor observado de la variable exgena (y) y el valor estimado que
obtendremos a travs de la recta de regresin yi .

y i a bxi
La metodologa para la obtencin de la recta ser hacer MNIMA la suma de
los CUADRADOS de las perturbaciones. Por qu se elevan al cuadrado?
n

2
u
i

u ( yi yi ) 2
2
i

i 1

min u ( y y )
q, p

i 1

2
i

Estadstica Econ
mica 2007-2008. S

i 1

i 1

(
y

y
)
i i
i 1

yi aq bpxi

En el modelo de regresin lineal simple la funcin elegida para aproximar la relacin entre las
variables es una recta, es decir y=a+bx, donde a,b son los parmetros. A esta recta la
llamaremos RECTA DE REGRESIN DE Y SOBRE X.
Vamos a deducir su ecuacin usando el mtodo de los mnimos cuadrados. Dado un valor de
X, tenemos los dos valores de Y, el observado, yi , y el terico, yi* = a + bxi. Hemos de
minimizar los errores cometidos:

y a bx y a bx
i

i 1

i 1

El valor que hemos


aproximado para y con
la recta de regresin y*

Errores cometidos al
aproximar por una recta

na

MINIMIZAR

y b x

x y y bx x b x
y

x y
x bxnx b x
i i

y abx 0 y a b x

2 y a bx x 0 x y a x b x

Estadstica Econ
mica 2007-2008. S

2
i

i i

i i

i i

2
i

2
a

a y bx

xi yi ynx b

S xy bS x2

2
i

xi2 nx 2

S xy
S x2

y obtenemos que la recta de regresin de Y sobre X: y = a + bx con los


valores a y b anteriormente calculados, o bien la siguiente expresin:

y y

S xy
S x2

x x

Aplicando el mismo razonamiento llegaramos a la expresin de la recta de


regresin de X sobre Y: x = a + by con los valores a y b calculados como:

b '

S xy

y a ' x b ' y

S y2

Por tanto, se podra expresar como:

x x
Estadstica Econ
mica 2007-2008. S

S xy
S y2

y y

Varianza residual: Ayuda a medir la dependencia.


VR =

Su2 S R2y

yi y i
N

Si es grande, los residuos, por trmino


medio, sern grandes. Dependencia
pequea y viceversa.

Varianza marginal: Es la varianza total de X o de Y. Si dividimos la


varianza residual entre esta se elimina el problema de unidades de
medida.

2
Sy

2
Sx

Su2
S y2

VR

VT y

Ayuda a determinar la
asociacin pero en
sentido inverso. La
mejor medida es R.

Coeficiente de correlacin general:

Su2
R 1 2
SY

Haciendo unas transformaciones se demuestra que r(xy)


visto en el captulo 6 slo es un caso particular de R

Elevado al cuadrado obtenemos el coeficiente de determinacin que sirve como


medida del buen ajuste de la recta de regresin

Cuando solo exista una variable explicativa o


Estadstica
Econ
independiente
y una
sola dependiente se cumple:
mica 2007-2008. S

rxy R
R

S xy S xy S xy
2
R bb'

S x2 S y2 S x S y

2
2

2
rxy

1 r 1

1 R 1 0 r 2 1 0 R2 1

Para el caso de distribuciones bidimensionales:

S
Recta de regresin: yi y XY2
SX

yi y

R r R2 r 2

S
S
x XY2 xi y XY2 xi x
SX
SX

S XY S X SY
S XY SY
SY
x

r
i
i
xi x
2
S X SY S X
S X SY S X
SX

r 1
Pendiente

Estadstica Econ
mica 2007-2008. S

1 r 0

Negativa

r0

Nula

0 r 1

r 1
Positiva

2
Y

Se descompone en:

S S VR
2
u

2
ry

S S S
2
R

2
Y

2
VE
u

2
VR VE
S
S
S

S
2
R
1

R 1
2
VT VT
S
SY
SY2
2
u
2
Y

2
Y

2
u

S S S
2
Y

2
R

Tanto por uno de la

2
u

VT VR VE

Y que viene explicado por la X

SIRVE
PARA DETERMINAR
SI EL AJUSTE HECHO ES BUENO. ES DECIR, SI LA
Estadstica
Econ
VARIABLE
X EXPLICA
mica 2007-2008.
S LAS VARIACIONES DE LA VARIABLE Y. DEBER SER > 0.75

S XY
yi qa bpxi y 2 xi x
SX
El objetivo ltimo de la regresin es la prediccin de una variable para un valor
determinado de la otra. La prediccin de Y para X = x0 ser simplemente el
valor obtenido en la recta de regresin de Y sobre X al sustituir el valor de x
por x0. La fiabilidad de esta prediccin ser tanto mayor cuando mayor sea la
correlacin entre las variables (es decir mayor sea R2 )

Dado un valor de la variable X que no ha sido observado, estimar el


correspondiente valor de Y

Dado x0

estimar

S XY
y 0 aq bpx0 y 2
SX
Estadstica Econ
mica 2007-2008. S

y 0

x0 x

Vous aimerez peut-être aussi