Vous êtes sur la page 1sur 13

Regresin y correlacin

Contenidos:

Dependencia funcional o exacta y dependencia estadstica
Concepto de regresin
Mtodo de mnimos cuadrados
Anlisis de la bondad de ajuste. Error cuadrtico medio, varianza residual
y coeficiente de determinacin lineal
Independencia - Dependencia

Cuando se estudian dos caractersticas simultneamente sobre una muestra,
se puede considerar que una de ellas influye sobre la otra de alguna
manera. Por ejemplo la altura y el peso o las horas de estudio y la
calificacin en un examen.

El objetivo principal de la regresin es descubrir el modo en que se relacionan.

Dos variables pueden considerarse:

Variables independientes No tienen relacin (una de ellas no sirve para
explicar los movimientos de la otra)
Dependencia funcional Y=f(x)
Dependencia estadstica


Independencia estadstica
Dependencia funcional
Dependencia
estadstica
Grado de asociacin entre dos variables
-
+
Estadstica Econmica
2007-2008. Sara Mateo.
Dadas dos variables X y Y tomadas sobre el mismo elemento de la
poblacin, el diagrama de dispersin es simplemente un grfico de
dos dimensiones, donde en un eje (la abscisa) se sita una
variable, y en el otro eje (la ordenada) se sita la otra variable. Si
las variables estn correlacionadas, el grfico mostrara algn nivel
de correlacin (tendencia) entre las dos variables. Si no hay
ninguna correlacin, el grfico presentara una figura sin forma,
una nube de puntos dispersos en el grfico.
GRFICOS DE DISPERSIN: Permite ver si hay asociacin
Asociacin
positiva. Si
aumenta X
aumenta Y
La relacin entre dos variables mtricas puede ser
representada mediante la lnea de mejor ajuste a los datos.
Esta recta se le denomina recta de regresin, que puede ser
negativa o positiva, la primera con tendencia decreciente y la
segunda creciente.
GRFICOS DE DISPERSIN / RECTA DE REGRESIN
Para el clculo de la recta de regresin se aplica el mtodo de
mnimos cuadrados entre dos variables. Esta lnea es la que
hace mnima la suma de los cuadrados de los residuos, es
decir, es aquella recta en la que las diferencias elevadas al
cuadrado entre los valores calculados por la ecuacin de la
recta y los valores reales de la serie, son las menores posibles.
GRFICOS DE DISPERSIN / RECTA DE REGRESIN
y = a + bx
1
x
2
x
3
x
i
x
1 n
x

n
x
1
y
2
y
3
y
i
y
1 n
y

n
y
Intercepto
Pendiente
Recta de regresin

i
y

i i i
u y y =
yi
i i i
u bx a y + + =
3
u
i
u
Error
Llamemos a u perturbacin o error, siendo la diferencia que hay entre el
valor observado de la variable exgena (y) y el valor estimado que
obtendremos a travs de la recta de regresin .
La metodologa para la obtencin de la recta ser hacer MNIMA la suma de
los CUADRADOS de las perturbaciones. Por qu se elevan al cuadrado?
2 2

( )
i i i
u y y =
2 2
1 1
( )
n n
i i i
i i
u y y
= =
=

( )
2
2 2
,
1 1 1

( )
min
n n n
i i i i i
q p
i i i
x p u q y y y
= = =
(
= = + (
(

i
y
i i
bx a y + =
.
a
b
En el modelo de regresin lineal simple la funcin elegida para aproximar la relacin entre las
variables es una recta, es decir y=a+bx, donde a,b son los parmetros. A esta recta la
llamaremos RECTA DE REGRESIN DE Y SOBRE X.

Vamos a deducir su ecuacin usando el mtodo de los mnimos cuadrados. Dado un valor de
X, tenemos los dos valores de Y, el observado, yi , y el terico, yi* = a + bxi. Hemos de
minimizar los errores cometidos:
( ) ( ) ( )

= =
= + = +
n
i
i i
n
i
i i
bx a y bx a y
1
2 2
1
El valor que hemos
aproximado para y con
la recta de regresin y*
Errores cometidos al
aproximar por una recta
MINIMIZAR
( )
( )

= =
+
= =
+

0 2
0 2
i
i
i i
i
i i
x bx a y
b
bx a y
a
c
c
c
c
x b y a x b y na
i
i
i
i
= + =

+ =
+ =


i i
i i
i
i i
i i i
i i
x b x a y x
x b a y
2
( )
2
2
2 2
2
2
x
xy
x xy
i
i
i
i i
i i
i i
i
i
i i
i i
i i
i
i i
S
S
b bS S
x n x b x n y y x
x b x n x b x
n
y
y x
x b x x b y y x
= =
|
|
|
.
|

\
|
=
+ =
+ =


y obtenemos que la recta de regresin de Y sobre X: y = a + bx con los
valores a y b anteriormente calculados, o bien la siguiente expresin:






Aplicando el mismo razonamiento llegaramos a la expresin de la recta de
regresin de X sobre Y: x = a + by con los valores a y b calculados como:

( ) x x
S
S
y y
x
xy
=
2
y b x a y
S
S
b
y
xy
' ' '
2
= =
Por tanto, se podra expresar como:
( ) y y
S
S
x x
y
xy
=
2
( )
2
2 2

y
i i
u R
y y
S S
N

= =

2
2
1
u
Y
S
R
S
=
Cuando solo exista una variable explicativa o
independiente y una sola dependiente se cumple:
2
2
2 2
2
'
xy
y x
xy
y
xy
x
xy
r
S S
S
S
S
S
S
bb R =
|
|
.
|

\
|
= = =
Varianza residual: Ayuda a medir la dependencia.
Si es grande, los residuos, por trmino
medio, sern grandes. Dependencia
pequea y viceversa.
Varianza marginal: Es la varianza total de X o de Y. Si dividimos la
varianza residual entre esta se elimina el problema de unidades de
medida.
2
y
S
2
x
S
VR =
y y
u
VT
VR
S
S
=
2
2
Elevado al cuadrado obtenemos el coeficiente de determinacin que sirve como medida
del buen ajuste de la recta de regresin
2
R
Ayuda a determinar la
asociacin pero en
sentido inverso. La
mejor medida es R.
Haciendo unas transformaciones se demuestra que r(xy)
visto en el captulo 6 slo es un caso particular de R
R r
xy
=
Coeficiente de correlacin general:
Estadstica Econmica
2007-2008. Sara Mateo.
Para el caso de distribuciones bidimensionales:
2 2
R r R r = =
2 2
1 1 1 1 0 1 0 1 r R r R s s s s s s s s
( )
2 2 2

XY XY XY
i i i
X X X
S S S
y y x x y x x
S S S
| |
= + = +
|
\ .
( ) ( ) ( )
2

XY Y
i i i i
X
X Y Y
Y
Y
X Y X
X
X X
S S S
y y x x y x
S S S
S S
x y x
S S S
r
S S
x = + = + = +
Recta de regresin:
1 0 r < <
0 1 r < <
1 r = 1 r = 0 r =
Pendiente
Negativa
Positiva
Nula
2
Y
S
2 2
u ry
S S =
2 2 2
2
2 2
1
u Y u
Y Y
S S S
R
S S

= =
2 2 2
R Y u
S S S =
2 2 2
R u Y
S S S = +
2
R
Tanto por uno de la Y que viene explicado por la X
SIRVE PARA DETERMINAR SI EL AJUSTE HECHO ES BUENO. ES DECIR, SI LA
VARIABLE X EXPLICA LAS VARIACIONES DE LA VARIABLE Y. DEBER SER > 0.75
VE VR VT + =
VT
VE
VT
VR
= =1
VR =
VE =
2
2
Y
R
S
S
=
Se descompone en:
( )
2

XY
i i i
X
S
y q px y x x
S
= + = +
Dado un valor de la variable X que no ha sido observado, estimar el
correspondiente valor de Y
0 0

Dado x estimar y
( )
0 0 0
2

XY
X
S
q p y x y x
S
x = + = +
a
a
b
b
El objetivo ltimo de la regresin es la prediccin de una variable para un
valor determinado de la otra. La prediccin de Y para X = x
0
ser simplemente
el valor obtenido en la recta de regresin de Y sobre X al sustituir el valor de x
por x
0
. La fiabilidad de esta prediccin ser tanto mayor cuando mayor sea la
correlacin entre las variables (es decir mayor sea R2 )

Vous aimerez peut-être aussi