Tema4 Regresion

Tema 4
Regresion y Correlacion
4.1. Concepto de Regresion
Dadas dos variables, X e Y , se dice que existe:
Dependencia funcional: si y solamente si entre ellas existe una funcion matematica que las
relaciona perfectamente, por ejemplo, entre todas las que se puede expresar su relacion
mediante una ecuacion E = mc
2
o F = ma.
Dependencia estadstica: cuando entre ellas existe una relacion pero que no es expresable
mediante un modelo matematico, por ejemplo entre oferta y demanda o peso y altura.
Nuestro problema sera el de tratar de ajustar a una nube de puntos una funcion de tipo
matematico que se aproxime lo maximo posible a los datos. Dada cualquier nube de puntos,
siempre existira una funcion que se pueda ajustar sobre esos datos, aunque, evidentemente, en
el caso de dependencia estadstica, este ajuste no sera perfecto.
Figura 4.1: Regresion
El principal objetivo de la regresion es ajustar una funcion a los datos con el n de realizar
predicciones, de tal manera que se denomina:
Variable dependiente: a la variable que se quiere predecir, tambien se conoce como variable
explicada (Y ).
38
Regresion y Correlacion 39
Variable(s) independiente(s): a la(s) que usaremos para predecir, puede haber una o varias.
Tambien son llamadas variables explicativas (X
1
, . . . , X
n
).
Se denomina regresion a intentar ajustar una funcion (f) a unos valores observados. De tal
manera que se considerara regresion simple si solo tenemos una variable explicativa Y = f(X)
y regresion m ultiple si existen varias Y = f(X
1
, X
2
, . . . , X
n
).
Dependiendo del tipo de funcion que utilizaremos estaremos ante distintos tipos de regre-
sion, por ejemplo:
Regresion lineal
f(X) = a + bX
Regresion exponencial o potencia
f(X) = ab
X
f(X) = aX
b
Regresion logstica
f(X) =
a
1 + b exp
cX
Regresion parabolica
f(X) = a + bX + cX
2
4.2. Recta de Regresion
4.2.1. Concepto de mnimos cuadrados
El objetivo de la regresion es encontrar la funcion que mejor se ajuste a nuestra nube de
puntos.
De tal manera que para un valor cualquiera observado de la variable X, x
i
, existira su
correspondiente valor en la variable Y , y
j
. Si suponemos que existe una funcion (f) que rela-
ciona una variable con otra y ademas que existe dependencia funcional, el valor de esta funcion
para f(x
i
) no se correspondera con su valor real. A este valor se le denomina valor esperado o
predicho y se denota como y
i
= f(x
i
).
Figura 4.2: Valor observado y esperado
ESTAD
ISTICA. 1
o
A Ingeniera Informatica. Curso 2008-2009
Tambien se dene el residuo como la diferencia entre el valor observado y el predicho:
e
ij
= y
j
h(x
i
) = y
j
y
i
.
Una vez introducidos estos conceptos, plantearemos el metodo de regresion como la b usque-
da de la funcion f(x) tal que minimice los residuos al cuadrado:
min
i
q
j
f
ij
e
2
ij
a este metodo se le denomina metodo de mnimos cuadrados.
4.2.2. Curva de mnimos cuadrados o regresion tipo I
Se dene la curva de regresion de Y sobre X a la curva formada por todos los pares
de valores (x
i
, y
i
) i.
Se dene la curva de regresion de X sobre Y a la curva formada por todos los pares
de valores (y
j
, x
j
) j.
Esta curva (en cada caso) cumple que:
1. Es la curva de mnimos cuadrados, es decir es la que minimiza
i
q
j
f
ij
e
2
ij
2. Es la curva que mejor representa a la funcion
Esta curva tiene el problema de no imponer una estructura de relacion concreta, es solo
una serie de puntos que no nos proporcionan valores para la variable explicada nada mas que
para los valores de la variable explicativa.
Ademas, verica que si las variables son independientes las curvas son paralelas a los ejes
(el caso contrario no siempre es cierto), es decir, y
i
= y.
4.2.3. Recta de Regresion Simple
Sean dos variables X e Y , se denomina recta de regresion simple cuando la funcion de
regresion f(X) entre ellas es de tipo lineal:
Calculo de la recta de Y sobre X (Y/X)
Sea la recta de regresion de Y sobre X la recta
Y = f(X) = a + bX
ESTAD
ISTICA. 1
o
donde a expresa el valor de la variable dependiente cuando la independiente vale 0 y b es el
incremento de la variable dependiente cuando la independiente vale 1.
Figura 4.3: Regresion lineal
Nuestro objetivo es encontrar los valores a y b tal que se minimice la suma de los residuos
al cuadrado, es decir:
mn
j
f
ij
e
2
ij
= mn
j
f
ij
[y
j
y
i
]
2
=
mn
j
[y
j
(a + bx
i
)]
2
Para calcular este mnimo no hay mas que obtener las derivadas parciales con respecto a
los parametros e igualar a cero:
_
a
= 2
ij
f
ij
[y
j
(a + bx
i
)] (1) = 0
b
= 2
ij
f
ij
[y
j
(a + bx
i
)] (x
i
) = 0
_
ij
f
ij
[y
j
a bx
i
] = 0
ij
f
ij
[y
j
a bx
i
] x
i
= 0
ij
f
ij
y
j
= a
ij
f
ij
+ b
ij
f
ij
x
i
(4.1)
ij
f
ij
y
j
x
i
= a
ij
f
ij
x
i
+ b
ij
f
ij
x
2
i
(4.2)
De 4.1 tenemos
y = a + b x a = y b x
y de 4.2
ij
f
ij
x
i
y
j
= a
ij
f
ij
x
i
+ b
ij
f
ij
x
2
i
ESTAD
ISTICA. 1
o
ij
f
ij
x
i
y
j
= y
f
ij
x
i
b x
ij
f
ij
x
i
+ b
ij
f
ij
x
2
i
ij
f
ij
x
i
y
j
= y x b x
2
+ b
ij
f
ij
x
2
i
ij
f
ij
x
i
y
j
x y = b
_
ij
f
ij
x
2
i
x
2
_
Cov(XY ) = bV ar(X)
por lo tanto:
b =
Cov(XY )
V ar(X)
a = y b x = y

xy
2
x
x
nalmente, la recta de regresion tambien se puede expresar como:
Y = a + bX y =
_
y

xy
2
x
x
_
+

xy
2
x
x
(y y) =

xy
2
x
(x x)
Si quisieramos calcular la recta de regresion de X sobre Y , (X/Y ), esta sera X = a
+b
Y
y usando el mismo procedimiento:
a
= x b
y
b
=
Cov(XY )
V ar(y)
=

xy
2
y
Propiedades:
1.
ij
f
ij
e
ij
= 0. Demostracion:
ij
f
ij
(y
j
y
i
) =
ij
_
y
j
a bx
i
_
=
ij
_
y
j
( y b x) bx
i
_
=
ij
f
ij
y
j
y
ij
f
ij
+

xy
2
x
x
ij
f
ij

xy
2
x
ij
f
ij
x
i
= 0
2.
ij
f
ij
e
ij
x
i
= 0. Demostracion:
ij
f
ij
_
y
j
a bx
i
_
x
i
=
f
ij
_
y
j
x
i
( y b x
_
x
i
bx
2
i
) =
ij
f
ij
x
i
y
j
y
ij
f
ij
x
i
+ b x
ij
f
ij
x
i
b
ij
f
ij
x
2
i
=
xy
b
2
x
=
xy

xy
2
x
2
x
= 0
ESTAD
ISTICA. 1
o
3.
ij
f
ij
e
ij
y
j
= 0. Demostracion:
ij
f
ij
e
ij
(a + bx
i
) = a
ij
f
ij
e
ij
+ b
ij
f
ij
e
ij
x
i
= 0
4. Las dos rectas de regresion Y/X y X/Y o se cortan y lo hacen en el punto ( x, y) o son
la misma recta (o paralela) en cuyo caso b
= b y r
2
= 1.
Ejemplo 4.1 : Sean la variable X consumo e Y gasto. Obtener las dos rectas de regresion
de X/Y y Y/X.
X Y X
2
Y
2
XY
105 22 11025 484 2310
120 33 14400 1089 3960
125 45 15625 2025 5625
130 50 16900 2500 6500
140 65 19600 4225 9100
620 215 77550 10323 27495
En primer lugar calcularemos todas los estadsticos que necesitaremos:
x =
1
N
x
i
=
620
5
= 124 y =
1
N
y
i
=
6215
5
= 43
2
x
=
x
2
i
N
x
2
=
77550
5
124
2
= 134
2
y
=
y
2
i
N
y
2
=
10323
5
43
2
= 215,6
xy
=
xy
N
x y =
27495
5
124 43 = 167
Para obtener la recta de Y sobre X haremos:
Y = a + bX
b =

xy
2
x
= 1,246
a = y b x = 111,504
Y = 111,504 + 1,246X
Para obtener la recta de X sobre Y :
X = a
+ b
Y
b
=

xy
2
y
= 0,774
a = x b
y = 90,718
X = 90,718 + 0,774Y
Para realizar una prediccion, no hay mas que sustituir en la recta correspondiente. Por
ejemplo, para predecir el valor del consumo para un familia con gasto Y = 30 sera de X =
90,718 +0,774 30 = 113,938 y el gasto para un consumo de X = 110 Y = 111,504 +1,246
110 = 25,556
ESTAD
ISTICA. 1
o
Coeciente de correlacion lineal de Pearson
Se dene el coeciente de correlacion lineal de Pearson, notandose como r, a el
cociente entre la covarianza de las dos variables entre el producto de las desviaciones tpicas:
r =

xy
y
1 < r < 1
Tambien se usa su valor al cuadrado
r
2
=
2
xy
2
x
2
y
=

xy
2
x
xy
2
y
= bb
r
2
[0, 1]
Este coeciente se usa para medir el grado de relacion o asociacion lineal entre ambas
variables, de tal forma que habra mas relacion conforme sea mayor r, vericandose ademas
que si r es positivo la relacion sera en el mismo sentido (cuando una crece la otra tambien
peso/altura) y si r es negativa lo haran en el sentido contrario (una crece y otra decrece).
Existen una serie de casos particulares de r que son:
1. Si r = 0
xy
= 0 por lo tanto las dos rectas de regresion son:
y = x
x = y
Lo que implica que no existe relacion lineal entre X e Y .
Figura 4.4: caso r=0
Ademas, si X e Y son independientes r = 0, pero si r = 0 X e Y lo sean. Por
ejemplo se puede comprobar que en el caso de la circunferencia, r = 0, es decir no hay
relacion lineal entre las variables pero si existe relacion entre las variables.
2. Si r = 1 la nube de puntos esta sobre la recta de regresion, es decir, existe dependencia
funcional. Ademas si r = 1 existe dependencia funcional positiva y si r = 1 negativa.
3. Si 1 < r < 1 y r = 0, habra mayor asociacion lineal cuanto mas cerca este el valor de
los extremos.
ESTAD
ISTICA. 1
o
4.3. Bondad del ajuste
El objetivo de la regresion es explicar una variable Y en funcion de otra variable X. En
terminos generales, explicar una variable consiste en explicar su variabilidad, para lo cual, si
X e Y estan relacionadas una parte de esta variabilidad vendra expresada por la regresion y el
resto debido al azar. Por esto distinguiremos la variabilidad o varianza de X en dos partes, una
parte que vendra explicada por la regresion y otra parte que no puede ser expresada por esta,
denominandose respectivamente, variabilidad explicada o debida a la regresion y variabilidad
residual o de error.
La variabilidad residual (VR) es la suma de los residuos al cuadrado:
V R =
ij
f
ij
(y
j
y
i
)
2
=
ij
f
ij
e
2
ij
evidentemente, cuanto menor sea este valor, mejor sera el ajuste del modelo a los datos.
Por otro lado, la varianza explicada (VE) por el modelo seguira la siguiente expresion
V E =
ij
f
ij
( y
i
y)
2
con y los valores predichos por la regresion para los valores de la variable independiente.
Finalmente podremos decir que la variabilidad de la variable Y se puede descomponer
como:
V ar(Y ) = V E + V R
pudiendose demostrar facilmente
V ar(Y ) =
ij
f
ij
(y
j
y)
2
=
ij
f
ij
(y
j
y
i
+ y
i
y)
2
=
ij
f
ij
(y
j
y
i
)
2
+
f
ij
( y
i
y)
2
+ 2
ij
f
ij
(y
j
y
i
)( y
i
y) =
ij
f
ij
(y
j
y
i
)
2
+
f
ij
( y
i
y)
2
+ 2
ij
f
ij
e
ij
y
i
2 y
ij
f
ij
e
ij
=
ij
f
ij
(y
j
y
i
)
2
+
f
ij
( y
i
y)
2
= V E + V R
Ante esta descomposicion nace el coeciente de determinacion (R
2
), que no es mas que
el cociente entre la variabilidad explicada y la variabilidad total. Este cociente, evidentemente,
dara una medida del grado de bondad de ajuste.
R
2
=
V E
V (Y )
=
ij
f
ij
( y
i
y)
2
ij
f
ij
(y
j
y)
2
=
V (Y ) V R
V (Y )
= 1
V R
V (Y )
R
2
[0, 1]
Cumpliendose que
ESTAD
ISTICA. 1
o
1. Si R
2
= 0
V R
V (Y )
= 1 V R = V (Y ) V E = 0 y por lo tanto el modelo no ajusta
para nada los datos.
2. Si R
2
= 1
V R
V (Y )
= 0 V E = 1 y por lo tanto el ajuste de la funcion a los datos es
perfecto.
3. Si 0 < R
2
< 1 da una medida de la bondad del ajuste, de modo que cuanto mayor es
mejor es el ajuste.
4. En el caso en que la regresion entre las variables sea de tipo lineal, se verica que
V R = V (Y )(1 r
2
) R
2
= 1
V (Y )(1 r
2
)
V (Y )
= r
2
es decir, solo en el caso de regresion lineal entre variables, para medir el grado o bondad
del ajuste es equivalente utilizar el coeciente de determinacion R
2
o el coeciente de
correlacion lineal de Pearson al cuadrado r
2
4.4. Ajuste no lineal
4.4.1. Ajuste de una parabola
Dadas dos variables, X e Y si queremos ajustar a los datos una funcion de tipo parabolico
Y = a + bX + cX
2
, habra que aplicar el mismo criterio que en el caso de una funcion lineal,
es decir, el de mnimos cuadrados:
mn
e
2
ij
= mn
(y
j
a bx
i
cx
2
i
)
2
por lo que derivando con respecto a cada parametro e igualando a cero, resulta:
a
= 2
(y
j
a bx
i
cx
2
i
)(1) = 0
b
= 2
(y
j
a bx
i
cx
2
i
)(x
i
) = 0
c
= 2
(y
j
a bx
i
cx
2
i
)(x
2
i
) = 0
obteniendo el siguiente sistema de ecuaciones:
y
j
=
a + b
x
i
+ c
x
2
i
x
i
y
j
= a
x
i
+ b
x
2
i
+ c
x
3
i
x
2
i
y
j
= a
x
2
i
+ b
x
3
i
+ c
x
4
i
Ejemplo 4.2: Calcular la regresion parabolica de Y sobre X
ESTAD
ISTICA. 1
o
X Y X
2
X
3
X
4
XY X
2
Y
2 7 4 8 16 14 28
3 5 9 27 81 15 45
5 9 25 125 625 45 225
6 11 36 216 1296 66 396
9 8 81 729 6561 72 648
11 10 121 1331 14641 110 1210
36 50 276 2436 23220 322 2552
el sistema sera
50 = 6a + 36b + 276c
322 = 36a + 276b + 2436c
2552 = 276a + 2436b + 23220c
con lo que resolviendo el sistema resulta que a = 3,3, b = 1,517 y c = 0,088, y la parabola
Y = 3,3 + 1,517x 0,088x
2
.
4.4.2. Transformaciones de la regresion lineal
Existen algunos tipos de regresiones en los que por el tipo de funcion se puede calcular esta
mediante trasformaciones de los datos. En estos casos, ademas, la bondad del ajuste se puede
calcular mediante el coeciente de correlacion lineal de Pearson r
2
.
Hiperbola equilatera
La regresion hiperbolica consiste en ajustar a los datos la funcion (para la regresion de Y
sobre X):
Y = a +
b
X
Si obtenemos una variable, proveniente de la transformacion Z =
1
X
, realizar la regresion
hiperbolica de Y sobre X sera equivalente a realizar la regresion lineal de Y sobre Z.
Ejemplo 4.3: Calcular la regresion hiperbolica de Y sobre X:
X Y Z =
1
X
Z
2
ZY
60 3 0,016 0,000256 0,048
70 5 0,014 0,000196 0,07
80 6 0,0125 0,000156 0,075
100 9 0,01 0,0001 0,09
150 10 0,006 0,000036 0,06
210 14 0,004 0,000016 0,056
47 0,0625 0,00076 0,399
Donde calcularemos los siguientes estadsticos:
ESTAD
ISTICA. 1
o
y =
47
6
= 7,833 z =
0,0625
6
= 0,01041
2
z
=
0,00076
6
0,01041
2
= 0,000018
yz
=
0,399
6
7,833 0,01041 = 0,01504
Por lo tanto sin mas que sustituir en los valores de la recta de regresion:
a = y b z = 16,53 b =

zy
2
z
= 835,64
Y = 16,53 835,64Z reemplazando Z por su valor resulta Y = 16,53
835,64
X
Funcion Potencia
En este caso la funcion que queremos ajustar es de la forma
Y = ax
b
ahora solo tendremos que tomar logaritmos para obtener la regresion:
ln Y = ln a + b ln X
lo que implica realizar la regresion lineal de Y

= ln Y sobre X
= ln X y ademas a
= ln a.
Ejemplo 4.4: Calcular la regresion de tipo potencia de Y sobre X
X Y X
= ln X Y

= ln Y (X
)
2
= (ln X)
2
X
Y

= ln X ln Y
4 1,5 1,38 0,405 1,9044 0,5589
4,3 2 1,45 0,693 2,1025 1,0048
4,6 2,5 1,52 0,916 2,3105 1,392
5 3 1,6 1,09 2,56 1,744
5,95 3,104 8,8773 4,6997
x
=
5,92
4
= 1,4875
2
x
=
8,8773
4
1,4875
2
= 0,0066
y
=
3,104
4
= 0,776
x
y
=
4,6997
4
1,4875 0,776 = 0,02065
b
=

x
2
x
= 3,125 a
=

y
= 3,872
Por lo tanto
ln Y = 3,872 + 3,125 ln X tomando exponenciales Y = e
3,872
X
3,125
= 0,0028X
3,125
ESTAD
ISTICA. 1
o
Funcion exponencial
Ahora la regresion sera del tipo
Y = ab
x
y al igual que en el caso anterior, tomando logaritmos, tendremos:
ln Y = ln a + X ln b
por lo que la regresion exponencial sera equivalente a realizar la lineal de Y

= ln Y sobre X
con a
= ln a y b
= ln b.
Ejemplo 4.5: Calcular la regresion de tipo exponencial de Y sobre X
X Y Y

= ln Y X
2
XY

1 100 4,605 1 4,605
2 120 4,787 4 9,574
3 110 4,7 9 14,1
4 150 5,01 16 20,04
5 130 4,86 25 24,3
23,962 55 72,62
x =
15
5
= 3
2
x
=
55
5
3
2
= 2
y
=
23,962
5
= 4,7924
xy
=
72,62
5
3 4,7924 = 0,1468
b
=

xy
2
x
= 0,0734 a
=

y
x = 4,7924 0,0734 3 = 4,5722

la recta de regresion es:
Y

= 4,5722 + X 0,0734 tomando exponenciales Y = 96,75(1,075)
X
ESTAD
ISTICA. 1
o

Tema4 Regresion

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tema4 Regresion

Transféré par

Droits d'auteur :

Formats disponibles

Tema 4

x = 4,7924 0,0734 3 = 4,5722

Vous aimerez peut-être aussi