Académique Documents
Professionnel Documents
Culture Documents
Varias partes tomadas de Julio H. Cole "Nociones de Regresin Lineal" en Enciclopedia Multimedia Virtual de Economa EMVI. http://eumed.net/cursecon/medir/index.htm
Anlisis de Regresin
El trmino Regresin fue empleado por primera vez por Sir Francis Galton (pionero de la estadstica, 1822-1911) quien se encontraba estudiando la relacin entre la altura de los nios y la de sus padres. l encontr que, aunque padres altos solan a tener hijos altos y viceversa, haba una tendencia de que las alturas de los nios convergieran hacia el promedio.
Galton afirm entonces que haba una tendencia de regresin de las alturas hacia el promedio. Claro que no lo puso de esa manera sino, con la soberbia de buen aristcrata ingls, dijo que haba una tendencia de regresin hacia la mediocridad. mediocridad
El objeto de un anlisis de regresin es investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes ( X1, X2, X3, ). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la relacin lineal. lineal Cuando solo existe una variable independiente, esto se reduce a una lnea recta:
Ejemplo q = a + b p donde, por ejemplo, q es la produccin y p el gasto Recordamos que en la ecuacin de la recta a es la ordenada al origen (donde la recta cruza al eje de las y) y b la pendiente
q x x x x x
80 55 60 65 70 75
100 65 70 74 80 85 88
120 79 84 90 94 98
Totales, $
325
462
445
707
678
750
685
1043
966
1211
Y ahora los graficamos. podemos ver que los gastos siguen una tendencia cul es sta?
Ahora, lo que podemos buscar es si puede una recta ajustarse o ser una buena aproximacin a estas observaciones.
Cmo podemos hacer esto?
Volviendo al ejemplo de nuestros datos, tal vez podemos poner la recta en los valores mximos
Vamos a usar un ejemplo interactivo para ver algunos conceptos que aclararemos ms adelante
En este ejercicio nos dimos cuenta de que podemos ajustar diferentes rectas y algunas de ellas nos dan buenos resultados, como lo evidencia el parmetro que se llama en el ejercicio MSE, que es una medida del error en nuestra estimacin.
En el ejercicio 2, pudimos ver que cada que vez que aadimos un punto, el programa calcula una recta y nos muestra las distancias entre los puntos y la recta. De lo que hicimos en los ejercicios: Cmo afecta los resultados el que tengas algunos datos muy separados de los dems? Qu es lo que te indica que tu recta ajustada es un buen resultado? Es decir cmo puedes saber qu tan bien se ajustan los datos a una recta?
En el anlisis de regresin, lo que queremos es encontrar la recta que mejor se ajusta a los datos observados. Para ello se emplean varios mtodos, entre los cuales el ms comn es el denominado MTODO DE MNIMOS CUADRADOS. Vamos ahora a la parte operativa del mtodo. El mtodo de mnimos cuadrados se llama as porque obedece a encontrar la recta (en general se puede aplicar a cualquier curva) que proporcione las mnimas distancias entre dicha recta y los puntos u observaciones.
Estas distancias son las que se hicieron mnimas por el mtodo, todo aunque hay que notar que el mtodo se llama mnimos cuadrados lo que induce a pensar que las distancias no son directas sino elevadas al cuadrado. La grfica muestra un caso extremo en el que hay dos puntos que afectan nuestros resultados.
Las distancias a las que nos referimos se llaman residuos o errores y, como explicamos, no son directas sino elevadas al cuadrado. La grfica muestra entonces qu es lo que estamos tratando de que sean mnimos.
errores cuadrados
En muchos casos vamos a necesitar estudiar el comportamiento entre una variable dependiente y dos o ms variables independientes y comprobar la posible existencia de alguna relacin (Correlacin) entre ellas. Para resolver esto, el primer paso es desplegarlas en forma de plano cartesiano. Al poner todos nuestros datos como puntos en un diagrama o grfica, a ste se le llama diagrama de dispersin y nos ayuda a visualizar preliminarmente si existe algn tipo de correlacin.
Por ejemplo, en el siguiente diagrama podemos observar que los pares ordenados correspondientes a las dos variables, o diagrama de dispersin, siguen una aparente tendencia lineal, o sea que parecen seguir una relacin creciente lineal.
Hay que enfatizar que lo primero que se requiere es interpretar si la relacin que guardan las variables se aproxima a una lnea recta, o bien parecen seguir otro tipo de tendencia. Por ejemplo, la grfica siguiente nos muestra unos datos que siguen una relacin no lineal, a la cual podramos haber intentado ajustar una lnea recta de manera errnea.
Entonces los pasos a seguir lo podemos las siguientes preguntas: 1. La tendencia que siguen los datos Se aproxima a una lnea recta? 2. Cul es la recta que mejor se ajusta a nuestras observaciones? 3. Qu tan buena es la aproximacin de la recta escogida a los datos? Las dos primeras preguntas se pueden contestar por medio de un anlisis de regresin lineal usando, como dijimos, el mtodo de ajuste por mnimos cuadrados. cuadrados La ltima pregunta se puede responder por medio del coeficiente de correlacin y por medio del error cuadrtico medio el cual veremos ms adelante.
Para aclarar el procedimiento matemtico vamos a seguir un ejemplo sencillo. Veamos estos datos de las ventas como funcin de clientes previos en diferentes puntos de venta
Punto de Venta A B C D E F G H I J Total Clientes Previos (X) 2 3 0 4 5 1 6 3 7 5 36 Ventas (Y) 2 3 2 8 10 2 15 5 18 10 75
Preguntas: Las ventas estn relacionadas con el nmero de clientes previos? Cul es la relacin?
15
Ventas
10
0 0 1 2 3 4 Clientes Previos 5 6 7
Ecuaciones para estimar la recta de mejor ajuste por medio de mnimos cuadrados
Empezamos con la ecuacin de la recta que buscamos que tiene la forma:
y = a + bx
El mtodo de mnimos cuadrados se basa en encontrar la derivada de los errores contra los parmetros que se buscan (a y b) e igualar a cero. Esto nos proporciona dos ecuaciones llamadas normales, que hay que resolver:
y
i =1 n i =1
= na + b xi
i =1 n n
2 x y = a x + b x i i i i i =1 i =1
La solucin de las ecuaciones anteriores nos va a llevar a otras ecuaciones con las que podemos calcular los valores buscados a y b .
Primero definimos
SYY = y ny
2
S XY = xy nx y
2 2
S XX = x nx
Que no son otra cosa que las varianzas en Y y en X as como la covarianza de XY, pero sin normalizar (es decir sin dividir por N).
SYY = y n y = n var( y )
2 2
S XX = x nx = n var( x )
2 2
S XY = xy s x y = x cov( x , y )
Con estas definiciones los coeficientes que buscamos simplemente quedan definidos como:
S XY b= S XX
a = y bx
Estas son las ecuaciones que buscamos!
Ya que con estos valores podemos escribir nuestra ecuacin:
y = a + bx
4 9 0 16 25 1 36 9 49 25 174
4 9 0 32 50 2 90 15 126 50 378
x = 3.6
y = 7.5
xy nx y S b= = x nx S
2 2
XY XX
a = y bx
y = -1.26 + 2.432 x
Ahora podemos obtener una recta que se ajusta a los datos (observaciones).
Ventas vs Clientes Previos
20
15
y = -1.26 + 2.432 x
Ventas
10
0 0 1 2 3 4 Clientes Previos 5 6 7
Cmo podemos usar estos resultados? Una forma es hacer predicciones para ciertos valores
Punto de Venta
A B C D E F G H I J Total
Ventas (Y)
2 3 2 8 10 2 15 5 18 10 75
Prediccin (Y) +3.604 +6.036 -1.260 +8.468 +10.900 +1.172 +13.332 +6.036 +15.764 +10.900
Error (e) e=( Y-Y ) -1.604 -3.036 +3.260 -0.468 -0.900 +0.826 +1.668 -1.036 +2.236 -0.900 0.0
e2
2.573 9.217 10.628 0.219 0.810 0.686 2.782 1.073 5.000 0.810 33.80
Notar que
RSS = SYY bS XY
El Error Cuadrtico Medio (MSE, o Mean Square Error en las aplicaciones) no es otra cosa sino el promedio de este valor (slo lo dividimos entre N). La Raz Cuadrtica Media (RMS, o Root Mean Square en las aplicaciones) no es otra cosa sino la raz cuadrada de MSE. El Error Estndar es la raz cuadrtica media pero ajustada por el nmero de coeficientes (dividida entre n-2).