Vous êtes sur la page 1sur 29

ANLISIS DE REGRESIN LINEAL

Varias partes tomadas de Julio H. Cole "Nociones de Regresin Lineal" en Enciclopedia Multimedia Virtual de Economa EMVI. http://eumed.net/cursecon/medir/index.htm

Anlisis de Regresin
El trmino Regresin fue empleado por primera vez por Sir Francis Galton (pionero de la estadstica, 1822-1911) quien se encontraba estudiando la relacin entre la altura de los nios y la de sus padres. l encontr que, aunque padres altos solan a tener hijos altos y viceversa, haba una tendencia de que las alturas de los nios convergieran hacia el promedio.

Galton afirm entonces que haba una tendencia de regresin de las alturas hacia el promedio. Claro que no lo puso de esa manera sino, con la soberbia de buen aristcrata ingls, dijo que haba una tendencia de regresin hacia la mediocridad. mediocridad

El objeto de un anlisis de regresin es investigar la relacin estadstica que existe entre una variable dependiente (Y) y una o ms variables independientes ( X1, X2, X3, ). Para poder realizar esta investigacin, se debe postular una relacin funcional entre las variables. Debido a su simplicidad analtica, la forma funcional que ms se utiliza en la prctica es la relacin lineal. lineal Cuando solo existe una variable independiente, esto se reduce a una lnea recta:

Ejemplo q = a + b p donde, por ejemplo, q es la produccin y p el gasto Recordamos que en la ecuacin de la recta a es la ordenada al origen (donde la recta cruza al eje de las y) y b la pendiente

q x x x x x

Si consideramos los siguientes datos tomados de 10 familias

Ingreso familiar por semana, X, $ Gasto familiar por semana, Y, $

80 55 60 65 70 75

100 65 70 74 80 85 88

120 79 84 90 94 98

140 80 93 95 103 108 113 115

160 102 107 110 116 118 125

180 110 115 120 130 135 140

200 120 136 140 144 145

220 135 137 140 152 157 160 162

240 137 145 155 165 175 189

260 150 152 175 178 180 185 191

Totales, $

325

462

445

707

678

750

685

1043

966

1211

Y ahora los graficamos. podemos ver que los gastos siguen una tendencia cul es sta?

Ahora, lo que podemos buscar es si puede una recta ajustarse o ser una buena aproximacin a estas observaciones.
Cmo podemos hacer esto?

Volviendo al ejemplo de nuestros datos, tal vez podemos poner la recta en los valores mximos

o tal vez podemos poner la recta en los valores mnimos

Vamos a usar un ejemplo interactivo para ver algunos conceptos que aclararemos ms adelante

Ejemplo interactivo 1: Regresin a "Ojo"

En este ejercicio nos dimos cuenta de que podemos ajustar diferentes rectas y algunas de ellas nos dan buenos resultados, como lo evidencia el parmetro que se llama en el ejercicio MSE, que es una medida del error en nuestra estimacin.

Ejemplo interactivo 2: Regresin de pares ordenados

En el ejercicio 2, pudimos ver que cada que vez que aadimos un punto, el programa calcula una recta y nos muestra las distancias entre los puntos y la recta. De lo que hicimos en los ejercicios: Cmo afecta los resultados el que tengas algunos datos muy separados de los dems? Qu es lo que te indica que tu recta ajustada es un buen resultado? Es decir cmo puedes saber qu tan bien se ajustan los datos a una recta?

En el anlisis de regresin, lo que queremos es encontrar la recta que mejor se ajusta a los datos observados. Para ello se emplean varios mtodos, entre los cuales el ms comn es el denominado MTODO DE MNIMOS CUADRADOS. Vamos ahora a la parte operativa del mtodo. El mtodo de mnimos cuadrados se llama as porque obedece a encontrar la recta (en general se puede aplicar a cualquier curva) que proporcione las mnimas distancias entre dicha recta y los puntos u observaciones.

Estas distancias son las que se hicieron mnimas por el mtodo, todo aunque hay que notar que el mtodo se llama mnimos cuadrados lo que induce a pensar que las distancias no son directas sino elevadas al cuadrado. La grfica muestra un caso extremo en el que hay dos puntos que afectan nuestros resultados.

Las distancias a las que nos referimos se llaman residuos o errores y, como explicamos, no son directas sino elevadas al cuadrado. La grfica muestra entonces qu es lo que estamos tratando de que sean mnimos.

errores cuadrados

En muchos casos vamos a necesitar estudiar el comportamiento entre una variable dependiente y dos o ms variables independientes y comprobar la posible existencia de alguna relacin (Correlacin) entre ellas. Para resolver esto, el primer paso es desplegarlas en forma de plano cartesiano. Al poner todos nuestros datos como puntos en un diagrama o grfica, a ste se le llama diagrama de dispersin y nos ayuda a visualizar preliminarmente si existe algn tipo de correlacin.

Por ejemplo, en el siguiente diagrama podemos observar que los pares ordenados correspondientes a las dos variables, o diagrama de dispersin, siguen una aparente tendencia lineal, o sea que parecen seguir una relacin creciente lineal.

Hay que enfatizar que lo primero que se requiere es interpretar si la relacin que guardan las variables se aproxima a una lnea recta, o bien parecen seguir otro tipo de tendencia. Por ejemplo, la grfica siguiente nos muestra unos datos que siguen una relacin no lineal, a la cual podramos haber intentado ajustar una lnea recta de manera errnea.

Entonces los pasos a seguir lo podemos las siguientes preguntas: 1. La tendencia que siguen los datos Se aproxima a una lnea recta? 2. Cul es la recta que mejor se ajusta a nuestras observaciones? 3. Qu tan buena es la aproximacin de la recta escogida a los datos? Las dos primeras preguntas se pueden contestar por medio de un anlisis de regresin lineal usando, como dijimos, el mtodo de ajuste por mnimos cuadrados. cuadrados La ltima pregunta se puede responder por medio del coeficiente de correlacin y por medio del error cuadrtico medio el cual veremos ms adelante.

Para aclarar el procedimiento matemtico vamos a seguir un ejemplo sencillo. Veamos estos datos de las ventas como funcin de clientes previos en diferentes puntos de venta
Punto de Venta A B C D E F G H I J Total Clientes Previos (X) 2 3 0 4 5 1 6 3 7 5 36 Ventas (Y) 2 3 2 8 10 2 15 5 18 10 75

Preguntas: Las ventas estn relacionadas con el nmero de clientes previos? Cul es la relacin?

Diagrama de dispersin (grfica XY)


Ventas vs Clientes Previos
20

15

Ventas

10

0 0 1 2 3 4 Clientes Previos 5 6 7

Ecuaciones para estimar la recta de mejor ajuste por medio de mnimos cuadrados
Empezamos con la ecuacin de la recta que buscamos que tiene la forma:

y = a + bx
El mtodo de mnimos cuadrados se basa en encontrar la derivada de los errores contra los parmetros que se buscan (a y b) e igualar a cero. Esto nos proporciona dos ecuaciones llamadas normales, que hay que resolver:

y
i =1 n i =1

= na + b xi
i =1 n n

2 x y = a x + b x i i i i i =1 i =1

La solucin de las ecuaciones anteriores nos va a llevar a otras ecuaciones con las que podemos calcular los valores buscados a y b .

Primero definimos

SYY = y ny
2

S XY = xy nx y
2 2

S XX = x nx

Que no son otra cosa que las varianzas en Y y en X as como la covarianza de XY, pero sin normalizar (es decir sin dividir por N).

SYY = y n y = n var( y )
2 2

S XX = x nx = n var( x )
2 2

S XY = xy s x y = x cov( x , y )

Con estas definiciones los coeficientes que buscamos simplemente quedan definidos como:

S XY b= S XX

a = y bx
Estas son las ecuaciones que buscamos!
Ya que con estos valores podemos escribir nuestra ecuacin:

y = a + bx

Calculando la ecuacin de regresin para el ejemplo


Punto de Venta A B C D E F G H I J Total Clientes Previos (X) 2 3 0 4 5 1 6 3 7 5 36 Ventas (Y) 2 3 2 8 10 2 15 5 18 10 75 X2 Y2 XY

4 9 0 16 25 1 36 9 49 25 174

4 9 4 64 100 4 225 25 324 100 859

4 9 0 32 50 2 90 15 126 50 378

x = 3.6

y = 7.5

La pendiente de la recta (b) , o Coeficiente de Regresin, es igual a:

xy nx y S b= = x nx S
2 2

XY XX

b = [ 378 (3.6) (7.5) ] / [174 10(3.6)2 ] b = 2.432


(ventas por cliente)

La ordenada al origen de la recta (a) es:

a = y bx

a = (7.5) 2.432 (3.6) a = -1.26


Por lo tanto la ecuacin de la recta de regresin para el ejemplo es:

y = -1.26 + 2.432 x

Ahora podemos obtener una recta que se ajusta a los datos (observaciones).
Ventas vs Clientes Previos
20

15

y = -1.26 + 2.432 x

Ventas

10

0 0 1 2 3 4 Clientes Previos 5 6 7

Cmo podemos usar estos resultados? Una forma es hacer predicciones para ciertos valores
Punto de Venta
A B C D E F G H I J Total

Clientes Previos (X)


2 3 0 4 5 1 6 3 7 5 36

Ventas (Y)
2 3 2 8 10 2 15 5 18 10 75

Prediccin (Y) +3.604 +6.036 -1.260 +8.468 +10.900 +1.172 +13.332 +6.036 +15.764 +10.900

Error (e) e=( Y-Y ) -1.604 -3.036 +3.260 -0.468 -0.900 +0.826 +1.668 -1.036 +2.236 -0.900 0.0

e2

2.573 9.217 10.628 0.219 0.810 0.686 2.782 1.073 5.000 0.810 33.80

Notar que

(y - y) = (e) = 0.0 (esto siempre se cumple)


e 2 = error o RSS = 33.8 Este tambin se puede calcular como:

RSS = SYY bS XY

(residual sum of squares)

Esto se llama Error Cuadrtico o Suma de Residuos Cuadrados.

El Error Cuadrtico Medio (MSE, o Mean Square Error en las aplicaciones) no es otra cosa sino el promedio de este valor (slo lo dividimos entre N). La Raz Cuadrtica Media (RMS, o Root Mean Square en las aplicaciones) no es otra cosa sino la raz cuadrada de MSE. El Error Estndar es la raz cuadrtica media pero ajustada por el nmero de coeficientes (dividida entre n-2).

Vous aimerez peut-être aussi