Vous êtes sur la page 1sur 22

U

N I

V E

S I

D E

SAN MARTIN DE PORRES


FACULTAD DE CIENCIAS ADMINISTRATIVAS Y RECURSOS HUMANOS

ADMINISTRACION DE NEG. INTERNACIONALES

TEMA CURSO PROFESOR

: : :

GUIA BASICA DE REGRESION LINEAL MULTIPLE GERENCIA DE LUIS IMPORTACIONES

PORRAS SOSA

INTRODUCCION

A continuacin, presentamos la Gua Bsica de Regresion Lineal mltiple para la resolucin de ejercicios y casos por medio de la tcnica estadstica de prediccin, Regresion Mltiple. Esta gua esta diseada de tal manera que permite un rpido aprendizaje del alumno, logrando que cualquier individuo que tenga poco o ningn conocimiento en esta materia pueda entenderla fcilmente y sin ninguna complicacin. Aprender mtodos estadsticos como la Regresion lineal Mltiple nos sirve de mucho como administradores pues nos brinda una herramienta de prediccin muy utilizada por los investigadores para estudiar la posible relacin entre varias variables independientes (predictoras o explicativas) y otra variable dependiente (criterio, explicada o respuesta). La presente gua didctica nos muestra un caso sobre el cual aplicaremos la metodologa de regresion lineal mltiple, aqu se indica paso por paso lo que el alumno debe hacer para resolver correctamente dicho caso que no esta muy lejos de presentarse en la vida real y en nuestro campo laboral. Es por eso, que el manejo adecuado de este tipo de tcnicas estadsticas es fundamental en nuestro desarrollo profesional. Sin ms prembulos presentamos esta Gua bsica de Regresion Lineal mltiple que esperamos sea del agrado del lector pues nos ha costado esfuerzo y dedicacin llevarlo acabo.

REGRESION LINEAL MULTIPLE CASO: PRENDAS Y ACCESORIOS DE BABY ALPACA La empresa exportadora CUSCOSTORES dedicada a la fabricacin y comercializacin de prendas de vestir y accesorios hechos de baby alpaca, tiene actualmente un serio problema de suministro de fibra natural de alpaca (este hecho esta causando serias dificultades a esta empresa que tiene ms pedidos de los que puede atender). El gerente general convoco una junta de urgencia con todos los gerentes de rea (produccin, logstica, mercadotecnia etc.) para poder determinar cuales son los principales factores que afectan el suministro de fibra de alpaca la cual es proporcionada por los criadores alpaqueros de Junin. Despus, de un exhaustivo anlisis llegaron a determinar los siguientes factores influyentes: Demanda de baby alpaca por mercados internacionales, nmero de empresas del mismo rubro, nmero de camlidos criados en la zona de Junn, precio de la fibra natural de alpaca, Inversin en el sector de camlidos que esta relacionado directamente con la calidad de la fibra. A continuacin, mostramos los datos obtenidos de estas variables en los periodos de 1990 al 2009:
CANTIDAD DE FIBRA DE ALPACA (toneladas) DEMANDA DE BABY ALPACA (miles toneladas) NUMERO DE EMPRESAS (unidades) PRECIO DE FIBRA NATURAL DE ALPACA X kg (soles) NUMERO DE INVERSION CAMELIDOS EN SECTOR (miles de CAMELIDOS unidades) (millones S/.)

AOS

1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

10.450 10.455 10.456 11.000 10.992 11.101 11.140 11.018 11.580 11.820 12.340 12.202 12.456 12.667 12.980 12.993 13.000 12.988 12.930 12.840

17.850 17.450 18.200 18.345 18.670 19.300 19.260 19.450 19.933 20.300 20.002 20.420 21.010 21.308 21.670 22.000 22.103 22.930 23.104 23.500

10 10 11 12 15 15 16 20 22 22 27 28 35 37 39 42 47 49 55 62

14.50 14.50 14.55 14.55 14.95 14.60 14.60 14.90 14.65 14.65 14.57 14.56 14.56 14.55 14.60 14.55 14.50 15.00 15.15 15.92

132.970 132.990 133.100 132.980 132.700 133.200 133.270 131.900 132.680 133.100 134.200 133.870 133.940 134.020 134.872 134.502 135.780 133.233 133.050 132.090

42.450 43.670 43.560 45.000 44.987 44.990 45.001 44.670 45.102 45.230 45.762 44.670 45.098 45.892 45.902 46.120 47.500 45.095 45.000 45.120

Con estos datos se construir un modelo de regresion lineal mltiple para determinar la relacin que existe entre el problema de suministro de fibra natural de alpaca y las otras variables independientes. En este caso trataremos de conocer si realmente alguna de estas cinco variables explica la magnitud de la variacin razonable en la variable dependiente. A continuacin, mostramos como desarrollar este caso a travs del programa Excel (Microsoft office)
RECOMENDACIONES: Para la realizacin de este caso, se utilizar el programa Excel del office 2007, en el cual debe estar configurado anlisis de datos. En anlisis de datos encontraremos la funcin Regresion la cual se requerir para resolver este caso.

Cmo configurar Anlisis de datos en mi computadora? 1. Dar un click sobre con el botn derecho del mouse. Luego dar un click sobre Personalizar barra de herramientas de acceso rpido. con el botn izquierdo del mouse.

2. Aparecer una ventana con opciones de Excel, debemos clickear complementos con el botn izquierdo del mouse.

Luego, Click izquierdo sobre Herramientas para anlisis

Despus, Click izquierdo sobre ir

3. A continuacin, aparecer otra ventana de complementos disponibles. Debemos seleccionar Herramientas para anlisis y aceptar. Click izquierdo sobre Aceptar

4. Despus de esto, debemos esperar un poco para que se configure la funcin anlisis de Datos en el programa de Excel. Luego, podremos empezar a desarrollar nuestro caso PRENDAS Y ACCESORIOS DE BABY ALPACA Cmo empiezo a desarrollar el caso propuesto? 1. Lo primero que debemos hacer es contar con toda la informacin que requerimos. Debemos tener datos de la variable dependiente (CANTIDAD DE FIBRA DE ALPACA) y de las variables independientes (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA, INVERSIN EN EL SECTOR DE CAMLIDOS) que van a tratar de explicar nuestro modelo.

Click izquierdo sobre Anlisis de datos

2. Luego, aparecer una ventana de Anlisis de datos, debemos Clickear la funcin regresion y aceptar.

Click izquierdo sobre Funcin Regresion y luego Aceptar

3. A continuacin, aparecer una ventana de Regresion, en donde deberemos seleccionar los datos de todas nuestras variables. En la parte Rango Y de entrada debemos seleccionar los datos de nuestra variable dependiente Y (CANTIDAD DE FIBRA DE ALPACA).

4. De la misma manera en la parte Rango X de entrada seleccionaremos todos los datos de nuestras variables independientes (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA, INVERSIN EN EL SECTOR DE CAMLIDOS).

5. Click izquierdo sobre Rtulos ya que los seleccionamos junto con los datos. 6. Verificar que se tenga un nivel de confianza de 95% (es decir solo 0.5% de error). 7. Si queremos que los resultados salgan en una nueva hoja de Excel, click izquierdo sobre Hoja nueva 8. Si queremos ver residuos click izquierdo sobre Residuos y grafico de residuales 9. Por ultimo, Click izquierdo sobre Aceptar

10. A continuacin mostramos los resultados obtenidos a travs del anlisis de regresion:

bo = -10.44072181 b3 = - 0.442265404

b1 = 0.386855638 b4 = 0.12540536 1

b2 = 0.012797219 b5 = 0.085558379

11. A continuacin tenemos que construir nuestra ecuacin de la regresin mltiple en base a los coeficientes que hemos obtenidos del Excel, la cual va ser construido de la siguiente manera.

Y = -10.44072181 + 0.386855638 X1 + 0.012797219 X2 - 0.442265404 X3 + 0.125405361 X4 + 0.085558379 X5

12. una vez que construimos nuestra ecuacin de regresin mltiple con los datos que nos proporciona el Excel, tenemos que hacer una Prueba global para poder determinar si nuestro modelo sirve o no sirve, es decir si nuestras variables independientes (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIN EN EL SECTOR DE CAMLIDOS pueden explicar a nuestra variable respuesta cantidad de fibra de alpaca. Esta prueba no especifica que variable independiente explica a la variable dependiente, puede ser uno, dos, tres o todas, lo que se busca como se menciono anteriormente es que el modelo sirva. Para esto tenemos que hacer una prueba global que se va realizar a travs del anlisis de varianza. 13. En el anlisis de varianza vamos a explicar primero los grados de libertad

El grado de libertad de la regresin es K que es el nmero de variables independientes en este caso son 5 como (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIN EN EL SECTOR DE CAMLIDOS.

El grado de libertad del residuo es de la Formula GL = N K -1, donde N es el nmero de observaciones que en este caso es 20, K es el nmero de variables independientes, lo que restado a -1 resulta 14 que sumado a los grados de libertad de la regresin es 19.

14. A continuacin, explicaremos como el Excel haya el promedio de los cuadrados tanto de la regresin como de los residuos

El Promedio de los cuadrados de la regresin resulta de dividir la Suma de cuadrados de la regresin entre los Grados de libertad de la regresin. (De la misma manera es con el promedio cuadrado de los residuos).

15. Una vez que se ha visto como se ha determinado el promedio de cuadrados tanto de la regresin como para los residuos se va explicar como resulta el F calculado (a travs de Excel), que en este caso resulta 80.34. Pero antes de explicar el F calculado vamos a dar los pasos que se siguen en forma terica para determinar la validez de este modelo. 1. Formulacin de hiptesis H0: 1 = 2 = 3 =4 =5 = 0 Ha: 1 2 3 4 5 0 Si se acepta la hiptesis planteada, significa que ninguno de los factores (X1, X2, X3, X4 y X5) son relevantes para explicar los cambios en Y. Para que el modelo sea vlido se tiene que rechazar la H0 (Hiptesis planteada) y aceptar la Ha (Hiptesis alternante) que significa que al menos una de las variables independientes explican a la variable respuesta.

2. Determinacin del nivel de significacin = 0,10

3. Seleccin de la prueba estadstica:

Fc

CM e Re gresin CM e Re siduos

Se realiza a partir del Anlisis de Varianza de la Regresin y tiene como objeto aceptar o rechazar la validez del modelo.

Fc = 3.454972369 = 80.3499358 0.042999068


16. El F calculado (de Excel) es el punto ms importante del anlisis de varianza, ya que me va determinar si mi modelo sirve o no sirve, pero para determinar esto tengo que compararlo con el F de tabla. A continuacin se va explicar como hallar el F de tabla.

Se coloca el cursor en cualquier celda libre para obtener el F de tabla y compararlo con el F calculado.

Click izquierdo en Fx y nos va salir el siguiente cuadro En seleccionar una categora dar click en Estadsticas y en seleccionar una funcin dar click en DISTR.F.INV y luego dar click en Aceptar.

17. A continuacin, podemos observar un cuadro de argumento de funcin donde en probabilidad colocaremos 0.05 que es mi nivel de significancia. Si bien es cierto que mi nivel de significancia es 0.1 por tratarse de una distribucin que no es normal el que es 0,10 se divide entre 2 por la forma de distribucin que podemos observar en la siguiente figura.

= 0,05
(1 - 0,95

Una vez que se ha completado los datos dar click en Aceptar.

18. Una vez determinado el F de tabla, se compara con el F calculado por Excel. Como en este caso el F calculado es mayor que el F de tabla podemos afirmar que nuestro modelo es vlido, es decir que al menos una de las variables independientes explica a la variable respuesta cantidad de fibra de alpaca

Se compara el F de tabla con el F calculado

19. Otra manera de determinar si el modelo es vlido es comparando el Nivel de significancia con el Valor crtico de F. Si el valor crtico de F es menor que el nivel de significancia entonces el modelo es vlido, es decir que al menos uno de las variables independientes explican a la variable dependiente cantidad de Fibra de Alpaca como es en este caso.

Se compara el Nivel de significancia con el Valor crtico de F.

Antes de pasar a la Prueba individual podemos concluir que de la Prueba global, se obtuvo un valor Fc > Ft y /2 > p-valor por lo tanto se rechaza la hiptesis planteada, se acepta la hiptesis alternativa a un nivel de significacin de 0,10. La prueba result ser significativa. Hay evidencia muestral suficiente para rechazar la hiptesis planteada (hiptesis nula) Probablemente al menos uno de los factores seleccionados (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIN EN EL SECTOR DE CAMLIDOS) explican el comportamiento de la cantidad de fibra de alpaca. 20. Una vez que se ha determinado la validez del modelo, se va realizar una Prueba Individual para poder saber cual de las variables independientes explican mejor a mi variable respuesta cantidad de fibra de alpaca. Para esto se va realizar la Prueba estadstica T que se va analizar en el siguiente cuadro.

La Prueba individual se puede hacer bien con el Estadstico t o con la Probabilidad

Se coloca el cursor en cualquier celda libre para obtener el T de tabla y compararlo con el T calculado (por Excel).

Click izquierdo en fx y nos va salir el siguiente cuadro

En seleccionar una categora dar click en Estadsticas y en seleccionar una funcin dar click en DISTR.T.INV y luego dar click en Aceptar.

21. A continuacin, podemos observar un cuadro de Argumento de funcin donde en Probabilidad colocaremos 0.1 que es mi nivel de significancia. En el estadstico T la distribucin es normal por esa razn mi nivel de significancia es 0.1 como se muestra en el cuadro. Los grados de libertad son de los residuos que es 14.

Este resultado es el T de tabla

Una vez que se ha completado los datos dar click en Aceptar.

22. Una vez determinado el T de tabla, se compara con cada uno de los T calculados (estadstico T) por Excel.

Para determinar que variable independiente explica mejor a mi variable respuesta cantidad de fibra de alpaca se compara el T de tabla con cada uno de los T calculados por Excel. Si el T

calculado es mayor al T de tabla entonces esa variable explica a la variable respuesta, pero si el T calculado es menor al T de tabla eso quiere decir que no hay relacin entre la variable independiente con la variable respuesta (cantidad de fibra de alpaca). En el caso, la nica T calculada que es mayor al T de tabla es 2.394313948 que corresponde a la variable independiente DEMANDA DE BABY ALPACA, por lo que podemos concluir que es la nica variable que explica a la cantidad de fibra de alpaca. 23. Otra manera de determinar que variable explica mejor a mi variable respuesta, es comparando el Nivel de Significancia con la Probabilidad. Si la Probabilidad es menor que el Nivel de significancia entonces la variable independiente explica a mi variable respuesta.

Podemos observar que la Probabilidad de la demanda de baby alpaca es la nica que es menor al Nivel de significancia, por lo que es la nica variable independiente que explica a la variable dependiente (cantidad de fibra de alpaca). 24. La variable X1 ser considerada en el modelo de regresin mltiple. El nuevo modelo, determinado por la prueba individual ser:

Y = b0 + b1 * X1 (Demanda de baby alpaca)

AOS
1990 1991 1992 1993 1994 1995 1996 1997

CANTIDAD DE FIBRA DE ALPACA (Toneladas)

DEMANDA DE BABY ALPACA (miles toneladas)

10.45 10.455 10.456 11 10.992 11.101 11.14 11.018

17.85 17.45 18.2 18.345 18.67 19.3 19.26 19.45

1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

11.58 11.82 12.34 12.202 12.456 12.667 12.98 12.993 13 12.988 12.93 12.84

19.933 20.3 20.002 20.42 21.01 21.308 21.67 22 22.103 22.93 23.104 23.5

Con estos datos se construir un nuevo modelo de regresin lineal mltiple para determinar la relacin que existe entre el problema de Suministro de fibra natural de Alpaca y la Demanda de fibra de alpaca. Cmo empiezo a desarrollar el nuevo modelo propuesto?

Una vez que tenemos los datos de las dos variables en Excel damos Click izquierdo sobre Anlisis de datos

25. Luego, aparecer una ventana de regresin y aceptar.

Anlisis de datos, debemos

Clickear

la funcin

Click izquierdo sobre Funcin Regresion y luego Aceptar 26. A continuacin, aparecer una ventana de Regresin, en donde deberemos seleccionar los datos de las dos variables. En la parte Rango Y de entrada debemos seleccionar los datos de nuestra variable dependiente (CANTIDAD DE FIBRA DE ALPACA).

27. De la misma manera en la parte Rango X de entrada seleccionaremos todos los datos de la variable independiente (DEMANDA DE BABY ALPACA).

Click izquierdo sobre Rtulos ya que los seleccionamos junto con los datos. Verificar que se tenga un nivel de confianza de 95% (es decir solo 0.5% de error). Si queremos que los resultados salgan en una nueva celda, click izquierdo sobre Rango de salida Si queremos ver residuos click izquierdo sobre Residuos y grafico de residuales Por ultimo, Click izquierdo sobre Aceptar

28. A continuacin mostramos los resultados obtenidos a travs del anlisis de regresin:

bo = 1.607876727

b1 = 0.504542632

Nuestro nuevo modelo de regresin lineal es Y = 1.607876727 + 0.504542632 * X1 29. Luego, se va hacer la Prueba R del primer anlisis de regresin con todas las variables independientes (DEMANDA DE BABY ALPACA, NMERO DE EMPRESAS DEL MISMO RUBRO, NMERO DE CAMLIDOS CRIADOS EN LA ZONA DE JUNIN, PRECIO DE LA FIBRA NATURAL DE ALPACA E INVERSIN EN EL SECTOR DE CAMLIDOS La Correlacin mltiple es del 98.30%, podemos afirmar que las variables independientes se encuentran asociadas en forma directa de una manera muy fuerte. El R cuadrado ajustado indica que mis variables independientes explican en un 95.42% a mi variable cantidad de fibra de alpaca.

30. Para finalizar este caso se va realizar la Prueba R de la variable cantidad de fibra de alpaca con la variable independiente Demanda de baby alpaca. La Correlacin mltiple es del 94.40%, podemos afirmar que las Demanda de baby alpaca se encuentra asociada de una manera muy fuerte con la variable dependiente Cantidad de fibra de alpaca El R cuadrado ajustado indica que el 88.50% de los cambios en la variable dependiente Cantidad de fibra de alpaca son explicados por la variable independiente Demanda de baby alpaca. Una sola variable explica el 88.5% de la variable respuesta, lo cual es mejor que el 95.42 % que fue explicado por las cuatro variables independientes que vimos en la anterior prueba R.

31. Con la ecuacin hallada podramos realizar pronsticos, mas no es recomendable ya que la verdadera finalidad de la Regresion lineal Mltiple es la prediccin de respuestas a partir de variables explicativas.

BIBLIOGRAFIA:

LEVIN, Richard y Rubin David S., Estadstica para administracin y economa, sptima edicin, Pearson educacin, Mexico, 2004, pag. 565-595

MONTGOMERY, Douglas C., Peck Elizabeth A., Vining G. Geoffrey., Introduccin al Anlisis de Regresin lineal, Continental, Mexico, 2005, 588 paginas.