Métodos Estadísticos - Regresión Múltiple - Statgraphics

Universidad de Antioquia
ANLISIS EXPLORATORIO, REGRESIN Y VALIDACIN DE SUPUESTOS
Primer trabajo Mtodos Estadsticos I

DANILO GIRALDO DEZ - CAROLINA CORAL JURADO
2012-2
INTRODUCCIN
Hoy en da las organizaciones se ven desafiadas por infinitos retos y dificultades, el adquirir nuevas tecnologas para el desarrollo eficiente de sus labores y ofrecer calidad y un servicio gil y oportuno a sus clientes, cumpliendo as con todos los requisitos del mismo e imponiendo su nombre en el mercado, hablamos de un camino difcil, pues para ello miles de conocimientos y ganas de innovar debern ponerse a prueba. Llama la atencin la dependencia de muchos factores a diferentes variables en distintas actividades o procesos. En el mundo de la industria es muy comn hablar de dependencia, ya que el xito o el fracaso no depende de un solo factor, sino que por el contrario todo trabaja en conjunto o como un sistema. Esta visin sistemtica permite a una organizacin fortalecerse y ser ms competitiva. El presente trabajo, se llevo a cabo a travs de la investigacin y estudio de la temtica relacionada con: series de tiempos, anlisis exploratorio de datos y seis supuestos que incluyen: multicolinealidad, autocorrelacin, heteroscedasticidad, R-cuadrado y ajuste del R-cuadrado, normalidad de los residuos y especificacin del modelo. La temtica anterior se utilizo para ser aplicada en datos ofrecidos por la docente, los cuales incluyen 3 variables (cada una con 64 datos): X1, X2 y Y, donde se considera a X1 y X2 como variables independientes y la variable Y como dependiente. Con cada una de ellas se realizo un interesante anlisis y se planteo un problema relacionado con la ingeniera industrial para su desarrollo, adems para entender la relacin que existe entre una variable dependiente y el conjunto de variables independientes se utilizo el anlisis de regresin lineal mltiple. Teniendo en cuenta la importancia de lo que implica un estudio de serie de tiempos y que dicha temtica an no ha sido dictada en el curso Mtodos Estadsticos I, aunque no se pretende tomar ello como excusa, el grupo se vio limitado a realizar completamente lo tratado en el curso, pues para ello se necesitan de mtodos que aun no se han enseado, sin embargo como equipo se procuro hacer el trabajo de la mejor manera posible, basndonos en excelentes fuentes bibliogrficas y enriqueciendo el presente trabajo bajo la asesora de reconocidos profesores especializados en estadstica de la Universidad de Antioquia.
PLANTEAMIENTO DEL PROBLEMA

Los datos que nos fueron suministrados clasifican en series de tiempo, as que aplicndolos a la ingeniera industrial establecimos el origen de los datos de la siguiente manera: Se nos ha contratado en la empresa de vehculos Perrari S.A para relacionar los efectos del dinero invertido en mercadeo y el dinero invertido en nuevas tecnologas con la venta de vehculos de alta gama, mediante un modelo de regresin lineal mltiple. Se realiza la toma de datos en 10 plantas de produccin distribuidas a nivel mundial por un lapso de 64 trimestres. Las condiciones de infraestructura, mano de obra, materia prima y capital de las plantas son similares, as que los niveles de produccin de cada planta, y dineros invertidos en mercadeo y adquisicin de nuevas tecnologas se toman trimestre tras trimestre y se promedian. Y: Cantidad promedio de autos vendidos en las 10 plantas. X1: Capital promedio invertido en mercadeo (Cientos de Dlares). X2: Capital promedio invertido en adquisicin de nuevas tecnologas para vehculos (Cientos de Dlares).
ANALISIS EXPLORATORIO DE DATOS

El anlisis exploratorio de datos es presentado para comprender de una manera ms clara el comportamiento de cada una de las tres variables. 1. ANALISIS VARIABLE Y: Cantidad promedio de autos vendidos en las 10
plantas.
Lmite Clase Inferior Tabla de Frecuencias para Y Lmite Frecuenci a Superio Punto Frecuenci Relativa r Medio a 13000,0 0 0,0000 0,1406 0,0938 0,0625 0,0156 0,0781 0,3281 0,2656 0,0156 0,0000 Frecuenci a Acumulad a 0 9 15 19 20 25 46 63 64 64 Frecuenci a Rel. Acum. 0,0000 0,1406 0,2344 0,2969 0,3125 0,3906 0,7188 0,9844 1,0000 1,0000
menor o igual 1 13000,0 16125,0 14562,5 9 2 16125,0 19250,0 17687,5 6 3 19250,0 22375,0 20812,5 4 4 22375,0 25500,0 23937,5 1 5 25500,0 28625,0 27062,5 5 6 28625,0 31750,0 30187,5 21 7 31750,0 34875,0 33312,5 17 8 34875,0 38000,0 36437,5 1 mayor de 38000,0 0 Media = 26705,6 Desviacin Estndar = 6681,9 Tabla 1.
A partir del la Tabla 1 de frecuencias es posible analizar qu: El intervalo de cantidad de ventas promedio con mayor frecuencia es: (28625,0-31750,0) Se tomaron 64 datos, donde cada uno de ellos es un promedio de la cantidad de ventas de autos en las 10 plantas por trimestre. Existen 8 intervalos, los cuales fueron obtenidos con la raz cuadrada del nmero de datos. El 39,06% de la cantidad de ventas promedio son menores que 28625,0. El 98,44% de la cantidad de ventas promedio son menores que 34875,0 El 71,88% de la cantidad de ventas promedio son menores que 31750,0 El 31,25% de la cantidad de ventas promedio son menores que 25500,0 El 29,69% de la cantidad de ventas promedio son menores que 22375,0 El 23,44% de la cantidad de ventas promedio son menores que 19250,0 El 14,06% de la cantidad de ventas promedio son menores que 16125,0 y mayores a 13000.
(La Media y la Desviacin Estadar anexos a la tabla sern explicados en el analisis de la Tabla 3)
Histograma 24 20
frecuencia
16 12 8 4 0 13 18 23 Y 28 33 38 (X 1000,0)
Grfico 1
Grfico de Simetra (X 1000,0) 16

distancia sobre mediana
12
0 0 4 8 distancia abajo mediana 12 16 (X 1000,0)
Grfico 2
Si observamos los Grficos 1 (muestra los datos obtenidos en la Tabla 1 de frecuencias) y 2 que forman los datos de la variable Y es posible inferir que no existe distribucin normal ni simtrica, por lo tanto se puede decir que en las 10 plantas no se cumplen con las especificaciones dentro de los lmites esperados de la cantidad promedio de autos vendidos. Adems la mayora de muestras, exactamente 21 se encuentran agrupadas en el intervalo 28625,0-31750,0 y la minora de datos (1 dato) se encuentra entre 22375,025500,0 y 34875,0-38000,0.
Grfico de Densidad Suavizada (X 0,00001) 10 8

densidad
6 4 2 0 14 18 22 26 Y 30 34 38 (X 1000,0)
Grfico 3 El Grfico 3 de densidad suavizada representa un mtodo de suavizacin de las frecuencias, para mayor claridad es una alternativa del histograma para la variable Y. Percentiles para Y Percentiles 1,0% 5,0% 10,0% 25,0% 50,0% 75,0% 90,0% 95,0% 99,0% 14488,0 14989,0 15580,0 19928,5 30051,7 31794,1 32573,1 33231,2 36705,0 Tabla 2
Grfico de Cuantiles 1 0,8

proporcin
0,6 0,4 0,2 0 14 18 22 26 Y 30 34 38 (X 1000,0)
Grfico 4 A partir de la informacin de la Tabla 2 de percentiles y del Grfico 4 de Cuantiles se puede concluir que: En el grfico se organizan los datos de menor a mayor, se puede considerar que los datos no presentan una distribucin normal, ya que no tienen forma de campana. El primer percentil de los datos es igual a 14488,0, lo que implica que el 1% de todos los datos tuvieron un valor menor o igual a 14488,0 de cantidad de ventas promedio de vehculos. El 5to percentil de los datos es igual a 14989,0, lo que implica que el 5% de todos los datos tuvieron un valor menor o igual a 14989,0 de cantidad de ventas promedio de vehculos. El decimo percentil de los datos es igual a 15580,0, lo que implica que el 10% de todos los datos tuvieron un valor menor o igual a 15580,0 de cantidad de ventas promedio de vehculos. El 25 percentil de los datos es igual a 19928,5, lo que implica que el 25% de todos los datos tuvieron un valor menor o igual a 19928,5 de cantidad de ventas promedio de vehculos. El 50 percentil de los datos es igual a 30051,7, lo que implica que el 50% de todos los datos tuvieron un valor menor o igual a 30051,7 de cantidad de ventas promedio de vehculos. El 75 percentil de los datos es igual a 31794,1, lo que implica que el 75% de todos los datos tuvieron un valor menor o igual a 31794,1 de cantidad de ventas promedio de vehculos. El 90 percentil de los datos es igual a 32573,1, lo que implica que el 90% de todos los datos tuvieron un valor menor o igual a 32573,1 de cantidad de ventas promedio de vehculos. El 95 percentil de los datos es igual a 33231,2, lo que implica que el 95% de todos los datos tuvieron un valor menor o igual a 33231,2 de cantidad de ventas promedio de vehculos.
El 99 percentil de los datos es igual a 36705,0, lo que implica que el 99% de todos los datos tuvieron un valor menor o igual a 36705,0 de cantidad de ventas promedio de vehculos.
Grfico de Dispersin
14
18
22
26 Y
30
34
38 (X 1000,0)
Grfico 5 En el Grfico 5 de dispersin observe que aproximadamente la nube de puntos es ms densa cerca del rango 28000-33000, lo que significa un intervalo en donde existe mayor frecuencia de la cantidad promedio de autos vendidos y se hace menos densa o menos frecuente en los valores 22000,0-26000,0 y 34000-38000,0. Tambin hay un punto cercano a 37000 que parece algo extremo. Resumen Estadstico para Y Recuento 64 Promedio 26705,6 Mediana 30051,7 Moda Varianza 4,46478E7 Desviacin Estndar Coeficiente de Variacin Mnimo Mximo Rango Sesgo Curtosis Tabla 3 6681,9 25,0206% 14488,0 36705,0 22217,0 -0,755497 -1,01782
A continuacin se ampla los conceptos de los trminos utilizados en el resumen estadstico (Tabla 3) para la variable Y: 1. Recuento: Se tomaron 64 datos, donde cada uno de ellos es un promedio de la cantidad de ventas de autos en las 10 plantas por trimestre. 2. Promedio: se conoce tambin como media, es un nmero finito que puede obtenerse a partir de la sumatoria de diferentes valores dividida entre el nmero de sumandosi. Para nuestros datos toma un valor de 26705,6 de cantidad promedio de vehculos vendidos. 3. Mediana: Es el valor que ocupa el lugar central de todos los datos cuando stos estn ordenados de menor a mayorii Para los datos de la variable Y es igual a 30051,7 4. Moda: No hay moda si ningn nmero se repite ms de una veziii en la Tabla 3 se observa que no existe moda para los datos de la variable Y 5. Desviacin Estndar: es una medida de dispersin, que nos indica cunto pueden alejarse los valores respecto al promedio (media)iv. Lo que indica que los datos del promedio de cantidad de autos vendidos se encuentran alejados unos de otros en 6681,9. 6. Varianza: se define como el cuadrado de su desviacin estndarv. Del dato anterior podemos obtener la varianza (para obtener valores absolutos), que es el valor de la desviacin estndar elevada al cuadrado, tenemos: (6681,9)2 = 44647787,61 7. Coeficiente de Variacin: elimina la dimensionalidad de las variables y tiene en cuenta la proporcin existente entre medias y desviacin tpicavi, es decir lo utilizamos para medir la variacin en porcentaje del promedio de los datos con respecto a la media, en nuestro caso 25,0206%, este porcentaje nos quiere decir que es homognea esta dispersin, no es alarmante. 8. Mnimo: El dato menor correspondiente a la variable Y es 14488,0. 9. Mximo: El dato mayor correspondiente a la variable Y es 36705,0 10. Rango: Es la diferencia entre el dato mayor y menor, de donde se tiene: (36705,0-14488,0) = 22217,0 11. Sesgo: El sesgo determina el grado de asimetra (alargamiento de la distribucin hacia la derecha o hacia la izquierda)vii, la variable Y tiene un sesgo negativo, lo que indica que la distribucin es sesgada a izquierda. 12. Curtosis: Una curtosis negativa indica una distribucin relativamente ms achatada ser Platicrtica... y muestra que hay una menor concentracin de datos en torno a la media.viii
Con ello podemos decir que existe una distribucin achatada, es decir presenta un reducido grado alrededor de los valores centrales, ser llamada entonces Distribucin Platicrtica.
Grfico 6 El valor de los datos interpretados se encuentra en el rango de 14488,0 36705,0, dicho rango es dividido en cuatro partes o en cuartiles, cada cuartil equivale a un 25% del nmero de datos. A partir del Grfico 6 de Caja y Bigotes es posible realizar el siguiente anlisis: Se puede observar que la parte izquierda de la caja es mayor que la de la derecha, ello quiere decir que los datos comprendidos entre el 25% y el 50% se encuentran ms dispersos que entre el 50% y el 75%. La parte izquierda de la grfica es ms grande que el de la derecha, por ello el 25% de los datos con menor cantidad promedio de ventas de vehculos estn menos concentrados que los datos con mayores ventas. Q3 - Q1= (31794,1- 19928,5)= 11865,6 De la anterior operacin es posible concluir que el 50% de los datos de cantidad promedio de autos vendidos estn comprendidos en 11865,6. No existen datos atpicos. La mediana tiene un valor aproximado a 30000 El promedio segn el grfico tiene una valor aproximadamente cercano a 27000
2. ANALISIS VARIABLE X1: Capital promedio invertido en mercadeo
(Cientos de Dlares).
Lmite Clase Inferior Tabla de Frecuencias para X1 Frecuenci Frecuenci Frecuenci a a a Superio Punto Frecuenci Relativa Acumulad Rel. r Medio a a Acum. 1000,0 0 0,0000 0 0,0000 Lmite 8250,0 4625,0 21 15500,0 11875,0 14 22750,0 19125,0 13 30000,0 26375,0 3 37250,0 33625,0 2 44500,0 40875,0 5 51750,0 48125,0 5 59000,0 55375,0 1 59000,0 0 Desviacin Estndar = 14812,8 Tabla 4 A partir del la Tabla 4 de frecuencias es posible analizar qu: El intervalo de capital promedio invertido en mercadeo con mayor frecuencia es: (1000,0-8250,0) (cientos de dlares). Se tomaron 64 datos, donde cada uno de ellos es un promedio del capital promedio de inversin en mercadeo en las 10 plantas por trimestre. Existen 8 intervalos, los cuales fueron obtenidos con la raz cuadrada del nmero de datos. El 32,81% del capital promedio de inversin en mercadeo son menores que 8250,0 y mayores que 1000 (cientos de dlares). El 54,69% del capital promedio de inversin en mercadeo son menores que 15500,0 (cientos de dlares). El 75% del capital promedio de inversin en mercadeo son menores que 22750,0 (cientos de dlares). El 79,69% del capital promedio de inversin en mercadeo son menores que 30000,0 (cientos de dlares). El 82,81% del capital promedio de inversin en mercadeo son menores que 37250,0 (cientos de dlares). El 90,63% del capital promedio de inversin en mercadeo son menores que 44500,0 (cientos de dlares). El 98,44% del capital promedio de inversin en mercadeo son menores que 51750,0(cientos de dlares). 0,3281 0,2188 0,2031 0,0469 0,0313 0,0781 0,0781 0,0156 0,0000 21 35 48 51 53 58 63 64 64 0,3281 0,5469 0,7500 0,7969 0,8281 0,9063 0,9844 1,0000 1,0000
menor o igual 1 1000,0 2 8250,0 3 15500,0 4 22750,0 5 30000,0 6 37250,0 7 44500,0 8 51750,0 mayor de Media = 17816,0
Histograma 24 20
frecuencia
16 12 8 4 0 0 1 2 3 X1 4 5 6 (X 10000,0)
Grfico 7

4 3 2 1 0 0 1 2 3 distancia abajo mediana 4 5 (X 10000,0)
Grfico 8
Al observar los Grficos 7 (muestra los datos obtenidos en la Tabla 4 de frecuencias) y 8 formados por los datos de la variable X1 es posible inferir que no existe distribucin normal ni simtrica, por lo tanto se puede decir que en las 10 plantas no se cumplen con las especificaciones dentro de los lmites esperados del capital promedio invertido en mercadeo. Adems la mayora de muestras, exactamente 21 se encuentran agrupadas entre 1000,0-8250,0 y la minora de datos (1 dato) se encuentra entre 51750,0-59000,0 (cientos de dlares).
Grfico de Densidad Suavizada (X 0,00001) 4
3
densidad
0 0 1 2 3 X1 4 5 6 (X 10000,0)
Grfico 9 El Grfico 9 de densidad suavizada representa un mtodo de suavizacin de las frecuencias o una alternativa del histograma para la variable X1. Percentiles para X1 Percentiles 1,0% 5,0% 10,0% 25,0% 50,0% 75,0% 90,0% 95,0% 99,0% 1805,12 2987,11 3229,77 5548,1 12616,8 24412,9 42582,0 45629,1 53016,2
Tabla 5

proporcin
0,6 0,4 0,2 0 0 1 2 3 X1 4 5 6 (X 10000,0)
Grfico 10 A partir de la informacin de la Tabla 5 de percentiles y el Grfico 10 de Cuantiles se puede concluir que: En el grfico se organizan los datos de la variable X1 de menor a mayor, se puede considerar que los datos no presentan una distribucin normal, ya que no tienen forma de campana. El primer percentil de los datos es igual a 1805,12, lo que implica que el 1% de todos los datos de la variable X1 tuvieron un valor menor o igual a 1805,12 (cientos de dlares) de capital promedio de inversin en mercadeo. El 5to percentil de los datos es igual a 2987,11, lo que implica que el 5% de todos los datos tuvieron 2987,11 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El decimo percentil de los datos es igual a 3229,77, lo que implica que el 10% de todos los datos tuvieron 3229,77 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El 25 percentil de los datos es igual a 5548,1, lo que implica que el 25% de todos los datos tuvieron 5548,1 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El 50 percentil de los datos es igual a 12616,8, lo que implica que el 50% de todos los datos tuvieron 12616,8 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El 75 percentil de los datos es igual a 24412,9, lo que implica que el 75% de todos los datos tuvieron 24412,9 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo.
El 90 percentil de los datos es igual a 42582,0, lo que implica que el 90% de todos los datos tuvieron 42582,0 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El 95 percentil de los datos es igual a 45629,1, lo que implica que el 95% de todos los datos tuvieron 45629,1 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo. El 99 percentil de los datos es igual a 53016,2, lo que implica que el 99% de todos los datos tuvieron 53016,2 (cientos de dlares) o inferior de capital promedio de inversin en mercadeo.
Grfico de Dispersin
3 X1
6 (X 10000,0)
Grfico 11 A partir del Grfico 11 de dispersin observe que aproximadamente la nube de puntos con mayor densidad esta cerca del rango 0-20000, lo que quiere decir que es un intervalo con mayor frecuencia de capital promedio de inversin en mercadeo y un poco menor del 40000-50000; adems se hace menos densa o frecuente en los valores 30000,040000.Tambin existen algunos puntos algo extremos cercanos a 50000. Resumen Estadstico para X1 Recuento 64 Promedio 17816,0 Mediana 12616,8 Moda Varianza 2,19419E8 Desviacin Estndar Coeficiente de Variacin Mnimo Mximo Rango Sesgo Curtosis Tabla 6 14812,8 83,143% 1805,12 53016,2 51211,0 0,958836 -0,23729
A continuacin se ampla los conceptos de los trminos utilizados en el resumen estadstico (Tabla 6) para la variable X1, teniendo en cuenta los conceptos utilizados en la variable Y: 1. Recuento: Se tomaron 64 datos, donde cada uno de ellos es un promedio del capital promedio de inversin en mercadeo en las 10 plantas por trimestre. 2. Mediana: El dato de la mitad equivale a 12616,8 3. Moda: La variable X1 carece de moda 4. Promedio: para nuestros datos un nmero que pueda representar de la mejor manera a todos los valores del conjuntoix es 17816,0 de capital promedio de inversin en mercadeo. 5. Desviacin Estndar: los datos de capital promedio de inversin en mercadeo se encuentran alejados unos de otros en 14812,8. 6. Varianza: Del dato anterior podemos obtener la varianza (para obtener valores absolutos), que es el valor de la desviacin estndar elevada al cuadrado, tenemos: (14812,8)2 = 219419043,84 7. Coeficiente de Variacin: lo utilizamos para medir la variacin en porcentaje del promedio de los datos con respecto a la media, en nuestro caso 83,143%, este porcentaje nos quiere decir que es heterognea esta dispersin, es alarmante. 8. Mnimo: El dato menor correspondiente a la variable X1 es 1805,12. 9. Mximo: El dato mayor correspondiente a la variable X1 es 53016,2 10. Rango: Es la diferencia entre el dato mayor y menor de capital promedio de inversin en mercadeo, de donde se tiene: (53016,2-1805,12) = 51211,08 11. Sesgo: por tener un sesgo positivo en la variable Y, se puede concluir que la distribucin es sesgada a la derecha. 12. Curtosis: De acuerdo a la definicin de curtosis negativa dada en el anlisis de la variable Y para la curtosis, podemos decir nuevamente que existe una distribucin achatada, es decir presenta un reducido grado alrededor de los valores centrales, ser llamada entonces distribucin Platicrtica.
Grfico de Caja y Bigotes
3 X1
6 (X 10000,0)
Grfico 12 El valor de los datos interpretados se encuentra en el rango de 1805,12 53016,2, dicho rango es dividido en cuatro partes o cuartiles y posee 1 dato atpico, cada cuartil equivale a un 25% del nmero de datos. A partir del Grfico 12 de Caja y Bigotes es posible realizar el siguiente anlisis: Se puede observar que la parte izquierda de la caja es menor que la de la derecha, ello quiere decir que los datos comprendidos entre el 25% y el 50% se encuentran menos dispersos que entre el 50% y el 75%. La parte izquierda de la grfica es ms pequea que el de la derecha, por ello el 25% de los datos con menor capital promedio de inversin en mercadeo estn ms concentrados que los datos con mayor capital promedio Q3 - Q1= (24412,9- 5548,1)= 18864,8 De la anterior operacin es posible concluir que el 50% de los datos de capital promedio de inversin en mercadeo de la empresa estn comprendidos en 18864,8 (cientos de dlares). El punto fuera del bigote se considera dato atpico y equivale a: 53016,2. La mediana tiene un valor aproximado a 12000 El promedio segn el grfico tiene una valor aproximadamente de 18000
3. ANALISIS VARIABLE X2: Capital promedio invertido en adquisicin de
nuevas tecnologas para vehculos (Cientos de Dlares).

Lmite Clase Inferior Tabla de Frecuencias para X2 Frecuenci Frecuenci Frecuenci a a a Superio Punto Frecuenci Relativa Acumulad Rel. r Medio a a Acum. 3000,0 11 0,1719 11 0,1719 Lmite 9750,0 6375,0 19 16500,0 13125,0 15 23250,0 19875,0 7 30000,0 26625,0 2 36750,0 33375,0 4 43500,0 40125,0 3 50250,0 46875,0 2 57000,0 53625,0 1 57000,0 0 Desviacin Estndar = 13128,0 Tabla 7 A partir del la Tabla 7 de frecuencias es posible analizar qu: El intervalo de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos con mayor frecuencia es: (3000,0-9750,0) (cientos de dlares). Se tomaron 64 datos, donde cada uno de ellos es un promedio del capital invertido en la adquisicin de nuevas tecnologas para vehculos en las 10 plantas por trimestre. Existen 8 intervalos, los cuales fueron obtenidos con la raz cuadrada del nmero de datos. El 46,88% del capital promedio invertido para nuevas tecnologas son menores que 9750,0 y mayor que 3000 (cientos de dlares). El 70,31% del capital promedio invertido para nuevas tecnologas son menores que 16500,0 (cientos de dlares). El 81,25% del capital promedio invertido para nuevas tecnologas son menores que 23250,0 (cientos de dlares). El 84,38% del capital promedio invertido para nuevas tecnologas son menores que 30000,0 (cientos de dlares). El 90,63% del capital promedio invertido para nuevas tecnologas son menores que 36750,0 (cientos de dlares). El 95,31% del capital promedio invertido para nuevas tecnologas son menores que 43500,0 (cientos de dlares). El 98,44% del capital promedio invertido para nuevas tecnologas son menores que 50250,0 (cientos de dlares). 0,2969 0,2344 0,1094 0,0313 0,0625 0,0469 0,0313 0,0156 0,0000 30 45 52 54 58 61 63 64 64 0,4688 0,7031 0,8125 0,8438 0,9063 0,9531 0,9844 1,0000 1,0000
menor o igual 1 3000,0 2 9750,0 3 16500,0 4 23250,0 5 30000,0 6 36750,0 7 43500,0 8 50250,0 mayor de Media = 14491,5
Histograma 20 16
frecuencia
12 8 4 0 0 1 2 3 X2 4 5 6 (X 10000,0)
Grfico 13

0 0 1 2 distancia abajo mediana 3 4 (X 10000,0)
Grfico 14
Al observar los Grficos 13 (muestra los datos obtenidos en la Tabla 7 de frecuencias) y 14 formados por los datos de la variable X2 es posible inferir que no existe distribucin normal ni simtrica, por lo tanto se puede decir que en las 10 plantas no se cumplen con las especificaciones dentro de los lmites esperados del capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. Adems la mayora de muestras, exactamente 19 se encuentran agrupadas entre 3000-9750 (cientos de dlares) y la minora de datos (1 dato) se encuentra entre 50250-57000,0 (cientos de dlares).
Grfico de Densidad Suavizada (X 0,00001) 4
3
densidad
0 0 1 2 3 X2 4 5 6 (X 10000,0)
Grfico 15 El Grfico 15 de densidad suavizada representa un mtodo de suavizacin de las frecuencias o una alternativa del histograma para la variable X2. Percentiles para X2 Percentiles 1,0% 5,0% 10,0% 25,0% 50,0% 75,0% 90,0% 95,0% 99,0% 209,89 1126,91 1433,13 4490,77 10974,9 18447,8 34473,7 42832,9 50780,3 Tabla 8

proporcin
0,6 0,4 0,2 0 0 1 2 3 X2 4 5 6 (X 10000,0)
Grfico 16
A partir de la informacin de la Tabla 8 de percentiles y el Grfico 16 de Cuantiles se puede concluir que: En el grfico se organizan los datos de la variable X2 de menor a mayor, es posible considerar que los datos no presentan una distribucin normal, ya que no tienen forma de campana. El primer percentil de los datos es igual a 209,89, lo que implica que el 1% de todos los datos tuvieron un valor menor o igual a 209,89 (cientos de dlares) de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 5to percentil de los datos es igual a 1126,91, lo que implica que el 5% de todos los datos tuvieron 1126,91 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El decimo percentil de los datos es igual a 1433,13, lo que implica que el 10% de todos los datos tuvieron 1433,13 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 25 percentil de los datos es igual a 4490,77, lo que implica que el 25% de todos los datos tuvieron 4490,77 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 50 percentil de los datos es igual a 10974,9, lo que implica que el 50% de todos los datos tuvieron 10974,9 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 75 percentil de los datos es igual a 18447,8, lo que implica que el 75% de todos los datos tuvieron 18447,8 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 90 percentil de los datos es igual a 34473,7, lo que implica que el 90% de todos los datos tuvieron 34473,7 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos.
El 95 percentil de los datos es igual a 42832,9, lo que implica que el 95% de todos los datos tuvieron 42832,9 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos. El 99 percentil de los datos es igual a 50780,3, lo que implica que el 99% de todos los datos tuvieron 50780,3 (cientos de dlares) o inferior de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos.
Grfico de Dispersin
3 X2
6 (X 10000,0)
Grfico 17 A partir del Grfico 17 observe que aproximadamente la nube de puntos es ms densa cerca del rango 0-20000, lo que quiere decir que es un intervalo con mayor frecuencia de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos y en adelante se hace menos densa o frecuente. . Resumen Estadstico para X2 Recuento 64 Promedio 14491,5 Mediana 10974,9 Moda Varianza 1,72344E8 Desviacin Estndar Coeficiente de Variacin Mnimo Mximo Rango Sesgo Curtosis Tabla 9 13128,0 90,591% 209,89 50780,3 50570,4 1,26641 0,95124
A continuacin se ampla los conceptos de los trminos utilizados en el resumen estadstico (Tabla 9) para la variable X2, teniendo en cuenta los conceptos utilizados en la variable Y: 1. Recuento: Se tomaron 64 datos, donde cada uno de ellos es un promedio capital promedio invertido en adquisicin de nuevas tecnologas para vehculos en las 10 plantas por trimestre. 2. Promedio: para nuestros datos un nmero representativo es 14491,5 del capital promedio de las 10 plantas que se invierte en nuevas tecnologas. 3. Moda: Al igual que Y y X1 la variable X2 carece de moda. 4. Mediana: El dato de la mitad para la variable X2 es igual a 10974,9 5. Desviacin Estndar: los datos del capital promedio que se invierte en nuevas tecnologas para autos se encuentran alejados unos de otros en 13128,0. 6. Varianza: De lo anterior podemos obtener la varianza (para obtener valores absolutos), que es el valor de la desviacin estndar elevada al cuadrado, tenemos: (13128,0)2 = 172344384 7. Coeficiente de Variacin: lo utilizamos para medir la variacin en porcentaje del promedio de los datos con respecto a la media, en nuestro caso 90,591% este porcentaje nos quiere decir que es heterognea esta dispersin, es alarmante. 8. Mnimo: El dato menor correspondiente a la variable X2 es 209,89. 9. Mximo: El dato mayor correspondiente a la variable X2 es 50780,3 10. Rango: Es la diferencia entre el dato mayor y menor, de lo que tenemos: (50780,3-209,89) = 50570,41 11. Sesgo: Al igual que para la variable X1, por tener un sesgo positivo la variable X2, se puede concluir que la distribucin es segada a la derecha. 12. Curtosis: La curtosis positiva indica una distribucin que perfila un grfico ms en punta ser Leptocrtica... quiere decir que hay una mayor concentracin de los datos en torno a la media.x Con ello podemos decir que existe una distribucin normal con forma de punta, es decir, presenta un elevado grado alrededor de los valores centrales, la llamaremos entonces Distribucin Leptocrtica.
Grfico de Caja y Bigotes
3 X2
6 (X 10000,0)
Grfico 18 El valor de los datos interpretados se encuentra en el rango de 209,89 50780,3, dicho rango es dividido en cuatro partes o cuartiles y posee 4 datos atpicos, cada cuartil equivale a un 25% del nmero de datos. A partir del Grfico 18 de Caja y Bigotes es posible realizar el siguiente anlisis: Se puede observar que la parte izquierda de la caja es menor que la de la derecha, ello quiere decir que los datos comprendidos entre el 25% y el 50% se encuentran menos dispersos que entre el 50% y el 75%. La parte izquierda de la grfica es ms pequea que el de la derecha, por ello el 25% de los datos con menor capital promedio invertido en adquisicin de nuevas tecnologas para vehculos estn ms concentrados que los datos con mayor capital promedio para nuevas tecnologas. Q3 - Q1= (18447,8- 4490,77)= 13957,03 De la anterior operacin es posible concluir que el 50% de los datos de capital promedio invertido en adquisicin de nuevas tecnologas para vehculos de la empresa estn comprendidos en 13957,03(cientos de dlares). Los puntos fuera del bigote se consideran datos atpicos y son 4 con valores de: 42832,9, 49336,9, 49930,6 y 50780,3. La mediana tiene un valor aproximado a 11000 El promedio segn el grfico tiene una valor aproximadamente de 14500
Modelo de Regresin y Validacin de Supuestos Los datos suministrados corresponden a una serie de tiempo y poseen un comportamiento tendencial creciente: Grfico 1
Y
40,000 36,000 32,000 28,000 24,000 20,000 16,000 12,000 5 10 15 20 25 30 35 40 45 50 55 60 65 70
Grfico2
X1
60,000
60,000
Grfico 3
X2
50,000
50,000
40,000
40,000
30,000
30,000
20,000
20,000
10,000
10,000
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
0 5 10 15 20 25 30 35 40 45 50 55 60 65 70
Serie de Tiempo Una serie de tiempo es un conjunto de datos numricos que se obtienen en periodos regulares a travs del tiempo. La unidad de tiempo puede ser: Hora, da, mes, trimestre, ao o cualquier periodo que se pueda considerar de inters. El principal objetivo de las series de tiempo es hacer proyecciones o pronsticos sobre una actividad futura, suponiendo estables las condiciones y variaciones registradas hasta la fecha, lo cual permite planear y tomar decisiones a corto o largo plazo. Despus, con base en esa situacin ideal, que supone que los factores que influyeron en la serie en el pasado lo continuarn haciendo en el futuro, se analizan las tendencias pasadas y el comportamiento de las actividades bajo la influencia de ellasxi Contamos con una variable dependiente o de respuesta Y y 2 variables independientes o regresores X1 y X2. La relacin que existe entre las variables se caracteriza por un modelo matemtico llamado modelo de regresin, son utilizados para realizar la observacin de fenmenos no controlados o de registros histricos.
En nuestro caso, aplica el modelo de regresin lineal mltiple con dos variables independientes. Su estructura se representa a continuacin:
A continuacin se describirn y analizarn en detalle las condiciones iniciales que presentaron los datos asignados a nuestro equipo de trabajo evaluados a la luz de 5 supuestos. El cumplimiento de los supuestos del modelo de regresin garantiza que los k obtenidos a travs del mtodo de mnimos cuadrados ordinarios sean los mejores estimadores lineales insesgados. Cuando tales supuestos son violados, se empiezan a generar problemas en los resultados de la regresin, haciendo que los parmetros obtenidos no cumplan con algunas de las propiedades deseables de un estimador (eficiencia y consistencia)xii. Mediante una regresin mltiple entre Y (dependiente) y X1, X2 dependientes se genera la ecuacin del modelo. (Y) = 20796,5 + 0,377409*X1 - 0,0562308*(X2) 1. Multicolinealidad: La multicolinealidad tiene que ver con la relacin lineal entre algn conjunto de variables independientes en un modelo de regresin. Supngase el siguiente modelo con cuatro variables independientes:
Cualquier relacin lineal entre las variables independientes de este modelo, por ejemplo X2 con X3, o X2 con X5 y X4 puede generar problemasxiii. Causas: a. El empleo en la regresin de variables explicativas que tienen una tendencia comn y evolucionan de forma muy parecida en el tiempo. Transformar los datos para eliminar esta tendencia comn puede resolver el problema. No obstante, nunca se resuelve si existe una dependencia lineal exacta entre las variables. b. Incurrir en un error de especificacin consistente en la inclusin de variables irrelevantes. La informacin que contienen estas variables ya
estara incluida en otras y no aaden nada nuevo para explicar el comportamiento de la endgena. c. A veces, la multicolinealidad puede provenir de un problema de escala de los datos de las exgenas. Esto es as, porque el X T X depende de las unidades de las x y por ello, es conveniente homogeneizar las unidades de medida de las variables antes de estimar. d. Otra causa de la multicolinealidad es la inclusin de variables explicativas retardadas, porque los valores de una variable explicativa en distintos instantes de tiempo suelen estar correlacionados entre s, al ser variables con mucha inercia. Para Analizar si hay o no problemas de multicolinealidad analizaremos las siguientes tablas, provistas por el software estadstico Statgraphics. Tabla de Coeficientes - ANOVA:
Regresin Mltiple - (Y) Variable dependiente: (Y) Variables independiente: X1 y (X2) Tabla 1 Estadstic o Parmetro Estimaci Estnda T Valor-P n r CONSTANT 20796,5 970,372 21,4315 0,0000 E X1 0,377409 0,25793 1,46318 0,1486 8 (X2) 0,29104 -0,193205 0,8474 0,056230 1 8 Error
Tabla 2. Anlisis de Varianza Fuente Modelo Residuo Total (Corr.) Suma de Cuadrados 1,48948E9 1,32333E9 2,81281E9 Gl Cuadrado Medio 2 7,44742E8 61 2,16939E7 63 Razn- Valor-P F 34,33 0,0000
Ho: Existe multicolinealidad entre las regresoras. H1: No existe colinealidad entre las regresoras
Valor P < 0.05, se rechazaraH0 y se Acepta H1. Pero tambin se debe verificar los valores P de la tabla 1, estos NO tienden a cero. Por tanto, existe multicolinealidad entre las variables independientes
Matriz de Correlaciones:
Tabla 3. Matriz de Correlaciones (X1) (X2) (X1) 0,9881 (64) 0,0000 (X2) 0,9881 (64) 0,0000 Correlacin (Tamao de Muestra) Valor-P
Se puede concluir que las regresoras de mercadeo y adquisicin de nuevas tecnologas estn altamente correlacionados con una significancia del 0,9891. Por tanto existe multicolinealidad en un alto grado.
Grfico 4 Grado de Colinealidad
VIF
Mide cuanto se me ha inflado la varianza. Tabla 4. Lmites de confianza del 95,0% para los coeficientes estimados (Y) Error Parmetro Estimado Estnda Lmite Lmite V.I.F. r Inferior Superior CONSTANT 20796,5 970,372 18856,1 22736,9 E X1 0,377409 0,25793 -0,138371 0,893189 42,394 8 3 X2 0,29104 -0,638205 0,525743 42,394 0,056230 1 3 8 Criterio: Si existe un valor V.I.F >8 entonces hay multicolinealidad. 42,3943 > 8 Existe alto grado de multicolinealidad 2. Autocorrelacin La autocorrelacin se puede definir como la correlacin entre miembros de series de observaciones ordenadas en el tiempo (informacin de series de tiempo) o en el espacio (informacin de corte de transversal). El modelo de regresin lineal supone que no debe existir autocorrelacin en los errores, es decir, el trmino de perturbacin relacionado con una observacin cualquiera no debera estar influenciado por el trmino de perturbacin relacionado con cualquier otra observacin. Algunas de las causas son las siguientesxiv: Trabajo con datos de serie temporal: cuando se trabaja con datos de corte longitudinal (Ejemplo: una variable explicativa cuyas observaciones correspondan a valores obtenidos en instantes temporales sucesivos), resulta bastante frecuente que el trmino de perturbacin en un instante dado siga una tendencia marcada por los trminos de perturbacin asociados a instantes anteriores. Este hecho da lugar a la aparicin de autocorrelacin en el modelo. Especificacin errnea en la parte determinista del modelo (autocorrelacin espuria): a. Omisin de variables relevantes: en tal caso, las variables omitidas pasan a formar parte del trmino de error y, por tanto, si hay correlacin entre distintas observaciones de las variables omitidas, tambin la habr entre distintos valores de los trminos de perturbacin. b. Especificacin incorrecta de la forma funcional del modelo: si usamos un modelo inadecuado para describir las observaciones (p.e.: un modelo lineal cuando en realidad se debera usar un modelo cuadrtico), notaremos que los residuos muestran comportamientos no aleatorios (i.e.: estn correlacionados). c. C. Transformaciones de los datos: determinadas transformaciones del modelo original podran causar la aparicin de autocorrelacin en el trmino de
perturbacin del modelo transformado (incluso cuando el modelo original no presentase problemas de autocorrelacin). d. Trabajo con modelos dinmicos: cuando se trabaja con series temporales suele ser habitual considerar modelos de regresin que incluyan no slo los valores actuales sino tambin los valores retardados (pasados) de las variables explicativas. Es el caso de un modelo de retardos distribuidos de orden s o RD(s): e. Otro tipo de modelo dinmico que presentara problemas de autocorrelacin sera aquel que incluyese entre sus variables explicativas uno o ms valores retardados de la variable dependiente. Este otro tipo de modelo dinmico se conoce como modelo autorregresivo de orden s o AR(s): f. Otra causa comn de la autocorrelacin es la existencia de tendencias y ciclos en los datos. Es decir, la mayora de las variables econmicas no son estacionarias en media. Esto significa que si la variable endgena del modelo tiene una tendencia creciente o presenta un comportamiento cclico que no es explicado por las exgenas, el trmino de error recoger ese ciclo o tendencia. Consecuencias de la Autocorrelacin: La consecuencia ms grave de la autocorrelacin de las perturbaciones es que la estimacin MCO deja de ser eficiente y la inferencia estadstica tambin se ver afectada. Las consecuencias dependen del tipo de autocorrelacin (positiva o negativa): a. Cuando se tiene autocorrelacin positiva, la matriz de varianza y covarianza de los residuos esta subestimada, si el tipo de autocorrelacin es negativa, se tiene una sobrestimacin de la misma. b. Cuando se tiene autocorrelacin positiva, la matriz de varianza y covarianza de los coeficientes (betas) esta subestimada, si el tipo de autocorrelacin es negativa, se tiene una sobrestimacin de la misma. c. Cuando se tiene autocorrelacin positiva, los intervalos de confianza son angostos, si el tipo de autocorrelacin es negativa, se tienen intervalos de confianza ms amplios. d. Cuando se tiene autocorrelacin positiva, se tiende a cometer error tipo I (rechazar la hiptesis nula cuando es verdadera), si el tipo de autocorrelacin es negativa, se tiende a cometer error tipo II (no rechazar la hiptesis nula cuando es falsa). e. Los son lineales, insesgados, pero ineficientes (no tienen varianza mnima). f. Las pruebas y pierden validez.
Tabla 5
Como puede verse el estadstico Durbin-Watson es 0.041568, un valor muy inferior a 2, por lo tanto estamos en presencia de autocorrelacin positiva.
Grficamente: Se visualiza forma funcional en el Grfico de Residuos. Presencia inminente de autocorrelacin positiva. Grafico 5 Residuos
Grfico de Residuos (X 1000,0) 8
4
residuo
-4
-8 0 20 40 nmero de fila 60 80
Tabla 6. Correlograma
H0: No hay autocorrelacin H1: Si hay autocorrelacin. Con =0.05 Dado que Prob (0.0000) < 0.05, se cae en la zona de rechazo, se rechaza H0. Por lo tanto, existe Autocorrelacin. *Las 2 grficas salen de los lmites de confianza.
3. Heterocedasticidad.
Se refiere al caso en el cual la varianza del trmino de error no es constante para todos los valores de la variable independiente. Puede surgir en series temporales (de baja frecuencia como mensuales, trimestral, anual) y que se manifiesta como una variabilidad de los datos que cambia con su nivel, y en datos de seccin cruzada. Causas: a. Valores cada vez mayores de las variables explicativas crece la dispersin absoluta y relativa del modelo de regresin. En general cuando se trabaja con informacin de corte transversal es habitual encontrarse con oscilaciones importantes entre la dependiente y las independientes debido a las unidades que se comparan (familias, empresas, pases etc). b. Especificacin errnea del modelo o la propia existencia de un cambio estructural, una variable importante omitida puede ser origen de un comportamiento distinto del trmino de error de unos perodos a otros. c. En series de rendimientos de activos financieros observados con alta frecuencia (horaria, diaria, semanal etc), la heterocedasticidad a menudo se muestra como perodos de alta y baja volatilidad en una serie estacionaria. Consecuencias: a. Aunque los estimadores siguen siendo insesgados y consistentes tendrn varianzas relativamente amplias, con lo que se vera reducida la confianza que se pueda depositar en el valor de los parmetros estimados en cada caso. b. Las varianzas muestrales de los estimadores no sern las correctas incluso para muestras grandes. c. Los contrastes habituales de significacin carecern de validez al asumirse una distribucin normal ya que la heterocedasticidad trae consigo pruebas estadsticas incorrectas e intervalos de confianza sesgados que aumentan la probabilidad de cometer error de tipo II (Es decir aceptar una hiptesis falsa). d. La asimetra en la distribucin de las variables explicativas parece provocar (para valores iguales de media y varianza)xv
Tabla 7.
Tabla 8. Test de White
De la Tabla 8 tenemos: H0: No existe heteroscedasticidad (o lo que es lo mismo, existe homocedasticidad) H1: Existe heteroscedasticidad. Con =0.05 Dado que la Prob. F y Prob. Chi-Square (0.0006 y 0.0015 respectivamente) < 0.05, se rechaza Ho y se acepta H1. Es decir, existe heterocedasticidad. Es importante visualizar tambin los valores del R-squared y Adjusted R-squared presentes en la Tabla 7 R- squared: 0.529536 (Muestra en que porcentaje pueden las regresoras explicar a Y) Adjusted R-squared: 0.514111 (Muestra en que porcentaje pueden las regresoras explicar a Y, pero esta es mas apropiada cuando hay mas de una independiente). No basta solamente con que Ho se cumpla para verificar que no hay heterocedasticidad, tambin se necesita que los valores anteriores sean mayores o iguales a 0,7 y que estos sean similares. 4. Normalidad de los residuales Como no son observables las perturbaciones al estudio de su normalidad se realiza con los residuos. Si se verifica Ho la distribucin emprica de los residuos debe ser similar a la de la distribucin normal. El estadstico Jarque Bera contrasta la normalidad de una variable, es decir, permite encontrar valores similares a los momentos poblacionales cuando se calculan los momentos mustrales de los residuos (en una serie los momentos impares de una variable normal son cero y tambin su coeficiente de asimetra y su kurtosis prxima a 3)xvi Grfico 6. Normalidad
8 7 6 5 4 3 2 1 0 -6000 -4000 -2000 0 2000 4000 6000
Series: Residuals Sample 1 64 Observations 64 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability 1.96e-12 624.6549 6064.441 -7424.177 4583.142 -0.152791 1.461704 6.559290 0.037642
H0: Hay normalidad en las perturbaciones H1: No hay normalidad en las perturbaciones = 0.05 Como el valor P (0.037) < 0.05, entonces se rechaza H0 y se acepta H1. Es decir, los datos no se distribuyen normalmente *Se debe tener en cuenta que la prueba Jarque-Bera es para muestras grandes, y que la muestra de 64 observaciones pueda no ser necesariamente grande. 5. Especificacin del modelo Se analizan con el contraste RESET elaborado por Ramsey en 1969, el cual permite identificar si se est usando una forma lineal incorrecta y cualquier error de omisin o la presencia de correlaciones entre las variables explicativas y la perturbacin (Carrascal; et al; 2000:203). Tabla 8. Test de Ramsey
Ho: Hay linealidad en el modelo H1: No hay linealidad en el modelo Con = 0.05 Dado que Probt_statistic (0.000) y Prob. F-statistic (0.000) son menores que 0.05, se rechaza Ho. Es decir,No hay linealidad en el modelo
Hasta este punto se han verificado los supuestos del modelo de regresin lineal. Los resultados no podran ser ms desalentadores, no cumple con ninguno de los supuestos, por tanto no es certero y preciso el modelo generado, tampoco es apto para ningn pronstico o prediccin de comportamiento. A continuacin se tratar de de solucionar algunos de los supuestos incumplidos. (Se dice que algunos, porque aun no se cuenta con el conocimiento necesario para ajustar el modelo en series de tiempo y poder cumplir con todos estos). Estrategia: 1) Transformacin de potencia y uso de variables dictomas. Variables Dictomas: En un anlisis de regresin, la variable dependiente est influenciada frecuentemente por variables cuantitativas (por ejemplo: ingreso, precios, costos, etc.). Sin embargo, tambin puede estarlo por variables cualitativas (por ejemplo: gnero, raza, nacionalidad, etc.). A estas variables generalmente se les conoce como Variables Cualitativas, Dicotmicas o Variables Dummy. Ej: Al estimar la demanda por un producto puede ser relevante si el consumidor es hombre o mujer. Puesto que la variable usualmente indica la presencia o ausencia de una cualidad o atributo, tal como femenino/masculino, negro/blanco, catlico/no catlico, etc., podramos cuantificar tales atributos mediante la elaboracin de variables artificiales que tomen el valor 0 y 1. As, podemos dividir la muestra en 2 partes, una que contenga todas las observaciones que presenten el atributo de inters y la otra parte contiene a los que no lo presentan. Es un recurso para clasificar datos en categoras mutuamente excluyentes (femenino/masculino)xvii. Despus de muchos fallidos intentos se ha logrado encontrar una transformacin de potencias que mejora de gran manera la correlacin entre las variables regresoras, no es la ms adecuada pero fue la mejor que se pudo encontrar. Adems de esto se usaron variables dictomas para un mejor desempeo en las pruebas de normalidad y heterocedasticidad. Con el siguiente modelo verificaremos de nuevo los supuestos: Log (Y) = 7,98953 - 8,26123E-11*X1^2 + 0,24509*log(X2) - 0,200685*DICO12 0,124107*DICO58
Grfico 7. Comportamiento de los residuales antes de aplicar la transformacin y agregar las dictomas.
8,000 6,000 4,000 2,000 0 -2,000 -4,000 -6,000 -8,000 5 10 15 20 25 30 35 40 45 50 55 60
Y Residuals
Grfico 8. Comportamiento de los residuales despus de aplicar la transformacin y agregar las dictomas
.4
.3
.2
.1
.0
-.1
-.2 5 10 15 20 25 30 35 40 45 50 55 60
LOG(Y) Residuals
1. Multicolinealidad: Tabla de Coeficientes - ANOVA Tabla 9. Regresin Mltiple Error Parmetro Estimacin Estndar CONSTANT 7,98953 0,126875 E X1^2 -8,26123E- 2,45612E11 11 log(X2) 0,24509 0,0149004 DICO12 -0,200685 0,105604 DICO58 -0,124107 0,0753098 Estadstic o T Valor-P 62,9717 0,0000 -3,36353 0,0014 16,4486 0,0000 -1,90036 0,0623 -1,64795 0,1047
Tabla 10. Anlisis de Varianza Fuente Modelo Residuo Total (Corr.) Suma de Cuadrados 4,59196 0,640803 5,23276 Gl Cuadrado Medio 4 1,14799 59 0,0108611 63 Razn- Valor-P F 105,70 0,0000
Ho: Existe colinealidad entre las regresoras. H1: No existe colinealidad entre las regresoras =0.05 Valor P < 0.05, se aceptaHo. Verificar en la tabla1, valores P <= 0.05; en este caso todos son menores. Por tanto, no existe multicolinealidad entre las variables independientes
Matriz de Correlaciones: Tabla 11. Correlaciones X1^4 X1^4 log(X2) 0,5757 (64) 0,0000
log(X2) 0,5757 (64) 0,0000
La correlacin ha bajado notoriamente de un 0.9891 a un 0.5757en el grado de correlacin, pero an sigue existiendo y es significativa. Por tanto existe multicolinealidad moderada.
VIF
Tabla 12. Medicin del VIF Error Estimado Estndar
Parmetro
CONSTANT 8,06276 0,113618 E X1^4 0,0 8,95096E- -1,79109E21 20 log(X2) 0,234995 0,0129127 0,209157 DICO12 DICO58 0,105423 -0,404683 0,193731 0,0749602 -0,283231 0,133235
Lmite Inferior 7,83541
Lmite Superior 8,29011
V.I.F.
1,79109E-20 1,5028 7 0,260834 1,5076 5 0,017221 1,0102 6 0,0167598 1,0053 1
Criterio: Si existe un valor V.I.F >8 entonces hay multicolinealidad. Ahora se nos presenta un VIF de 1,50287 y 1,50765 para X1 y X2 respectivamente contra un 42,3943 sin la transformacin 1,50287 y 1,50765 < 8
No se presenta multicolinealidad Nota: (Este resultado contrasta con el obtenido en la matriz de correlaciones) 2. Autocorrelacin Tabla 13. Verificacin del estadstico Durbin-Watson
Como puede verse el estadstico Durbin-Watson es 0.0401674, un valor muy inferior a 2, por lo tanto estamos en presencia de autocorrelacin positiva. Grficamente Grfico 8. Grfico de Residuos
Grfico de Residuos 0,49
0,29
residuo
0,09
-0,11
-0,31 0 20 40 nmero de fila 60 80
An se visualiza forma funcional en el Grfico de Residuos. Presencia inminente de autocorrelacin positiva. Grfico 9. Correlograma
H0: No hay autocorrelacin H1: Si hay autocorrelacin. Con =0.05 Dado que Prob (0.0000) < 0.05, se cae en la zona de rechazo, se rechaza Ho. Existe Autocorrelacin. *Aun en este caso las 2 grficas salen de los lmites de confianza pero ahora es menos crtico.
3. Heterocedasticidad.
Tabla 14.
Tabla 15. Test de White
De la Tabla 15 tenemos: H0: No existe heterocedasticidad (O lo que es lo mismo, existe homocedasticidad) H1: existe heterocedasticidad. Con =0.05 Dado que la Prob. F y Prob. Chi-Square (0.0000 y 0.0000 respectivamente) < 0.05, se rechaza Ho y se acepta H1. Es decir, existe heterocedasticidad. Es importante visualizar tambin los valores del R-squared y Adjusted R-squared presentes en la Tabla 14 R- squared: 0.529536 (Indica en qu grado explican las regresoras a Y) Adjusted R-squared: 0.514111 (Estadstico ms apropiado para ms de una regresora, indica en qu grado explican las regresoras a Y) No basta solamente con que Ho se cumpla para verificar que no hay heterocedasticidad, tambin se necesita que los valores anteriores sean mayores o iguales a 0,7 y que estos sean similares. 4. Normalidad de los residuales Grfico 10. Normalidad
12
10
Series: Residuals Sample 1 64 Observations 64 Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis Jarque-Bera Probability
-0.2 -0.1 0.0 0.1 0.2 0.3
4.37e-15 0.014179 0.308449 -0.195109 0.100854 0.238189 3.495392 1.259598 0.532699
H0: Hay normalidad en las perturbaciones H1: No hay normalidad en las perturbaciones = 0.05 Como el valor P (0.5326) > 0.05, entonces no se puede rechazar H0 Es decir, los datos se distribuyen normalmente
*Se debe tener en cuenta que la prueba Jarque-Bera es para muestras grandes, y que la muestra de 64 observaciones pueda no ser necesariamente grande. 5. Especificacin del modelo Se analizan con el contraste RESET elaborado por Ramsey en 1969, el cual permite identificar si se est usando una forma lineal incorrecta y cualquier error de omisin o la presencia de correlaciones entre las variables explicativas y la perturbacin (Carrascal; et al; 2000:203)xviii. Tabla 16. Test de Ramsey Reset
Ho: Hay linealidad en el modelo H1: No hay linealidad en el modelo Con = 0.05 Dado que Probt_statistic (0.000) y Prob. F-statistic (0.000) son menores que 0.05, se rechaza Ho y se acepta H1. Es decir, An no hay linealidad en el modelo
CONCLUSIONES
Es importante entender como a travs de la estadstica y la modelacin se puede predecir un comportamiento, un acontecimiento futuro. As mismo verificar que los resultados dependen de varios o muchos factores y que cada uno puede explicar de alguna manera los resultados finales. En nuestro caso se tuvo en cuenta el impacto del dinero invertido en Mercadeo y en adquisicin de nuevas tecnologas en las ventas de vehculos de Berrati S.A Inicialmente, las regresoras explicaban a Y en un 51.4111 %, que no es nada admisible para una prediccin confiable y certera. Luego de hacer la transformacin y usar las variables dictomas se obtuvo un R cuadrado ajustado del % 86,9238, valor que si es relevante y da cierta solides al modelo. Se intentaron gran cantidad de combinaciones para generar un modelo mas confiable, que cumpliera con todos los supuestos, nos fue posible cumplir con el supuesto de No multicolinealidad y con el de normalidad, los dems estn lejos de ser validados como confiables. Nos fue asignada una serie de tiempo, existen diversos mtodos para solucionar de una manera eficaz todos los problemas del modelo, pero aun no son del conocimiento del equipo, las estrategias tomadas y procedimientos realizados se basaron nicamente en lo aprendido en clase y consultas externas con profesores de la Facultad de Ingeniera con gran experiencia y conocimiento.
BIBLIOGRAFIA
i
Annimo-Definicin promedio- Tomado de: http://definicion.de/promedio/ Annimo-Mediana- Tomado de: http://www.vitutor.com/estadistica/descriptiva/a_9.html Annimo- Moda estadstica- Tomado de: http://www.aaamatematicas.com/sta418x3.htm
ii
iii
Annimo- QU ES LA DESVIACIN ESTNDAR Y COMO INTERPRETARLA #1- Tomado de: http://tradingcenter.wordpress.com/2009/11/11/que-es-la-desviacion-estandar-y-como-interpretarla1/

iv
Annimo - Anlisis de Varianza- Tomado de: http://html.rincondelvago.com/analisis-de-lavarianza_1.html

v
Annimo - Coeficiente de Variacin Tomado de: http://www.bioestadistica.uma.es/libro/node23.htm

vi
Annimo - Sesgo y Error- Tomado de: http://escuela.med.puc.cl/recursos/recepidem/insintrod3.htm

vii
Blacutt Mendoza Mario Estadstica aplicada con SPSS. Mdulo I- Tomado de: http://www.emagister.com/curso-estadistica-aplicada-spss-modulo/estadistica-descriptivafrecuencias-asimetria-curtosis
viii
Annimo- Promedio- Tomado de: http://www.mathematicsdictionary.com/spanish/vmd/full/a/average.htm

ix
Blacutt Mendoza Mario Estadstica aplicada con SPSS. Mdulo I- Tomado de:http://www.emagister.com/curso-estadistica-aplicada-spss-modulo/estadistica-descriptivafrecuencias-asimetria-curtosis
x
Mario Orlando - Series de tiempo empleando Excel y Graph. Tomado de: http://www.monografias.com/trabajos93/series-tiempo-empleando-excel-y-graph/series-tiempoempleando-excel-y-graph.shtml#ixzz2F2kkCwqu
xiSuarez
Antonio Rosales lvarez -Jorge Alexander Bonilla Londoo. Multicolinealidad. Tomado de: http://es.scribd.com/doc/50870564/49/Multicolinealidad
xiiRamn
Universidad de Granada Multicolinealidad Tomado de: www.ugr.es/~romansg/material/WebEco/tema4.pd f xivCortina EscalanteRafael David -Multicorrelacin. Tomado de: http://www.eumed.net/librosgratis/2010c/720/AUTOCORRELACION.htm
xiii
Annimo- Heterocedasticidad. Tomado de: http://html.rincondelvago.com/heterocedasticidad.html

xv
Martnez Arzuaga Charles - Estadstica Descriptiva. Tomado de: www.uca.es/uca/.../CC%20Trabajo%20Tema%201.pdf

xvi xvii
Rafael David Escalante Cortina - Variables Dictomas Tomado de: www.eumed.net/libros.../HETEROCEDASTICIDAD.html
xviii
Salamanca -Econometra Tomadode:132.248.45.5/profesor/barajas/econom/ejer2.pdf
EN BASE A: Melchor Miroquesada Nestor- Analisis de una variable-En base a: http://es.scribd.com/doc/13500859/Analisis-de-Una-Variable

Métodos Estadísticos - Regresión Múltiple - Statgraphics

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Métodos Estadísticos - Regresión Múltiple - Statgraphics

Transféré par

Droits d'auteur :

Formats disponibles

Universidad de Antioquia

ANLISIS EXPLORATORIO, REGRESIN Y VALIDACIN DE SUPUESTOS

Primer trabajo Mtodos Estadsticos I

PLANTEAMIENTO DEL PROBLEMA

ANALISIS EXPLORATORIO DE DATOS

Grfico de Simetra (X 1000,0) 16

0 0 4 8 distancia abajo mediana 12 16 (X 1000,0)

Grfico de Densidad Suavizada (X 0,00001) 10 8

Grfico de Cuantiles 1 0,8

0,6 0,4 0,2 0 14 18 22 26 Y 30 34 38 (X 1000,0)

2. ANALISIS VARIABLE X1: Capital promedio invertido en mercadeo

Grfico de Simetra (X 10000,0) 5

4 3 2 1 0 0 1 2 3 distancia abajo mediana 4 5 (X 10000,0)

Grfico de Densidad Suavizada (X 0,00001) 4

Grfico de Cuantiles 1 0,8

0,6 0,4 0,2 0 0 1 2 3 X1 4 5 6 (X 10000,0)

Grfico de Caja y Bigotes

3. ANALISIS VARIABLE X2: Capital promedio invertido en adquisicin de

nuevas tecnologas para vehculos (Cientos de Dlares).

Grfico de Simetra (X 10000,0) 4

0 0 1 2 distancia abajo mediana 3 4 (X 10000,0)

Grfico de Densidad Suavizada (X 0,00001) 4

Grfico de Cuantiles 1 0,8

0,6 0,4 0,2 0 0 1 2 3 X2 4 5 6 (X 10000,0)

Grfico de Caja y Bigotes

Grfico 4 Grado de Colinealidad

Grfico de Residuos (X 1000,0) 8

Tabla 8. Test de White

log(X2) 0,5757 (64) 0,0000

Tabla 12. Medicin del VIF Error Estimado Estndar

Lmite Inferior 7,83541

Lmite Superior 8,29011

1,79109E-20 1,5028 7 0,260834 1,5076 5 0,017221 1,0102 6 0,0167598 1,0053 1

Grfico de Residuos 0,49

-0,31 0 20 40 nmero de fila 60 80

Tabla 15. Test de White

4.37e-15 0.014179 0.308449 -0.195109 0.100854 0.238189 3.495392 1.259598 0.532699

Annimo- QU ES LA DESVIACIN ESTNDAR Y COMO INTERPRETARLA #1- Tomado de: http://tradingcenter.wordpress.com/2009/11/11/que-es-la-desviacion-estandar-y-como-interpretarla1/

Annimo - Anlisis de Varianza- Tomado de: http://html.rincondelvago.com/analisis-de-lavarianza_1.html

Annimo - Coeficiente de Variacin Tomado de: http://www.bioestadistica.uma.es/libro/node23.htm

Annimo - Sesgo y Error- Tomado de: http://escuela.med.puc.cl/recursos/recepidem/insintrod3.htm

Annimo- Promedio- Tomado de: http://www.mathematicsdictionary.com/spanish/vmd/full/a/average.htm

Annimo- Heterocedasticidad. Tomado de: http://html.rincondelvago.com/heterocedasticidad.html

Martnez Arzuaga Charles - Estadstica Descriptiva. Tomado de: www.uca.es/uca/.../CC%20Trabajo%20Tema%201.pdf

Rafael David Escalante Cortina - Variables Dictomas Tomado de: www.eumed.net/libros.../HETEROCEDASTICIDAD.html

Salamanca -Econometra Tomadode:132.248.45.5/profesor/barajas/econom/ejer2.pdf

EN BASE A: Melchor Miroquesada Nestor- Analisis de una variable-En base a: http://es.scribd.com/doc/13500859/Analisis-de-Una-Variable

Vous aimerez peut-être aussi