Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo
TEMA 3.- EL ANALISIS ESTADISTICO DE LA INFORMACION
(MODELIZACION)
PROCEDIMIENTOS ESTADISTICOS CONSTRUCCION DE MODELOS
DIFERENTES TIPOS DE PROCEDIMIENTOS ESTADISTICOS
Cada procedimiento es aplicable a un tipo particular de datos en una situacin determinada. No importa tanto conocer los detalles del funcionamiento de cada tcnica (ordenadores) como entender en trminos generales qu hace y por qu. En estos caracteres se basa la eleccin del procedimiento. Algunos de los procedimientos ms usuales son:
- Posicin de una muestra: Dada una muestra univariante, planteamos estimar la media poblacional. Podemos calcular una estimacin puntual o, mejor, un intervalo. Podemos construir un contraste de significacin para la hiptesis de que la media poblacional sea igual a un valor predeterminado. - Posicin en dos muestras: Dadas dos muestras independientes, cul es la diferencia que existe entre las medias poblacionales? es significativa la diferencia? - Problemas de regresin: Dadas las observaciones de una variable respuesta, Y, y de un conjunto de variables impulso (X's), se trata de encontrar una curva que permita predecir Y a partir de las X's. - Anlisis de series temporales: Predecir una serie temporal en funcin de su propia historia o/y de los valores presentes y pasados de otras variables relacionadas. - ANOVA(Anlisis de la varianza): Dadas las observaciones de una variable respuesta, su variabilidad total se descompone en un conjunto de "efectos" atribuibles a las variables impulso y a sus combinaciones (interacciones). - Tcnicas multivariantes de reduccin de datos, de agrupacin, de discriminacin. Tcnicas para datos categricos.
Es importante decidir si se utiliza un enfoque paramtrico, que implica modelizacin y, por tanto,- abundantes hiptesis sobre las caractersticas de las Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo distribuciones de probabilidad utilizadas, o un enfoque no paramtrico que se caracteriza por hacer tan pocas asunciones como sea posible).
ELECCION DEL PROCEDIMIENTO ADECUADO
Elegir el procedimiento adecuado resulta difcil, en especial para el analista poco experimentado. Asumimos que ha sido realizado un IDA y que las conclusiones todava no estn claras.
- Qu estamos buscando? (objetivos) - Cules son los resultados mas importantes del IDA? - Hay informacin adicional? - Hemos resuelto problemas similares? Alguien lo ha hecho? - Hemos visto problemas similares en los libros? - Puede reformularse el problema de manera que sea ms sencillo?
Algunos comentarios generales:
1. Hay que estar preparado para aplicar ms de un mtodo de anlisis al mismo conjunto de datos 2. No es adecuado utilizar un mtodo determinado slo porque estemos familiarizados con el 3. Hay que estar preparado para mirar el problema desde distintas perspectivas ("pensamiento lateral") 4. Hay que estar dispuesto a realizar modificaciones ad hoc de las tcnicas de anlisis para recoger las caractersticas propias del problema a estudio 5. No es posible conocer al detalle todas las tcnicas, pero hay que saber donde buscarlas 6. En igua!dad de condiciones (!) preferimos los mtodos sencillos a los complicados, pero no debemos ser simplistas.
Hasta los estadsticos ms experimentados eligen en ocasiones un mtodo de anlisis inapropiado. Incluso cuando se elige el mtodo apropiado, este puede ser aplicado de manera incorrecta. En caso de duda, conviene utilizar varios mtodos y estudiar los conclusiones con cuidado.
2.- LA MODELIZACION
Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo Un modelo es una representacin simplificada de la realidad que recoge los aspectos fundamentales de la misma que tiene inters para los objetivos del investigador o analista.
Su eleccin adecuada depende de los objetivos que el investigador se proponga es decir: De las respuestas que pretenda contestar tras el planteamiento del mismo Un modelo no debe ignorar ninguna de las variables cuya influencia sea importante Debe ser fcil de interpretar.
Y=g ( X )
g. es una funcin exacta (sentido matemtico) Qu forma tiene esta funcin? Si pensamos en relaciones empricas los valores concretos que valla tomando Y y X determinaran la forma de g. (muestra ---- Distribucin Estadstica).
COMO CONJUGAR LAS RELACIONES MATEMATICAS CON LAS DISTRIBUCIONES ESTADISTICAS QUE SON LOS VALORES DE LAS VARIABLES OBSERVADAS?
Aunque el IDA es importante, y puede ser suficiente en ocasiones, normalmente es considerado como un prerrequisito para un anlisis basado en modelos probabilsticos que requiere procedimientos inferenciales. Incluye la estimacin de parmetros del modelo y el contraste de hiptesis. La inferencia se basa en modelos probabilsticos. Es necesario comprender las ventajas y limitaciones de este enfoque. Todos los modelos son errneos, pero algunos son tiles. Se trata de obtener la mayor cantidad de informacin eligiendo un modelo que describa los aspectos relevantes del fenmeno bajo estudio.
Objetivos de la modernizacin:
Representar de manera compacta uno o varios conjuntos de observaciones. Por "compacto" entendemos que el modelo debe Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo ser tan simple como sea posible (y con tan pocos parmetros como sea posible). Comparar distintos conjuntos de observaciones (pases, periodos) Confirmar o refutar una relacin tericaestablecida a priori Describir las propiedades de la componente aleatoria. Esto permite hacer inferencias (de la muestra-resduo a la poblacin) y garantizar la precisin de las estimaciones y la confianza en las conclusiones. Hacer predicciones de la evolucin futura de las variables Hacer simulacin (cmo afectan al comportamiento del output los cambios en la forma-sistema o en la estructura-parmetros del modelo)
La "bondad de ajuste a un conjunto predeterminado de datos puede ser incrementada siempre haciendo el modelo mas y mas complejo, pero en general al reducir el sesgo se incrementa la varianza del error. Hay que buscar el equilibrio.
Evidentemente, el modelo debe proporcionar una descripcin adecuada de los datos y, entonces, ser posible utilizarlo para inferir o predecir. Generalmente, el modelo contiene parmetros que deben ser estimados a partir de los datos.
CONSTRUCCION DE MODELOS
La modelizacin o construccin de modelos consta, en general, de tres tipos de actividades: Formular el modelo (especificacin) Estimacin de los parmetros (ajuste) Evaluacin (validacin) Son etapas sucesivas, aunque una investigacin requiere, por lo general, varios ciclos de formulacin-estimacin-evaluacin antes de que el resultado sea satisfactorio. Una vez se alcanza un modelo satisfactorio, ste puede ser utilizado para describir, explicar, predecir o establecer comparaciones.
ESPECIFICACION
Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo Formular un modelo "apropiado" es una cuestin clave para el anlisis, En general, se trata de expresar mediante ecuaciones las relaciones entre un conjunto de fenmenos o conceptos (categoras mentales). Pero las ecuaciones contienen variables (categoras observables) que debern responder lo ms fielmente posible a los conceptos tericos.
No existe una estrategia generalmente aceptada para la formulacin de modelos. No obstante, los principios generales podran ser:
Documentacin: Hay que leer mucho y consultar a los expertos en la materia. El contexto de cada problema es crucial y no es serio tratar de modelizar una situacin que no se haya racionalizado previamente. Incorporar teora: Tomar en cuenta la teora disponible nos sugerir que variables hay que incluir y qu tipo de relaciones pueden existir entre ellas. Atencin a las restricciones (de signo, de signo de la variacin...) Realizar un anlisis inicial completo del conjunto de observaciones. Incorporar informacin de otros modelos y conjuntos de datos similares Contrastar el modelo formulado con la teoray con los datos. Tambin si es coherente con cualquier conocimiento cualitativo que se posea sobre el sistema bajo estudio Tener presente que el modelo es provisional, aproximado y tentativo. Cuando haya nuevos dats, habra de ser revisado. La experiencia y la inspiracin son fundamentales, ya que el proceso implica numerosas decisiones subjetivas.
Junto a estos principios generales, hay que tener claro en todo momento - qu es conocido con (casi) certeza (vbles. observadas) - qu hemos supuesto sobre una base razonable (relaciones) - qu hemos asumido por conveniencia matemtica (linealidad, p.ej.) - qu no est claro o es desconocido (parmetros, p.ej)
La formulacin de un modelo siempre requiere asumir supuestos P.ej. errores independientes distribuidos normalmente
Una manera til de comprender la modelizacin es:
DATOS =AJUSTE +RESIDUOS Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo
o bien
DATOS =SEAL +RUIDO
El ajuste o seal es la parte sistemtica, en la que se centra el inters, mientras que el residuo o ruido es la parte aleatoria.
La parte aleatoria incluye tanto los errores de medicin como la variabilidad aleatoria natural que afecta a las unidades muestrales que se miden. Por lo general, se especifica en trminos de su distribucin de probabilidad.
El anlisis estadstico puede ser entendido como extraer informacin de la seal en presencia de ruido.
ESTIMACION
Consiste en ajustar utilizando los datos disponibles para estimar los parmetros que intervienen en el modelo.
EVALUACION
Una vez el modelo ha sido estimado es necesario contrastar las hiptesis que subyacen en su formulacin con el objeto de modificar el modelo en caso de que no se mantengan las asunciones. Hay que responder a preguntas tales como
- Es satisfactoria la parte sistemtica del modelo?. En caso contrario, es necesario alterar la forma del modelo? transformar variables? incluir otras vbles? eliminar alguna? - Es satisfactoria la componente aleatoria? Cul es la distribucin de los errores? (en general se supone dist. normal con media cero? Es su varianza aproximadamente constante? (tb. supuesto habitual) - Depende significativamente la bondad del ajuste de unas pocas observaciones influyentes? - Hay alguna caracterstica relevante de los datos que no haya sido recogida? Anlisis de Datos en Economa Prof: Salvador Carrasco Arroyo - Hay otros modelos alternativos que puedan ser considerados?
La evaluacin de modelos tambin se le llama anlisis de residuos porque la mayora de los procedimientos estn relacionados con los residuos del ajuste.
Hay muchos mtodos para examinar los residuos, dependiendo de la clase o tipo de modelo considerado. En general, los residuos deben ser pequeos, con varianza pequea y totalmente aleatorios (sin esquema reconocible, ya que de lo contrario ese esquema debera de formar parte de la componente sistemtica).
Prestamos especial atencin a los residuos "grandes", que pueden surgir debido a: observaciones errneas o atpicas, a la inadecuacin del modelo o a la inadecuacin del procedimiento de anlisis.