Vous êtes sur la page 1sur 4

1.

1 Origen histrico del trmino regresin la estatura de los hijos de padres inusualmente altos o inusualmente bajos tiende a dirigirse a la estatura promedio de la poblacin.+ Interpretacin moderna de la regresin El anlisis de regresin trata del estudio de la dependencia de una variable (variable dependiente) respecto de una o ms variables (variables explicativas) con el objetivo de estimar o predecir la media o valor promedio poblacional de la primera en trminos de los valores conocidos o fijos (en muestras repetidas) de las segundas. curva de Phillips, que relaciona los cambios en los salarios nominales con la tasa de desempleo.

Relaciones estadsticas y relaciones deterministas En las relaciones estadsticas entre variables se analizan, en esencia, variables aleatorias o estocsticas,4 es decir, variables con distribuciones de probabilidad. Por otra parte, en la dependencia funcional o determinista tambin se manejan variables, pero no son aleatorias o estocsticas Los fenmenos deterministas, por otra parte, implican relaciones como la ley de la gravedad de Newton, la cual establece que toda partcula en el universo atrae a cualquier otra partcula con una fuerza directamente proporcional al producto de sus masas e inversamente proporcional al cuadrado de la distancia entre ellas. 1.4 Regresin y causalidad A pesar de que el anlisis de regresin tiene que ver con la dependencia de una variable respecto de otras variables, esto no implica causalidad necesariamente. En palabras de Kendall y Stuart: Una relacin estadstica, por ms fuerte y sugerente que sea, nunc a podr establecer una conexin causal: nuestras ideas de causalidad deben provenir de estadsticas externas y, en ltimo trmino, de una u otra teora

1.5 Regresin y correlacin En el anlisis de correlacin, el objetivo principal es medir la fuerza o el grado de asociacin lineal entre dos variables. El coeficiente de correlacin, que veremos en detalle en el captulo 3, mide esta fuerza de asociacin (lineal): por ejemplo, si se desea encontrar la correlacin (coeficiente) entre el hbito de fumar y el cncer del pulmn; entre las calificaciones en exmenes de estadstica y en exmenes de matemticas; entre las calificaciones de bachillerato y de la universidad, y as sucesivamente. En el

anlisis de regresin, como ya mencionamos, no interesa ese tipo de medicin. En cambio, se trata de estimar o predecir el valor promedio de una variable con base en los valores fijos de otras. As, quiz se desee predecir el promedio de las calificaciones en un examen de estadstica a partir de la calificacin de un estudiante en un examen de matemticas. En el anlisis de regresin hay una asimetra en el tratamiento a las variables dependientes y explicativas. Se supone que la variable dependiente es estadstica, aleatoria o estocstica, es decir, que tiene una distribucin de probabilidad. Por otra parte, se asume que las variables explicativas tienen valores fijos (en muestras repetidas), En el anlisis de correlacin, por otra parte, se tratan dos variables cualesquiera en forma simtrica; no hay distincin entre las variables dependiente y explicativa. Como veremos, la mayor parte de la teora de correlacin parte del supuesto de aleatoriedad de las variables, mientras que la mayor parte de la teora de regresin que expondremos en este texto est condicionada al supuesto de que la variable dependiente es estocstica y que las variables explicativas son fijas o no estocsticas Terminologa y notacin Si se estudia la dependencia de una variable respecto de una nica variable explicativa, como el consumo que depende del ingreso real, dicho estudio se conoce como anlisis de regresin simple, o con dos variables. Sin embargo, si se estudia la dependencia de una variable respecto de ms de una variable explicativa, como el rendimiento de un cultivo, la lluvia, la temperatura, el Sol y los fertilizantes, se trata de un anlisis de regresin mltiple. El trmino aleatorio es sinnimo de estocstico. Como ya vimos, una variable aleatoria o estocstica es la que toma cualquier conjunto de valores, positivos o negativos, con una probabilidad dada. Por convencin, se utiliza el subndice de observacin i para los datos transversales (es decir, informacin recopilada en un momento determinado), y el subndice t, para datos de series de tiempo (es decir, informacin reunida a lo largo de un periodo). Tipos de datos Datos de series de tiempo: Una serie de tiempo es un conjunto de observaciones sobre los valores de una variable en diferentes momentos es decir, en forma diaria (precios de acciones, informes del tiempo, etc.), semanal (como cifras de oferta monetaria), mensual (tasa de desempleo, ndice de Precios al Consumidor [IPC], etc.), trimestral (como el PIB), anual (como los presupuestos del gobierno), quinquenal (como el censo de la industria manufacturera), o decenal (como los censos de poblacin).

Datos transversales: Los datos transversales consisten en datos de una o ms variables recopilados en el mismo punto del tiempo, como el censo de poblacin realizado por la Oficina del Censo de Estados Unidos cada 10 aos (el ltimo fue en 2000), Datos combinados: Los datos combinados renen elementos de series de tiempo y transversales ej: Hay 50 observaciones transversales por ao, y dos observaciones de series de tiempo sobre precios y produccin de huevo por estado: un total de 100 observaciones combinadas. Datos en panel, longitudinales o en micropanel: Hay un tipo especial de datos combinados en el cual se estudia a travs del tiempo la misma unidad transversal (por ejemplo, una familia o una empresa). Por ejemplo, el Departamento de Comercio de Estados Unidos realiza un censo de vivienda en intervalos peridicos. En cada encuesta peridica se entrevista a la misma unidad familiar (o a la gente que vive en la misma direccin) para averiguar si ha habido algn cambio en las condiciones de vivienda o financieras de esa unidad familiar desde la ltima encuesta. Si todas las empresas tienen el mismo nmero de observaciones, se tiene lo que se conoce como panel balanceado. Si el nmero de observaciones no es igual para cada compaa, se llama panel desbalanceado.

Fuentes de datos Internet: Conviene incluir en la lista de Favoritos, los sitios Web que brinden datos econmicos tiles. Los datos recopilados por estas organizaciones pueden ser de naturaleza experimental o no experimental. En las ciencias sociales, los datos por lo general son de naturaleza no experimental, es decir, no estn sujetos al control del investigador. Por ejemplo, el investigador no ejerce ningn control directo sobre los datos del PIB, desempleo, precios de acciones, etc. Precisin de los datos Si bien se dispone de numerosos datos para la investigacin econmica, su calidad no siempre es adecuada, y por mltiples razones. 1 en su mayora, los datos de las ciencias sociales son de naturaleza no experimental. Por consiguiente, es posible incurrir en errores de observacin, sea por accin u omisin. 2 Aun en datos reunidos experimentalmente surgen errores de medicin debido a las aproximaciones o al redondeo. 3 el problema de la falta de respuesta puede ser grave; un investigador tiene suerte si obtiene una tasa de respuesta de 40%. El anlisis basado en dicha tasa de respuesta parcial quiz no refleje de verdad el comportamiento del 60% que no respondi, y ocasione, por consiguiente, un sesgo de selectividad (muestral).

4 Los mtodos de muestreo para obtencin de datos llegan a variar tanto que a menudo es difcil comparar los resultados de las diversas muestras 5 Las cifras econmicas suelen estar disponibles en niveles muy agregados. Por ejemplo, la mayor parte de los macrodatos (como el PIB, empleo, inflacin, desempleo) estn disponibles para la economa en su conjunto, o, en el mejor de los casos, para algunas regiones geogrficas muy amplias. 6 Debido a su carcter confidencial, ciertos datos slo pueden publicarse en forma muy agregada Por estos problemas, y muchos ms, el investigador debe tener siempre en mente que el resultado de la investigacin ser tan bueno como lo sea la calidad de los datos.

Una observacin sobre las escalas de medicin de las variables Las variables que a menudo encontrar se clasifican en cuatro categoras generales: escala de razn, escala de intervalo, escala ordinal y escala nominal. Escala de razn: Para la variable X, al tomar dos valores (X1 y X2), la razn X1/X2 y la distancia (X2 X1) son cantidades con un significado. Asimismo, hay un ordenamiento natural (ascendente o descendente) de los valores a lo largo de la escala. Escala de intervalo : Una variable en escala de intervalo satisface las dos ltimas propiedades de la variable en escala de razn, pero no la primera. Por tanto, la distancia entre dos periodos, (digamos 2000-1995),tiene significado, no as la razn de dos periodos (2000/1995). Escala ordinal: Una variable pertenece a esta categora slo si satisface la tercera propiedad de la escala de razn (es decir, el orden natural), como los sistemas de calificaciones por letras (A, B, C) o los niveles de ingresos alto, medio y bajo). Para estas variables hay un orden, pero las distancias entre las categoras no son cuantificables Escala nominal: Las variables de esta categora no tienen ninguna caracterstica de las variables en escala de razn. Las variables como el gnero (masculino y femenino) y el estado civil (casado, soltero,divorciado, separado) simplemente denotan categoras. Pregunta: por qu no expresar dichas variables con las escalas de razn, intervalo u orden? Como veremos, las tcnicas economtricas adecuadas para las variables en escala de razn no resultaran pertinentes para las variables en escala nominal. En consecuencia, es importante tener en mente las diferencias entre los cuatro tipos de escalas de medicin recin analizadas.

Vous aimerez peut-être aussi