Académique Documents
Professionnel Documents
Culture Documents
Regresión Simple
2.1 INTRODUCCION A LA REGRESION SIMPLE
Generalmente para un primer curso de econometría, se empieza con el modelo de
regresión simple. En este material también optamos por ese método por la simplicidad y
por lo didáctico del modelo. En el modelo de regresión simple, o simplemente regresión
simple, se trata de demostrar la relación entre dos variables; solemos denotar con a la
variable independiente y con a la variable dependiente. Para especificar la relación
entre , se utiliza el método de funciones matemáticas, es decir:
16
La ecuación , es aun incompleta, ya que se debe agregar un término de perturbación
aleatoria, por lo que queda de la siguiente manera:
También se supone que los errores son constantes y con valores esperados cero:
1
Econometría. Stephen J. Schmidt. McGraw-Hill. 2005
17
por la función de regresión. Los residuos , actúan como una especie de estimador del
término error .
En el grafico podemos ver algunos residuos. Como vemos la distancia entre los puntos
y la línea de regresión son los residuos. Los residuos que están por encima de la línea
recta son residuos positivos y los que están debajo de la línea recta son residuos negativos.
Para graficar el concepto, tenemos los datos de consumo agregado y renta disponible de
10 países hipotéticos en la tabla , cabe señalar que ambos datos están en millones de
dólares.
18
Podemos empezar nuestro análisis viendo si existe una relación lineal entre ambas
variables. Mediante una inspección grafica podemos ver si están relacionadas o si siguen
una tendencia, esto podemos hacerlo visualmente. Esta inspección grafica se basa en
observar el comportamiento de los datos mediante un gráfico de dispersión.
160
150
140
130
120
110
100
90
100 110 120 130 140 150 160 170 180 190
En el gráfico de dispersión , podemos notar que los puntos siguen una misma
tendencia, por lo que podemos sospechar de una relación lineal. Podemos establecer que
la relación es la siguiente:
19
Para poder estimar esta función de consumo, necesitamos calcular los valores de ,
los cuales se llaman parámetros. La teoría económica supone que se cumplen las
condiciones de las ecuaciones y . Para probar que las condiciones de las
ecuaciones y se cumplen, se contrastan hipótesis que se estudian más
adelante en el material.
Estas dos ecuaciones, son llamadas “ecuaciones normales”. A partir de estas ecuaciones
también podemos calcular los parámetros, para ello podemos utilizar cualquier método
de solución de sistemas de ecuaciones. Con las ecuaciones normales obtenemos:
2
Métodos de Econometría. J. Johnston & J. Dinardo. Vicen Vivens. 2001
20
¿Por qué empezamos por la relación ? Esto es porque en una
sumatoria simple, los errores positivos y negativos se anularan entre sí. Esto se evita
elevando los errores al cuadrado, es decir la diferencia entre la y su estimada .
Por consiguiente el método de MCO nos dará los parámetros y , que dibujaran la
recta que mejor se ajuste a los puntos que están distribuidos.
Para poder demostrar esta igualdad, procedemos a la descomposición por parte, por lo
que los resultados que obtendremos serán:
Para obtener estos resultados se deben de tener en cuenta las siguientes igualdades. El
lector puede comprobar las igualdades dando los valores que quiera a las variables.
Después de ordenar y simplificar queda:
Con las igualdades se pueden demostrar que las formulas son equivalentes. Generalmente
los libros de econometría también tienen en cuenta la forma de desviación, la cual genera
los mismos resultados:
21
Para el ejemplo numérico, de consumo e ingreso de la tabla , la siguiente tabla muestra
los cálculos necesarios para estimar los valores de y :
22
También podemos calcular la elasticidad. La elasticidad es el cambio porcentual en ,
como respuesta a un cambio porcentual en .
Con este resultado se puede concluir que un aumento del 1% en el ingreso, implica un
aumento del 0.89% en el consumo. O lo que es igual, cuando el ingreso aumenta 10%, el
consumo aumenta en 8.9%.4 Los valores de la elasticidad son ilimitados y pueden ser
positivos o negativos. Las elasticidades son útiles porque están libre de unidades, es decir,
sus valores son independientes de las unidades en que son medidas las variables.5
160
150
140
130
120
110
100
90
100 110 120 130 140 150 160 170 180 190
3
Principles of Econometrics. Carter Hill, Griffiths & Lim. Wiley. 2011
4
También podemos utilizar el modelo doble-log, el cual recoge las elasticidades en los parámetros, pero
este modelo se introduce en el capítulo referente a la forma funcional.
5
Econometría. Modelos y Pronósticos. Robert Pindyck & Daniel Rubinfeld. McGraw-Hill. 2001
23
2.3 LOS SUPUESTOS DE MCO
Los supuestos del modelo basado en MCO, son las condiciones que se deben cumplir
para que este método proponga la mejor estimación. En este sentido las violaciones de
los supuestos a establecer, generan ciertos problemas que analizaremos más adelante en
el material:
La versión más fuerte de esta suposición es que los errores aleatorios son
estadísticamente independiente, en cuyo caso los valores de la variable
dependiente son también estadísticamente independiente.8 Uniendo con
el supuesto 2 y 3, tenemos:
Supuesto 5: Las son no aleatoria y deben tomar al menos dos valores diferentes
6
Econometría. Damodar Gujarati & Dawn Porter. McGraw-Hill. 2009
7
Ibíd.
8
Principles of Econometrics. Carter Hill, Griffiths & Lim. Wiley. 2011
24
2.4 PROPIEDADES DE LOS ESTIMADORES
Los estimadores deben de cumplir con algunas propiedades deseables, las cuales
describimos a continuación:
9
Econometría. Stephen J. Schmidt. McGraw-Hill. 2005
10
Ibíd.
25
Donde es el límite en probabilidad. En otras palabras, converge en
probabilidad a
4. La regla para minimizar el error cuadrático medio (ECM) se utiliza cuando el
investigador tiene un estimador ligeramente sesgado pero con una varianza menor
que la de cualquier otro estimador sesgado.11 En este caso se da que:
que tome y tampoco importa el valor que tome . No ocurre esto con
11
Estadística y Econometría. Dominick Salvatore & Derrick Reagle. McGraw-Hill. 2004
12
Ejercicios de Econometría. Fernández, González, Regulez, Moral & Esteban. McGraw-Hill. 2005
26
Por simplicidad guardamos porque las se consideran fijas y porque
Utilizando:
27
Ahora aplicamos valor esperado ambos lados:
queda como:
13
Econometría. Stephen J. Schmidt. McGraw-Hill. 2005
28
Para el ejemplo numérico procedemos a calcular la varianza y el error estándar de la
regresión:
¿Por qué la varianza se divide entre ? Hacemos esto porque los residuales no son
variables conseguidas por el proceso generador de datos, sino que son calculados a partir
de los valores y . Dividimos entre para corregir el hecho de que calculamos
el error basándonos en otros dos valores estimados, conforme el número de observaciones
crece la diferencia entre y se vuelve más pequeña.15
14
Podemos ver que los datos están millones y la mayoría es de 3 cifras, están entre 100 millones y 180
millones. La varianza y el error estándar representa un valor ínfimo si tenemos en cuenta esto.
15
Econometría. Stephen J. Schmidt. McGraw-Hill. 2005
29
2.7 BONDAD DEL AJUSTE.
Una vez estimado la función de regresión muestral, nos podemos preguntar ¿Qué tan bien
se ajusta la línea de la función de regresión a los datos? O ¿Qué tan cerca están los datos
de la línea recta? Para poder responder esto podemos calcular el valor del coeficiente de
determinación o , cuyos valores están entre 1 y 0.
Mientras más cerca de 1 este, esto significa que los datos están cerca de la línea recta o
también podemos decir que tenemos un buen ajuste, o que la varianza de , es en gran
parte explicada por la varianza de .
Cuando esta cerca de cero, implica que no tenemos un buen ajuste y por ende decimos
que no parece ser un buen predictor de las varianzas de . Generalmente estos valores
tan extremos no suelen darse. Nos encontramos con valores que están en esos intervalos,
podemos resumir diciendo que: Un cercano a 1 indica que el regresor es un buen
predictor de y un cercano a 0 indica que el regresor no es muy buen predictor de
.
30
1º. variación total de los valores reales de en torno a su media
Los valores de SST, SSR y SSE pueden verse en el grafico en donde vemos que la
recta de regresión pasa por los puntos medios de , además se pueden observar la
variación total , la variación explicada y la variación residual .
Con estas definiciones podemos derivar las formulas (decimos formulas porque pueden
ser más de una) de la bondad del ajuste.
16
Econometría. Stephen Schmidt. McGraw-Hill. 2005
17
Principios de Econometría. Damodar Gujarati. McGraw-Hill. 2006
18
Ibíd.
31
Utilizando la forma de desviación de la ecuación y posteriormente dividiendo
ambos lados por tenemos:
En donde podemos decir que la fórmula para pueden ser ambos lados de la ecuación
, por lo que:
Aplicando la ecuación
32
Para nuestro ejemplo, vemos que tenemos buen ajuste ya que el valor es muy cercana a
1, por lo que los valores no están muy alejadas de la recta estimada.
Los estudiantes que empiezan a aprender econometría tienden a darle mucha importancia
al valor de al evaluar una ecuación de regresión. Por ahora, hay que estar conscientes
de que usar como principal medida del éxito de un análisis econométrico puede
acarrear problemas.19
2.8 LA CORRELACIÓN
La correlación o simplemente 𝑟, mide la fuerza y el tipo de asociación entre variables.
Este coeficiente puede tener valores entre +1 y -1. Se suele utilizar el símbolo 𝜌 para
nombrar la correlación.
Una correlación cercana a +1 implica una relación fuerte y con pendiente positiva. Un
coeficiente de correlación cercana -1 implica una relación fuerte y con pendiente negativa.
¿Cómo se calcula ?
A partir de las derivaciones del valor de , podemos calcular también el valor de , que
el coeficiente de correlación. Como dijimos este coeficiente tiene valores que oscilan
entre +1 y -1, a continuación derivamos la fórmula:
Como vemos podemos calcular con varias formas las correlaciones entre variables, por
lo que dependiendo de la disponibilidad de datos se puede optar indistintamente entre
ellas, como lo muestra la igualdad .
19
Introducción a la Econometría. Un Enfoque Moderno. Jeffrey Wooldridge. Cengage Learning. 2010
20
Métodos de Econometría. J. Johnston & J. Dinardo. Vicen Vivens. 2001
33
El signo se utiliza dependiendo del signo del parámetro . Para nuestro ejemplo de la
regresión de consumo:
Lo que implica una correlación lineal fuerte y positiva. Es decir, cuando el ingreso
aumenta, el consumo también lo hace y ya que la correlación está cerca de 1 podemos
decir la relación es bastante fuerte.
Podemos decir que el valor esperado del estimador es que ya fue demostrado en la
sección . Queda por demostrar la varianza del estimador , para ellos empezamos
por:
34
El estimador posee la siguiente distribución:
Podemos decir que el valor esperado del estimador es que también ya fue
Ahora utilizamos en
35
Ahora demostramos que:
𝜎𝜀
𝜎𝜀
𝜎𝜀
𝜎𝜀
𝜎𝜀
36
En la tabla se tiene los cálculos necesarios. Donde primeramente calculamos la
varianza del error:
Puesto que es inobservable y por consiguientes no podemos utilizar 𝜎𝜀2 por lo que
utilizamos el estimador de la varianza del error .
La raíz cuadrada de y son los errores estándar de los estimadores, las cuales son
útiles para la inferencia estadística.
37
una segunda hipótesis, denominada hipótesis alternativa, que se cumple si la nula no lo
hace.21
Utilizando :
Por lo que:
21
Introducción a la Econometría. Stock & Watson. Pearson. 2012
38
Con estos valores podemos decir que el , es significativamente diferente de cero al
5%.
Utilizando :
Por lo que:
Las hipótesis también pueden plantearse como alternativas unilaterales, por ejemplo:
O también
Teniendo en cuenta esto, nos centramos en probar que el consumo es positivo, como lo
establecimos en la igualdad . Esto se fundamenta porque:
39
Porque se supone que la gente utiliza sus ahorros o se endeuda para consumir22. Por lo
que establecemos que:
Utilizando de nuevo :
Por lo que:
Porque se supone que la gente aumenta sus niveles de consumo, cuando aumenta sus
ingresos, pero no en la misma proporción. Por lo que establecemos que:
Utilizando de nuevo :
22
Econometría. Dominick Salvatore. McGraw-Hill. 1991
23
El valor del t critico varia porque se busca el valor de tabla con una cola.
40
El valor al 5% y con 8 grados de libertad . Por lo que
comparando:
Por lo que:
41
Podemos decir que el verdadero valor de esta entre 0.714354 y 0.841645, con una
confianza del 95%. Como vemos 0 no está dentro del intervalo y es menor a 1.
Podemos decir que el verdadero valor de esta entre 3.963519 y 22.30648, con una
confianza del 95%, tampoco está incluido 0 entre los posibles valores que puede adoptar
y no incluye número negativo alguno.
2.12 PREDICCIONES
En esta sección abordamos el tema de predicciones tanto puntuales como también por
intervalos. Las predicciones son bastantes útiles a la hora de tomar decisiones en el futuro,
por lo que este tema es de bastante importancia.
Después de estimar la recta de regresión a partir de una muestra, solemos centrar nuestro
interés en algún valor especifico de de la variable que actúa como regresor, con el
objeto de predecir el valor de que con más probabilidad se halle asociado a . El
valor de puede pertenecer al rango de valores de en la muestra o mas
frecuentemenete, podemos estar interesados en predecir para un valor de fuera de
las observaciones muéstrales. Podemos realizar dos tipos de predicciones: predicción por
punto o predicción por intervalo. 24
Para el ejemplo de consumo e ingreso podemos de realizar pronósticos por punto del
consumo teniendo en cuenta un ingreso de 185, este pronóstico seria:
Por lo tanto una predicción puntual del consumo para los ingresos de 185 seria 157,065
(No se debe olvidar que los datos están en millones, por lo cual los valores serian 185
24
Métodos de Econometría. J Johnston & J Dinardo. Vicens Vivens. 2001
42
millones y 157 millones). Nótese que el pronóstico por punto es simplemente utilizando
la función de regresión estimada. En donde se establece:
Por lo tanto podemos decir que dado un ingreso de 185 millones, el consumo medio
previsto para ese nivel de ingresos es de 157 millones con un error estándar de 1 312 908
dólares .
Con estos resultados podemos construir un intervalo de confianza al 95% para los valores
de consumo con ingresos de 185.
25
Econometría. Damodar Gujarati & Dawn Porter. McGraw-Hill. 2009
26
Principios de Econometría. Damodar Gujarati. McGraw-Hill. 2006
43
Utilizando calculamos:
Por lo tanto el intervalo de 95% de confianza para el consumo con ingresos de 185
millones es . Por lo tanto, si el ingreso medio es 185 millones
en un país hipotético, el intervalo de 95% de confianza para la media del consumo estará
entre 154 millones y 160 millones. La predicción y los intervalos recién calculados son
predicciones para la media.
Con estos resultados podemos construir un intervalo de confianza al 95% para los valores
de consumo con ingresos de 185.
Utilizando calculamos:
44
Para nuestro ejemplo numérico:
Para nuestro ejemplo de consumo e ingreso, supongamos que deseamos cambiar nuestra
escala de millones a miles (Recuerde que los datos de la tabla 4.1 están en millones), para
esto debemos de dividir nuestras variables e entre 1 000, es decir que la función
quedaría como:
Como vemos, al pasar de millones a miles la constante cambia pero la pendiente queda
invariante. También se debe de tener en cuenta que como la varianza y la desviación
estándar de los parámetros tienen en cuenta las unidades de medidas de las variables,
también sufrirán cambios de escala, no así el resto de los estadísticos estudiados.
Ahora supongamos que queremos volver a nuestros datos originales que están en
millones. En este caso queremos volver a cambiar la escala de las variables, y pasar de
miles a millones. Para ello multiplicamos nuestras variables tanto como por 1 000.
27
Econometría. Alfonso Novales Cinca. McGraw-Hill. 1992
45
¿Qué pasa si solo una de las variables es reescalada? Para explicar esto supongamos que
solo los ingresos serán reescalados a miles, es decir, solo la variable 𝑋 será dividida entre
1 000. En ese caso se cumplen algunas de las siguientes situaciones que serán descriptas
a continuación:
Para nuestro ejemplo de consumo e ingreso, los datos estaban en millones, si solo
reescalamos el consumo a miles el resultado sería:
28
Material de Econometría. Ezequiel Uriel. Universidad de Valencia
29
Ibíd.
46
Con esto podemos notar que tanto la constante como la pendiente sufrieron
cambios de escalas al reescalar, valga la redundancia, la variable , en este caso
el consumo a miles.
En estos casos hemos analizado los cambios de escala y como afecta a la regresión. Se
debe de tener mucho cuidado a la hora de interpretar las salidas informáticas y los cálculos
en econometría.
30
Material de Econometría. Ezequiel Uriel. Universidad de Valencia
47
Hay que observar que no varía al realizar cambios de unidades de y/o , y tampoco
varia cuando se cambia el origen de las variables.31No así las varianza y el error estándar
de la constante que si varían en el cambio de origen.
31
Material de Econometría. Ezequiel Uriel. Universidad de Valencia
48
EJERCICIOS
1.1 Se quiere analizar la relación que hay entre el rendimiento de maíz por bolsas
y la cantidad de fertilizante en kg. Se tiene los siguientes datos:
a) Estime 𝜀
b) Calcule
c) ¿Son significativos los parámetros al 1%?
d) ¿Cómo interpretaría los parámetros?
1.2 Con las siguientes ecuaciones normales calcule los parámetros del modelo de
regresión simple y calcule
b) Calcule el valor de
c) Vea que los estimadores sean significativos al 5%
49
d) Calcule la elasticidad tamaño-ventas
e) Calcule el intervalo de confianza al 5% para los valores de
f) Realice el cálculo de una predicción para un campus de una población de
10 000 estudiantes.
g) Estimar la media de las ventas de los restaurantes Armand’s que se
encuentran cerca de un campus de 10 000 estudiantes
h) Supóngase que en lugar de que lo que interese sea estimar el valor medio
de las ventas de todos los restaurantes Armand’s que se encuentran cerca
de campus de 10 000 estudiantes, se deseen estimar las ventas de un solo
restaurante que se encuentra cerca de Talbot College, una escuela de 10
50