2 Regresion Simple

CAPITULO 2
Regresión Simple
2.1 INTRODUCCION A LA REGRESION SIMPLE
Generalmente para un primer curso de econometría, se empieza con el modelo de
regresión simple. En este material también optamos por ese método por la simplicidad y
por lo didáctico del modelo. En el modelo de regresión simple, o simplemente regresión
simple, se trata de demostrar la relación entre dos variables; solemos denotar con a la
variable independiente y con a la variable dependiente. Para especificar la relación
entre , se utiliza el método de funciones matemáticas, es decir:
La ecuación puede leerse como está en función de , o también como

depende de . Utilizando la notación de funciones matemáticas podemos demostrar que
los cambios de provocan cambios en . De esta manera especificamos la ecuación o
función :
En donde es una constante o el punto de corte con el eje , es la pendiente de la

recta que se dibuja con la función, esto se puede ver en el grafico . La pendiente es la
inclinación de la recta o también los cambios de como consecuencia de los cambios de
como muestra la ecuación :
En econometría cambiamos las denominaciones de y por y respectivamente,

para el modelo de regresión de simple, de esta manera nuestra función queda como:
16
La ecuación , es aun incompleta, ya que se debe agregar un término de perturbación
aleatoria, por lo que queda de la siguiente manera:
El término error se incluye por los siguientes motivos:
 Puede haber factores que influyen en y que sean difíciles o imposibles

de medir.
 La relación entre no siempre es una línea recta.
 Quizás no se pueda medir con exactitud.
 Pueden haber factores puramente aleatorios que determinan los
resultados.1
También se supone que los errores son constantes y con valores esperados cero:
La diferencia se conoce con el nombre de residuo y se denota por la letra .

Donde son los verdaderos valores de la muestra de datos y son los valores ajustados
1
Econometría. Stephen J. Schmidt. McGraw-Hill. 2005
17
por la función de regresión. Los residuos , actúan como una especie de estimador del
término error .
En el grafico podemos ver algunos residuos. Como vemos la distancia entre los puntos
y la línea de regresión son los residuos. Los residuos que están por encima de la línea
recta son residuos positivos y los que están debajo de la línea recta son residuos negativos.
Para graficar el concepto, tenemos los datos de consumo agregado y renta disponible de
10 países hipotéticos en la tabla , cabe señalar que ambos datos están en millones de
dólares.
18
Podemos empezar nuestro análisis viendo si existe una relación lineal entre ambas
variables. Mediante una inspección grafica podemos ver si están relacionadas o si siguen
una tendencia, esto podemos hacerlo visualmente. Esta inspección grafica se basa en
observar el comportamiento de los datos mediante un gráfico de dispersión.
160
150
140
130
120
110
100
90
100 110 120 130 140 150 160 170 180 190
En el gráfico de dispersión , podemos notar que los puntos siguen una misma
tendencia, por lo que podemos sospechar de una relación lineal. Podemos establecer que
la relación es la siguiente:
Teóricamente también podemos definir o establecer que:
19
Para poder estimar esta función de consumo, necesitamos calcular los valores de ,
los cuales se llaman parámetros. La teoría económica supone que se cumplen las
condiciones de las ecuaciones y . Para probar que las condiciones de las
ecuaciones y se cumplen, se contrastan hipótesis que se estudian más
adelante en el material.
2.2 LOS ESTIMADORES DE MCO

Un estimador es una fórmula, método o receta para estimar un parámetro desconocido en
una población; y una estimación es el valor numérico obtenido cuando en la formula se
sustituyen los datos de la muestra2. El método que utilizamos para calcular los
estimadores se llama Mínimos Cuadrados Ordinarios (MCO), el cual se basa en:
Aplicando derivadas parciales e igualando a cero
Después de algunas manipulaciones algebraicas, tenemos:
Estas dos ecuaciones, son llamadas “ecuaciones normales”. A partir de estas ecuaciones
también podemos calcular los parámetros, para ello podemos utilizar cualquier método
de solución de sistemas de ecuaciones. Con las ecuaciones normales obtenemos:
2
Métodos de Econometría. J. Johnston & J. Dinardo. Vicen Vivens. 2001
20
¿Por qué empezamos por la relación ? Esto es porque en una
sumatoria simple, los errores positivos y negativos se anularan entre sí. Esto se evita
elevando los errores al cuadrado, es decir la diferencia entre la y su estimada .
Por consiguiente el método de MCO nos dará los parámetros y , que dibujaran la
recta que mejor se ajuste a los puntos que están distribuidos.
Alternativamente a las ecuaciones demostradas, podemos utilizar las ecuaciones normales

para calcular los parámetros, pero como se trabajaría con un sistema de ecuaciones, para
ello podemos utilizar el método de eliminación de Gauss, el método de reducción o el
método de sustitución.
Además podemos demostrar que:
Para poder demostrar esta igualdad, procedemos a la descomposición por parte, por lo
que los resultados que obtendremos serán:
Para obtener estos resultados se deben de tener en cuenta las siguientes igualdades. El
lector puede comprobar las igualdades dando los valores que quiera a las variables.
Después de ordenar y simplificar queda:
Con las igualdades se pueden demostrar que las formulas son equivalentes. Generalmente
los libros de econometría también tienen en cuenta la forma de desviación, la cual genera
los mismos resultados:
21
Para el ejemplo numérico, de consumo e ingreso de la tabla , la siguiente tabla muestra
los cálculos necesarios para estimar los valores de y :
Utilizando la ecuación para calcular la pendiente tenemos:
También usamos la ecuación y estimamos o el punto de corte con eje
Por lo que la función de consumo queda como:
En donde se especifica que:
El estimador de la pendiente nos indica que cuando el ingreso aumenta en 1 millón,

aproximadamente 778 mil se destina al consumo. El estimador de la constante o consumo
autónomo, nos dice que cuando el ingreso es cero, aproximadamente 13 millones se
dedican al consumo. Pero esta interpretación del consumo autónomo no debe tomarse
como completamente verdadera, ya que no tenemos datos que estén cerca de cero para
garantizar que esto se cumplirá.
22
También podemos calcular la elasticidad. La elasticidad es el cambio porcentual en ,
como respuesta a un cambio porcentual en .
Utilizando los datos de la tabla y aplicando la ecuación , tenemos3:
Con este resultado se puede concluir que un aumento del 1% en el ingreso, implica un
aumento del 0.89% en el consumo. O lo que es igual, cuando el ingreso aumenta 10%, el
consumo aumenta en 8.9%.4 Los valores de la elasticidad son ilimitados y pueden ser
positivos o negativos. Las elasticidades son útiles porque están libre de unidades, es decir,
sus valores son independientes de las unidades en que son medidas las variables.5
160
150
140
130
120
110
100
90
100 110 120 130 140 150 160 170 180 190
El grafico , representa la ecuación estimada a través de la recta y su ajuste a los puntos.
3
Principles of Econometrics. Carter Hill, Griffiths & Lim. Wiley. 2011
4
También podemos utilizar el modelo doble-log, el cual recoge las elasticidades en los parámetros, pero
este modelo se introduce en el capítulo referente a la forma funcional.
5
Econometría. Modelos y Pronósticos. Robert Pindyck & Daniel Rubinfeld. McGraw-Hill. 2001
23
2.3 LOS SUPUESTOS DE MCO
Los supuestos del modelo basado en MCO, son las condiciones que se deben cumplir
para que este método proponga la mejor estimación. En este sentido las violaciones de
los supuestos a establecer, generan ciertos problemas que analizaremos más adelante en
el material:
Supuesto 1: El modelo de regresión es lineal en los parámetros, aunque puede o no

ser lineal en las variables6. Por lo que se establece que el modelo es:
Supuesto 2: El valor medio de la perturbación 𝜀 es igual a cero7. Por lo que podemos

decir que:
Lo que es también equivalente a asumir que:
Supuesto 3: La varianza de la perturbación 𝜀 es:
Supuesto 4: La covarianza entre par de valores de la perturbación 𝜀 y 𝜀 es:
La versión más fuerte de esta suposición es que los errores aleatorios son
estadísticamente independiente, en cuyo caso los valores de la variable
dependiente son también estadísticamente independiente.8 Uniendo con
el supuesto 2 y 3, tenemos:
Supuesto 5: Las son no aleatoria y deben tomar al menos dos valores diferentes
6
Econometría. Damodar Gujarati & Dawn Porter. McGraw-Hill. 2009
7
Ibíd.
8
Principles of Econometrics. Carter Hill, Griffiths & Lim. Wiley. 2011
24
2.4 PROPIEDADES DE LOS ESTIMADORES
Los estimadores deben de cumplir con algunas propiedades deseables, las cuales
describimos a continuación:
1. Un estimador es no sesgado si su valor esperado es igual al verdadero valor del

parámetro que estima . De lo contrario será sesgado. No es sesgado si:9
Un estimador es sesgado si:
Una forma alternativa de conocer el sesgo es:
2. Un estimador es óptimo o eficiente, si tiene la varianza mínima de todos los

estimadores insesgados, es decir , donde es un estimador
MCO. Si se observa que la relación de varianzas es , se dice
que el estimador es ineficiente.

3. Un estimador es consistente, para esto se deben cumplir dos condiciones10: (1) a
medida que aumenta el tamaño de la muestra es estimador debe aproximarse cada
vez más al auténtico valor del parámetro, por lo cual se dice que es asintóticamente
insesgado.
(2) a medida que el tamaño muestral se aproxima al infinito en el límite, la

distribución muestral del estimador debe converger a convertirse en una línea
vertical recta con una l por encima del auténtico valor del parámetro.
La consistencia también puede representarse como:
9
10
Ibíd.
25
Donde es el límite en probabilidad. En otras palabras, converge en
probabilidad a
4. La regla para minimizar el error cuadrático medio (ECM) se utiliza cuando el
investigador tiene un estimador ligeramente sesgado pero con una varianza menor
que la de cualquier otro estimador sesgado.11 En este caso se da que:
Es decir, si es un parámetro, elegiremos aquel estimador , cuyo error

cuadrático se a mínimo, es decir, aquel estimador para el que la diferencia:
Donde es cualquier estimador de .12
2.5 INSESGADEZ DE LOS ESTIMADORES MCO

Podemos demostrar que los parámetros obtenidos mediante MCO son insesgados. Para
esto utilizamos la forma desviación, que es la ecuación la forma de desviación es
bastante útil para las demostraciones algebraicas.
A partir de esto reemplazamos el valor de distribuimos la multiplicación
El valor de , el lector puede corroborar en las tablas de cálculos, en la
columna de . Entonces podemos decir que , no importa el valor
que tome y tampoco importa el valor que tome . No ocurre esto con
ya que si incluimos una columna en nuestro cálculo notaremos que tendrá un

valor diferente de cero, dado esto, quedamos así:
11
Estadística y Econometría. Dominick Salvatore & Derrick Reagle. McGraw-Hill. 2004
12
Ejercicios de Econometría. Fernández, González, Regulez, Moral & Esteban. McGraw-Hill. 2005
26
Por simplicidad guardamos porque las se consideran fijas y porque
aprovecharemos las propiedades de :
Por lo que queda de la siguiente manera:
Reemplazando el valor de por la FRP y distribuyendo la multiplicación:
Luego de esto aplicamos valor esperado, las propiedades de las y tenemos en
cuenta el supuesto de , y queda:
Para probar que podemos utilizar la fórmula:
Utilizando:
27
Ahora aplicamos valor esperado ambos lados:
Tenemos en cuenta que ya hemos demostrado que , por lo que la ecuación
queda como:
De esta manera queda demostrado que los estimadores son insesgados
2.6 VARIANZA Y ERROR ESTANDAR DE REGRESION

La varianza de los estimadores son útiles, ya que más adelante son necesarios para realizar
inferencias acerca de los estimadores. Primeramente necesitamos calcular la varianza de
los residuos, que calculamos de la siguiente manera:
Y que se espera que:
Por lo cual se demuestra que es insesgado.
Si tomamos la raíz cuadrada de , podemos calcular el erros estándar de la regresión,

el cual es una estimación de la distancia promedio entre la línea verdadera y los datos.13
Cabe mencionar que el error estándar depende de la escala de los datos.
13
28
Para el ejemplo numérico procedemos a calcular la varianza y el error estándar de la
regresión:
Con los resultados de la tabla primeramente calculamos la varianza del error:
Ahora calculamos el error estándar de regresión:
Podemos decir que la varianza es de 3.4 millones de dólares y el error estándar de

regresión es de 1.8 millones de dólares. Teniendo en cuenta eso, no parece haber una gran
dispersión entre los datos y la línea estimada.14
¿Por qué la varianza se divide entre ? Hacemos esto porque los residuales no son
variables conseguidas por el proceso generador de datos, sino que son calculados a partir
de los valores y . Dividimos entre para corregir el hecho de que calculamos
el error basándonos en otros dos valores estimados, conforme el número de observaciones
crece la diferencia entre y se vuelve más pequeña.15
14
Podemos ver que los datos están millones y la mayoría es de 3 cifras, están entre 100 millones y 180
millones. La varianza y el error estándar representa un valor ínfimo si tenemos en cuenta esto.
15
29
2.7 BONDAD DEL AJUSTE.
Una vez estimado la función de regresión muestral, nos podemos preguntar ¿Qué tan bien
se ajusta la línea de la función de regresión a los datos? O ¿Qué tan cerca están los datos
de la línea recta? Para poder responder esto podemos calcular el valor del coeficiente de
determinación o , cuyos valores están entre 1 y 0.
Mientras más cerca de 1 este, esto significa que los datos están cerca de la línea recta o
también podemos decir que tenemos un buen ajuste, o que la varianza de , es en gran
parte explicada por la varianza de .
En muchos casos, se obtiene un elevado cuando se ajusta un modelo utilizando datos

de series temporales, debido al efecto de una tendencia común. Por el contrario, cuando
utilizamos datos de corte transversal es frecuente obtener valores bajos, pero esto no
significa que el modelo ajustado sea malo.
Cuando esta cerca de cero, implica que no tenemos un buen ajuste y por ende decimos
que no parece ser un buen predictor de las varianzas de . Generalmente estos valores
tan extremos no suelen darse. Nos encontramos con valores que están en esos intervalos,
podemos resumir diciendo que: Un cercano a 1 indica que el regresor es un buen
predictor de y un cercano a 0 indica que el regresor no es muy buen predictor de
.
¿Cómo se calcula ? Podemos partir de la igualdad :
Donde es conocida como STC (Variación total de o Suma Total de
los Cuadrado); es conocida como SCE (Variación explicada de o Suma
Explicada de los Cuadrados) y es conocida como SCR (Variación
residual de o Suma Residual de los Cuadrados). Podemos resumir diciendo:
30
1º. variación total de los valores reales de en torno a su media
muestral . Otros autores suelen llamarlo SST16

2º. variacion total de los valores estimados de , entorno a su valor
medio. Otros autores suelen llamarlo SSR17
3º. suma de los residuos o variación residual o no explicada de los
valores de . Suele llamársele SSE.18
Los valores de SST, SSR y SSE pueden verse en el grafico en donde vemos que la
recta de regresión pasa por los puntos medios de , además se pueden observar la
variación total , la variación explicada y la variación residual .
Con estas definiciones podemos derivar las formulas (decimos formulas porque pueden
ser más de una) de la bondad del ajuste.
Las formas de desviación de SST, SSR y SSE son.
16
Econometría. Stephen Schmidt. McGraw-Hill. 2005
17
Principios de Econometría. Damodar Gujarati. McGraw-Hill. 2006
18
Ibíd.
31
Utilizando la forma de desviación de la ecuación y posteriormente dividiendo
ambos lados por tenemos:
Pasando al otro miembro, tenemos
En donde podemos decir que la fórmula para pueden ser ambos lados de la ecuación
, por lo que:
Para el ejemplo de la regresión de consumo tenemos los cálculos en la tabla .
Aplicando la ecuación
32
Para nuestro ejemplo, vemos que tenemos buen ajuste ya que el valor es muy cercana a
1, por lo que los valores no están muy alejadas de la recta estimada.
Los estudiantes que empiezan a aprender econometría tienden a darle mucha importancia
al valor de al evaluar una ecuación de regresión. Por ahora, hay que estar conscientes
de que usar como principal medida del éxito de un análisis econométrico puede
acarrear problemas.19
2.8 LA CORRELACIÓN
La correlación o simplemente 𝑟, mide la fuerza y el tipo de asociación entre variables.
Este coeficiente puede tener valores entre +1 y -1. Se suele utilizar el símbolo 𝜌 para
nombrar la correlación.
Una correlación cercana a +1 implica una relación fuerte y con pendiente positiva. Un
coeficiente de correlación cercana -1 implica una relación fuerte y con pendiente negativa.
El coeficiente de correlación sirve para medir el grado de asociación lineal. Ahora

también debemos de mencionar que una correlación cercana a cero no excluye la
posibilidad de una relación no lineal fuerte.20
¿Cómo se calcula ?
A partir de las derivaciones del valor de , podemos calcular también el valor de , que
el coeficiente de correlación. Como dijimos este coeficiente tiene valores que oscilan
entre +1 y -1, a continuación derivamos la fórmula:
Como vemos podemos calcular con varias formas las correlaciones entre variables, por
lo que dependiendo de la disponibilidad de datos se puede optar indistintamente entre
ellas, como lo muestra la igualdad .
19
Introducción a la Econometría. Un Enfoque Moderno. Jeffrey Wooldridge. Cengage Learning. 2010
20
Métodos de Econometría. J. Johnston & J. Dinardo. Vicen Vivens. 2001
33
El signo se utiliza dependiendo del signo del parámetro . Para nuestro ejemplo de la
regresión de consumo:
Lo que implica una correlación lineal fuerte y positiva. Es decir, cuando el ingreso
aumenta, el consumo también lo hace y ya que la correlación está cerca de 1 podemos
decir la relación es bastante fuerte.
2.9 VARIANZA DE LOS ESTIMADORES

Las varianzas de los estimadores son útiles para la sección de inferencia que
desarrollaremos más adelante. Podemos empezar diciendo que el estimador posee la
siguiente distribución:
Podemos decir que el valor esperado del estimador es que ya fue demostrado en la
sección . Queda por demostrar la varianza del estimador , para ellos empezamos
por:
Al aplicar las propiedades de , queda:
La ecuación es parecida a , pero sin aplicar valor esperado. Ahora pasamos

al otro miembro con signo cambiado y elevamos ambos miembros al cuadrado.
Ahora aplicamos valor esperado a ambos lados y vemos que el por el
supuesto de homocedasticidad y aprovechamos la propiedad de .
También debemos tener en cuenta que ya que el valor esperado

es la media de una variable y las desviaciones de la medias al cuadrado es la varianza de
una variable.
34
El estimador posee la siguiente distribución:
Podemos decir que el valor esperado del estimador es que también ya fue
demostrado en la sección . Queda por demostrar la varianza del estimador , para

ellos empezamos por:
Luego tenemos en cuenta que:
Ahora utilizamos en
Ahora podemos agrupar los términos con :
Ahora elevamos al cuadrado ambos lados y aplicamos valor esperado. En la ecuación

se aplica cuadrado de binomio para obtener el resultado:
35
Ahora demostramos que:
Porque se cumple que:
Po lo que nos quedamos con:
𝜎𝜀
Donde aplicamos que 𝜀
𝜎𝜀
𝜎𝜀
𝜎𝜀
Por ultimo agrupando los términos con 𝜎𝜀
𝜎𝜀
Aplicando las formulas derivadas al ejemplo numérico tenemos:
36
En la tabla se tiene los cálculos necesarios. Donde primeramente calculamos la
varianza del error:
Puesto que es inobservable y por consiguientes no podemos utilizar 𝜎𝜀2 por lo que
utilizamos el estimador de la varianza del error .
Posteriormente calculamos la varianza de :
Ahora calculamos la varianza de :
La raíz cuadrada de y son los errores estándar de los estimadores, las cuales son
útiles para la inferencia estadística.
2.10 SIGNIFICANCIA Y PRUEBA DE HIPÓTESIS

En esta sección entramos en la denominada inferencia estadística. El punto de partida
para la contrastación estadística de hipótesis consiste en especificar la hipótesis a
contrastar, denominada hipótesis nula.
Una de las hipótesis nulas más utilizadas en economía es la hipótesis de significación

estadística, la cual se especifica como:
Esta hipótesis establece que el parámetro es significativamente diferente de cero. El

contraste de hipótesis implica la utilización de datos para comparar la hipótesis nula con
37
una segunda hipótesis, denominada hipótesis alternativa, que se cumple si la nula no lo
hace.21
Las hipótesis se contrastan utilizando la distribución con grados de

libertad, para ambos parámetros, utilizando niveles de significancia que pueden ser 1%,
5% o 10%. La más utilizada es la de 5%. El estadístico , se calcula de la siguiente manera:
La regla de decisión es la siguiente, si el valor de , se rechaza

la hipótesis nula. Donde es el valor tabulado en la tabla t y es el
valor calculado con . Es decir:
El primer objetivo es demostrar que tanto y , son significativos o diferentes de cero.

Teniendo en cuenta esto, formulamos nuestras hipótesis de la siguiente manera:
Utilizando :
El valor al 5% y con 8 grados de libertad . Por lo que

comparando:
Por lo que:
21
Introducción a la Econometría. Stock & Watson. Pearson. 2012
38
Con estos valores podemos decir que el , es significativamente diferente de cero al
5%.
Ahora probamos si el valor de es significativamente diferente de cero, planteando las

hipótesis:
Utilizando :

comparando:
Por lo que:
Con estos valores podemos decir que el , es significativamente diferente de cero al

5%.
Las hipótesis también pueden plantearse como alternativas unilaterales, por ejemplo:
O también
Las hipótesis y son alternativas unilaterales, ya que la establece que

es mayor a la constante , por lo que las alternativas son más limitadas. Lo mismo
ocurre con la hipótesis la cual establece que es menor a la constante .
Teniendo en cuenta esto, nos centramos en probar que el consumo es positivo, como lo
establecimos en la igualdad . Esto se fundamenta porque:
39
Porque se supone que la gente utiliza sus ahorros o se endeuda para consumir22. Por lo
que establecemos que:
Utilizando de nuevo :
El valor 𝑡𝑐𝑟𝑖𝑡𝑖𝑐𝑜 𝑑𝑒 𝑡𝑎𝑏𝑙𝑎 = 1.86023 al 5% y con 8 grados de libertad . Por lo que

comparando:
Por lo que:
Con estos valores podemos decir que el , es positivo al 5%.
Ahora nos centramos en probar que la es menor a 1, como lo establecimos en la

igualdad . Esto se fundamenta porque:
Porque se supone que la gente aumenta sus niveles de consumo, cuando aumenta sus
ingresos, pero no en la misma proporción. Por lo que establecemos que:
Utilizando de nuevo :
22
Econometría. Dominick Salvatore. McGraw-Hill. 1991
23
El valor del t critico varia porque se busca el valor de tabla con una cola.
40
comparando:
Por lo que:
Con estos valores podemos decir que el , es menor a 1, al 5%.
Además de los estadísticos convencionales los paquetes estadísticos suelen calcular un

estadístico adicional, llamado o valor de probabilidad. Generalmente se suele
establecer un nivel de significancia en 1, 5 o 10%. La regla de decisión es simple, el
debe ser menor al nivel de significancia establecido.
2.11 INTERVALOS DE CONFIANZA

Una vez calculados los valores , podemos construir intervalos de confianzas. Estos
intervalos confianzas nos dan el conjunto de valores que pueden adoptar los estimadores.
La notación de intervalo de confianza es la siguiente:
En donde es un estimador genérico. En el caso de los estimadores que empleamos para

la regresión simple tenemos las ecuaciones y que calcularan los intervalos
de confianza de la pendiente y la constante:
Para el ejemplo de consumo y renta los intervalos de confianza de , pueden

calcularse de la siguiente manera:
41
Podemos decir que el verdadero valor de esta entre 0.714354 y 0.841645, con una
confianza del 95%. Como vemos 0 no está dentro del intervalo y es menor a 1.
Ahora calculamos el intervalo de confianza de :
Podemos decir que el verdadero valor de esta entre 3.963519 y 22.30648, con una
confianza del 95%, tampoco está incluido 0 entre los posibles valores que puede adoptar
y no incluye número negativo alguno.
2.12 PREDICCIONES
En esta sección abordamos el tema de predicciones tanto puntuales como también por
intervalos. Las predicciones son bastantes útiles a la hora de tomar decisiones en el futuro,
por lo que este tema es de bastante importancia.
Después de estimar la recta de regresión a partir de una muestra, solemos centrar nuestro
interés en algún valor especifico de de la variable que actúa como regresor, con el
objeto de predecir el valor de que con más probabilidad se halle asociado a . El
valor de puede pertenecer al rango de valores de en la muestra o mas
frecuentemenete, podemos estar interesados en predecir para un valor de fuera de
las observaciones muéstrales. Podemos realizar dos tipos de predicciones: predicción por
punto o predicción por intervalo. 24
Para el ejemplo de consumo e ingreso podemos de realizar pronósticos por punto del
consumo teniendo en cuenta un ingreso de 185, este pronóstico seria:
Por lo tanto una predicción puntual del consumo para los ingresos de 185 seria 157,065
(No se debe olvidar que los datos están en millones, por lo cual los valores serian 185
24
Métodos de Econometría. J Johnston & J Dinardo. Vicens Vivens. 2001
42
millones y 157 millones). Nótese que el pronóstico por punto es simplemente utilizando
la función de regresión estimada. En donde se establece:
Como es un estimador, es probable que éste sea diferente de su verdadero valor. La

diferencia entre los dos valores dará alguna idea del error de predicción o pronóstico.25
Para evaluar el error de predicción o pronostico debemos de encontrar la distribución

muestral de . Dado lo supuestos de MRLG (Modelo de regresión lineal general), se
puede demostrar que se distribuye normalmente con la siguiente media y varianza26:
Donde se establece que:
Para nuestro ejemplo numérico calculamos la varianza utilizando :
Por lo tanto podemos decir que dado un ingreso de 185 millones, el consumo medio
previsto para ese nivel de ingresos es de 157 millones con un error estándar de 1 312 908
dólares .
Con estos resultados podemos construir un intervalo de confianza al 95% para los valores
de consumo con ingresos de 185.
25
Econometría. Damodar Gujarati & Dawn Porter. McGraw-Hill. 2009
26
Principios de Econometría. Damodar Gujarati. McGraw-Hill. 2006
43
Utilizando calculamos:
Por lo que el intervalo seria:
Para nuestro ejemplo numérico:
Por lo tanto el intervalo de 95% de confianza para el consumo con ingresos de 185
millones es . Por lo tanto, si el ingreso medio es 185 millones
en un país hipotético, el intervalo de 95% de confianza para la media del consumo estará
entre 154 millones y 160 millones. La predicción y los intervalos recién calculados son
predicciones para la media.
Si lo que interesa es predecir un valor individual 𝒀, correspondiente a un valor dado

de , digamos , entonces la fórmula de varianza sufre una modificación.
Para el ejemplo numérico, los cálculos serian:
Con estos resultados podemos construir un intervalo de confianza al 95% para los valores
de consumo con ingresos de 185.
Utilizando calculamos:
Por lo que el intervalo seria:
44
Para nuestro ejemplo numérico:
Por lo tanto el intervalo de predicción seria , es decir, están

entre 162.3 millones y 151.8 millones.
Obsérvese que el intervalo de predicción para un valor concreto o individual de consumo

de 185 millones es más amplio que el intervalo de confianza para la media del consumo
de todos los ingresos que se encuentran cerca de 185. Esta diferencia refleja el hecho de
que se puede estimar con más precisión la media de que un solo valor individual de
.
2.13 CAMBIOS DE ESCALA Y CAMBIOS DE ORIGEN

En ocasiones, al estimar un modelo econométrico, interesa cambiar de unidades una
variable para hacer sus valores numéricos más comparables con los de las demás
variables. Para ello se multiplican o dividen por una misma constante.27
Para nuestro ejemplo de consumo e ingreso, supongamos que deseamos cambiar nuestra
escala de millones a miles (Recuerde que los datos de la tabla 4.1 están en millones), para
esto debemos de dividir nuestras variables e entre 1 000, es decir que la función
quedaría como:
Como vemos, al pasar de millones a miles la constante cambia pero la pendiente queda
invariante. También se debe de tener en cuenta que como la varianza y la desviación
estándar de los parámetros tienen en cuenta las unidades de medidas de las variables,
también sufrirán cambios de escala, no así el resto de los estadísticos estudiados.
Ahora supongamos que queremos volver a nuestros datos originales que están en
millones. En este caso queremos volver a cambiar la escala de las variables, y pasar de
miles a millones. Para ello multiplicamos nuestras variables tanto como por 1 000.
27
Econometría. Alfonso Novales Cinca. McGraw-Hill. 1992
45
¿Qué pasa si solo una de las variables es reescalada? Para explicar esto supongamos que
solo los ingresos serán reescalados a miles, es decir, solo la variable 𝑋 será dividida entre
1 000. En ese caso se cumplen algunas de las siguientes situaciones que serán descriptas
a continuación:
1º. Si es multiplicada / dividida por una constante , entonces la pendiente

de MCO queda dividida / multiplicada, por la misma constante 𝐶28. Así:
Para nuestro ejemplo, el resultado sería:
Como vemos la constante mantiene su valor (con respecto a la regresión en la cual

los datos estaban en millones) y la pendiente quedo multiplicada 1 000. Como
puede verse, el cambio de las unidades de medida de la variable explicativa no
afecta al término independiente.
2º. Si es multiplicada / dividida por una constante , entonces la pendiente y

el término independiente calculados por MCO se multiplican / dividen por la
misma constante 𝐶29. Así:
Para nuestro ejemplo de consumo e ingreso, los datos estaban en millones, si solo
reescalamos el consumo a miles el resultado sería:
28
Material de Econometría. Ezequiel Uriel. Universidad de Valencia
29
Ibíd.
46
Con esto podemos notar que tanto la constante como la pendiente sufrieron
cambios de escalas al reescalar, valga la redundancia, la variable , en este caso
el consumo a miles.
En estos casos hemos analizado los cambios de escala y como afecta a la regresión. Se
debe de tener mucho cuidado a la hora de interpretar las salidas informáticas y los cálculos
en econometría.
Pasamos a analizar ahora los cambios de origen.
Si se suma / resta una constante a y/o , entonces la pendiente MCO no se ve

afectada. Sin embargo, si se cambia el origen de y/o el término independiente de la
regresión sí se ve afectado.30
1º. Si se resta una constante a , el término independiente cambia de la siguiente

manera:
Por ejemplo si restamos 15 a la variable ingresos de nuestra función de consumo,

tendríamos este resultado:
2º. Si se resta una constante a , el término independiente cambia de la siguiente

manera:
Por ejemplo si restamos 15 a la variable consumo de nuestra función, tendríamos

este resultado:
30
47
Hay que observar que no varía al realizar cambios de unidades de y/o , y tampoco
varia cuando se cambia el origen de las variables.31No así las varianza y el error estándar
de la constante que si varían en el cambio de origen.
31
48
EJERCICIOS
1.1 Se quiere analizar la relación que hay entre el rendimiento de maíz por bolsas
y la cantidad de fertilizante en kg. Se tiene los siguientes datos:
a) Estime 𝜀
b) Calcule
c) ¿Son significativos los parámetros al 1%?
d) ¿Cómo interpretaría los parámetros?
1.2 Con las siguientes ecuaciones normales calcule los parámetros del modelo de
regresión simple y calcule
1.3 Supóngase que se recolectan datos de una muestra de 10 restaurantes Armand’s

Pizza Parlors ubicados todos cerca de campus universitarios. Para la observación
o el restaurante de la muestra, es el tamaño de la población de estudiantes
(en miles) en el campus y son las ventas trimestrales (en miles de dólares).
Teniendo en cuenta estos datos:

a) Estime los parámetros del modelo:
b) Calcule el valor de
c) Vea que los estimadores sean significativos al 5%
49
d) Calcule la elasticidad tamaño-ventas
e) Calcule el intervalo de confianza al 5% para los valores de
f) Realice el cálculo de una predicción para un campus de una población de
10 000 estudiantes.
g) Estimar la media de las ventas de los restaurantes Armand’s que se
encuentran cerca de un campus de 10 000 estudiantes
h) Supóngase que en lugar de que lo que interese sea estimar el valor medio
de las ventas de todos los restaurantes Armand’s que se encuentran cerca
de campus de 10 000 estudiantes, se deseen estimar las ventas de un solo
restaurante que se encuentra cerca de Talbot College, una escuela de 10
50

2 Regresion Simple

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2 Regresion Simple

Transféré par

Droits d'auteur :

Formats disponibles

CAPITULO 2

La ecuación puede leerse como está en función de , o también como

En donde es una constante o el punto de corte con el eje , es la pendiente de la

En econometría cambiamos las denominaciones de y por y respectivamente,

El término error se incluye por los siguientes motivos:

 Puede haber factores que influyen en y que sean difíciles o imposibles

La diferencia se conoce con el nombre de residuo y se denota por la letra .

Teóricamente también podemos definir o establecer que:

2.2 LOS ESTIMADORES DE MCO

Aplicando derivadas parciales e igualando a cero

Después de algunas manipulaciones algebraicas, tenemos:

Alternativamente a las ecuaciones demostradas, podemos utilizar las ecuaciones normales

Además podemos demostrar que:

Utilizando la ecuación para calcular la pendiente tenemos:

También usamos la ecuación y estimamos o el punto de corte con eje

Por lo que la función de consumo queda como:

En donde se especifica que:

El estimador de la pendiente nos indica que cuando el ingreso aumenta en 1 millón,

Utilizando los datos de la tabla y aplicando la ecuación , tenemos3:

El grafico , representa la ecuación estimada a través de la recta y su ajuste a los puntos.

Supuesto 1: El modelo de regresión es lineal en los parámetros, aunque puede o no

Supuesto 2: El valor medio de la perturbación 𝜀 es igual a cero7. Por lo que podemos

Lo que es también equivalente a asumir que:

Supuesto 3: La varianza de la perturbación 𝜀 es:

Supuesto 4: La covarianza entre par de valores de la perturbación 𝜀 y 𝜀 es:

1. Un estimador es no sesgado si su valor esperado es igual al verdadero valor del

Un estimador es sesgado si:

Una forma alternativa de conocer el sesgo es:

2. Un estimador es óptimo o eficiente, si tiene la varianza mínima de todos los

que el estimador es ineficiente.

(2) a medida que el tamaño muestral se aproxima al infinito en el límite, la

Es decir, si es un parámetro, elegiremos aquel estimador , cuyo error

Donde es cualquier estimador de .12

2.5 INSESGADEZ DE LOS ESTIMADORES MCO

A partir de esto reemplazamos el valor de distribuimos la multiplicación

El valor de , el lector puede corroborar en las tablas de cálculos, en la

columna de . Entonces podemos decir que , no importa el valor

ya que si incluimos una columna en nuestro cálculo notaremos que tendrá un

aprovecharemos las propiedades de :

Por lo que queda de la siguiente manera:

Reemplazando el valor de por la FRP y distribuyendo la multiplicación:

Luego de esto aplicamos valor esperado, las propiedades de las y tenemos en

cuenta el supuesto de , y queda:

Para probar que podemos utilizar la fórmula:

Tenemos en cuenta que ya hemos demostrado que , por lo que la ecuación

De esta manera queda demostrado que los estimadores son insesgados

2.6 VARIANZA Y ERROR ESTANDAR DE REGRESION

Y que se espera que:

Por lo cual se demuestra que es insesgado.

Si tomamos la raíz cuadrada de , podemos calcular el erros estándar de la regresión,

Cabe mencionar que el error estándar depende de la escala de los datos.

Con los resultados de la tabla primeramente calculamos la varianza del error:

Ahora calculamos el error estándar de regresión:

Podemos decir que la varianza es de 3.4 millones de dólares y el error estándar de

En muchos casos, se obtiene un elevado cuando se ajusta un modelo utilizando datos

¿Cómo se calcula ? Podemos partir de la igualdad :

Donde es conocida como STC (Variación total de o Suma Total de

los Cuadrado); es conocida como SCE (Variación explicada de o Suma

Explicada de los Cuadrados) y es conocida como SCR (Variación

residual de o Suma Residual de los Cuadrados). Podemos resumir diciendo:

muestral . Otros autores suelen llamarlo SST16

3º. suma de los residuos o variación residual o no explicada de los

valores de . Suele llamársele SSE.18

Las formas de desviación de SST, SSR y SSE son.