Académique Documents
Professionnel Documents
Culture Documents
CAPITULO 1
El modelo general de regresin
Cuando se analizan simultneamente las relaciones existentes entre un
grupo de variables, es necesario recurrir a tcnicas de anlisis
multivariante. Una de estas tcnicas es el anlisis de regresin, que se
ocupa de la relacin de dependencia existente entre una variable
respuesta (Y ) , y otras variables explicativas ( X 1 , , X k ) . La econometra
se refiere a la aplicacin del anlisis de regresin a variables de tipo
econmico, es decir, que la econometra se basa en mtodos
estadsticos para estimar las relaciones econmicas, poner a prueba
teoras y evaluar para posteriormente poner en prctica, polticas
gubernamentales y/o comerciales. En general, el principal objetivo es
encontrar predicciones de la variable respuesta, para ciertos
comportamientos de inters de las variables explicativas.
1
Los datos de corte transversal se refieren a observaciones tomadas en el mismo
momento.
2
Acua
Ejemplo 1
Se pretende explicar los gastos en determinados bienes de consumo3
por medio de una variable que indique el nivel de ingresos familiar.
3
Los bienes de consumo son bienes que no buscan producir otros bienes o servicios.
Grfico 1. Ingresos Vs Gastos
Ejemplo 2
Se toma la medida de la tensin arterial diastlica en setenta individuos
de los que se conoce adems su edad, colesterol e ndice de masa
corporal (Tabla 2). Es bien conocido que el valor de la tensin arterial
diastlica vara tanto en funcin del colesterol como del ndice de masa
corporal de cada sujeto.
Tabla 2. Edad, colesterol, ndice de masa corporal y tensin arterial diastlica en 70
pacientes.
En este caso hay que explorar todas las relaciones posibles para
distintas combinacin de variables.
Grfico 2. Matriz de dispersin de las variables edad, colesterol, IMC y TAD.
4
Tambin llamada dependiente, explicada, predicha o regresando
5
Tambien llamada independiente, control, predoctora o covariable
Ejemplo 3
Tabla 3.
Y = exp( 0 + 1 X + ) Ecuacin 3
Grfico 5. Diagrama de dispersin de dos variables, cuya relacin es de tipo
exponencial (x,y)
ln Y = 0 + 1 X + Ecuacin 4
yi = 0 + 1 xi + i
y = + x
i 0 1 i
Ecuacin 6
yi = y i + i
residuoi = i = yi y i
n
i =1 i
2
sea mnima Ecuacin 7
S .R. = i =1 t2 = i =1 [ y i 0 1 x ]
n n 2
S .R.
0
n
[ n
]
= 2i =1 y i 0 1 xi (1) = 0 i =1 y i n0 1 i =1 xi = 0
n
S .R.
1
n
[ ]
= 2i =1 y i 0 1 xi ( xi ) = 0 i =1 y i xi 0 i =1 xi 1 i =1 xi2 = 0
n n n
0 = y 1 x
1 = y x y xi i i
x x x i
2
i
Que es equivalente a
0 = y 1 x Ecuacin 8
(x x )( y y )
n
1 = i =1 i i
(x x )
n 2
i =1 i
El estimador usado para la varianza de error esta dado por:
2
(y y i )
n
i
s 2
e = i =1
Ecuacin 9
n2
2 2 i
2 e
2 i =1
e
Funcin log-verosmil6
( n n
)
ln L y1 , y 2 , , y n ; 0 , 1 , e2 = ln(2 ) ln e2
1
( ) (y
n
i 0 1 xi )
2
2 2 2 e2 i =1
Por ser la ecuacin negativa se puede ver que maximizar la funcin log-
verosmil es equivalente a minimizar la expresin
(y 0 1 xi )
n 2
i =1 i
6
En general, es mas sencillo el proceso de maximizacin para la funcin lnL que para
la funcin L. Estas dos funciones tienen sus mximos en los mismos puntos, dado que
se cumpla la propiedad de continuidad.
1.1.3 Propiedades de los estimadores obtenidos por MCO
Si se cumple que
el modelo especificado es correcto, esto es, E (Yi ) = 0 + 1 X i
Cov ( i , j ) = 0 i j
Var ( i ) = e2 i = 1, ,n
Cov( , x ) = 0
2 2
(y y i )
(y y i )
n n
i =1 i i =1 i
n n n2
lim V ( ) = 0
n
lim =
n
Por ltimo, el supuesto de normalidad se puede justificar porque dado
que el modelo est bien especificado, los errores del modelo sern
pequeos y tendrn un comportamiento aleatorio alrededor de cero,
independientemente tanto de la variable respuesta como de las
explicativas. Mas adelante, se ver que si esto no llegara a cumplirse es
indispensable tomar realizar correcciones. Adicionalmente, bajo este
supuesto se construye la inferencia usada posteriormente.
e2
=2
(x x)
1 n 2
i =1 i
se2
s 1 =
2
(x x)
n 2
i =1 i
e2 i =1 xi2
n
= 2
ni =1 ( xi x )
0 n 2
se2 i =1 xi2
n
s 20 =
ni =1 ( xi x )
n 2
(
1 ~ N 1 ; 21 )
Como 21
, no es conocida, es necesario reemplazarla por su estimacin
1 1
~ t n2
s1
1 1
t( n 2; / 2) < < t( n 2; / 2)
s1
( )
donde 1 0 es el valor sometido a prueba, de acuerdo al inters de
investigador7
Estadstico de prueba
1 1
tc =
s1
Con t c ~ t ( n 2 )
H 0 : 1 = 0
H a : 1 0
1
tc = Ecuacin 11
s
1
7
De acuerdo al conocimiento adicional que se tenga sobre este coeficiente, la prueba
de hiptesis puede ser planteada a una sola cola.
caso particular de la regresin lineal simple es equivalente, por
involucrar solo una variable explicativa.
La tcnica del anlisis de varianza divide la variacin total de las
observaciones en dos componentes:
El modelo propuesto (1 X )
Error aleatorio
Lo que se espera, suponiendo una correcta especificacin del modelo es
ste recoja la mayor parte de esta variacin, dejando as una parte muy
pequea al error. Si esta relacin se invierte, la prueba conducir a la
conclusin de que el modelo propuesto no es adecuado para explicar la
variable Y.
ANOVA
H 0 : 1 = 0
H a : 1 0
Fuente de
gl SC CM Estadstico F Valor p
Variacin
( y y)
2
( y i y )
2
1 i
Regresin
( y y)
2
1 i
1
( yi yi ) P ( F > Fc )
2
(y y i ) ( yi y i )
2
Error n-2 i
2
n2
n2
(y y)
2
Total n-1 i
Fuente de
Variacin
gl SC CM Estadstico F Valor p
( y y)
2
Regresin 1 i SCR/1
CMR
(y y i ) P ( F > Fc )
2
Error n-2 i SCE/(n-2) Fc =
CME
(y y)
2
Total n-1 i
( y y) ; (y y i ) ; SCT= ( y i y )
2 2 2
SCR= i SCE= i
(y y ) = ( y i y ) + ( y i y i )
2 2 2
i
(y y)
n 2
i SCT
s 2
y = i =1
=
n 1 n 1
Nota 1
Para este caso particular existe una relacin entre el estadstico F de la
tabla de anlisis de varianza y el estadstico t de la prueba planteada
para la ecuacin 11
2
Fc = (t c ) Fc = 1
2
s
1
Si una variable aleatoria F con 1 y n-2 grados de libertad, entonces
F = T 2 donde T es una variable aleatoria t de student con n-2 grados de
libertad. Sus percentiles se encuentran entonces relacionados as:
luego, es muy claro que entre mas cerca est SCR a SCT, es mejor el
ajuste del modelo a la realidad. As el cociente entre SCR y SCT mide la
proporcin de la variabilidad total explicada por el modelo propuesto;
este cociente expresado es lo que se conoce como el coeficiente de
determinacin.
SCR
R2 = Ecuacin 12
SCT
Adems, tambin se concluye que 0 R 2 1 ,pues SCR < SCT8 ;, de tal
forma que entre mas cerca est de 1, mejor ser el ajuste del modelo.
Nota 2
No obstante, el coeficiente de determinacin, solo es una medida mas de
la bondad de ajuste del modelo; por s solo no es concluyente, ya que no
mide la validez del modelo. Se le suele dar ms importancia de la que
realmente tiene y en algunas ocasiones se maneja como la medida
decisiva para seleccionar modelos, cuando en muchos casos ni siquiera
son comparables los R 2 de distintas ecuaciones. En el captulo 2,, al
trabajar con mas variables explicativas se ampliar este concepto.
s xy
rxy =
sx s y
8
Siempre y cuando la ecuacin tenga trmino independiente. Si el modelo se estima
por el origen no se cumple la descomposicin de la suma de cuadrados, y por lo tanto
el coeficiente de determinacin no es inferiormente acotado, puede dar incluso
negativo.
Que en efecto no haya relacin alguna entre estas dos variables
Que la asociacin no sea lineal pero sea de otra clase. En este
caso, la asociacin lineal puede ser de Y con f ( X ) o de
X con f (Y ) , como se ilustra en el ejemplo 3.
Ahora, especficamente en el contexto de la regresin lineal simple, hay
que tener en cuenta que si bien mide la existencia y magnitud de la
relacin lineal, este coeficiente no aporta ninguna informacin sobre la
dependencia de una variable en trminos de la otra (r
xy = ryx ) . La
eleccin de la variable dependiente, la hace en general el investigador
experto en el campo de aplicacin, tanto por su bagaje terico como por
el objetivo central del estudio.
( y i y )2
12
1 = rxy
(xi x )
2
1.2.5 Prediccin
y p = 0 + 1 x p
( )
Bajo el supuesto de normalidad se tiene que Y p ~ N E (Y p ); Y2p , donde
nuevamente no se conoce la varianza y por lo tanto ser necesario
estimarla; se llega entonces a la siguiente conclusin
y p E (Y p )
~ t (n 2 )
s y p
H 0 : Y p = (Y p )0
H a : Y p (Y p )0
y p (Y p )0
tc =
s y p
Con t c ~ t ( n 2 )
( )
y2 p = Var 0 + 1 x p = 20 + x 2p 21 + 2 x p 0 , 1
=
1
(
+ n
2
x p x )
2
n
i =1 (xi x )
e 2
Cuyo estimador es
( )
s y2 p = Var 0 + 1 x p = s2 + x 2p s2 + 2 x p s
0 1 0 , 1
1 (x x )2
= se2 + n p
Ecuacin 13
n
i =1 (xi x )
2
s y p
= se + n
n
i=1 (xi x )2
En ocasiones, no se tiene inters en la prediccin del valor medio sino en
la prediccin de un valor particular de la variable Yp . La prediccin
puntual de sigue siendo y p . Pero la varianza de prediccin aumenta,
pues tambin se tiene en cuenta la varianza de la distribucin de
probabilidad de la variable; la expresin es la siguiente:
y2 part = y2 + y2 p = e2 + y2 p
(x p x )
12
1 2
s y p
= se 1 + + n
n
i =1 (xi x )2
Al realizar el grfico simultneo para distintos intervalos de prediccin, y
unir los lmites superiores con una curva y los limites inferiores con otra,
se encuentran las curvas conocidas como bandas de confianza o bandas
de prediccin. Por supuesto, entre mas angostas sean, mas precisas
sern las respectivas predicciones.
Ejemplo 5
Y Salario
X 1 Educacin
X 2 Experiencia
Y = 0 + 1 X 1 + 2 X 2 +
n
i =1 i
2
sea mnima
S .R. = i =1 t2 = i =1 [ yi 0 1 x1i 1 x2i ]
n n 2
Ahora hay que llevar a cabo dos pruebas de hiptesis, una para cada
coeficiente correspondiente a cada variable explicativa:
H 0 : 1 = (1 )0 H 0 : 2 = ( 2 )0
y
H a : 1 (1 )0 H a : 2 ( 2 )0
1 t( n 3; / 2) s < 1 < 1 + t( n 3; / 2) s
1 1
2 t( n 3; / 2) s < 2 < 2 + t( n 3; / 2) s
2 2
ANOVA
Fuente de
Variacin
gl SC CM Estadstico F Valor p
( y y)
2
( y i y )
2
2 i
Regresin
( y y )
2
2 i
2
Error n-3 ( yi y i )
2 ( yi yi )2 ( yi yi )2
P ( F > Fc )
n3 n3
(y y)
2
Total n-1 i
Nota 3
**************
Y = 0 + 1 X 1 + 2 X 2 + + k X k +
n
Minimizar i =1
i
2
2
S .R. = i =1 t2 = i =1 [ yi 0 1 x1i 1 x2i k xk ]
n n
n ( k + 1)
e
Y = X +
donde
y 1 x11 xk1
1
Y = ; X = matriz de dimensin n ( k + 1)
yn 1 x1n xkn
0
1
= 1; = 2
k n
(
Y N X ; e2 I ) y N ( 0; e2 I )
Hay que notar que el hecho de que la matriz de covarianza del vector de
errores sea diagonal implica que los errores no estn correlacionados
entre s. Adems, todos los elementos de la diagonal son iguales, por lo
tanto la varianza es constante para todos los errores.
= 0
i i No autocorrelacin
Y = X
( )
j N ; 2 ; j = 0,..., k
j
Insesgamiento E j = j ( )
El estimador insesgado de la varianza de error es
( y y )
n 2
Y ' Y X ' Y
e2 = = i =1 i i
n ( k + 1) n ( k + 1)
Los j son ptimos (mnima varianza)
Ahora hay que llevar a cabo k pruebas de hiptesis, una para cada
coeficiente correspondiente a cada variable explicativa:
H 0 : j = ( j )0
H a : j ( j )0
ANOVA
j = 1, , k
Fuente de
Variacin
gl SC CM Estadstico F Valor p
( y y )
2
( y y)
2
Regresin k i
( y y )
i 2
k i
k
( y y )
2
P ( F > Fc )
( yi y i ) ( yi yi )
2 i i 2
Error n-(k+1)
n ( k + 1)
n ( k + 1)
(y y)
2
Total n-1 i
Fuente de
gl SC CM Estadstico F Valor p
Variacin
1 SCR
Regresin k X ' Y Y ' Y
n k
SCE CMR
Error n-(k+1) Y ' Y X ' Y Fc = P ( F > Fc )
n ( k + 1) CME
1
Total n-1 Y 'Y Y 'Y
n
Nota 4
SCE
Donde SCT es la proporcin de variabilidad no explicada por el modelo.
R 2 = ryy . Entre mayor similitud haya entre los observados y los
predichos por el modelo mayor ser el coeficiente de correlacin
mltiple.
No obstante, la sencillez aparente de su interpretacin. En el contexto
de la regresin lineal mltiple el coeficiente de determinacin es
sensible al nmero de variables explicativas introducidas en el modelo.
2
El R aumenta cada vez que se incluye una nueva variable en el modelo,
an cuando ste ltimo no mejore substancialmente. Por esta razn, se
ha propuesto un coeficiente de determinacin que no presente este
defecto:
2
1.5.4 Coeficiente de determinacin corregido R
( n -1) 1 R2
( )
2
R == 1
( n ( k + 1) )
Nota 5
1.5.5 Prediccin
y p = 0 + 1 x1 p + + k xkp = X p'
y p E (Y p ) t
Bajo el supuesto de normalidad se tiene que ~ ( n ( k +1))
s y p
H 0 : Y p = (Y p )0
H a : Y p (Y p )0
donde (Y )
p 0 es el valor sometido a prueba, de acuerdo al inters del
investigador
Estadstico de prueba
y p (Y p )0
tc = con
tc t( n ( k +1))
s y p
x 1 2 3 4 5 6 7 8 9 10
y 50 32,5 80 250 165 520 720 1300 1600 2050
Y su diagrama de dispersin
2500
2000
1500
1000
500
0 2 4 6 8 10 12
o cbico
y = 0 + 1 x + 2 x 2 + 3 x3
l
Las variables x son tratadas en el modelo como cualquier otra variable
explicativa independiente de la variable de origen x . Para cuestiones
generales de anlisis estos seran equivalentes a los modelos lineales
y = 0 + 1 x1 + 2 x2 y y = 0 + 1 x1 + 2 x2 + 3 x3 respectivamente.
2.3 Normalidad
2.4 Heterocedasticidad
2.5 Autocorrelacin
3.7 Identificacin
Captulo 4.
Introduccin a la Econometra Espacial
4.1 Introduccin a la econometra espacial. Concepto,
antecedentes y aplicaciones