Apuntes de Econometría I

APUNTES DE ECONOMETRA
Profesor
Martn Francos Rodrguez

Versin: 1.1
Fecha: 13 de noviembre de 2010

Contenido

Captulo Tema Pgina
1 Introduccin 1
2 Modelo clsico de regresin lineal simple: Estimacin 12
3 Modelo clsico de regresin lineal mltiple: Estimacin 58
4 Modelo clsico de regresin lineal simple: Inferencia 74
5 Modelo clsico de regresin lineal mltiple: Inferencia 98
6 Modelo con variables independientes cualitativas 124
7 Multicolinealidad 133
8 Heterocedasticidad 145
9 Autocorrelacin 169
10 Especificacin de modelos 183

ii

Prlogo

A continuacin se presenta una recopilacin de mis apuntes de clase de
econometra en la Pontificia Universidad Catlica Madre y Maestra desde el ao
2003.

Este libro est dirigido particularmente a estudiantes de economa, para un curso de
un semestre, tanto para estudiantes de pregrado, como para un curso introductorio
a nivel de maestra.

El propsito de estos apuntes, no es sustituir ninguno de los libro habituales
utilizados por los profesores de econometra en los cursos mencionados
anteriormente, sino presentar de forma detallada y concisa, algunos aspectos
tericos y demostraciones, que otros textos habituales en estos cursos suelen dejar
en un segundo plano.

Martn Francos Rodrguez, MA
Profesor Departamento de Economa
Pontificia Universidad Catlica Madre y Maestra

Captulo 1

Introduccin

1. Qu es la Econometra?

Es una pregunta que algunos libros de texto suelen eludir o contestar vagamente.
Etimolgicamente significa medicin econmica, pero aunque la medicin es
parte importante de la econometra, el alcance de esta disciplina es mucho mayor.

Para tener una mayor profundidad sobre su alcance, veamos a continuacin
algunas definiciones:

consiste en la aplicacin de la estadstica matemtica a la informacin
econmica para dar soporte emprico a los modelos construidos por la
economa matemtica
1

La econometra pude ser definida como la ciencia social en la cual las
herramientas de la teora econmica, las matemticas y la inferencia
estadstica son aplicadas al anlisis de los fenmenos econmicos
2

Es la aplicacin de mtodos estadsticos y matemticos al anlisis de los
datos econmicos con el propsito de otorgar contenido emprico a las
teoras econmicas, verificndolas o refutndolas
3

Algunos comentarios sobre la Econometra y los econometristas se refieren a:

1
Samuelson P.A., T.C. Koopmans y J. R. N. Stone, Report of the Evaluative Committee for Econometrica,
Econometrica, vol 22, nm 2, abril de 1954, pp.141-146
2
Goldberger, Arthur, Econometric Theroy, John Wiley & Songs, Nueva York, 1964
3
Maddala, G.S. (1996). Introduccin a la Econometra. 2da. Edicin. Prentice Hall.
Introduccin a la econometra 2
El arte del econometrista consiste en encontrar el conjunto de supuestos que
sean suficientemente especficos y realistas, de tal forma que le permitan
aprovechar de la mejor manera los datos que tiene a su disposicin
4
.

Los econometristas... son una ayuda en el esfuerzo por disipar la mala
imagen pblica de la economa (cuantitativa o de otro tipo) considerada
como una materia en la cual se abren latas vacas, suponiendo la existencia
de abrelatas, para revelar un contenido que ser interpretado por diez
economistas de once maneras diferentes
5
.

Podemos resumir los distintos elementos aportados por las definiciones en:

Aquella rama que otorga a la economa como ciencia, un carcter emprico
mediante el estudio de la aplicacin de mtodos estadsticos al anlisis y
prediccin de fenmenos econmicos.

No obstante ello, las herramientas desarrolladas por esta disciplina tienen
aplicaciones en muchos campos distintos al econmico.

Los econometristas son al mismo tiempo:

Economistas: interpretan o crean teoras para probar empricamente
Matemticos: formula matemticamente su teora
Estadsticos aplicados: buscan datos para luego tratar de estimar relaciones
econmicas
Estadsticos tericos: desarrollan tcnicas tiles para resolver problemas
empricos

La econometra no significa estadstica econmica, ni teora econmica ni
aplicacin de las matemticas y estadstica a la economa. Econometra es una
unificacin de las tres reas.

A diferencia del estadstico, el econometrista est preocupado por los problemas
causados por la violacin de los supuestos estadsticos clsicos, la naturaleza de las
relaciones econmicas y la falta de experimentos controlados.

4
Malinvaud, E. Statistical Methods of Econometrics, Rand McNally, Chicago, 1966, p.514
5
Darnell, Adrian y J. Lynne Evans, The Limits of Econometrics, Edward Elgar Publishing, Hants, Inglaterra 1990.
2. Modelos econmicos y economtricos

2.1 Qu es un modelo?

Un modelo es una representacin simplificada de algn fenmeno, utilizado con
fines explicativos o predictivos. Tienen origen en alguna teora, y aunque sufren
algunas modificaciones, conservan lo esencial de la teora. Los modelos constan
de una o varias ecuaciones matemticas que describen la teora que los origina.

2.2 Qu es un modelo econmico?

Es un conjunto de supuestos que aproximadamente describen el comportamiento
de una economa (o de un sector). Por ejemplo la funcin de produccin Cobb
Douglas,
| o
L AK Y = .

Para poder testear este modelo, es necesario incorporarle elementos estocsticos.
Esto lo convertir de un modelo econmico en uno economtrico.

2.3 Qu es un modelo economtrico?

Es un conjunto de ecuaciones de comportamiento derivadas de un modelo
econmico que involucra:

Variables observables
Elementos estocsticos o shocks, que recogen errores de medicin en las
variables observadas y factores que no pueden ser recogidos por el modelo.

Esto hace que la variable objetivo vare no slo porque lo hacen las variables
explicativas, sino por cierta aleatoriedad del comportamiento humano o del
contexto.

El modelo determinstico
| o
L AK Y = , se transforma en modelo economtrico:
u
e L AK Y
| o
= .

El trmino e
u
ser una variable aleatoria con determinadas propiedades, por lo que
deberemos especificar la distribucin de probabilidad de u y las consecuencias de
estas sobre la estimacin.

3. Tipos de econometra

La econometra puede ser dividida en dos amplias categoras:

Econometra Terica. Se ocupa del desarrollo de mtodos apropiados para
medir las relaciones econmicas especificadas por los modelos economtricos.
En este sentido deben especificarse los supuestos del mtodo, sus propiedades y
las consecuencias de las violaciones de los supuestos.

Econometra Aplicada. Utiliza las herramientas de la econometra terica para
estudiar algunos campos especiales de la economa y los negocios (funciones de
produccin, funciones de demanda y oferta, etc.)

4. Metodologa de la econometra

Los pasos utilizados por la econometra se resumen en:

i. Planteamiento de la teora o de la hiptesis
ii. Especificacin del modelo matemtico de la teora
iii. Especificacin del modelo economtrico de la teora
iv. Obtencin de datos
v. Estimacin de los parmetros del modelo economtrico
vi. Pruebas de hiptesis
vii. Pronstico o prediccin
viii. Formulacin o control de polticas

Veamos a continuacin con detalle en que consiste cada uno de los pasos.

Pasos Descripcin
Planteamiento de la teora Teora Keynesiana del Consumo: El consumo
aumenta a medida que el ingreso aumenta, pero no
en la misma cuanta del aumento en su ingreso. Es
decir, que la propensin marginal a consumir es
mayor que cero, pero, menor que uno.
Especificacin del modelo
matemtico
Segn el planteamiento de Keynes:
Y Y f C
2 1
) ( | | + = = , donde 1 0
2
< < | .
Especificacin del modelo
economtrico

La especificacin del modelo economtrico
incluye un componente estocstico o de error:
u Y C + + =
2 1
| |
Obtencin de datos Boletines, Internet, encuestas, etc. En nuestro
ejemplo las Cuentas Nacionales del BC son una
fuente.
Estimacin del modelo
Y C
7194 . 0 8 . 231
+ =
Prueba de Hiptesis A priori se esperaba que
2
<1, por lo que es
necesario probar que el valor obtenido es
estadsticamente menor que 1. Adems se puede
testear si los coeficientes son estables en el tiempo.
Proyeccin o prediccin

Utilizacin del modelo para fines de control o de
poltica

El diagrama que representa la metodologa de la econometra se puede resumir en:

Veamos un ejemplo:

1. Teora econmica

2. Modelo matemtico

3. Modelo economtrico

Informacin
a priori

8. Formular polticas

4. Obtencin de
datos

5. Estimacin del modelo

7. Prediccin

6. Pruebas de hiptesis


Al anterior diagrama se pueden presentar algunas crticas:

Hay feedback entre 1 y 6: no es cierto que solo se testean teoras, los
resultados economtricos influyen en las teoras.
Hay feedback entre 3 y 5 con 4: tambin hay aportes en datos
Hay feedback entre 6 y 2: como resultado de los test economtricos es
posible replantear modelos economtricos

Podemos replantear el diagrama, incluyendo la retroalimentacin de la manera
siguiente:

1. Funcin de produccin
Cobb-Douglas
2. Y=AK

3. Y=AK
e

Revisin de
resultados
obtenidos en
otros estudios
similares,
nacionales e
internacionales
8. Formular polticas
4. Conseguir los datos
de PIB (Y) y Empleo
(L) del Banco Central.
Construir una serie de
Capital (K).
5. Estimacin de o y |
7. Dadas las estimaciones
de K y L, pronostico cual
ser el PIB del prximo ao
6. Verifico hiptesis
respecto a los
parmetros.
Ej: Test o + | = 1

Qu constituye un test para la teora econmica?
Signos de los coeficientes son correctos.
El test ms vlido: que una teora econmica genere mejores predicciones
que una alternativa.
Estabilidad de los coeficientes estimados (Crtica de Lucas)

La econometra no es un elemento para derribar teoras, sino para conocer la
realidad. Si los datos no se ajustan a lo esperado en teora, lo nico que se puede
decir es que estos datos no verifican la teora. Es un error comn concluir que la
equivocada es la realidad, si esta no coincide con el modelo.

Fuentes de error en la elaboracin del modelo:
El modelo no se ajusta a la realidad.
Mala formulacin del modelo
No se dispone de buena calidad y/o cantidad de datos.

Teora Econmica
Modelo Economtrico
Estimacin
Prueba de Especificacin y examen
de Diagnstico
Es el modelo adecuado?
Si
Prueba de alguna hiptesis
Uso del modelo para prediccin y polticas
No
Datos
5. Origen y Concepto de regresin

5.1 Origen

Proviene de un estudio de Francis Galton (1886) en el que la estatura promedio de
los nios que nacan de padres con una determinada estatura tenda a moverse o
regresar hacia la altura promedio de la poblacin total. Ello an cuando exista
una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran
hijos bajos. Galton dijo que exista una regresin a la mediocridad

5.2 Concepto

Una curva de regresin establece una relacin entre una variable explicada o
dependiente (Y) y las explicativas o independientes (X).

El objetivo es predecir o estimar el valor medio poblacional de Y conocidos los
valores de las variables explicativas X. O sea establecer el valor de esperado de Y,
dado el valor de las X.

Matemticamente, ( ) X Y E Y /
= el valor estimado de Y ser la esperanza

condicional de Y dado X.

Ejemplos:
La relacin entre el Consumo y el Ingreso disponible de las familias
La relacin entre el desempleo y el nivel de los salarios reales
La relacin entre las notas de un grupo de alumnos y el nmero de horas de
estudio

6. Variables y notacin

En general llamamos a las variables utilizadas como:

Variable dependiente, la cual denotaremos con la letra Y, es la variable que
queremos explicar o predecir
Variable(s) independiente(s), que denotaremos con X
k
, donde k es el nmero
de variables explicativas.

Estas variables en ocasiones reciben otros nombres los cuales se presentan a
continuacin:

Y X
1
, X
2
. X
k

Dependiente Independiente
Predicha Predictores
Regresada Regresores
Explicada Explicativas
Causada Causante
Endgena Exgena
Objetivo Control

Trmino aleatorio o estocstico, el cual denotaremos como u y puede tomar
cualquier conjunto de valores, con una probabilidad dada.

7. Regresin vs. Causalidad

El concepto de regresin implica una relacin estadstica entre una o ms variables
X y Y, pero la existencia de una relacin estadstica, no implica que exista una
relacin de causalidad entre las variables.

La explicacin de la causalidad debe venir dado a priori por la teora. De aqu la
importancia del rol de la teora en la econometra.

8. Tipos de datos

Los tipos de datos que se manejan en econometra y que veremos a continuacin
en detalle son:
Corte transversal (Cross-section)
Combinacin de cortes transversales
Series de tiempo (Times series)
Datos de panel (Panel Data)

8.1 Datos de Corte Transversal (Cross-section)

Los datos de corte transversal o Cross-section son observaciones de una o ms
variables recogidas en un mismo periodo de tiempo. En la tabla siguiente, por
ejemplo, se muestra un grupo de variables representativas de una encuesta de n
trabajadores, a travs de las cuales podramos estudiar como es afectado el salario
por variables como aos de escolaridad, aos de experiencia y el sexo del
trabajador.

Observacin Salario Educacin Experiencia Sexo
1 3.10 11 2 1
2 3.24 12 22 1
3 3.00 11 2 0
. . . . .
. . . . .
. . . . .
. . . . .
n 3.50 14 5 1

8.2 Combinacin de cortes transversales

Como su nombre lo dice, es una combinacin de muestras de cortes transversales
para las mismas variables tomadas en diferentes periodos de tiempo. Supongamos
que para los datos mostrados en el ejemplo anterior, tenemos otra muestra con
datos de un ao posterior para las mismas variables; en este caso podramos
aumentar nuestra muestra sobre los efectos de la educacin, experiencia y sexo
sobre el salario de los trabajadores.

8.3 Series de Tiempo (Time Series)

Las series de tiempo son observaciones sobre los valores que toman una o ms
variables a lo largo de cierto periodo de tiempo. Ej. el IPC, el PIB, etc. Estos datos
tienen un orden cronolgico y suelen estar relacionados con su historia reciente y/o
mostrar patrones estacionales. A continuacin se presenta una tabla con datos de
Consumo e Ingreso disponible:

Observacin Ao Consumo Ingreso
Disponible
1 1970 90 110
2 1971 200 225
3 1972 130 130
. . . .
. . . .
34 2003 115 125

8.4 Datos de Panel o longitudinales (Panel Data)

Los datos de panel son combinaciones de series de tiempo con corte transversal,
pero a diferencia de la combinacin de cortes transversales, una misma variable de
corte transversal es seguida a travs del tiempo. En otras palabras, los datos de
panel dan seguimiento en el tiempo, a las mismas unidades transversales.

Por ejemplo, supongamos que para 150 ciudades, tenemos datos de homicidios,
desempleo y poblacin en dos aos diferentes 1986 y 1990. En este caso
podramos evaluar, no slo como afectan el desempleo y el tamao de la poblacin
en el nmero de homicidios, sino tambin como cambian el comportamiento a
travs del tiempo.

Obs Ciudad Ao Homicidios Desempleo Poblacin
1 1 1986 5 8.7 2
2 1 1990 8 7.2 22
3 2 1986 2 5.4 2
4 2 1990 1 5.5 .
. . . . .
299 150 1986 25 4.3 .
300 150 1990 32 5.2 5

Captulo 2

Modelo de Regresin Lineal Simple:
Estimacin

En este captulo veremos como se estima el Modelo de Regresin Lineal Simple,
los supuestos y las propiedades de este modelo. Antes de iniciar en detalle, es
preciso explicar algunos conceptos como las relaciones estocsticas y
determinsticas, linealidad, funcin de regresin poblacional y funcin de regresin
muestral.

1. Relacin Estocstica Vs. Determinstica

Las relaciones entre las variables pueden ser determinsticas o estocsticas. En el
caso de la primera, son relaciones matemticas, en el caso de las segunda son
estadsticas. Veamos:

Relacin determinstica:
0.7 0.3
L K Y= . Si dividimos entre L y aplicamos
logarimo tenemos:

) ln( 3 . 0 ) ln(
3 . 0
3 . 0
3 . 0 7 . 0 3 . 0
L
K
L
Y
L
K
L
K
L
L K
L
Y
=
|
.
|
\
|
= = =

Graficamente tendramos:

Ln(K/L) X 12 14 20 5
Ln(Y/L) Y 3.6 4.2 6 1.5

Modelo de Regresin Lineal Simple: Estimacin 13
0
1
2
3
4
5
6
7
0 5 10 15 20 25
Ln (K/L)
L
n

(
Y
/
L
)

Relacin estocstica: Si u es una variable aleatoria

u
e
L
K
L
e L K
L
Y
e L K Y
L
K
L
Y
u
u
u
+ =
|
.
|
\
|
= =
=
) ln( 3 . 0 ) ln(
3 . 0
7 . 0 3 . 0
7 . 0 3 . 0

Ahora, ln(Y/L) no slo depende de ln(K/L) sino tambin de una variable aleatoria.
Supongamos que u= +1 con prob 0.5 y -1 con prob 0.5.

LN(K/L) LN(Y/L)
si u = 1
Y/L
si u = -1
X Y Y
12 4.6 2.6
14 5.2 3.2
20 7 5
5 2.5 0.5
10 4 2

Supongamos ahora que u es una variable aleatoria continua que tiene una
distribucin normal estandarizada (con esperanza 0 y varianza 1). Entonces por
cada valor de K/L tendremos infinitos valores de Y/L, dependiendo del valor de u.

0
1
2
3
4
5
6
7
8
0 10 20 30

En trminos generales en econometra tendremos una relacin estocstica entre la
variable dependiente (Y
i
) y la explicativa (X
i
). La siguiente relacin tiene dos
componentes:

Y
i
=+X
i
+u

Componente determinstico: +X
i
, donde y son los coeficientes de la
regresin. Sus valores sern estimados a partir de los datos disponibles para
X e Y.
Componente estocstico: u

Fuentes de error u

Variables omitidas. Aunque el ingreso sea el mayor determinante del
consumo, no es el nico. Otras variables como la tasa de inters o las
tenencias de activos lquidos pueden influir en el consumo. La omisin de
estas variables constituye un error de especificacin. Existen otras variables
que tambin influyen de manera no sistemtica como las variaciones del
clima, cambios de gustos, terremotos, epidemias.
Error de medicin. Puede ser que la variable explicada no sea medida
exactamente, por las dificultades de recolectar los datos o porque es
imposible de medir y se utiliza una variable proxy.
Indeterminacin humana. Algunos piensan que las acciones de la
conducta humana bajo iguales circunstancia difieren de manera aleatoria
(sesgo de respuesta).
L
n
(
Y
/
L
)

Ln(K/L)
E(u)=0
E(u)=0
E(u)=0
2. Concepto de linealidad

En una ecuacin lineal todas las variables estn elevadas a la primera potencia, y
sin multiplicarse entre s.

Pero en econometra es necesario distinguir entre linealidad en los parmetros y
linealidad de las variables.

Linealidad en las variables: La(s) variable(s) slo aparecen elevadas a
potencia de 1. Contra ejemplo:
2
2 1
) / (
i
X X Y E | | + = .
Linealidad en los parmetros: Lo(s) parmetros(s) slo aparecen elevadas
a potencia de 1. Contra ejemplo:
i
X X Y E
2 1
) / ( | | + = .

De ahora en adelante, cuando nos refiramos al trmino regresin lineal, significar
una regresin lineal en los parmetros.

3. Funcin de regresin poblacional

Supongamos ahora que el salario de un empleado depende de la educacin, siendo
el salario mayor cuanto mayor es la educacin. Supongamos que tenemos los
datos de salario por hora (en dlares) y los aos de educacin de una poblacin
de empleados, los cuales se muestran en la tabla siguiente:

X Educacin (aos)
Y 8 9 10 11 12 13 14 15 16 17
S
a
l
a
r
i
o

p
o
r

h
o
r
a

(
U
S
$
)

3.77 4.46 5.36 6.26 7.16 8.06 8.96 9.86 10.76 11.66
4.40 4.67 7.05 7.95 8.00 9.75 10.65 11.55 12.45 13.35
4.09 5.30 6.10 7.00 7.69 8.80 9.70 10.60 11.50 12.40
5.73 4.99 5.57 7.10 9.33 8.27 9.17 10.07 10.97 11.87
5.42 6.63 6.20 6.79 9.02 8.90 9.80 10.70 12.62 12.50
3.80 6.32 5.89 8.43 7.60 8.59 9.49 12.03 12.11 12.19
6.37 5.93 7.53 8.12 9.97 10.23 11.13 11.72 13.57 14.73
7.27 7.49 8.54 9.92 10.82 10.67 14.47
8.17 9.07 9.58 10.48 12.67
10.87 11.77
E(Y/X) 4.80 5.70 6.60 7.70 8.40 9.30 10.20 11.10 12.00 12.90

Para un nmero dado de aos de educacin (X) existen diferentes niveles de salario
por hora (Y). Por ejemplo, para un nivel dado de 8 aos de educacin, existen
empleados con salarios por hora de 3.77, 4.40, 4.09, 5.73, 5.42, 3.80 y 6.37
dlares, sin embargo, el salario esperado de un empleado con 8 aos de educacin
es 4.80 US$/hora.

Se puede apreciar en los datos, que los salarios son mayores, mientras ms aos de
ecuacin tiene el trabajador.

2
4
6
8
10
12
14
16
7 8 9 10 11 12 13 14 15 16 17
Educacin (aos)
S
a
l
a
r
i
o

p
o
r

h
o
r
a

(
U
S
$
)
= E(Y/X
i
)

La recta que une todas las medias condicionales, se llama funcin de regresin
poblacional (FRP). La media condicional E(Y/X
i
) es una funcin de X
i
.

Matemticamente podemos expresar el concepto de los prrafos anteriores como
E(Y/X)=f(X).


Pero qu forma funcional tiene f(X)? La respuesta de esta pregunta va a depender
en gran medida de la teora.

Supongamos que f(X) es funcin lineal de X, entonces la FRP es:

( )
1 2
/
i i
E Y X X | | = + (3.1)

donde
1
y
2
son parmetros no conocidos pero fijos llamados coeficientes de
regresin y el subndice i representa las observaciones de la muestra.

Sin embargo para un X
i
dado, el Y
i
se desva de la E(Y/X
i
), por un trmino de
error estocstico perturbacin estocstica u
i
.

( / )
i i i
u Y E Y X =

Entonces,

( )
1 2
/
i i i
i
Y E Y X u
X u | |
= +
= + +
(3.2)

Educacin 8

9

10

S
a
l
a
r
i
o

4.80

5.70

6.60

FRP

Entonces, la variable dependiente Y
i
tiene dos componentes:
i. esperado E(Y/X
i
) o sistemtico
ii. aleatorio o no sistemtico u
i

4. Funcin de regresin muestral (FRM)

En la prctica, la mayora de las veces no vamos a conocer la poblacin, sino que
vamos a tener una muestra de la poblacin, a partir de la cual estimaremos la FRP,
la cual llamaremos funcin de regresin muestral (FRM):

1 2

i
Y X | | = + (4.1)

Donde las variables con ^ denotan que es un estimador del parmetro.

Y
i

X
i
FRP: E(Y/ X
i
) =
1
+
2
X
i

X
1
X
2
Y
1

Y
2

2

u
1
u
2
E(Y/X)


Dado que no conocemos la poblacin sino muestras, la estimacin de la E(Y/X
i
)
depender de la muestra elegida. En el caso del ejemplo de los salarios y la
educacin, si obtenemos dos muestras al azar de la poblacin, el resultado sera
similar al grfico de ms abajo. Cul es la verdadera FRM? No lo sabemos.

1
3
5
7
9
11
13
15
7 9 11 13 15 17
Educacin (aos)
S
a
l
a
r
i
o

(
U
S
$
/
h
o
r
a
)
muestra 1 muestra 2
FRM 1 FRM 2

Y
X
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Y
X
X
X
X
X
X
Poblacin Muestra
La diferencia entre los Y
i
poblacionales y los estimados
i
Y
, es lo que llamaremos
residuos.

1 2
i i i
i i i
i i
e Y Y
e Y X
e u
| |
=
=
=
(4.2)

Asimismo, como
i i i
Y Y e = + , entonces:

1 2

i i i
Y X e | | = + + (4.3)

Existen diferencias entre u
i
y e
i

u
i

es no observable (no conocemos la poblacin)
es una variable aleatoria a la que se le supone cierta distribucin de
probabilidad
e
i

es observable (se dispone de valores)
satisface ciertas propiedades que veremos ms adelante
1

^
Y
i

Y
1

^
FRM: Y
i
=
1
+
2
X

i
^ ^ ^
u
1
e
1

E(Y/ X
i
)
Y
1

|
2
|
2

^
X
i

FRP:
E(Y/ X
i
) =
1
+
2
X
i


Cmo calcular
1
| y
2
| ?
Mtodo de momentos?
Mxima Verosimilitud?
Mtodo de Mnimos Cuadrados Ordinarios (MICO)?

El mtodo de MICO posee algunas propiedades estadsticas atractivas que veremos
ms adelante.

5. Cmo seleccionar entre estimadores?

Podemos tener varios estimadores para un mismo parmetro, el problema es elegir
cul de estos es el mejor.

Para elegir entre varios estimadores de un parmetro, existen varios criterios que
nos pueden ayudar, los cuales se presentan a continuacin:

Insesgamiento

Un estimador u
es insesgado de u si el valor esperado del estimador es igual al

verdadero u ( ) u u =
E . Esto no significa que u u =
, sino que si calculamos el

estimador correspondiente para muestras repetidas, en promedio estaremos sobre
el parmetro poblacional.

Eficiencia

Un estimador es ms eficiente, mientras ms pequea sea su varianza.
En el caso del grfico siguiente, tanto A como B son estimadores insesgados de ,
pero B es ms eficiente que A.


Ahora bien, que pasa si tengo un estimador insesgado y otro sesgado, pero con
menor varianza?

Error cuadrtico medio (ECM)

El ECM de un estimador u
se define como:

( )
2
2

( ) var( ) ECM E sesgo u u u u = = +

2
2
2 2
2 2
2

ECM( ) ( )

( ( ) ( ) )

( ( )) ( ( ) ) 2( ( ))( ( ) )

( ( )) ( ( ) ) 2( ( ))( ( ) )

var( ) ( ( ) ) 2 ( ) ( ) ( ) (
E
E E E
E E E E E
E E E E E E E
E E E E E E
u u u
u u u u
u u u u u u u u
u u u u u u u u
u u u u u uu u u
(
=

(
= +

(
= + +

( ( (
= + +

= + + +
2
2 2
2
)

var( ) ( ( ) ) 2 ( ) ( ) ( ) ( ) ( ) ( )

var( ) ( ( ) ) 0 var( ) ( ( ) )
var( )
E E E E E E E
E E
sesgo
u u
u u u u u u u u u u u
u u u u u u
u
(

(
= + + +

= + + = +
= +

Funcin de densidad
de probabilidad
u
Estimador B
Estimador A
Resto y sumo
( )
E u para
mantener la igualdad

En caso que tengamos un estimador insesgado y otro sesgado, pero con menor
varianza, debemos elegir el que tenga menor ECM.

En muchos problemas economtricos es imposible encontrar estimadores con las
propiedades anteriores. Sin embargo, muchas veces se puede justificar la
utilizacin de un estimador en base a sus propiedades asintticas.

Consistencia

Un estimador u
es consistente si se aproxima al verdadero valor de u a medida

que el tamao de la muestra se hace ms grande.
1

Eficiencia asinttica

Si un estimador u
es consistente y su varianza asinttica es menor que la de otros

estimadores, entonces u
es asintticamente eficiente.

1
Formalmente se expresa como
lim 1
n
P u u o
(
< =

, donde P indica probabilidad y >0. Tambin se pude
expresar como
lim p u u = , donde plim significa probabilidad en el lmite.

Funcin de densidad
de probabilidad
u
Estimador B
Estimador A

Otros

Kennedy considera adems de los expuestos, otros criterios como:

Costo computacional
Minimizar errores cuadrados
Mayor R-cuadrado

6. Mtodo de Mnimos Cuadrados Ordinarios (MICO)

Nuestro objetivo es encontrar la recta que pas lo mas cerca de nuestras
observaciones, para lo cual deberamos de minimizar la suma de los errores
residuos. Pero minimizar cuales errores Min e? o Min e
2
?

La diferencia entre minimizar e e
2
, est en que de la primera manera estamos
ponderando igual un residuo (desviacin) pequea que una grande, mientras que si
minimizamos la suma de residuos al cuadrado estamos ponderando ms las
desviaciones ms grandes.

Lo que hace MICO, es minimizar la sumatoria de errores al cuadrado, e
i
2
(para
dar peso proporcional a residuos ms grandes). O sea, minimizaremos la suma de
los cuadrados de las distancias verticales desde los puntos a la recta.

Funcin de densidad de
probabilidad
n = 100
n = 1000
n = 20
u
Sabemos que
i i i
e Y Y = y
i i i
X Y e
2 1

| | = , entonces:

( )
( )
( )
2
2
2
1 2
1 2

,
i i i
i i
i i
i
e Y Y
Y X
f
| |
| |
=
=
=

6.1 Derivacin

Planteando el problema de minimizacin:

2 2
1 2

min ( )
i i i
i i
e Y X | | =

(6.1)

0
2
2
2
2
1
2
2
2
1
2
>
c
c
>
c
c
=
c
c
=
c
c
|
|
|
|
i
i
i
i
e
e
e
e

Resolviendo para
1
| :

1 2
1
1 2
1 2
1 2

2 ( )( 1) 0

( ) 0

1 0

0
i
e
i i
i i
i i
n
n
Q
Y X
Y X
Y X
Y X
| |
|
| |
| |
| |
c
= =
c
=
=
=

(6.2)

CNPO
CNSO
Despejando
1
| tenemos:

1 2

Y X | | = (6.3)

Tambin podemos expresar (6.2) como:

0
0 ) 1 ( 2
1
=
= =
c
c
i
i
e
e
Q
|

Resolviendo para
2
| :

( )
1
1 2
2
2
1 2
2
2 2

2 ( )( ) 0

0

0
i i i
i i i i
i i i i
Q
Y X X
Y X X X
Y X Y X X X
|
| |
|
| |
| |
c
= =
c
=
=

(6.4)

( )
( )
( )
2
2 2
2
2 2
2
2 2
2 2
2

i i i i
i i i
i i i
i i i
Y X Y X X X
Y X Y X nX X
Y X nYX XnX X
Y X nYX X nX
| |
| |
| |
|
= +
= +
= +
= +

Despejando
2
| tenemos:

2 2 2
i i
i
Y X nYX
X nX
|

=
(6.5)

Tambin podemos expresar (6.4) como:

Esta es la 1
condicin que se
debe cumplir para
minimizar la
suma de
cuadrados de los
residuos.

2
2 ( 1) 0
0
i i
i i
Q
e X
e X
|
c
= =
c
=
(6.6)

A las dos condiciones se les llama generalmente Ecuaciones Normales.

Podemos plantear (6.5) de dos maneras alternativas:

i. Recordando las frmulas de la covarianza y la varianza muestral y
transformndolas:

( )( ) ( )
cov( , )
1 1
1 1 1 1 1 1 1 1
1
i i i i i i
xy
i i i i i i
i i
X X Y Y X Y X Y XY XY
S X Y
n n
X Y X Y X Y
n n n n n n
Y X XY YX XY XY
n n n n n n n n n n
X Y nXY
n
+
= = =

= + = +

El ltimo trmino es similar al numerador de (6.5).

( ) ( )( ) | | ( ) | |
1 1
2
1
2
1
2
1 1
2 2 2 2 2 2
2 2
2
2
+
=
+
=
=
+
=
n
X n X
n
X n X X
n
X n X X X
n
X X X X
n
X X X X
n
X X
S
i
X n
n
X n
i i i
i i i i i
x
i

El ltimo trmino es similar al denominador de (6.5).

Por lo tanto, podemos expresar
2
| como:

2 2 2 2 2
( 1)
i i
XY XY
i X X
Y X nYX
nS S
X nX n S S
|

= = =

(6.7)

Esta es la 2
condicin que se
debe cumplir para
minimizar la suma
de cuadrados de los
residuos

ii. Dada la expresin anterior, podemos plantear
2
| como:

2 2 2 2
( )( )
1
( )
1
i i
i i
XY
i X i
X X Y Y
x y
S
n
X X S x
n
|

= = =

, donde
i i
x X X = y
i i
y Y Y = .

TAREA: Verificar que las condiciones necesarias de segundo orden, corresponden
con las de un mnimo.

Ejemplo

Supongamos que conocemos los datos de
produccin y horas trabajadas de 10
trabajadores de una fbrica en un momento
de tiempo (corte transversal). Definimos Y
= producto, X = horas de trabajo.

1 2
8
9.6

i i
X
Y
Y X e | |
=
=
= + +

2 2 2 2
789 10 9.6 8
0.75
668 10 8
i i
i
Y X nYX
X nX
|

= = =

1 2
2

9.6 8
9.6 0.75 8 3.6
Y X | |
|
=
=
= =

3.6 0.75
i i
Y X = +

6.2 Propiedades de la regresin MICO (Corolarios)

Los errores se compensan, o sea, tienen media cero

De la primera ecuacin normal tenemos:
Obs. X Y X
2
Y
2
XY
1 10 11 100 121 110
2 7 10 49 100 70
3 10 12 100 144 120
4 5 6 25 36 30
5 8 10 64 100 80
6 8 7 64 49 56
7 6 9 36 81 54
8 7 10 49 100 70
9 9 11 81 121 99
10 10 10 100 100 100

80 96 668 952 789

1
2 ( 1) 0
0
i
i
Q
e
e
|
c
= =
c
=
(6.2)

La regresin siempre pasa por el punto ) , ( Y X

1 2
1 2
1 2

0
i i i
i i i
i i
Y X e
Y X e
Y n X
| |
| |
| |
= + +
= + +
= + +

1 2

Y X | | = + (6.8)

El valor medio de Y estimado es igual al valor medio de Y observado.

1 2

i i i
i i i
i i i
i i
Y X e
Y Y e
Y Y e
Y e
Y
n n
| | = + +
= +
= +
= +

Y Y = (6.9)

La regresin se puede expresar en desvos

De (4.3) y (6.8) tenemos

1 2

i i i
Y X e | | = + +

1 2

Y X | | = +
Restando (4.3) (6.8)


1 2 1 2
2

( )
i i i
i i i
Y Y X e X
Y Y X X e
| | | |
|
= + +
= +

2
i i i
y x e | = + (6.10)

2
i i
y x | = (6.11)

Los residuos no estn correlacionados con el valor estimado de Y
i
ni con los
valores explicativos

1
1
1
1
cov( , ) ( )( )
( )( )
0 0
i i n
i i n
i i i n
i n
X e X X e e
X X e
X e Xe
X e
=
=
( =

( = =

(6.12)

1
1
1

cov( , ) ( )( )

( )( )

0
i i n
i i n
i i i n
Y e Y Y e e
Y Y e
Ye Ye
=
=
(
= =
(

(6.13)

1
1 1
1 2
1
2 2
1
2 2

( )

( )

i i i i n n
i i n
i i i i n
Ye X e
Y X X e
Ye X e X e
|
| |
| |
| |
( (
= +

(
(
= +
(
(

(
= +

Descomposicin en suma de cuadrados

Sabemos que:
i i i
Y Y e = + y
Y Y = . Restando las dos expresiones anteriores

obtenemos:

i i
Y Y Y Y e = +

lo que en desvos respecto de la media puede expresarse como:

i i i
y y e = +

Dado que
2
i i
y x | = , entonces
2
i i i
y x e | = + .

Elevando al cuadrado:

( )
( )
2
2
2
2
2 2 2 2 2
2 2

2 2
i i i i i
i i i i i i i i
y x e y e
x x e e y y e e
|
| |
= + = +
= + + = + +

Aplicando sumatorias:

( ) ( )
2 2 2 2 2 2
2 2
2 2 2 2 2
2 2
2 2 2 2 2
2

2 2

2 2
i i i i i i i i i
i i i i i i i i
i i i i
y x x e e y y e e
x x e e y y e e
x e y e
| |
| |
|
= + + = + +
= + + = + +
= + = +

Definimos
2
i
y : Suma de cuadrados totales (SCT)

=
2 2
2
2
i i
x y | : Suma de cuadrados explicados (SCE)
2
i
e : Suma de cuadrados residuales (SCR)

Por lo que SCT = SCE + SCR

Tambin podemos definir SCE como:

| | | || |
2 2
2 2 2 2
2 2 2 2 2
2

i i i i i i
i i
i i i i i
i i
i
x y x y x y
x y
SCE x x x x y
x x
x
| |
(
= = = = =
(
(
(

7. Coeficiente de determinacin (R
2
)

Es una medida de la bondad de ajuste, y mide la proporcin de la variacin total de
Y que es explicada por el modelo de regresin, o sea:

2
1
SCE SCT SCR SCR
R
SCT SCT SCT
= = = (7.1)

Sustituyendo por los valores definidos en la seccin precedente

2 2 2 2
2 2
2 2 2
1
i i i
i i i
y x e
SCE
R
SCT y y y
|
= = = =

(7.2)

Caractersticas:
0R
2
1
Es una medida de bondad absoluta del modelo ya que mide que proporcin
de la varianza total (varianza de Y) es explicada por el modelo de regresin
(por X).
Es una medida de bondad relativa entre modelos. Me permite comparar si
la capacidad explicativa es mayor incluyendo una variable Z en vez de X
2
.

Sin embargo, debe tenerse cuidado al comparar modelos, pues no es posible
hacerlo cuando la variable dependiente tiene diferentes unidades de medida en los
modelos comparados. Por ejemplo, no es posible comparar entre si el R
2
de los
modelos ( )
, Y f K L = y ( )
ln , Y f K L = , puesto que la variable dependiente tiene la
unidad de medida y por lo tanto las SRC sern de magnitudes diferentes.

Otra forma de expresar el R
2
:

( )
( )
2
2
2
2 2
2 2
2 2
2
2
2
, 2 2 2 2
i i
i
x y
i
x
i
i i
i i
XY
X Y
i i X Y
x
x
R
y y
x y
S
r
y x S S
|

= =
= = =

(7.3)

2
Veremos que existen otras medidas de bondad de ajuste mejores que el R-cuadrado.
Es decir, en el modelo de regresin simple, el R
2
es igual al cuadrado del
coeficiente de correlacin simple
3
.

Propiedades de r
X,Y
:

Esta entre -1 y 1
Simetra r
xy
=r
yx

Es independiente del origen y de la escala (a diferencia de la covarianza)
Si X y Y son estadsticamente independientes r=0, aunque r=0 no implica
independencia estadstica.
Es una medida de asociacin lineal, no tiene sentido utilizarla en
asociaciones no lineales.
No implica una relacin causa-efecto.

En relacin al modelo de regresin el R
2
tiene ms significado que el coeficiente de
correlacin, ya que mide que porcentaje de la variacin de la variable dependiente
es explicada por la(s) variable(s) independiente(s).

8. Supuestos del modelo clsico de regresin lineal

Cuando derivamos los estimadores MICO no fue necesario realizar supuestos
sobre la muestra o la distribucin de u
i
.

En la seccin anterior vimos una serie de criterios deseados por los econometristas
acerca de los estimadores. Estas caractersticas no pueden ser determinantes hasta
que no se realicen un conjunto de muestras repetidas de los estimadores, sobre
cmo fueron generadas las muestras. Desafortunadamente un estimador no tiene
las mismas caractersticas para todas las formas en que puede ser generado. Esto
significa que bajo algunos situaciones, un estimador tiene propiedades deseables
pero en otras situaciones no.

El modelo clsico de regresin lineal, consiste en una serie de supuestos acerca de
cmo son generados los datos. Modificando estos supuestos, se pueden crear
diferentes situaciones de estimacin, bajo las cuales MICO no es ptimo.

3
Recordemos que el coeficiente de correlacin es una medida de asociacin lineal entre X y Y que equivale a:
,
,
i i X Y
X Y
X Y
i i
x y S
r
S S
x y
= =

Para verificar las propiedades estadsticas de los estimadores derivados,
requerimos ciertos supuestos

Los supuestos describen la forma del modelo y las relaciones entre sus partes, a
partir de los cuales se pueden establecer los procedimientos de estimacin e
inferencia adecuados.

Los supuestos clsicos del modelo de regresin son:

1. El modelo de regresin es lineal en los parmetros y se encuentra bien
especificado.
2. Los valores de X son fijos en muestreo repetido. La covarianza entre u
i
y X
i

es cero. cov(u
i
/X
j
)=0.
3. El valor medio de u
i
es igual a cero. E(u
i
/X
i
)=0
4. Homocedasticidad o igual varianza de u
i
. var(u
i
/X
i
)=
2
.
5. No autocorrelacin entre los u
i
. cov(u
i
/u
j
)=0
6. El nmero de observaciones debe ser mayor que el de variables
independientes y no hay relacin lineal exacta entre las X. No hay
multicolinealidad perfecta.

8.1 El modelo de regresin es lineal en los parmetros y se encuentra
bien especificado.

Esto quiere decir, tal como hemos visto, que el modelo es lineal en los parmetros,
aunque puede no serlo en cuanto a las variables. Adems el modelo est bien
especificado, con cual significa que:
No hay variables omitidas
No hay variables intrusas
Forma funcional correcta

8.2 Los valores de X son fijos en muestreo repetido.

Este supuesto implica que si se repitiera la seleccin de muestras se podra
considerar que las variables independientes seran las mismas.

Este es un supuesto bastante fuerte, porque supone que las variables X no son
aleatorias; es posible mantener fijo el valor de X, y repetir el experimento,
obteniendo en cada observacin, un valor de la variable aleatoria Y. De esta
manera Cov(u,X)=0.

8.3 El valor esperado de ui es igual a cero.

La perturbacin aleatoria u
i
puede tomar valores positivos o negativos, pero no
existe razn para esperar que sea sistemticamente positiva o negativa.

Dado que X es fija, ( ) X u X E X Y E
i i 2 1 2 1
) ( / | | | | + = + + = , este supuesto tambin
implica que todo lo que no est incluido en el modelo, se supone que no afecta en
forma sistemtica el valor promedio de Y, porque se compensan los errores.

8.4 Homocedasticidad o igual varianza de ui.

Se supone que las perturbaciones se distribuyen con igual dispersin (varianza)
respecto a la media.
( )
( )
2
2
2
0
) ( ) var(
o =
=
=
i
i i i
u E
u E u E u

Cuando este supuesto no se cumple, decimos que existe heterocedasticidad.

f(u
i
)

Y

X

X
3

X
2

X
1

E(Y/ X
i
) = |
1
+ |
2
X
i

Homocedasticidad


Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias
en funcin de su ingreso. Si los datos se refieren a una muestra de corte
transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica
que independientemente del nivel de ingreso, los gastos de cada familia se desvan
del modelo con la misma dispersin. Lo lgico es pensar que a mayores niveles de
ingreso, hay un mayor espacio para que las familias distribuyan su ingreso.

8.5 No autocorrelacin entre los ui.

Significa que no existe ninguna tendencia a que los errores asociados con una
observacin estn relacionados a los errores de otra. Si en un momento de tiempo
o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna
informacin sobre si el prximo error ser positivo o negativo.

Este supuesto implica que los errores no tienen un patrn de comportamiento
sistemtico.

Bajo este supuesto, si u
t
y u
t-1
estn correlacionados, Y
t
no slo depende de X
t
, sino
tambin de u
t-1
.

Formalmente este supuesto se expresa:

f(u
i
)

Y

X

X
3

X
2

X
1

E(Y/ X
i
) = |
1
+ |
2
X
i

Heterocedasticidad
| || | { }
| | 0 ,
) ( ) ( ) , cov(
= =
=
j i
j j i i j i
u u E
u E u u E u E u u

8.6 El nmero de observaciones debe ser mayor que el de variables
independientes y no hay relacin lineal exacta entre las X. No hay
multicolinealidad perfecta.

Que el nmero de observaciones sea mayor que las variables independientes, es
una condicin matemtica necesaria para poder estimar los betas. Por ejemplo, en
el caso del modelo simple, para poder trazar una lnea recta, tenemos que estimar
1
| y
2
| , por lo que necesitamos al menos dos pares de puntos.

u
i
u
i

u
j
j

u
j

No existe
correlacin

*
*
*
*
*
*
*
*
*
u
i

u
i

u
j
j

u
j

*

*

*

*

*

*

*

*

*

*

Correlacin
Positiva

u
i
u
i

u
j
j

u
j

Correlacin
Negativa

*
*
*
*
*
*
*
*
*

Asimismo, se requiere tambin que no exista una relacin perfectamente lineal
entre dos o ms variables explicativas.

9. Propiedades Estadsticas de los estimadores MICO

9.1 Linealidad

( )
2 2 2 2
i i i i i i i
i i i
x Y Y x y xY Y x
x x x
|

= = =

Dado que la 0
i
x =
entonces

2 2
i i
i
xY
x
| =
(9.1)

Si definimos el ponderador
2
i
i
i
x
k
x
=
, con las propiedades siguientes:

a) No estocstico
b) 0
i
k =

c)
2
2
1
i
i
k
x
=

d) 1
i i i i
k x k X = =

Sustituyendo el ponderador en (9.1), tenemos que:

2 2
i i
i i
i
xY
k Y
x
| = =
(9.2)

Se muestra que
2
| es un estimador que puede expresarse de forma lineal, donde k

i

son las ponderaciones de esta combinacin lineal.

Tarea: verificar estas propiedades.
(Gujarati Apndice 3A.2)
9.2 Insesgamiento

Sabemos que
1 2 i i i
Y X u | | = + + , entonces sustituyendo en (9.2) tenemos:

( )
2 1 2
1 2
1 2
i i i i i
i i i i i
i i i i i
k Y k X u
k k X k u
k k X k u
| | |
| |
| |
= = + +
= + +
= + +

2 2
i i
k u | | = +
(9.3)

Aplicando el operador de esperanza:

( ) ( ) ( )
2 2 2
i i i i
E E k u k E u | | | = + = +

( )
2 2
E | | = (9.4)

Por lo tanto,
2
| es un estimador insesgado. Esto quiere decir que

2
| se puede
alejar del verdadero
2
| en una muestra, pero si repetimos muchas veces el
experimento, estaremos en promedio sobre el verdadero valor del parmetro.

Recordar: el estimador insesgado no es necesariamente el mejor estimador. (por
qu?)

De la misma manera se puede demostrarse que
1
| es tambin un estimador
insesgado.

Tarea: Demostrar que
1
| es insesgado.

9.3 Eficiencia

Calculo de varianzas y covarianza

Necesitamos calcular primero las varianzas de los estimadores MICO.

( ) ( )
2
2 2 2

var E E | | |
(
=

Sabemos que
( )
2 2
E | | = , entonces sustituyendo:

( )
2
2 2 2

var E | | |
(
=

(9.5)

De (9.3), sabemos que:

2 2
2 2
i i
i i
k u
k u
| |
| |
= +
=
, sustituyendo en (9.5) tenemos:

( )
( )
( )( )
( )
2
2
2 1 1 2 2
1 1 2 2 1 1 2 2
2 2 2 2
1 1 1 2 1 2 1 3 1 3 2 2 2 2 1 1
var ...
... ...
... ...
i i n n
n n n n
E k u E k u k u k u
E k u k u k u k u k u k u
E k u k k u u k k u u k u k u k u
|
(
( = = + + +

( = + + + + + +

(
= + + + + +

Vamos a tener:
n trminos
2 2
i i
k u , o sea
2 2
1
n
i i
k u

( 1)
2
n n
trminos 2k
i
u
i
k
j
u
j
, o sea
( 1)
2
1
2
n n
i i j j
k u k u

( )
( 1)
2
2 2
2
1 1
var 2
n n
n
i i i i j j
E k u k k u u |

(
= + (
(

Recordando
2 2
( )
( ) 0
i
i j
E u
E u u
o =
y k
i
es no aleatorio o no estocstico,

( ) ( ) ( )
( 1)
2
2 2
2
1 1
2
2 2 2
2 2
1
var 2
1
n n
n
i i i j i j
n
i
i i
k E u k k E u u
k
x x
|
o
o o
= +
= = =

( )
2
2 2
var
i
x
o
| =
(9.6)

Caractersticas de la varianza:
La varianza de
2
| es directamente proporcional a
2
o (varianza de u) e
inversamente proporcional a
2
i
x
(varianza de X)
Dado
2
o , cuanto mayor sea la variabilidad de la variable X, ms centrado
estar el estimador del verdadero valor.
Dada la varianza de X
i
, a mayor
2
o (mayor variabilidad de los datos a
explicar o mayor variabilidad del error aleatorio), mayor ser la varianza del
estimador.

Tarea: demostrar que

2
2
2 2
1 2 2
1
var( )
i
i i
X
X
n x x n
| o o
(
= = +
(
(

(9.7)

Ahora vamos a calcular la covarianza entre
1
| y
2
|

( ) ( )( )
( )( )
1 2 1 1 2 2
1 1 2 2

cov , ( ) ( )

E E E
E
| | | | | |
| | | |
(
=

(
=

(9.8)

Sabemos que
1 2
1 2

Y X
Y X u
| |
| |
= + +
con lo que
1 1
| | :


( )
1
1 1 2 1
1 2 2 1
2 2

Y
Y X
X u X
X u
|
| | | |
| | | |
| |
=
= + +
= +

Sustituyendo en (9.8) tenemos:
( ) ( ) ( )( )
( )( ) ( )
( )
( )
( )( )
1 2 2 2 2 2
2 2 2 2 2 2
2
2 2
2
1 2 1 1 2 2 2
2
2
2

cov ,

1
... ...
i
u
i i n
n n n
i
i
i
E X u
E X E u
X E E k u
X E u u u k u k u k u
x n
X k
x
| | | | | |
| | | | | |
| |
o
o
o
(
= +
(

( (
= +

(
(
= +

(

(
= + + + + + +
(

= +

( ) ( )
2
1 2 2 2

cov , var
i
X X
x
o
| | | = =
(9.9)

Caractersticas de la covarianza:
Tanto
1
| como
2
| , dependen entre si.

El signo depende de X , si 0 X > la covarianza es negativa y viceversa.

Tanto las varianzas como la covarianza de los estimadores, dependen de datos
conocidos
( )
2
, , , ...
i i
X X n X

y de un parmetro desconocido
2
o .
Como no conocemos
2
o , porque es un parmetro poblacional, no conoceremos los
valores de las verdaderas varianzas. Estimaremos
2
o y eso nos permitir estimar
las varianzas de
1
| y
2
| .

Los productos cruzados son
iguales a cero, por el supuesto de
no autocorrelacin. E(u
i
u
j
)=0

Estimador de
2

Recordando la ecuacin (3.2),

1 2 i i i
Y X u | | = + + (9.10)

dividiendo entre n y aplicando sumatoria para todo i

1 2
i i i
Y X u
n n n
| | = + +

1 2
Y X u | | = + + (9.11)

restando (9.10)-(9.11) tenemos,

( )
1 1 2 i i i
Y Y X X u u | | | = + +

2 i i i
y x u u | = + (9.12)
Recordemos de (6.10) que:

2
i i i i i
e y y y x | = = (9.13)

sustituyendo (9.12) en (9.13)

( )
( )
2 2 2
2 2
i i i i i i i
i i i
e x u u y x u u x
e x u u
| | |
| |
= + = +
= +

Elevando al cuadrado:

( )
( )
( )
( )
( )
( )
( )
2
2
2 2
2
2 2
2 2 2 2

2
i i i
i i i i
e x u u
x u u x u u
| |
| | | |
(
= +

= +

Sumando para todo i


( )
( )
( )
( )
2
2
2 2
2 2 2 2

2
i i i i i
e x u u x u u | | | | = +

Aplicando esperanza
( )
( )
( )
( )
( )
( )
( )
( )
2
2
2 2
2 2 2 2
2
2
2
2 2 2 2

2

2
i i i i i
i i i i
A B C
E e E x E u u E x u u
x E E u u E x u u
| | | |
| | | |
(
( (
( = +

(

( (
= +

( )
2
i
E e A B C = + +
(9.14)

Vamos a desarrollar cada uno de los trminos por separado:

( )
2
2
2
2
2
2 2 2
2 2 2
var( )
x
i
i i
i
A x E x
x
o
|
o
| | o
=
= = =

( ) ( )
2
2
2 2
2 2
2 2 2 2
2 2 2 2 2
2
2 2 2
2
2
2
2 2
2
i i i
i i
i i i
nu
i i
i
i i
i
B E u u E u u u u
E u u u u
E u u u nu E u u nu nu
E u nu nu E u nu
u
E u nE u E u nE
n
E u
E u n
o
(
(
= = +

( = +

(
( ( = + = +

(

( ( = + =

(
| |
( ( ( ( = =
|

(
\ .

( =

( )
2
2
2
2
2 2
2
2
1
i n
n
n n n
n
o
o
o
o o
o
(

= =
=

El supuesto
utilizado es
que las u
i

son no
correlaciona
das
( )
( ) ( )
( )( )
( )( )
| |
( )
2 2
0
1 1 2 2 1 1 2 2
2 2 2
1 1 1 2 2 2 1 1
2 2
2
2 ... ...
2 ... ...
i i
i i i i i i i
k u
i i i i
n n n n
n n n n n n n
C E x u u E k u x u u x
E k u x u
E k u k u k u x u x u x u
k x E u k x E u k x E u k x E u u
| |

(
(
| |
(
( | = =
(
|
(
(
\ .

(
=

( = + + + + + +

( ( ( = + + + + +

=

2 2 2
1
2 2 2
i i i i
k x k x o o o = =

Sustituyendo los resultados de A, B y C en (9.14)

( )
2 2 2 2
2 2
( 1) 2
(1 1 2) ( 2)
i
E e A B C n
n n
o o o
o o
= + + = +
= + =

( )
2 2
( 2)
i
E e n o =
(9.15)

Si definimos que el estimador de la varianza del trmino de perturbacin
2
o se
basa en la varianza de los residuos corregido por los grados de libertad perdidos en
la estimacin de los parmetros, es decir:

2
2
( 2)
i
e
n
o =
(9.16)

El resultado de (9.15) nos asegura que estamos definiendo un estimador insesgado
de
2
o , porque:

2
2
2 2 2
( 2)
2
1 1
( 2)
2 2 2
i
i
n
e
E E E e n
n n n
o
o o
o

(
( ( = = =
(

=

Entonces (9.16) es un estimador insesgado de
2
o .

Varianzas estimadas

Sabemos de (9.6) que
( )
2
2
2
2 2
var
i
x
|
o
| o = =
y de (9.16) que
2
2
( 2)
i
e
n
o =
.

Entonces sustituyendo (9.16) en (9.6) tenemos la varianza estimada de
2
|
estimado:

2
2
2
2
( 2) 2
2 2 2
( 2)
i
e
n i
i i i
e
x x n x
|
o
o

= = =

(9.17)

Sustituyendo para
1
| :

1
2
2
2 2 2
2 2
1

i
i i
X
X
n x x n
|
o o o
(
= = +
(
(

(9.18)

Tarea: Hallas las varianzas estimadas para el ejemplo de la pgina 28.

10. Teorema de Gauss-Markov

Hiptesis: Si se cumplen los siguientes supuestos clsicos:

1. La variable explicativa X est dada (es no estocstica o no aleatoria).

2. ( )
0
i
u i E =

3. ( )
,
i j
u u E =
2
0
si i j
si i j
o =
`
=
)
, homocedasticidad y no autocorrelacin

4. No hay errores de especificacin.

TESIS: Los estimadores MICO son de mnima varianza entre los estimadores
lineales e insesgados. MICO, son los mejores estimadores lineales
insesgados (MELI).


Demostracin

Sabemos que
2
| es lineal ( )
2
i i
k Y | =
e insesgado ( )
2 2
E | |
(
=

y que
2
2
2
var( )
i
x
o
| =
.

Supongamos que existe otro estimador
*
2
|
lineal de
2
|
.

Entonces para que sea lineal
*
2
|
deber ser igual a
*
2 i i
wY | =
donde
i
w
es
algn ponderador.

Calculemos ( )
*
2
| E
y veamos qu condicin debemos exigirle a
i
w
para que
*
2
|

sea insesgado

( ) ( ) ( ) ( )
*
2 1 2 1 2
1 2
i i i i i i i
i i i
E w E Y w E X w X
w w X
| | | | |
| |
= = + + = + =
= +

Para que
*
2
|
sea insesgado se debe cumplir
0
1
i
i i i i
w
w X wx
=
= =

Veamos las condiciones que tiene que cumplir
i
w
para que la varianza sea
mnima:

( ) ( )
2
* 2 2 2 2 2
2
var( ) var var
i i i i i i
wY w Y w w
o
| o o = = = =

Sumando y restando
2
i
i
x
x
al trmino con sumatoria:

2
2
2 2
2 2 2 2
2 2
2
2 2 2 2
2 2
2 2 2
2 2 2
2
2
i i i i
i i
i i i i
i i i i
i i
i i i i
i i i i
i
i i i
x x x x
w w
x x x x
x x x x
w w
x x x x
x x w x x
w
x x x
o o
o
o o o
(
| | | |
= + = +
( | |
| |
(
\ . \ .

(
| | | | | || |
(
= + +
| | | |
| | | |
(
\ . \ . \ .\ .

| | | |
= + +
| |
| |
\ . \ .

( )
( )
i
2
2
2
2
2
2 2 2 2
2 2 2 2
2
El trmino entre parntesis es cero,
Ya que para que exista insesgamiento
Se requiere que: x 1
1 1
2
i
i
i
i
i
i i i i
i i i
i
w
x
x
x
w x w x
x x x
x
o o o
=
| |
|
|
\ .
| | | |
= + +
| |
| |
\ . \ .

( )
2
2
* 2
2 2 2
var
i
i
i i
x
w
x x
o
| o
| |
= +
|
|
\ .

(10.1)

Necesitamos minimizar esto, pero el segundo sumando
2
2
i
x
o
es un nmero, es
una constante; entonces, minimizar ( )
*
2
var |
es equivalente a minimizar
2
2
i
i
i
x
w
x
| |
|
|
\ .

y este cuadrado se minimiza cuando la base es igual a cero, es
decir, se minimiza cuando:
2
0
i
i
i
x
w
x
=
o sea
2
i
i
i
x
w
x
=
.

La condicin que minimiza la varianza es que
2
i
i
i
x
w
x
=
, que es una condicin

igual a la de MICO, por lo que
*
2 2
| | =
.

( ) ( )
2
*
2 2 2
var var
i
x
o
| | = =

Este teorema asegura que si existe otro estimador (
*
2
|
) con similares propiedades
al que tiene MICO (linealidad e insesgamiento), para que la varianza de
*
2
|
sea
mnima, este estimador debe ser el estimador MICO.

Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e
insesgados.

Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades
importantes:

Linealidad.
Insesgamiento.
Mnima varianza dentro de la familia de estimadores lineales e insesgados
(eficientes entre los estimadores lineales e insesgados).

Tarea: Verificar cuales de los supuestos del MCRL son necesarios para cada una
de las propiedades (linealidad, insesgamiento y mnima varianza)

11. Regresin sin intercepto (a travs del origen)

En el algunas ocasiones tendremos que estimar regresiones como
2 i i i
Y X u | = + , en
las cuales no existe el trmino del intercepto, las cuales son llamadas regresiones a
travs del origen.

Derivacin del estimador
2
|

Ahora tenemos que,

( )
2
i i i
e Y X | =

Procedemos a elevar al cuadrado y sumar para todo i

( )
2
2
2
i i i
e Y X | =

Planteando el problema de minimizacin y resolviendo

( )
( )
( )
2
2
2
2
2
2
min
2 0
i i i
i
i i i
e Y X
d e
Y X X
d
|
|
|
=
= =

( )
( )
( )
2
2
2
0
i i i
i i i
Y X X
Y X X
|
|
=
=

Despejando obtenemos:

2 2
i i
i
Y X
X
| =
(11.1)

Sesgo y varianza

Si sustituimos
2 i i i
Y X u | = + en (11.1), tenemos

( )
2
2 2
2
2
2
2 2
i i i
i
i i i
i
i i
i
X u X
X
X X u
X
X u
X
|
|
|
|
+
=
+
=
= +
(11.2)

Aplicando esperanza a
2
|

2 2 2
2
i i
i
X u
E E
X
| | |
(
(
= + =
(

(

, por lo tanto es un estimador insesgado

Ahora veamos la varianza cul es la varianza


( ) ( )
2
2 2 2
2
2 2
2
2 2 2
2
2

var
i i
i
i i
i
E E
E
X u
E
X
X u
E
X
| | |
| |
| |
(
=

(
=

(
= +
(
(

(
=
(
(

Desarrollando el trmino dentro del corchete, tomando en cuenta que X
i
es no
estocstica y las u
i
son homocedsticas y no correlacionadas, obtenemos:

( )
2
2 2
var
i
X
o
| =
(11.3)

donde ahora, ya que slo prdemos un grado de libertad para calcular
2
i
e
, el
estimador de
2
o es:

2
2
( 1)
i
e
n
o =
(11.4)

Comparemos con los resultados del modelo con intercepto:

Regresin sin
intercepto
Regresin con
intercepto
Estimador de
2
|
2 2
i i
i
Y X
X
| =

2 2
i i
i
y x
x
| =

Varianza de
2
|
( )
2
2 2
var
i
X
o
| =

( )
2
2 2
var
i
x
o
| =

Estimador de
2
o
2
2
( 1)
i
e
n
o =

2
2
( 2)
i
e
n
o =

La diferencia consiste en que el modelo de regresin sin intercepto se utilizan
sumatorias sencillas, mientras que el modelo con intercepto se utilizan sumas
ajustadas por la media (en desvos).

11.2 Caractersticas del modelo sin intercepto

La sumatoria de los errores es diferente de cero 0
i
e =

En el modelo de regresin con intercepto, de la primera ecuacin normal,
concluimos que 0
i
e =
. En el caso del modelo sin intercepto, no sucede esto,

sino que 0
i
e =
. Supongamos que 0
i
e =
, entonces:

2
2
2
2
i i i
i i i
i i
i
i
Y X e
Y X e
Y X
Y
X
|
|
|
|
= +
= +
=
=

Y
X
| = (11.5)

Este estimador de
2
| , es diferente al encontrado anteriormente en (11.1). Dado
que el estimador de (11.1) se demostr que era insesgado, el encontrado en (11.5)
no puede serlo.

En el modelo a travs del origen, no se cumple 0
i
e =
, aunque si podemos
concluir que 0
i i
X e =
. (Por qu?)

El R
2
en el modelo de regresin a travs del origen (R
2
simple)

Para el modelo con intercepto R
2
segn (7.1) equivale a:

2
2
2
1 1
i
i
e
SCR
R
SCT y
= =

(11.6)

donde
2 2 2 2
2
i i i
e y x | =

, o sea SRCSTC, por lo que R
2
es siempre positivo.

Pero en el modelo sin intercepto, se puede demostrar que
2 2 2 2
2
i i i
e Y X | =

,
pero no existe garanta de que SRCSTC, lo cual implica que el R
2
como lo
conocemos pueda ser negativo.

En el caso del modelo de regresin a travs del origen se puede calcular el llamado
R
2
simple (aunque no es directamente comparable con R
2
convencional):

( )
2
2
2 2
i i
i i
X Y
R
X Y
=

(11.7)

Debido a las caractersticas especiales del modelo sin intercepto es preciso ser
cauteloso al utilizarlo. Al menos que haya gran certeza de su conveniencia, es
mejor utilizar el modelo usual con intercepcin, debido a:
Si el intercepto se incluye y resulta estadsticamente no significativo, en la
prctica, es como si tuviramos una regresin por el origen
4
.
Si el modelo tiene un intercepto, pero no lo incluimos, incurrimos en el
sesgo de especificacin, uno de los supuestos clsicos.

11.3 Estimacin con versus sin intercepto

Supongamos que el proceso generador de Y est dado por la ecuacin XX.

1 2 i i i
Y X u | | = + +

Llamemos
2
| al estimador MICO de
2
| de una regresin sin intercepto. Qu
sucede si utilizamos
2
| estimado de una regresin sin intercepto? En el grfico
tenemos una muestra de 10 observaciones donde el verdadero modelo incluye
intercepto, y las rectas de regresin estimadas con 2 modelos: uno con intercepto y
otro sin intercepto. A qu se debe la diferencia entre
2
| y
2
| ?

4
Sin embargo, es preciso sealar que si el intercepto efectivamente est ausente (de la FRP), entonces es ms
preciso el estimador de la pendiente.

Dado que
2
| procede de una regresin cuyo intercepto es cero, tiene una mayor
pendiente, ya que est forzado a partir del origen. Se puede demostrar que
2
| es
sesgado.

Tarea: demuestre que
2
| es sesgado.

12. Diferentes formas funcionales de los modelos de regresin

Hemos supuesto que el modelo de regresin es lineal en los parmetros, mas sin
embargo puede ser o no lineal en las variables. A continuacin se consideran
algunos modelos no lineales en las variables. Dado que estos modelos continan
siendo lineales en los parmetros, pueden ser estimados utilizando MICO.

12.1 Modelo doble logartmico, log-log o log-lineal

Supongamos el siguiente modelo exponencial,
2
1
exp
i
u
i i
Y X
|
| = , si aplicamos las
propiedades de los logaritmos tenemos

1 2
ln ln ln
i i i
Y X u
o
| | = + + (12.1)
Si derivamos (logartmicamente) respecto de la variable X,

2
2
2
ln
ln
%
%
d Y
d X
Y
Y X
Y
X
X Y
X
Y
X
|
|
|
=
A
A
= =
A
A
A
=
A

Donde
2
| es una elasticidad constante e indica el cambio % en la variable Y

provocado ante un cambio % de la variable X.

12.2 Modelo log-lin

Consideremos ahora que ( )
0
1 exp
t
t
u
t
Y Y r = + . Aplicando logaritmo tenemos

( )
0
ln ln ln 1
t t
Y Y t r u = + + + (12.2)

que podemos expresar tambin como

1 2
ln
t t
Y t u | | = + + (12.3)

donde
1 0
lnY | = y ( )
2
ln 1 r | = + .

Supongamos que en (12.3) la variable explicativa no es el tiempo, sino X.
Entonces tenemos

1 2
ln
i i i
Y X u | | = + + (12.4)

Diferenciamos respecto a X,
2
2
2
ln
%
d Y
dX
dY
Y
dX
Y
X
|
|
|
=
=
A
=
A


En este caso
2
| es una semielasticidad, e indica el cambio % en Y ante un cambio
en unidades (absoluto) de la variable X.

12.3 Modelo lin-log

Supongamos el siguiente modelo, donde ahora la variable en logaritmo est en el
lado derecho

1 2
ln ln
i i i
Y X u | | = + + (12.5)

Diferenciamos respecto a la variable del coeficiente de pendiente (X) y tenemos,

2
2
2
ln
%
dY
d X
dY
dX
X
Y
X
|
|
|
=
=
A
=
A

En este modelo
2
| busca explicar cambios absolutos en Y ante cambios % de X.

13. Ejercicios

1. La funcin de produccin de una industria que tiene retornos constantes a escala
se puede representar como
o o
=
1
L AK Y .

a) Puede estimarse el parmetro mediante mnimos cuadrados ordinarios? Si la
respuesta es afirmativa, explique cmo.

b) Se tiene la siguiente matriz de varianzas y covarianzas, para una muestra de 27
empresas.
LN(Y)-LN(L) LN(K)-LN(L)
LN(Y)-LN(L)
0.0611 0.0809
LN(K)-LN(L)
0.0809 0.2229

Adems se sabe que la sumatoria
( )
ln 45.3594
Q
L
=
y
( )
ln 45.4213
K
L
=
.
Encuentre los estimadores de los parmetros, para la funcin de produccin del
sector. (Pista: recuerde las frmulas de la varianza y covarianza muestral).

c) Si la suma de residuos al cuadrado es igual a 0.8557, encuentre el estimador de
la varianza, las varianzas estimadas de los coeficientes y el coeficiente de
determinacin

2. Considere los siguientes datos obtenidos de una muestra aleatoria, y calcule los
estimadores de la pendiente para un modelo con intercepto y otro sin intercepto.
Comente las diferencias entre ambos estimadores.

Obs. X Y X
2
Y
2
XY
1 4.5 6.1 20.3 37.6 27.6
2 2.0 4.0 4.0 15.7 7.9
3 1.0 2.8 1.0 7.8 2.8
4 0.0 2.8 0.0 8.1 0.0
5 3.5 5.0 12.3 24.9 17.5
6 3.0 4.7 9.0 21.7 14.0
7 1.5 3.6 2.3 12.7 5.3
8 2.5 4.3 6.3 18.6 10.8
9 4.0 5.7 16.0 32.6 22.8
10 5.5 6.8 30.3 46.4 37.5
27.5 45.8 101.3 226.1 146.2

Captulo 3

Modelo de Regresin Lineal
Mltiple: Estimacin

El modelo de regresin simple no siempre es til, pues comnmente la variable
explicada es afectada por ms de una variable. En este captulo se presenta el
modelo de regresin lineal mltiple, (MRLM) tanto en su versin de lgebra lineal
como matricial, la derivacin de los estimadores, sus propiedades y los supuestos
del modelo clsico de regresin.

1. Notacin
El MRLM se representa de la forma siguiente:

1 2 2 3 3
....
i i i k ki i
Y X X X u | | | | = + + + + + (1)

1
| es el intercepto
k
| es el coeficiente parcial
k es el nmero de regresores y tambin el nmero de variables
k-1 es el nmero de variables explicativas
i es la isima observacin de una poblacin n

1.1 Interpretacin de los coeficientes
Si tomamos la esperanza condicional de (2) obtenemos:

| |
1 1 2 2 3 3
/ ... ....
i k i i k ki
E Y X X X X X | | | | = + + + + (2)
1

1
Esta ecuacin equivale a la Funcin de Regresin Poblacional del modelo de regresin mltiple.
Modelo de Regresin Lineal Mltiple: Estimacin 59

Entonces
2
| mide el cambio en el valor esperado de Y, por unidad de cambio en
X
2
, permaneciendo el resto de X
k
constantes (ceteris paribus). O sea, mide el
efecto directo o neto en E(Y) sobre un cambio en X
2
. El concepto de X
k

constantes significa que no se hacen cambios sobre el resto de variables X
k
2
; no
significa que todas las isimas observaciones de las variables X
k
son iguales a cero,
sino que se dej la muestra constante con el mismo valor.

1
| es el intercepto, que al igual que el modelo simple, indica el valor esperado
(promedio) sobre Y
i
, de las variables excluidas del modelo.

1.2 Enfoque matricial
Generalizando la ecuacin (1) para cada una de las n observaciones, tenemos un
sistema de n ecuaciones simultneas:

1 1 2 21 3 31 1 1
2 1 2 22 3 32 2 2
1 2 2 3 3
....
....
....
k k
k k
n n n k kn n
Y X X X u
Y X X X u
Y X X X u
| | | |
| | | |
| | | |
= + + + + +
= + + + + +
= + + + + +

Estas ecuaciones se pueden representar de forma matricial:

1 21 31 1 1 1
2 22 32 2 2 2
2 3
1
1
1
1
1 1
k
k
n n n kn k n
Y X X X u
Y X X X u
Y X X X u
n
n k n k
|
|
|
( ( ( (
( ( ( (
( ( ( (
= +
( ( ( (
( ( ( (

u
Y X

Y es el vector columna de la variable dependiente con dimensiones nx1.
X es la matriz de orden nxk que contiene k-1 variables explicativas y la primera
columna de 1 que representan el intercepto. Tambin se llama matriz de
informacin.
vector columna de kx1 con los parmetros del modelo.
u vector columna de nx1 con los trminos de perturbacin.

2
El concepto es el mismo que el de una derivada parcial.
El modelo de regresin se denota matricialmente de la manera siguiente:

= + Y X u (3)

2. Estimadores MICO
2.1 Derivacin
Primero vamos a derivar los estimadores utilizando el lgebra lineal, al igual que
en el modelo simple y luego veremos la derivacin matricial.

1 2 2 3 3

....
i i i k ki
Y X X X | | | | = + + + + (4)

Al igual que para el modelo de regresin simple, dada la FRM del modelo de
regresin mltiple (4), para obtener los estimadores MICO, debemos de minimizar
la sumatoria de los errores al cuadrado.

2
1
2
2
2
2 2
1 2 2 3 3
1 2 2 3 3
1 2 2 3 3 2
1 2 2 3 3

min ( .... )

2 ( .... )( 1) 0

2 ( .... )( ) 0

2 ( .... )
i
i
i
k
i i i i k ki
i i
e
i i i k ki
i
e
i i i k ki i
i
e
i i i k ki
e Y X X X
Y X X X
Y X X X X
Y X X X
|
|
|
| | | |
| | | |
| | | |
| | | |
c
c
c
c
c
c
=
= =
= =
( ) 0
ki
i
X =
(5)

De la primera Ecuacin Normal podemos obtener:

1 2 2 3 3
1 2 2 3 3
1 2 2 3 3

( .... ) 0

.... 0

.... 0
i i i k ki
i
i i i k ki
i i i i i
i i i k ki
Y X X X
Y X X X
Y X X X
| | | |
| | | |
| | | |
=
=
=

1 2 2 3 3

....
i i i k ki
Y X X X | | | | = (6)

Si tomamos la presentacin del modelo en desvos y resolvemos el problema de
minimizacin de los errores al cuadrado, tenemos unas CPO similares a las
anteriores.

ki k i i i
x x x y | | |

....

3 3 2 2
+ + + =

2
2
2
2 2
2 2 3 3
2 2 3 3 2
2 2 3 3

min ( .... )

2 ( .... )( ) 0

2 ( .... )( ) 0
i
i
k
i i i i k ki
i i
e
i i i k ki i
i
e
i i i k ki ki
i
e y x x x
y x x x x
y x x x x
|
|
| | |
| | |
| | |
c
c
c
c
=
= =
= =

Luego, al igual que para el modelo simple se despejan los betas estimados. Por
simplicidad, supongamos que el modelo tiene solamente 2 variables explicativas
(k=3), o sea
1 2 2 3 3 i i i i
Y X X u | | | = + + + . Tomemos las Ecuaciones Normales de
2
|
y
3
| , y haciendo algunas manipulaciones algebraicas:

Ecuacin Normal de
2
|

2
2
2
2 2 3 3 2
2
2 2 3 3 2
2
2 2 3 3 2
2
2 2 3 3 2

( )( ) 0

( ) 0

0

i
i
i
i i i i
i
i i i i
i
i i i i
i i i i
y x x x
y x x x x
y x x x x
y x x x x
| |
| |
| |
| |
=
=
=
= +

Ecuacin Normal de
3
|

3
3
3
2 2 3 3 3
2
3 2 3 3
2
3 2 3 3
2
3 2 3 3

( )( ) 0

( ) 0

0

i
i
i
i i i i
i
i i i
i
i i i
i i i
y x x x
y x x x
y x x x
y x x x
| |
| |
| |
| |
=
=
=
= +

Si despejamos
3
| de la ltima expresin de ambas ecuaciones normales y las

igualamos, podemos despejar y obtener
2
| y
3
| .

( )
3
2 3
2
2 3 2 3
2 2
2 2
2 3
i
i i
i i i i i i
i i
y x x y x x x
x x x x
|

=

(7)

( )
2
3 2
2
3 2 3 2
3 2
2 2
3 2
i
i i
i i i i i i
i i
y x x y x x x
x x x x
|

=

(8)

Derivacin matricial del modelo general

A partir de las Ecuaciones Normales (5):

2
1
2
2
2
2
2 2
1 2 2 3 3
1 2 2 3 3
2
2 1 2 2 3 3 2 2
1 2 2 3 3

min ( .... )

.... 0

.... 0

i
i
i
i
k
i i i i k ki
i i
e
i i i k ki
e
i i i i i k ki i
e
i ki ki i ki i
e Y X X X
Y n X X X
Y X X X X X X X
Y X X X X X
|
|
|
| | | |
| | | |
| | | |
| | |
c
c
c
c
c
c
=
= =
= =
=

2
.... 0
ki
ki k
X X | =

despejando los trminos con Y


2
1 2 2 3 3
2
2 1 2 2 3 3 2 2
2
1 2 2 3 3

....

....

....
i
ki
i i i k ki
i i i i i k ki i
i ki ki i ki i ki k
Y n X X X
Y X X X X X X X
Y X X X X X X X
| | | |
| | | |
| | | |
= + + + +
= + + + +
= + + + +

(9)

Matricialmente (9) equivale a:

1
1 2
2
21 22 23 2 2 2 2 2
2
2
1 2 3 2
1 1 1 1
i ki
n i i i ki
k k k kn n ki ki i ki
k
Y n X X
X X X X Y X X X X
X X X X Y X X X X
|
|
|
(
(
( (
(
(
( (
(
(
( (
=
(
(
( (
(
(
( (
(
(

(10)

Dadas las definiciones de matrices siguientes:

1
2
1
1
n
n
n
Y
Y
Y
(
(
(
=
(
(

Y
1
2
1
1
n
k
kx
|
|
|
(
(
(
=
(
(
(

21 31 1
22 33 2
2 3
1
1
1
k
k
nxk
n n kn
nxk
X X X
X X X
X X X
(
(
(
=
(
(

X
21 22 23 2
1 2 3
1 1 1 1
'
n
kxn
k k k kn
k n
X X X X
X X X X
(
(
(
=
(
(

X

2
2
2 2 2
2
2
i ki
i i i ki
kxk
ki ki i ki
kxk
n X X
X X X X
X X X X
(
(
(
=
(
(
(

X'X

Podemos expresar (10) como:

X X' Y X'

=

Si ( )
1
X X' existe, puedo premultiplicar por ( )
1
X X' y obtenemos:

( ) ( )
( ) Y X' X X'
X X' X X' Y X' X X'
I

1
1 1
=
=

( )
1

= X'X X'Y (11)

Importante: Una condicin necesaria para poder estimar los parmetros es que la
matriz ( )
X'X sea invertible (no singular), o sea que sea una matriz cuadrada con
determinante diferente de cero.

Otra forma de encontrar

De (3) sabemos que u X Y + = y de la misma forma e X Y + =

, donde
es el
vector kx1 de los estimadores MICO y e es el vector kx1 de los residuos.

La notacin matricial de
2
i
e
, equivale a e e' , por lo tanto el problema de

minimizacin de los errores al cuadrado se convierte en:

min ( )'( ) = e'e Y X Y X (12)

Antes de continuar, recordemos algunas propiedades de operaciones con matrices:

( )
( )
( )
( ) ( )
1
1
' ' '
' ' '
' '
' '
si ', entonces es simtrica
=
=
=
=
=
A B A B
AB B A
A A
A A
A A A

Luego, aplicamos las operaciones con matrices a (12)
3
:

min ( )'( )

( ' ' ')( )

' ' ' ' ' '

' 2 ' ' ' '
=
=
= +
= +
e'e Y X Y X
Y X Y X
Y Y Y X X Y X X
Y Y X Y X X

Ahora derivamos matricialmente para encontrar el vector
:

( )

' ' 2 ' ' '
0

c c c c
= + =
c c c c
=
= =
= =
-1
e e Y Y X Y X'X

0 - 2X'Y + 2X'X = 0
2X'X 2X'Y
X'X X'Y
= X'X X'Y
(13)
4

( )
1

= X'X X'Y (14)

3. Propiedades de la regresin por MICO
As como para el modelo simple, para el modelo de regresin mltiple se puede
demostrar que:

1. La lnea de regresin pasa a travs de las medias
2 3
, , ...
k
Y X X X .
2. El valor medio de Y estimado es igual al valor medio de Y observado
Y Y =
3. La sumatoria de los residuos es igual a cero 0
i
e =
.
4. Los residuos no estn correlacionados con las X
k
. 0
i i
e X =
X'e = 0.
5

3
Los trminos
Y'X y
'X'Y equivalen a un escalar por ser de orden 1x1, donde uno es el transpuesto del otro, por
lo que puedo sustituirlo por
2'X'Y
4
El trmino

'X'X equivale a una forma cuadrtica, donde

c
=
'X'X
X'X
.
5. Los residuos no estn correlacionados con
Y .
6. La regresin se puede expresar en desvos.

4. Descomposicin de la suma de cuadrados
Recordando del modelo simple:

2 2 2 2 2 2
2

i i i i i
SCT SCE SCR
y x e y e |
= +
= + = +

2 2 2 2
2
( )
i i i
STC y Y Y Y nY
nY
= = =
=

Y'Y
(15)

Si definimos Y y' = (Y- )', entonces la STC tambin es igual a
2
nY y'y = Y'Y

2 2 2 2
2 2

( )

i i i
SEC y Y Y Y nY
nY nY
= = =
= =

Y'Y 'X'X
(16)

2
i
SRC e = =
e'e (17)

Entonces, el coeficiente de determinacin R
2
equivale a:

2
2
2
SCE nY
R
SCT nY
= =
'X'X
Y'Y
(18)

De manera alternativa:

2
2
1 1 1
SCE SCT SCE SCR
R
SCT SCT SCT nY
= = = = =
e'e e'e
Y'Y y'y
(19)

Pero en el modelo de regresin mltiple hay un problema. A medida que se
agregan variables aunque no sean significativas (algo explican), disminuye
e e' = =
2
i
e SRC y R
2
aumenta.

5
En otras palabras, el vector de errores es ortogonal a la matriz X.
Una forma de resolver el problema es ajustando el R
2
por el nmero de grados de
libertad de la manera siguiente:

2
2
1
1 1 1 1
1 1
1
SCR
n
n k n k n k
R
SCT
nY n k
n n
n

= = = =

e'e e'e
e'e
y'y
Y'Y y'y
(20)

Esta expresin la llamamos R
2
ajustado.

Sustituimos (19) en (20) tenemos la relacin entre ambos coeficientes.

( )
2 2
1
1 1
n
R R
n k
(21)

Propiedades del
2
R

2 2
R R s . Son iguales cuando la correlacin es perfecta
Si aumenta el tamao muestral, dado k, el
2
R tiende a
2
R
Dado n, al aumentar el nmero de variables explicativas, (
2
R -
2
R ) aumenta

2
R puede ser negativo

5. Supuestos clsicos del modelo de regresin mltiple
Al igual que en el modelo simple, requerimos una serie de supuestos para
determinar las propiedades estadstica de los estimadores MICO.

Estos supuestos clsicos para el modelo de regresin mltiple son equivalentes a
los del modelo simple y se pueden expresar en notacin escalar o matricial.

Supuesto Notacin escalar Notacin matricial
El modelo es
lineal en los
parmetros y est
bien especificado
1 2 2
....
i i k ki i
Y X X u | | | = + + + +
= + Y X u
Las X son fijas en
muestreo repetido
X
2
,X
3
,X
k
son fijas o no
estocsticas
La matriz
k n
X

es no
estocstica o de nmeros
fijos
El valor esperado
de la perturbacin
u
i
es igual a cero
E(u
i
)=0
1
( )
n
E

= u 0
Homocedasticidad
y no
autocorrelacin
2
0
cov( , ) ( , )
i j i j
i j
u u E u u
i j o
=
= =

=

2
( ') E o = uu I
No
multicolinealidad,
o sea no hay
relacin lineal
exacta entre la
variables X
0 ...
3 3 2 2
= + + +
ki k i i
X X X y
1 2
... 0
k
= = =
El rango de X es igual a
k, ( ) k = X , donde k<n,
siendo k es el nmero de
columnas linealmente
independientes en X

5.1 El modelo de regresin es lineal en los parmetros y se encuentra
bien especificado.
Las implicancias de este supuesto son las mismas que en el modelo simple: el
modelo es lineal en los parmetros, no hay variables omitidas, no hay variables
intrusas y tiene la forma funcional correcta.

5.2 Los valores de X son fijos en muestreo repetido
La matriz
n k
X es no estocstica. Nuestro anlisis es condicional a X, que se
supone fija y la nica fuente de variacin de Y viene dada por el trmino
estocstico.

5.3 El valor esperado de ui es igual a cero

( )
( )
( )
1 1
2 2
0
0
0
n n
E u u
E u u
E
E u u
(
( (
(
( (
(
( (
= =
(
( (
(
( (
(

(22)

Entonces ( ) ( ) ( ) E E E = = + = Y/X X +u X u X. Es decir se cometen errores
pero en promedio estaremos sobre los valores esperados.

5.4 Homocedasticidad y no autocorrelacin
( ) | |
( ) ( )
( ) ( )
( ) ( )
2
1 1 2 1
1
2
2 2 1 2 2
1 2
1
2
1
1 2
2
2
2 2
2
( )
( )
'
( )
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
n
n
n
n
n
n
n n n
n n
E u E u u E u u
u
u E u u E u E u u
E E u u u
u
E u u E u u E u
o
o
o o
o
(
(
(
(
(
(
= =
(
(
(
(
(

( (
( (
( (
= = =
( (
( (

uu
I
(23)

5.5 No multicolinealidad
Este es un requisito que permite invertir X'X y que es necesario para obtener los
estimadores MICO.

El rango
6
de una matriz es el mximo nmero de columnas (o filas) linealmente
independientes. Para que una columna (fila) sea linealmente independiente (LI),
ste no debe ser resultado de ninguna combinacin lineal de las dems.

En nuestro caso, el rango de X es ( ) k = X , donde k<n, siendo k es el nmero de
columnas linealmente independientes en X.

Si 0 ...
3 3 2 2
= + + +
ki k i i
X X X y
k
es = cero, existe colinealidad entre las X
k
.
De forma matricial se expresa 'X= 0, donde ' es un vector fila de 1xk y X un
vector columna de kx1.

Para el caso del modelo con dos variables explicativas X
2
y X
3
, se puede plantear
matemticamente este supuesto como:

6
Propiedades del rango de una matriz:
El nmero mximo de filas LI es igual al nmero mximo de columnas LI.
Rango ( ) ( ) min ,
m n
m n
s A
Rango A = Rango ' A
Si rango
m n
A m=n, entonces A es no singular y su inversa existe y es nica.
Rango ( ) X'X = Rango ( ) ' XX = Rango X.

2 2 3 3
0
i i
X X + = , si
1

2
es = cero, existe colinealidad entre X
2
y X
3
.

A medida que mayor es el rea entre la variable dependiente y las explicativas
(rea 1 y 2) mayor es la informacin comn y menor la varianza de los
coeficientes.

Sin embargo, cuanto mayor sea el rea comn entre las variables explicativas (rea
4), mayor ser la colinealidad de las variables y mayor ser la varianza de los
estimadores.

A medida que se agregan variables explicativas los parmetros del modelo son
calculados cada vez con menos informacin, provocando un incremento en las
varianzas de los estimadores.

6. Propiedades de los estimadores
6.1 Linealidad
El estimador ( )
1

= X'X X'Y es lineal en Y, ya que cada elemento de
es una
combinacin lineal de elementos de Y, ponderadas por los X, los cuales
suponemos fijos.

y
x
3

1
2
x
2

y
x
3

3
5
x
2

4
6.2 Insesgamiento
Sabemos de (14) que ( ) Y X' X X'
1

= y de (3) u X Y + = . Sustituyendo (3) en
(14) tenemos:

( ) ( )
( ) ( )
( )
1
1 1
1
= +
= +
= +
X'X X' X u
X'X X'X X'X X'u
X'X X'u
(24)


| | ( )
1
( )
( )
E E E
E
(
= +

=
X'X X'u

(25)
Por lo tanto
es insesgado.

6.3 Eficiencia
La expresin matricial de la varianza y la covarianza la tenemos en la matriz
varianza-covarianza.

Despejando en (24) tenemos que:

( )
1

= X'X X'u

( ) ( )( )
( )( )
( )
{ }
( )
{ }
( ) ( )
( ) | | ( )
( ) ( )
( ) ( )
( )
1 1
1 1
1 1
1 1
2
1 1
2
1
2

var cov ( ) ( ) '

'
'
'
'
E E E
E
E
E
E
o
o
o

(
=

(
=

(
=

(
=

=
=
=
=
I

X'X X'u X'X X'u
X'X X'uu X X'X
X'X X' uu X X'X
X'X X' X X'X
X'X X'X X'X
X'X

( )
( )
1
2
var cov o

= X'X (26)

La cual se puede representar como:

( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
1 1 2 1
2 1 2 2
1 2

var cov , cov ,

cov , var cov ,
var cov

cov , cov , var
k
k
k k k
kxk
| | | | |
| | | | |
| | | | |
(
(
(
(
=
(
(
(

(27)

Por otro lado, se puede demostrar que un estimador insesgado de
2
o es:

2
2
i
e
n k n k
o = =

e'e
(28)

Las expresiones de las varianzas de la forma algebraica para un modelo con k=3
corresponden a:

2
2 2 2
2 23
var( )
(1 )
i
x r
o
| =
y
2
3 2 2
3 23
var( )
(1 )
i
x r
o
| =

Donde
( )

=
2
3
2
2
2
3 2 2
23
x x
x x
r , es un coeficiente de determinacin (R
2
)

de una regresin
entre las variables explicativas.

2
3
2
2 23
2
23
3 2
) 1 (
)

cov(
i i
x x r
r
=
o
| |

Caractersticas de la varianza de los estimadores

A medida que
23
r aumenta, aumenta la varianza de los parmetros estimados
2
| y
3
| , reflejando el problema de multicolinealidad.

Las varianzas de
2
| y
3
| son proporcionales a
2
o .
Las varianzas de
2
| y
3
| son inversamente proporcionales a las variabilidad

de sus respectivas variables.

7. Teorema de Gauss-Markov

Captulo 4

Modelo de Regresin Lineal Simple:
Inferencia

Hasta ahora nos hemos ocupado solamente de la estimacin de los parmetros del
modelo de regresin lineal simple, lo cual hicimos a travs del mtodo de MICO.
Bajo los supuestos del modelo clsico, pudimos probar que los estimadores MICO,
satisfacen varias propiedades estadsticas deseables, siendo los de mnima varianza
entre los estimadores lineales e insesgados (son MELI).

Pero los estimadores MICO son variables aleatorias, que cambiarn segn la
muestra. Nuestro objetivo no es solamente estimar la FRM, sino poder hacer
inferencia respecto de la FRP.

Para poder hacer inferencia sobre los estimadores, es necesario conocer sus
distribuciones de probabilidad, algo que no hemos estudiado hasta ahora.

La Inferencia Estadstica nos sirve para saber:
Que tan cerca estn
1
| y
2
| de los parmetros poblacionales

Que tan cerca est
i
Y
del verdadero E(Y/X

i
)

1. Repaso Breve de algunos teoremas de Inferencia

1.1 Teorema 1. Teorema del Lmite Central

Este teorema indica que la distribucin de la suma de variables aleatorias tiende a
una distribucin Normal cuando la cantidad de variables es muy grande.

Modelo de Regresin Lineal Simple: Inferencia 75
Sean X
1
,X
2
,..X
n
una muestra de n variables aleatorias independientes e
idnticamente distribuidas (IID) que se toman de una poblacin con media y
varianza finita
2
o . La media muestral X tiene una distribucin con media y
varianza finita
2
n o que tiende hacia una distribucin normal conforme n tiende a
. Veamos:

1
1
n
i
i
X X
n
=
=

( )
1
1
n
i
i
E X X
n

=
= =

2
2
2 2
1 1
1 1 1
var( ) var var
n n
i i
i i
X X X n
n n n n
o
o
= =
| | | |
= = = =
| |
\ . \ .

Entonces a medida que n aumenta indefinidamente
( )
2
~ ,
n
n
X N
o
, es decir X se
acerca a la distribucin normal con media y varianza
2
n
o
. Este resultado se
cumple independientemente del la FDP de X.

En otras palabras, si definimos
( ) ( )
n n
Z X
o
= , tendr como lmite una
distribucin normal estndar:

( )
( )
lim ~ 0,1
a
n
n
n
n
n
n X
X
Z N
o
= =

1.2 Teorema 2

Si Z
1
, Z
2
,Z
n
, son variables aleatorias que se distribuyen normal e independientes,
de forma que Z
i
~
( )
2
,
i i
o , entonces Z = ( )
2 2
,
i i i i i i
k k N Z k o ~

O sea, la combinacin lineal de variables aleatorias independientes y normalmente
distribuidas, poseen una distribucin normal.

1.3 Teorema 3

Una covarianza nula entre dos variables aleatorias que se distribuyen Normal,
implica independencia estadstica. F(x,y) = f(x)f(y)

1.4 Teorema 4. Formacin de la distribucin Chi-Cuadrado

Si Z
1
, Z
2
,Z
n
son variables aleatorias independientes que se distribuyen N(0,1),
entonces
2 2 2 2 2
1 2
... ~
i n n
Z Z Z Z _ = + + +
.

( )
2 2
> P
o
_ _ o = La probabilidad de
que cualquier valor de la Chi-
cuadrado sea mayor a
2
o
_ es igual
al rea que se acumula arriba y a la
derecha de
2
o
_

Exactamente el 95% de una
distribucin Chi-cuadrado caen
entre
2
975 . 0
_ y
2
025 . 0
_ .

1.5 Teorema 5. Propiedad reproductiva de la Chi-cuadrado

Si
i
Z son variables aleatorias independientes y
i
Z ~
2
i
k
_ , entonces,
i
Z ~
2
i
k
_
.
O sea la suma de variables aleatorias independientes y distribuidas Chi-cuadrado
con k grados de libertad, poseen una distribucin Chi-cuadrado, cuyos grados de
libertad es la suma de todos los grados de libertad.

1.6 Teorema 6

Si
2
S es la varianza de una muestra aleatoria de tamao n tomada de una
poblacin normal que tiene la varianza
2
o , entonces el estadstico
2
2
( 1) 2 n S
o
_

=
tiene una distribucin Chi-cuadrado con n-1 grados de libertad.

0 _
o
2
o
( )
( ) ( )
2
2
1
2
2
1
1
1
n
i
i
n
i
i
X X
S
n
n S X X
=
=

( ) ( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( ) ( )
( ) ( )
2
2
2
1 1
2
2
1
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
2
2
2
n n
i i
i i
n
i i
i
i i
i i
i i
i
i
i
i
n S X X X X
X X X X
X X X X
X X X n X
X X X n X
n X
X X n n X
n
X X n X n X
X n X
n

= =
=
(
= + =

(
= +

= +
= +
= +
= +
= +
=

( ) ( ) ( )
( ) ( ) ( )
2
2
2
2
2
2
2 2 2
1
1
i
i
S X n X
n X X n S

o o o
=

=

Si
( )
2
~N ,
i
X o , el trmino
( )
2
2
i
X
o

, equivale a la sumatoria al cuadrado de

una variable que se distribuye normal estandarizada N(0,1), lo cual segn el
Teorema 4 equivale a una Chi-cuadrado con n grados de libertad. Los trminos del
lado derecho tienen n y 1 grados de libertad cada uno, por lo que
2
2
) 1 (
o
S n
, se
distribuye como Chi-cuadrado con n-1 grados de libertad.

1.7 Teorema 7. Formacin de la distribucin t-student

2
1
2
1 1
2
2
1 2
~ (0,1)
~ ~
, son independientes
k n k
Z
n
Z N
Z Z n
Z t t
Z
Z Z
_

= =
`
)

1.8 Teorema 8

Si X es la media de una muestra aleatoria de tamao n que se toma de una
poblacin normal con media y varianza finita y desconocida
2
o , pero varianza
estimada
2
S , entonces el
1
~
n
S
n
X
t t
=
se distribuye t-student con (n-1) grados
de libertad.

1.9 Teorema 9. Formacin de la distribucin F de Fischer

1
1
1
2 1 2
2
2
2
1
2
2 ,
~
~ ~
independiente de
1 2
k
Z
k
k k k
Z
k
Z
Z F F
Z Z
_
_

=
`
)

-t
o/2
t
o/2
0
o/2
P(-t
o/2
< t < t
o/2
) = 1 - o

( ) > P F F
o
o = la probabilidad de que cualquier valor de la F sea mayor a
o
F es
igual al rea que se acumula arriba y a la derecha de F
o
.

1.10 Teorema 10.

El cuadrado de una variable aleatoria con distribucin t-student con k grados de
libertad, tiene una distribucin F, con 1 grado de libertad en el numerador y k en el
denominador.

( )
2
1, k k
t F =

2. El supuesto de normalidad
( )
2
~ 0,
i
u N o
Para obtener los estimadores de
1
| y
2
| que sean MELI, no hicimos ningn
supuesto sobre la distribucin de probabilidades de u.

Ahora, para tener intervalos de confianza para los parmetros y probar cualquier
hiptesis requerimos el supuesto
( )
0,
i
u N o
2
~ i

2.1 Por qu suponemos distribucin normal?

Existen varias razones:
0 F
o
o
1. El argumento ms comn es que como u es la suma de muchos factores
distintos no observados que influyen en Y, por el teorema del lmite central
1
,
llegamos a la conclusin de que u tiene una distribucin normal.
2. Una variante del teorema del lmite central, establece que aunque el nmero
de variables no se muy grande o no sea estrictamente independiente, su suma
puede ser an normal
3. La distribucin de probabilidad de los estimadores MICO puede derivarse
fcilmente, como veremos en la prxima seccin
4. La distribucin normal es una distribucin sencilla, con tan slo dos
parmetros: media y varianza
5. Podemos hacer pruebas de hiptesis (t, F, _
2
) sobre los verdaderos
parmetros

Existen diversas crticas sobre este supuesto:
1. Los factores que afectan a u pueden tener distribuciones poblacionales muy
distintas. Aunque puede sostenerse el teorema central del lmite, los
resultados van a depender de cuantos factores afecten a u y que tan
diferentes sean sus distribuciones.
2. Supone adems que todos los factores afectan a u en forma lineal y aditiva
3. La normalidad es un problema emprico (no terico). Por ejemplo, como el
salario siempre es mayor que cero, estrictamente hablando no tiene una
distribucin normal; adems hay leyes de salario mnimo que hacen que una
parte de la poblacin gane exactamente el mnimo. Una solucin es
transformar la variable, por ejemplo utilizando logaritmos [log(salario)], lo
cual puede generar una distribucin que se acerque ms a la normal

2.2 Qu consecuencias tiene suponer que
( )
2
~ 0,
i
u N o ?
1.
i
u normal y no correlacionados, es decir, los u
i
son independientes.

2.
1 2 i i i
Y X u | | = + + , por lo que Y
i
es una combinacin lineal de variables
aleatorias que se distribuyen normal, o sea, Y
i
se distribuir normal.

( ) ( )
( ) ( ) ( )
1 2 1 2
2
1 2
var var var
i i i i
i i i i
Y X u X
Y X u u
| | | |
| | o
E = E + + = +
= + + = =

1
El teorema central del lmite demuestra que si existe un gran nmero de variables aleatorias independientes e
idnticamente distribuidas, entonces, la distribucin de su suma tiende a ser normal a medida que el nmero de
variables se incrementa indefinidamente.
Por lo que
( )
2
1 2
,
i i
Y N X | | o ~ +

3. Recordemos que
2 2
i i
k u | | = +
, entonces
2
| tambin es combinacin
lineal de variables aleatorias normales, o sea que
2
| es una variable
aleatoria que se distribuye normal.

( )
( )
( )
2
2
2 2
2
2
2 2
2
2 2
var
~ ,
u
i
x
N
|
|
| |
o
| o
| | o
E =
= =

4. Estandarizando,

( )
( )
2
1
2 2
2
1 1
1
~ 0,1
~ 0,1
Z N
Z N
|
|
| |
o
| |
o
=

5. Recordando el Teorema 6, podramos probar que:

( )
( )
2
2
2 2
2
~
n
n o
_
o

(1)

6. Sabemos que:

( )
2
2 2
~ 0,1 N
|
| |
o
; donde
2
2
2
2
u u
i
i
x
x
|
o o
o = =

Entonces,
( )
( )
2
2 2
2 2
2
~ 0,1
i
u
i
x
N
x
| |
| |
o
o
(2)

Podramos probar que (1) y (2) son independientes. Aplicando el Teorema 7:

( )
( )
( )
( )
2
2 2
2
2
2
~
2
2
i
u
n
u
u
x
t t
n
n
| |
o
o
o
(3)

Reorganizando (3) y simplificando:

( )
( )
( )
( ) ( )
( ) ( ) ( )
2
2
2 2 2
2 2 2 2 2 2
2 2
2
2
2
2 2 2 2 2 2
2
1
2

i i i
u u u
u
u u
u
u u
i
u
u
i
x x x
t
n
n
x
x
|
|
| | | | | |
o o o
o
o o
o
o
o
| | | | | |
o o
o
o

= = =

= = =

Es decir:

( )
2
2 2
2
n
t
|
| |
o

~ , y por similar procedimiento

( )
1
1 1
2
n
t
|
| |
o

~

Esto nos permitir obtener intervalos de confianza y realizar prueba de hiptesis
sobre
1
| y
2
| .

3. Intervalos de confianza para
1
| y
2
|

Estamos buscando
( )
2 2 2

1 P | o | | o o s s + = , es decir que la
probabilidad de que
2
| est entre dos valores sea ( ) o 1 . Vamos a buscar un
intervalo alrededor del cual estar contenido el verdadero parmetro. Donde
llamaremos ( ) o 1 al nivel de confianza y
o
al nivel de significancia.

Antes de encontrar el intervalo de confianza para
1
| y
2
| , es preciso recordar que:

1. El intervalo no dice la probabilidad de que
2
| est en el intervalo con una

probabilidad de ( ) o 1 ; sino que la probabilidad de construir un intervalo
que contenga
2
| es de ( ) o 1 .
2. El intervalo es aleatorio; va a depender de la muestra
3. Si se construyen intervalos de confianza, en promedio ( ) o 1 van a
contener el verdadero valor
4. Una vez obtenido un
2
| , no puedo decir que el intervalo contiene al

verdadero parmetro con probabilidad ( ) o 1 , sino que la probabilidad es 1
0. El intervalo es aleatorio (depende de la muestra), pero despus que se
utiliz una muestra, el intervalo queda fijo y por tanto la probabilidad de que
el verdadero valor est en el intervalo es cero o uno (est o no est).

Dado que
( )
2
2 2
2
n
t
|
| |
o

~ , entonces exactamente el ( ) o 1 de esta

distribucin t con n-2 grados de libertad, estar entre los valores t
/2
y t
/2
.

( )
( )
2 2
2 2
2
2 2 2
2 2
2 2
n n n
n n
P t t t
P t t
o o
o o
|
o
| |
o
o

s s =
| |
|
s s =
|
\ .

( )
( ) ( ) ( ) ( )
2 2
2 2
2 2
2 2
2 2 2 2
2 2 2 2 2
1

1
n n
n n
P t t
P t t
o o
o o
| |
| |
o | | o o
| o | | o o

s s =
(
s s + =
(

Por lo que finalmente:

( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
2 2
2 2
2 2
2 2
2 2 2 2 2
2 2 2 2 2

1

1
n n
n n
P t t
P t t
o o
o o
| |
| |
| o | | o o
| o | | o o

(
s s + =
(

(
+ > > =
(

Esto implica que el intervalo de confianza para
2
| es:
( )
2
2
2 2 2
n
IC t
o
|
| | o
=

De forma similar:

( )
2
1
1 1 2
n
IC t
o
|
| | o
=

Interpretacin: Dado un nivel de confianza de ( ) o 1 , el ( ) o 1 de las veces, el
intervalo contendr el verdadero parmetro.

4. Prueba de Hiptesis

Nos interesa verificar si las observaciones muestrales son compatibles con
determinada hiptesis. Por ejemplo:

0 2
1 2
:
:
H b
H b
|
|
=
=

Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o
no esa hiptesis en base a la informacin muestral.

Hay dos enfoques de la prueba de hiptesis:

4.1 Enfoque del intervalo de confianza

Supongamos que construimos un intervalo de confianza para
2
| . Luego es posible
discutir si el valor b que me estoy planteando como hiptesis nula cae o no dentro
del intervalo.

Es decir, buscamos un intervalo
( )
2
2 2
2
IC t
o
|
| | o = y luego:

0
0
.
Re .
Si b IC No rechazar H
Si b IC chazar H
- e
- e

El tamao del intervalo de confianza va a depender del nivel de confianza o y de
la varianza del estimador. Cmo podemos reducir el intervalo de confianza?
Reduciendo el nivel de confianza (aumentando o )
Aumentando la muestra, para disminuir la varianza del estimador

4.2 Enfoque de pruebas de significancia

Rechazo H
0

No rechazo H
0

Rechazo H
0

( )
2
2 2
2
t
o
|
| | o =

( )
2
2 2
2
t
o
|
| | o = +

El procedimiento se basa en utilizar un estimador y su distribucin, considerando
que sta se cumple bajo la hiptesis nula.

Sabemos que
( )
2
2 2
2
n
t
|
| |
o

~ , entonces bajo la hiptesis nula

2
2
2
n
b
t
|
|
o

~

( )
2
2 2
2
2 2
2
2 2
1
b
P t t
P t b t
o o
|
o o
| |
|
o
o
o | o o
| |
| s s =
|
\ .
s s =

( ) ( )
2 2
2
2 2
1 P b t b t
o o
| |
o | o o
(
| | | |
s s + =
| |
(
\ . \ .

Por lo que finalmente:

( ) ( )
2 2
2
2 2
1 P b t b t
o o
| |
o | o o
(
| | | |
+ > > =
| |
(
\ . \ .

Esto determina la regin de aceptacin y rechazo de la hiptesis:
Regin de aceptacin
( )
2
2
b t
o
|
o

Entonces rechazamos
0
H
si:

0
Re
c
c
c
t t
chazo H si t t
t t
>

>
`
<
)

Como
2
2
b
t
|
|
o
= , rechazo H
o
si
2
2
b
|
|
o
c
>t

Test de 1 Cola

H
0
: |
2
= b
2
H
1
: |
2
> b
2
Rechazo H
0
si t > t
c
Bajo Ho:
2
2
2
n
b
t
|
|
o

Acepto H
0
(no rechazo H
0
)
Rechazo H
0
,
( )
2
2
2
b t
o
|
| o <
Rechazo H
0
,
( )
2 2
2
b t
o
|
| o + >
0
f(t)

Test de 2 colas

H
0
: |
2
= b
2
H
1
: |
2
= b
2
Rechazo H
0
si |t| > t
c

Aceptar o Rechazar la H
o

Al momento de realizar un dictamen sobre la hiptesis nula, este debe de emitirse
como Rechaza H
0
, o No rechaza H
0
.

No se puede aceptar una hiptesis nula, puesto que no conocemos el verdadero
valor, sino que hacemos una inferencia de este.

Adems, las hiptesis nulas aceptadas, pueden ser muchas dependiendo de
cuales hiptesis est planteando.

t
c

o
t
c
- t
c
o/2
o/2
Error tipo I y tipo II

H
0
es cierto H
0
es falso
Rechazo H
0
Error tipo I
No rechazo H
0
Error tipo II

Si
2
| cae en alguna de las colas de la distribucin (Rechazo H

0
), puede ser por dos
razones.
a) La hiptesis nula es cierta, pero se ha elegido una muestra equivocada
b) La hiptesis nula es efectivamente falsa

La probabilidad de cometer un error de tipo I est dada por , el nivel de
significancia.

La probabilidad de cometer un error tipo II esta dada por |, en tanto que la
probabilidad de no cometer este error (1-|) se denomina potencia de la prueba.

Lo deseable sera minimizar simultneamente tanto los errores tipo I como tipo II,
pero como se puede apreciar en los grficos esto no es posible. En la prctica por
lo general el error tipo I es ms grave, por lo que se trata de minimizar primero este
error y luego el error tipo II.

2
| bajo H
1
2
| bajo H
0
o = P (Error Tipo I) = P (Rechazar H0/ H0 es cierto)

Valor-p (P-value)

En ocasiones, en lugar de seleccionar un arbitrario (como 1%, 5% o 10%), se
puede obtener el valor p o nivel exacto de significancia, el cual se define como el
nivel ms bajo de significancia al cual puede rechazarse la hiptesis nula, o la
probabilidad exacta de cometer un error tipo I.

Regla prctica de 2-t

Si el nmero de grados de libertad es 20 y el nivel de significancia , se fija en
0.05, entonces la hiptesis nula |
2
=0 se puede rechazar si el valor t calculado
excede en valor absoluto a 2.

| = P (Error Tipo II) = P (No rechazar H
0
/ H
0
es falso)

t
c
t
c
|
2
| bajo H
0
2
| bajo H
0
2
| bajo H
1
2
| bajo H
1
|

5. Anlisis de Varianza (ANOVA)

El test de ANOVA es un test de significancia global del modelo en su conjunto.
Intenta medir el ajuste de la recta de regresin con el conjunto de datos
provenientes de la muestra.

Este test, para el caso del modelo de regresin lineal simple
2
, tiene como hiptesis
nula:

H
0
: |
2
= 0

H
1
: |
2
= 0

Sabemos que
( )
2
2 2
~ 0,1 N
|
| |
o
(4)

Si elevamos (4) al cuadrado tenemos que (5) se distribuye chi-cuadrado con un
grado de libertad.

( )
2
2
2 2
2
1
2
~
|
| |
_
o
(5)

Sustituyendo la varianza estimada de
2
| :

( ) ( )
2 2
2
2 2 2 2
2
1
2 2
2

~
i
u u
i
x
x
| | | |
_
o o

=

(6)

Tambin sabemos del Teorema 6 que
( )
( )
2
2
2 2
2
~
n
n o
_
o

, por lo que:

2
Para el modelo de regresin simple, tanto la hiptesis como el estadstico son los mismos que en el test de
significancia, debido a que slo existe una variable explicativa. En el caso del modelo de regresin mltiple, que
veremos posteriormente, la hiptesis nula es que todos los coeficientes de las variables explicativas, son iguales a
cero.

( )
( )
( )
( )
2
2
2
2
2
2 2 2 2
2
2
~
i
e
n i
n
n
e
n o
_
o o o
= =
(7)

Se puede demostrar que (6) y (7) son independientes, por lo que:

( )
2
2
2 2
2
1, 2
2
2
1
2
i
u
n
i
u
x
F F
e
n
| |
o
o
~ (8)

Simplificando obtenemos:

( )
2
2
2 2
1, 2
2
2
i
n
i
x
F F
e
n
| |
~ (9)

Si sustituimos la hiptesis nula en (9):

2 2
2
1, 2
2
2
i
n
i
x
F F
e
n
|
~ (10)

Recordando, cuando descompusimos la suma de cuadrados tenamos:

2 2 2 2
2
i i i
y x e
SCT SCE SCR
| = +
= +

Asociado a cada suma de cuadrados existen sus respectivos grados de libertad:

SCT: tiene n-1 grados de libertad, pues se pierde un grado de libertad al
calcular la media de Y.
SCE: un slo grado de libertad de calcular
2
|
SCR: tiene n-2 grados de libertad, pues se pierden dos grados de libertad en
las ecuaciones normales.

Tabla ANOVA
Suma de
cuadrados
Grados de
libertad
Suma promedio
de cuadrados
Regresin SCE 1 SCE/1
Residuo SCR n-2 SCR/n-2
Total SCT n-1

El numerador de (10) es la SCE y el denominador es la SCR divida por sus grados
de libertad.

1, 2
2
n
SCE
F F
SCR
n
~ (11)

Entonces, rechazo H
0
si el valor calculado del estadstico F, es mayor que
1, 2 n
F
o
.

La intuicin de este test, indica que el modelo es significativo en su conjunto, si el
efecto explicado por el modelo es suficientemente grande respecto del residuo.

En el caso del ejemplo anterior, si
1, 2 n
F F
o
> rechazo que H

0
, o sea que rechazo
|
2
=0 si el aporte de X respecto del residuo es considerable.

Otra forma alternativa de expresar (11):

( )
( )
1, 2
2
2 2 2
2
1
1
1
2
n
SCE
SCE SCE
STC
F
SCR SCT SCE SCT SCE SCT SCE
n
n n STC n
STC
n
F
SCE
STC n
| |
|

\ .
2
2
2
2
R
= = =
R
R
= = ~
R


6. Prueba de Normalidad

Las pruebas de hiptesis e intervalos de confianza estudiados, tienen como punto
de partida el supuesto de normalidad del residuo, por lo que si u no es normal,
estas pruebas no son vlidas.

Existen diferentes test que permiten verificar si los residuos calculados para una
muestra en particular (e
i
) provienen de una distribucin normal. Uno de ellos es el
test de Jarque-Bera.

6.1 Test de Jarque Bera

Esta es una prueba asinttica que se basa en el tercer y cuarto momento de la
distribucin (asimetra y curtosis respectivamente).

Recordando:

Coeficiente de simetra:

( )
3
3
E X X
S
o
= =
tercer momento alrededor de la media
desviacin estandar elevada al cubo

Coeficiente de curtosis:
( )
4
4
E X X
C
o
= =
cuarto momento alrededor de la media
segundo momento elevado al cuadrado

En el caso de una distribucin normal, el coeficiente de simetra es cero (S=0) y el
de curtosis 3 (C=3).

Bajo la hiptesis nula de que los residuos estn normalmente distribuidos, Jarque y
Bera demostraron que asintticamente el estadstico JB sigue una distribucin chi-
cuadrado con dos grados de libertad.

(12)
( )
2
2
2
2
3
6 24
C
S
JB n _
(
= +
(
(

~

Es decir, si JB es mayor que una chi-cuadrado con 2 g.l, rechazo la hiptesis nula,
o sea, rechazo normalidad.

6.2 Qu pasa si los errores no se distribuyen normal?

La normalidad exacta de los estimadores MICO depende crucialmente de la
distribucin del error en la poblacin (u). Si los errores u
1
, u
2
, ...., u
n
son
elecciones aleatorias de alguna distribucin que no es la normal, las |
j
no estarn
distribuidas en forma normal, lo que significa que los estadsticos t y F no tendrn
distribuciones t y F, respectivamente. Este es un problema potencialmente grave
porque nuestra inferencia depende de que seamos capaces de obtener valores
crticos o valores p de las distribuciones t o F.

Recuerde que el supuesto de normalidad de u es equivalente a decir que la
distribucin de Y dadas X
1,
, X
2
, ....X
n
, es normal. Puesto que se observa Y pero no u,
es mucho ms fcil verificar si Y sigue una distribucin normal, algo que como
vimos, no siempre sucede.

La inferencia basada en los estadsticos t y F exige el supuesto de normalidad. En
caso contrario quiere decir que no debemos utilizar el estadstico t para
determinar qu variables son significativas estadsticamente? La respuesta es no.
Aunque las Y
i
no provienen de una distribucin normal, llegamos a la conclusin a
partir del teorema central del lmite, que los estimadores MICO estn distribuidos
aproximadamente en forma normal, por lo menos para tamaos de muestra
grandes.

Si el tamao de la muestra no es muy grande, entonces la distribucin t es una
aproximacin insuficiente de la distribucin del estadstico t cuando u no est
distribuida normal. Pero, por desgracia, no hay reglas generales sobre qu tan
grande debe ser la muestra para que una aproximacin sea lo suficientemente
buena. Algunos econometristas piensan que n = 30 es satisfactorio, pero puede no
ser suficiente para todas las distribuciones posibles de u. Dependiendo de la
distribucin de u, se necesitaran ms observaciones para que tenga efecto el
teorema del lmite central. Adems, la calidad de la aproximacin no slo depende
de n, sino tambin de los gl
3
. En resumen, si el tamao de la muestra no es muy

3
Como veremos en el modelo de regresin mltiple, con ms variables independientes en el modelo, es necesario
una muestra mayor para aprovechar la aproximacin t, debido a que los g.l. estn determinado por n k, donde k es
el nmero de regresores en el modelo.
grande y u no se distribuye normal, debemos de tener mucho cuidado al momento
de hacer inferencia sobre los estimadores.

7. Prediccin

7.1 Prediccin media

Se refiere a la prediccin del valor de la media condicional de Y correspondiente a
un valor escogido de X, (como X
0
), el cual es el punto sobre la fecha de la FRP.

Dado un valor de X
i
= X
0
, la verdadera prediccin media de E(Y
0
/X
0
) es

0 0 1 2 0

( / ) E Y X X | | = + (13)

El cual se puede estimar a partir de:

0 1 2 0

Y X | | = + (14)

Si sacamos el valor esperado de (14), dado X:

( ) ( )
0 1 2 0
1 2 0
0 0 0

( )
( ) ( / )
E Y E E X
X
E Y E Y X
| |
| |
= +
= +
=
(15)

Por lo que
0
Y es un predictor insesgado de E(Y

0
/X
0
). Ahora aplicando las
propiedades de la varianza a (14), sustituyendo por sus respectivas frmulas y
simplificando:

( ) ( ) ( )
0 1 2 0 1 2 0
2
0
2

var( ) var var 2cov
1
i
Y X X
X X
n x
| | | |
o
= + +
(
= +
(
(

(16)

7.2 Prediccin individual. Error de pronstico

La prediccin individual se refiere a la prediccin de un valor individual Y
correspondiente a X
0
.

Para predecir un valor de Y individual, correspondiente a X
i
= X
0
, podemos utilizar
la ecuacin (14).
El error de prediccin es
0 0
Y Y :

( )
( ) ( )
0 0 1 2 0 0 1 2 0
1 1 2 2 0 0

Y Y X u X
X u
| | | |
| | | |
= + + +
= + +
(17)

Sacando la esperanza del error de prediccin

( ) ( ) ( )
( )
0 0 1 1 2 2 0 0

0 E Y Y E E X E u | | | | = + + = (18)

Elevando (17) al cuadrado y tomando esperanza tenemos:

( ) ( ) ( )
( ) ( )( ) ( )
( ) ( )
( ) ( ) ( ) ( )
2
2
0 0 1 1 2 2 0 0
2
1 1 1 1 2 2 0 1 1 0
2
2 2
2 2 0 2 2 0 0 0
2
2
0 0 1 1 2 0 2

2 2

2

var 2cov , var
Y Y X u
X u
X X u u
E Y Y X
| | | |
| | | | | | | |
| | | |
| | | |
(
= + +

= + +
+ + +
= + +
(19)

Sustituyendo las varianzas por sus respectivas frmulas y simplificando:

2
0
0 0
2
1
var( ) 1
i
X X
Y Y
n x
o
(
= + +
(
(

(20)

8. Ejemplo

Captulo 5

Modelo de Regresin Lineal
Mltiple: Inferencia

En el Modelo de Regresin Lineal Mltiple o Modelo de Regresin General, hasta
ahora no hemos usado el supuesto de que las
i
u siguen una distribucin normal
multivariante. Si suponemos
( )
2
~ 0, N o u podremos derivar algunas
distribuciones.

1. Recordando

1.1 Distribucin de

Dado que ( )
' '
-1
= + u, entonces
por ser combinacin lineal de variables

aleatorias es tambin una variable aleatoria que se distribuye normal multivariante.

Esperanza:
( )
E =

Varianza:
( )
( )
11 12 1
12 22
2 2
1
var
k
k kk
a a a
a a
a a
o o
| |
|
|
| ' = =
|
|
|
\ .
-1

Modelo de Regresin Lineal Mltiple: Inferencia 99
Luego
( )
( )
2
N o '
-1
~ ,

Esto es,
( )
2
j j jj
~ N , a | | o donde
jj
a es el j-simo elemento de la diagonal
principal de
( )
'
-1
.

Por lo que
( )
~ 0,1
j j
jj
N
a
| |
o

Este resultado no es muy til por si mismo, porque no conocemos
2
o .

1.2 Distribuciones derivadas de u

Dado que
( )
2
~ 0, N o u , esto significa que cada
i
u se distribuye normal e
independiente con media cero y varianza
2
o .
Luego,
2 2 2
2
1 2
2 2 2
~
n
n
u u u
_
o o o
+ + + , con lo que
2
2
1
~
n
_
o
' u u

( )
1
2 2
~
n
o _
' u u

Este resultado, nos sirve para recordar como se forman las distribuciones derivadas
de una normal multivariante. Sin embargo, tampoco es til por si mismo ya que no
conocemos u .

1.3 Distribucin de
2
o
' e e

Hemos visto los siguientes resultados:
e = u , como
( )
2
~ 0, N o u , por lo que e tambin se distribuye normal.
' ' e e =u u
( )
' '
-1
= - , siendo simtrica e idempotente
1
.

1
Una matriz es idempotente es una matriz que es igual a su cuadrado, es decir: A es idempotente si A A = A

( ) ( )
Tr Rg n k = = . Como M es idempotente,la traza
2
es igual al
rango; de aqu se deriva que M tiene n-k valores propios
3
.
Sea B una matriz que tenga por columnas los vectores propios de M y D
una matriz que tiene los valores propios en la diagonal y cero el resto.

1 2 n
| |
|
|
|
= X X X
|
|
|
\ .
y
1
2
0 0
0 0
0 0 0
0 0 0
0 0
n
| |
|
|
| =
|
|
|
\ .
D

Sabemos que:

' '
n
= =

' = D

Dado que los valores propios de un a matriz idempotente son cero o uno,
sabemos que
D
tiene n-k valores propios 1 y k valores propios igual a cero.

2
La traza de una matriz cuadrada A es la suma de los elementos de la diagonal principal.
3
En lgebra lineal, un escalar se llama valor propio valor caracterstico de una funcin lineal A, si existe un
vector x distinto de cero, tal que Ax = x. El vector x se llama vector propio o autovector. Los vectores propios de
un operador lineal son los vectores diferentes de cero que, cuando son transformados por el operador, dan lugar a un
mltiplo escalar de s mismo. El escalar entonces se llama el valor propio asociado al vector propio.
Por ejemplo, considere la matriz:
0 1 1
1 1 0
1 0 1
| |
|
=
|
|
\ .
A

que representa un operador lineal R R. Uno puede comprobar que:
1 2 1
1 2 2 1
1 2 1
( ( (
( ( (
= =
( ( (
( ( (

A
1 0 0
0 1
1
0
0 0
| |
|
|
|
| |
|
=
|
|
\ .
|
|
|
|
\ .
n-k k
k k
0
D=
0 0

Definamos: ' y = u
Luego, premultiplicando por B tenemos que, ' y = u = u

u = y

Dado que ' y = u , y ser una variable que se distribuye normal multivariada.

Encontramos la esperanza y la varianza de y .

Esperanza: ( ) ( ) ( )
0 E E E ' ' = = y u = u
Varianza:
( ) ( ) ( )
{ }
( ) ( ) ( )
2 2 2
var E E E E E
o o o
'
' ' ' ' ' = ( (

' ' =
y y - y y - y = yy = uu = uu
= =

Es decir que
( )
2
N o y ~ 0, , con lo que cada
( ) ~N 0,1
i
y
o
se distribuye normal
estandarizada e independiente.

Sabemos que:
'
' ' ' ' ' ' = =
D
u u
e e = u u = y y y y
( )
1
2
1 2 1
1
2 2 2 2
1 2
1
1 0 0
0 1
1
0
0 0
0 0
n k n k n n k
n k
n
n k
n k i
y
y
y y y y y y
y
y
y y y y
+
+
| | | |
| |
| |
| |
| |
=
| |
| |
| |
| |
| |
\ .\ .
= + + + + + + =

2
1
n k
i
y
' =
e e

Como
( ) ~ 0,1
i
y
N
o
, luego
2
2
1
~
n k
i
n k
y
_
o
| |
|
\ .

2
2 2 2 i
2
1 2 1
2 2 2 2
y
~
n k
n k
n k
y y y
_
o o o o
+ + + =

2
2
~
n k
_
o

' e e

2. Pruebas de Hiptesis Individuales

Sabemos que:

i. ( )
~ 0,1
j j
jj
N
a
| |
o

pero o es desconocida
ii.
( )
( )
2
2 2
-
- ~
n k
n k
n k _
o o

' '
=
e e e e

iii. puede demostrase que i e ii son independientes

Definimos:

2

~

j j j j
jj jj
j j
n k
jj
a a
t t
e e a
n k
| | | |
o
| |
o o
o

= = =
'

Por lo tanto, para las pruebas de significancia individual procedemos de igual
manera la estudiada para el modelo de regresin simple.

3. Prueba de Significacin global en el Modelo Mltiple:
Anlisis de Varianza (ANOVA)

El test de ANOVA es un test de significancia global del modelo, por lo que la
hiptesis nula y alterna se expresan de la manera siguiente:

0 2 3
: 0
k
| | | H = = = =
1
: H Al menos algn
i
| es distinto de 0

Por otra parte, sabemos que:

i.
2 2
1
/ ~
k
SCE o _

ii.
2
2 2
~
n k
SCR
_
o o

'
=
e e

iii. Puede demostrarse que i. y ii. son independientes.

Por lo tanto:
2
-1, - 2
/
1 1
~
/
k n k
SCE SCE
k k
F F
SCR
SCR
n k
n k
o
o

= =

Asimismo,
( )
( )
( )( )
2
2
-1, -
2
/
1 1 1
~
1
1 1
/
k n k
SCE SCE R
SCT
n k R
k k k
F F
SCR SCT SCE SCT SCE
k R
SCT
n k n k SCT n k

= = = =

Este test indica que el modelo es significativo en su conjunto, si el efecto
explicado por el modelo es suficientemente grande respecto al ruido, a lo
residual. Si el F calculado es mayor que el F de tabla, rechazo que
2 3
0
k
| | | = = = = , o sea el aporte de las X respecto al residuo es considerable.
Cun considerable? El lmite nos lo da el valor de tabla.

Grados de Libertad

Asociado a cada suma de cuadrados hay grados de libertad.

Variacin
Suma de
Cuadrados
Grados de
Libertad
Suma Promedio
de Cuadrados
Regresin SEC k-1 SCE/(k-1)
Residuo SRC n-k SCR/(n-k)
Total STC n-1 SCT/(n-1)

Suma total de cuadrados (STC): Tiene n-1 grados de libertad. Esto surge
como consecuencia de la prdida de un grado de libertad, necesario para
calcular Y .
0 F
k-1,n-k
o
1-o
Rechazo H
0
si F
calculado es mayor
que F de tabla

Suma de residuos al cuadrado (SRC): Tiene n-k grados de libertad. Se
pierden k grados de libertad que son necesarios para asegurar que se
cumplan las ecuaciones normales. Estas condiciones son:
1
12 22 2 2 2
3 3
1 2
1 1 1 0
0
0
0
i
n i i
i i
k k nk n i ik
e e
e e
e e
e e
(
( ( (
(
( ( (
X X X X
(
( ( (
(
' ( ( ( = = X =
(
( ( (
(
( ( (
(
( ( (
X X X X

e

Suma explicada al cuadrados (SEC): Tiene k-1 grados de libertad ya que se
encuentra en funcin de todos los parmetros estimados, excepto el
intercepto.

4. Test General para probar restricciones lineales de
parmetros

Supongamos que estamos interesados en estimar una funcin de produccin Cobb-
Douglas:

1 2 3
ln ln ln
i i i i
L K u | | | Y = + + +

Repasemos distintas hiptesis a probar:

Ejemplo 1:

Si queremos testear
0 2
1 2
: 0
: 0
|
|
H =
H =

podemos expresar esta restriccin en forma matricial
0
1
:
:
H
H =
C = r
C r

donde
| |
0 1 0 = C

| |
1
2 2
3
0 1 0
|
| |
|
(
(
= =
(
(

C
r = 0

Ejemplo 2:

Si queremos testear
0 2 3
1 2 3
: 1
: 1
| |
| |
H + =
H + =

debemos definir la matriz C y el vector r
0
1
:
:
H
H =
C = r
C r

donde
| |
0 1 1 = C

| |
1
2 2 3
3
0 1 1
|
| | |
|
(
(
= = +
(
(

C
r = 1 (en este caso un vector de 1x1, o sea un escalar)

Ejemplo 3:

Si queremos testear
0 2 3
1 2 3
:
:
| |
| |
H =
H =

0
1
:
:
H
H =
C = r
C r

donde
| |
0 1 1 = C

| |
1
2 2 3
3
0 1 1
|
| | |
|
(
(
= =
(
(

C
r = 0

Ejemplo 4:

0 2 3
: 0 | | H = =
1
: H Algn
i
| distinto de 0

1
2
2
3
3
0 1 0
0 0 1
0
0
|
|
|
|
|
(
( (
(
= =
( (
(

(

(
=
(

C
r

Ejemplo 5:

1 2 3 4 5
ln ln ln ln ln
i i i i i i
L K Z W u | | | | | Y = + + + + +
0 4 5
: 0 | | H = =
1
: H Algn
i
| distinto de 0

1
2
4
3
5
4
5
0 0 0 1 0
0 0 0 0 1
0
0
|
|
|
|
|
|
|
(
(
(
( (
( = =
( (
(
(
(

(
=
(

C
r

Existen distintas formas de desarrollar los test de hiptesis

4.1 Mediante el desarrollo del test
C?

Sabemos que:
( )
( )
2
~ , N o '
-1

La distribucin de probabilidad de una combinacin lineal de
ser tambin
normal.
Debemos encontrar los parmetros de la distribucin.
( ) ( )

E = E = C C C

( ) ( )( ) ( )( )
( )( ) ( )( )
( )( )
( )
2

var

E E
E E
E o
(
'
(
' ' ' ' = = =
(

(
'
(
' ' ' ' = = =
(

(
'
' ' ' = =
(

-1
C C - C C - C C - C C - C
C - - C C - - C
C - - C C C

( )
( )
( )
( )
2
2
~ ,
~ 0,
N
N
o
o
' '
' '
-1
-1
C C C C
C - C C C

Si H
0
es cierta: C = r
( )
( )
2
~ 0, N o ' '
-1
C - r C C

Se puede demostrar que dado:

i.
( )
( )
( )
2 2

~
R
o _
'
(
' '

-1
-1
C - r C C C - r ; ya que estamos sumando R
normales (0,1) elevadas al cuadrado, donde R es el nmero de restricciones
involucradas bajo la hiptesis nula.
ii.
( )
2
2
2 2
~
n k
n k o
_
o o

'
=
e e

iii. i y ii. son independientes.

Entonces:

( )
( )
( )
( )
2
,
2

~
R n k
R
F
n k
o
o

'
(
' '

'
-1
-1
C - r C C C - r
e e

( )
( )
( )
1
2
,
1

~
R n k
F
R
o

'
(
' '

-1
C - r C C C - r

Volvamos al Ejemplo 1

Siguiendo con el ejemplo de la funcin de produccin Cobb-Douglas, retomemos
la prueba de algunas hiptesis importantes:

0 2
1 2
: 0
: 0
|
|
H =
H =

| |
0 1 0 C=
r = 0
R = 1

( )
( )
( )
2
,
1

R n k
F
R
o

'
(
' '

-1
-1
C - r C C C - r ~
0 F
R,n-k
o
1-o
Rechazo H
0
si F
calculado es mayor
que F de tabla
( )
( )
1
11 12 13
2
2 21 22 23 2 1, 3
31 321 33
1
2
2 21 22 23 2 1, 3
1
2
2 22 2 1, 3
0
1

0 1 0 1 ~
1
0
0

1 ~
0

~
n
n
n
a a a
a a a F
a a a
a a a F
a F
| o |
| o |
| o |
(
(
| || |
(
( | |
(
( | |
( | |
(
\ . \ .

(

(
| |
( |
( |
|
(
\ .

(

2
2
1, 3 2
22
n
F
a
|
o

4.2 Mediante el clculo de los residuos libres y restringidos.

Se puede demostrar que:

( )
( )
( )

'
(
' ' '

-1
-1
1
e e - e e = C - C C XX C C - C

donde ' e e es suma de cuadrados restringida, es decir, los obtenidos de la regresin
en la que se impone H
0
(la restriccin).

Entonces, tenemos que:

2
- 2
~_
o
'
n k
e e

y
2
-( ) 2
~_
o

'
n k R
e e

Por lo tanto
( ) ( )
2 2
n- k-R 2
~
R n k
_ _
o

' '
=
e e - e e

Dado que:
i.
2
R 2
~_
o
' ' e e - e e

ii.
2
n-k 2
~_
o
' e e

iii. ambos son independientes

Entonces:

( )
, -
/
~
/
R n k
R
F
n k
' '
'
e e - e e
e e

Para realizar el test se procede de la manera siguiente:

1. Se estima regresin restringida (imponiendo que se cumpla la hiptesis nula) y
se obtiene la SCR restringida.
2. Se estima regresin libre (sin imponer que se cumpla la hiptesis nula) y se
obtiene la SCR libres.
3. Se calcula el estadstico
( ) /
/
R
F
n k
' '
=
'
e e - e e
e e
. Si F>F
TABLA
, rechazo H
0
(Rechazo
que la restriccin sea vlida, si la suma se reduce mucho al calcular dicho
estadstico)

4.3 Mediante el coeficiente de determinacin, R
2

Una tercera forma equivalente de probar la misma hiptesis es la siguiente:
0 F
R,n-k
o
1-o
Rechazo H
0

( ) ( )
( )
( ) ( )
( ) ( )
( )
( )
2 2 2 2
2 2
2 2
2 2
2 2
2 2
,
2
1 1
1
1 1
1 1
1 1
~
1
i i
i
R n k
R y R y
R R
F
R y
n k
n k
R R
R R
R R
R R
n k n k
R R
R
F
R
n k

' '
= =
'

(
( +

= =

e e e e
e e

4.4 Ejemplos

Supongamos que estamos interesados en estimar el siguiente modelo:

1 2 2 3 3
| | | = + + +
i i i i
Y X X u

con los siguientes datos:

3
1
8
3
5
(
(
(
( =
(
(
(

Y
1 3 5
1 1 4
1 5 6
1 2 4
1 4 6
(
(
(
( =
(
(
(

X , luego ( )
1
23.7 4.5 8
4.5 1 1.5
8 1.5 2.5

(
(
' =
(
(

XX

Con estos datos podemos estimar la regresin:

Dependent Variable: Y
Method: Least Squares
Sample: 1 5
Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
C 4.000000 4.474930 0.893869 0.4657
X2 2.500000 0.866025 2.886751 0.1020
X3 -1.500000 1.369306 -1.095445 0.3876
R-squared 0.946429 Mean dependent var 4.000000
Adjusted R-squared 0.892857 S.D. dependent var 2.645751
S.E. of regression 0.866025 Akaike info criterion 2.833904
Sum squared resid 1.500000 Schwarz criterion 2.599567
Log likelihood -4.084761 F-statistic 17.66667
Durbin-Watson stat 1.666667 Prob(F-statistic) 0.053571

y podemos calcular
2 2
( -1) 2.645751 4 28
Y
SCT n o = = ~
2
* 28*0.946429 26.5 SCE STC R = = =

Significacin conjunta de X
2
y X
3

0 2 3
H : 0
/ 1 26.5/ 3 1
17.67
/ 1.5/ 5 3
SCE k
F
SCR n k
| | = =

= = =

Como F
0.95
(2,2)=19, la F muestral es menor que el valor crtico no rechazo H
0
.

Significacin de X
3

0 3
H : 0 | =

Una forma de probarlo es con un test de hiptesis simple. Observando la salida de
Eviews se concluye que este parmetro es no significativo.

Otra forma de probar esto es estimando la regresin restringida (es decir aquella
donde se supone vlida la hiptesis nula).

Dependent Variable: Y
Method: Least Squares
Sample: 1 5
Included observations: 5
Variable Coefficient Std. Error t-Statistic Prob.
C -0.800000 0.938083 -0.852803 0.4564
X2 1.600000 0.282843 5.656854 0.0109
R-squared 0.914286 Mean dependent var 4.000000
Adjusted R-squared 0.885714 S.D. dependent var 2.645751
S.E. of regresin 0.894427 Akaike info criterion 2.903908
Sum squared resid 2.400000 Schwarz criterion 2.747683
Log likelihood -5.259770 F-statistic 32.00000
Durbin-Watson stat 1.366667 Prob(F-statistic) 0.010938

Como ahora la SCR=2.4 2.4 ' ' = e e

Luego, podemos utilizar el estadstico:

( ) / 2.4 1.5/1
1.2
/ 1.5/ 5 3
R
F
n k
' '

= = =
'
e e - e e
e e

F
0.95
(1,2)=18.51, la F muestral es menor que el valor crtico no rechazo H
0
.

Los coeficientes de X
2
y X
3
son de igual magnitud pero de signo opuesto

0 2 3
H : 0 | | + =
o en trminos generales:

| |
0 1 1 = C r=0 con R=1

Sabemos que:

( )
( )
( ) ( )
( ) ( )
( )
( )
2
2
, -
1
1 1
2 2
3 3
1

~

20.02 3.37 6 0
1

0 1 1 0 0 1 1 3.37 0.75 1.125 1 0 1 1
1
6 1.125 1.875 1
R n k
F F
R
o
o
| |
| |
| |
'
'
' ' =

'
(
| | | |
(| |
( |

| (
( = |
`
| (
( |
|
(
|
\ .
(

\ . \ .

)
-1
-1
-1
XX
C - r C XX C C - r
( ) ( ) ( )
| |
1
2
1
0
0
2.5 1.5 3.37 6 0.75 1.125 1.125 1.875 1 2.5 1.5
1
1
1 0.75 1.125 1.125 1.875 1 2.66
0.375
(
( |
( |
( |
|
(

(
| |
( |
= +
( |
|
(
\ .

= + = =

Dado que el valor del test F es muy pequeo, no rechazo la hiptesis nula.

5. Regin de confianza conjunta para
2
| y
3
|

Sabemos que
( )
( )
( )
2
,
1

R n k
F
R
o

'
(
' '

-1
-1
C - r C C C - r ~ , luego podemos
utilizar este resultado para construir regiones de confianza de los test. Distintas
especificaciones de R, darn diferentes regiones de confianza para grupos de
parmetros.

Supongamos que nos interesa conocer la regin en que se cumple que
2
| y
3
| son
conjuntamente significativos.

0 2 3
H : 0 | | = =

Luego

0 1 0
0 0 1
C
| |
=
|
\ .
y R=2

( )
( )
( ) ( )
( )
( )
( ) ( )

/
1

/
'
' '
'
' ' = =
'
R
F
R n k
-1
-1
-1
-1
2
C- C C XX C C- C
C- C C XX C C- C
e e

Utilizando los datos del ejemplo de la seccin anterior:
( )
1
1
1 1
1
2 2 2
3
3 3

26.7 4.5 8 0 0
0 1 0 0 1 0 0 1 0

4.5 1 1.5 1 0
0 0 1 0 0 1 0 0 1
8 1.5 2.5 0 1
F
| |
|
| | |
|
| |

'
( | | |
| | ( | |
( |
| | | | | | | | (
( |
` `
| | |
| | (
( | \ . \ . \ .
| |
( |
\ . \ .
(

\ . \ )

)
=
X'X
{ }
{ }
1
2
3
1
2 2
2 2 3 3
3 3
1
2 2
2 2 3 3
3 3
2
0.75
0 0
4.5 1 1.5
1

1 0
8 1.5 2.5 1.5
0 1
1 1.5
1

1.5 2.5 1.5
|
|
|
| |
| | | |
| |
| |
| | | |
| |
( |
| |
( |
|
( |
`
|
( |
|
|
\ .
(

. )
| |

| | |
=
` `
|
|

\ . |
)
\ . )

=
`
)
{ }
2
2 3
3
2 2
2 3 2 3 2 3
2.5 10 6
1
2.5 1.5
1.5 6 4 1.5
26.5 32 18 12 10 4
1.5
|
| |
|
| | | | | |

=
` ` `

) )
)
+ + +
=

Eligiendo, por ejemplo, el valor crtico de F al 5% tenemos:
Pr{F<F
0.95
}=0.95, y F(2,2)=19
Entonces, haciendo
F= F
0.95
se tiene
2 2
2 3 2 3 2 3
26.5 32 18 12 10 4
19
1.5
| | | | | | + + +
= , es decir

2 2
2 3 2 3 2 3
10 4 12 32 18 2 0 | | | | | | + + =

Esta es la ecuacin correspondiente a una elipse.

Este procedimiento permite establecer una elipse de confianza al 95% para los
parmetros | que son desconocidos. La elipse est centrada en el punto estimado
2
2.5 | = y
3
1.5 | = .

-12
-8
-4
0
4
8
12
-8 -4 0 4 8
C
(
3
)
C(2)

El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95%
de confianza, no se puede rechazar la hiptesis de que ambos parmetros son cero
en forma conjunta.

Es importante observar:

Que la elipse cambia de forma en funcin de la covarianza entre los
parmetros estimados
2
| y
3
| . Si cov(
2
| ,
3
| )<0 la elipse se inclina hacia la
izquierda, mientras que si cov(
2
| ,
3
| )>0 se inclina hacia la derecha.

Que los lmites que se obtienen en forma conjunta para
2
| y
3
| son distintos
a los que se obtienen en intervalos de confianza individuales. Es
perfectamente posible que utilizando test individuales se concluya que los
parmetros son individualmente no significativos, pero testeando
conjuntamente la hiptesis de que ambos parmetros son cero esta sea
rechazada por obtener un elipse tal que el punto (0,0) est fuera de la misma.
En ese caso uno puede decir que al menos uno de los parmetros tiene
suficiente influencia sobre la variable explicativa, pero no puede asignar esa
influencia a uno de los parmetros en particular.

6. Prueba de estabilidad estructural: Prueba de Chow.

7. Prediccin

Para predecir debemos recurrir a los parmetros estimados dentro de la muestra:

1 2 2 3 3

...

i i i k ik
Y X X X | | | | = + + + +
nx1 nxk kx1
Y = X
i=1.n

El inters en general es pronosticar el valor de Y en un perodo posterior a n (por
ejemplo el perodo que denominaremos 0).

Si el inters est en predecir
0
Y se hablar de prediccin individual. Si,
alternativamente, se predice E(
0
Y /X), hablaremos de prediccin media o promedio.
Ambas alternativas dan lugar a la misma prediccin puntual, pero diferentes
intervalos de confianza, ya que difieren en la varianza del error de prediccin. Ello
por cuanto en ambos casos se utiliza para predecir la siguiente ecuacin:

0 1 2 02 3 03 0

...
k k
Y X X X | | | | = + + + +

Es fcil probar que
0
Y es un estimador insesgado de ( )
0
E Y X
E(
0
Y )=E(
0
Y ) (porque
0
Y e
0
Y son variables aleatorias.)

0 1 2 02 0 0
...
k k
Y X X u | | | = + + + + (verdadero valor)

( ) ( )
( )
0 0 1 2 02 0 0
1 2 02 0 0 1 2 02 0
/ ...
... ...
k k
k k k k
E Y X E X X u
X X E u X X
| | |
| | | | | |
= + + + +
= + + + + = + + +

( ) ( )
( ) ( ) ( )
0 0 1 2 02 0
1 2 02 0 1 2 02 0

/ ...

... ...
k k
k k k k
E Y X E X X
E E X E X X X
| | |
| | | | | |
= + + + =
= + + + = + + +

Es decir:
0
Y en promedio estar sobre

0
Y promedio.

El punto clave es realizar una proyeccin correcta de las variables explicativas y
verificar si es correcto usar
i
| histricos hacia delante.

Que E(
0
Y )=E(
0
Y ) (no hay sesgo), no implica que no haya error de prediccin.

Error de prediccin =
0 0 0
e Y Y = (es un escalar)

( )
( )
0 1 2 02 0 0 1 2 02 0
0
1 1 1 1

... ...
( )
k k k k
kx xk x
e X X u X X
e
| | | | | | = + + + + + + +
' =
0 0
X - +u

Cul es el valor esperado del error de prediccin?

( )
( ) ( ) ( )
( )
( )
0 0 0
0

0
0
E e E u E E u
E e
(
' ' = + = + =

=
0 0
X - X -

Cul es la varianza de
0
e ?

( )
( ) ( )
( )
( )
( )
( )
0
0 0 0
var var

var var var 2cov
e
e u u
' =
( (
' ' = + +

0 0
0 0
X - +u
X - X -

La covarianza est en funcin de dos variables aleatorias (
y
0
u ).
es funcin de
los (i=1 hasta n) y
0
u es un error aleatorio posterior a n. Por lo tanto,
0
cov( , ) 0
i
u u =
por el supuesto de no autocorrelacin de los errores y
( )
0
cov , 0 u
(
' =

0
X -
( )
( ) ( )
( )( )
( )( )
( )
( )
( )
2
0
2
2
2
2
2 2
2
var( ) var

var
1
e
E
E
E
o
o
o
o
o
o o
o
(
' = +

'
( (
' ' = +
`

)
(
'
' = +
(

'
' = +
' = +
' ' = +
(
' ' = +

0
0 0
0 0
0 0
0 0
-1
0 0
-1
0 0
X -
X - X -
X - - X
X - - X
X X
X XX X
X XX X

Cmo se distribuye
0
e
?

( )
( )
( )
( )
( )
( )
( )
0 0
2
2
2
0
0 0
~N 0,
~N ,
~ 0, 1
~ 0,var
e u
e N
e N e
o
o
o
' = +
'
(
' ' +

(

0
-1
-1
0 0
X -
u I
XX
X XX X

( ) ( )
0
1 DS e o ' ' = +
-1
0 0
X XX X

Si se cumple que:

i.
( )
( )
0 0
0
~ (0,1)
e E e
N
DS e

ii.
2
n k
o
'
=
e e

iii.
( )
2
2
2
~
n k
n k o
_
o

Entonces
( )
0
n-k
t
1
e
o ' ' +
-1
0 0
X XX X
,
( )
0
n-k
0
~t
e
DS e

Intervalo de confianza para el error de prediccin

Esto nos permite hacer un intervalo para el error de prediccin.
( )
( ) ( )
0
/ 2 / 2
0
/ 2 0 0 / 2 0
1

1
e
P t t
DS e
P t DS e e t DS e
o o
o o
o
o
(
s s =
(
(

(
s s =

0 / 2 0
( ) ( ) IC e t DS e
o

Intervalo de confianza para
0
Y

Como
0 0 0
e Y Y = , podemos obtener un intervalo de confianza para

0
Y

( )
( )
( )
( )
( ) ( )
0 0 0
0 0 / 2 0
0 0 / 2 0

IC e INT Y Y
IC Y Y t DS e
IC Y Y t DS e
o
o
=
=
=

TAREA: Demostrar que el intervalo de prediccin para una regresin simple es
( )
2
0
0 0 / 2 2
1
1
i
X X
Y Y t
N x
o
o

= + +

En algunos casos interesa predecir
( )
/ E Y X

( )
( )
( ) ( )
0
0 0 0

E Y
e E Y E Y
' =
' ' ' = = =
0
0 0 0
X
X X X

( )
( )
( )
( )
1
2
0
1
2
var var e o
o
(
' ' ' = =

' ' =
0 0 0
0 0
X X XX X
X XX X

8. Ejercicio
4

Para estimar la demanda de combustible diesel (gasoil) en Repblica Dominicana,
se consider que esta depende del precio real del combustible, y de una medida de
la actividad econmica o ingreso, para lo cual se utiliz el PIB real. El modelo a
estimar es del tipo log-log.

Considere los siguientes resultados de una estimacin mediante mnimos
cuadrados para la demanda de gasoil en Repblica Dominicana, para el periodo
1997q1 2006q1:

LOG(Q
Diesel
t
) = 8.2163 - 0.0442*LOG(P
Diesel
t
/IPC
t
) + 0.1196*LOG(PIB real)
t
-
0.0788*LOG(PIB real
t-1
) + 0.2658*LOG(PIB real
t-2
) + 0.4901*LOG(PIB real
t-3
) -
0.2139*LOG(Oferta de electricidad
t
)

R
2
= 0.655129; SRC = 0.089947

La matriz de varianzas y covarianzas de los coeficientes est dada por:

C(1) C(2) C(3) C(4) C(5) C(6) C(7)
C(1) 3.1871 0.1231 -0.1451 -0.1027 -0.0702 -0.1046 0.0108
C(2) 0.1231 0.0108 -0.0097 -0.0048 -0.0073 -0.0105 0.0095
C(3) -0.1451 -0.0097 0.0241 0.0054 -0.0054 0.0106 -0.0092
C(4) -0.1027 -0.0048 0.0054 0.0161 0.0033 -0.0075 -0.0025
C(5) -0.0702 -0.0073 -0.0054 0.0033 0.0209 0.0093 -0.0106
C(6) -0.1046 -0.0105 0.0106 -0.0075 0.0093 0.0261 -0.0141
C(7) 0.0108 0.0095 -0.0092 -0.0025 -0.0106 -0.0141 0.0194

4
Tomado de Francos, Martin (2006) Estimacin de la demanda de combustibles en la Repblica Dominicana.
Unidad de Anlisis Econmico, Texto de discusin No. 6, Santo Domingo.

a) Realice la prueba de significancia individual de cada uno de los betas.
b) Realice la prueba de significancia global del modelo.
c) Considere la regresin auxiliar:

LOG(Q
Diesel
t
) = C(1) + C(2)*LOG(P
Diesel
t
/IPC
t
) + C(3)*LOG(PIB real)
t
-
C(4)*LOG(PIB real
t-1
) + C(5)*LOG(PIB real
t-2
) + [1-C(3)-C(4)-C(5)]*LOG(PIB
real
t-3
) - C(7)*LOG(Oferta de electricidad
t
)

C(1) C(2) C(3) C(4) C(5) C(7)
Coeficiente 7.30579 -0.106925 0.279455 -0.20198 0.217272 -0.279354

R
2
= 0.609596; SRC = 0.101822

Realice una prueba para comprobar la hiptesis de que la elasticidad ingreso de
largo plazo es unitaria. Verifique la analoga del resultado utilizando las 3
alternativas:
- Mediante el desarrollo del test C beta
- Residuos libres y restringidos
- Coeficiente de determinacin

Captulo 6

Modelos de Regresin con Variables
Cualitativas

En los temas anteriores, las variables dependiente e independiente del modelo de
regresin tuvieron un significado cuantitativo, (como el salario por hora, aos de
escolaridad, etc.) por lo que la magnitud de la variable proporciona informacin
til.

En algunas ocasiones, es necesario incorporar factores cualitativos como el sexo
(hombre o mujer), regin (Norte, Suroeste, Sureste), etc. En estos casos se utiliza
una variable explicativa que slo puede tomar dos valores: 1 0. Estas variables
se llaman variables binarias, ficticias, dicotmicas o dummy.

1. Interpretacin
Consideremos el siguiente modelo

(1.1)
1 i i i
salario femenino u o | = + +

Donde
salario, representa el salario por hora en US$
femenino es una variable que toma valor 1 si la persona es mujer y 0 en el resto de
casos.

Salario esperado de las mujeres: ( )
1 i
E salario o | = +
Salario esperado de los hombres: ( )
i
E salario o =

Supongamos que obtenemos la siguiente estimacin:
Modelo de Regresin con variables cualitativas 125

Variable dependiente: SALARIO
Mtodo: MICO
Muestra: 1 526
Variable Coeficiente Error estndar t-estadstico Probabilidad
C 7.099489 0.210008 33.80578 0.0000
FEMENINO -2.511830 0.303409 -8.278688 0.0000

En este caso el salario promedio para los hombres es de US$7.09, mientras el de
las mujeres es menor al de los hombres en US$2.51, para un salario promedio de
US$4.58 (=7.09-2.51). Los coeficientes que acompaan a la variable explicativa
miden la diferencia respecto a la variable con la cual se compara, en este caso el
salario de los hombres.

Supongamos ahora que tenemos otra variable llamada masculino, la cual toma
valores de 1 cuando es hombre y 0 en el resto qu pasa si queremos estimar el
modelo siguiente?

(1.2)
1 2 i i i i
salario femenino masculino u o | | = + + +

En este caso no va a ser posible estimar el modelo, debido a que existe colinealidad
perfecta en las variables, ya que la suma de las variables femenino y masculino ser
igual a 1, valor de la variable explicativa que implcitamente acompaa a la
constante de la regresin.

En las regresiones con variables cualitativas, la regla es que si la variable
cualitativa tiene m categoras, slo puede incluirse m-1 variables dicotmicas, al
menos que se elimine el intercepto.

Una alternativa de es estimar el modelo (1.2) es eliminar el intercepto:

(1.3)
1 2 i i i i
salario femenino masculino u | | = + +

En este caso, para el ejemplo anterior, tendramos los resultados siguientes:

Variable dependiente: SALARIO
Mtodo: MICO
Muestra: 1 526
Variable Coeficiente Error
estndar
t-estadstico Probabilidad
FEMENINO 4.587659 0.218983 20.94980 0.0000
MASCULINO 7.099489 0.210008 33.80578 0.0000
Ahora, los coeficientes representan directamente el salario medio para hombres y
para mujeres.

2. Modelos alternativos
2.1 La nica variable explicativa es dummy
(2.1)
1 2 i i i
N S u | | = + + para 1, 2,.... i n =

Donde:
N
i
es la nota en el curso de Econometra
S
i
es una variable dummy que representa el sexo del alumno
0si es hombre
1 si es mujer
i
S

=

Cul es la nota esperada de econometra para las alumnas mujeres?

( ) ( )
1 2
/ mujer / 1
i i
E N E N S | | = = = +

Cul es la nota esperada de econometra para los alumnos hombres?

( ) ( )
1
/ hombre / 0
i i
E N E N S | = = =

N
i
|
1

|
1
+ |
2

i
|
2

Supuestos:
|
2
> 0

2.2 Una variable cualitativa y otra cuantitativa
En relacin al modelo presentado en (2.1), la nota en econometra podra ser
funcin del ndice acadmico acumulado al semestre anterior (IA)

(2.2)
1 2 3 i i i i
N S IA u | | | = + + +


( ) ( )
1 2 3
/ mujer / 1
i i i
E N E N S IA | | | = = = + +


( ) ( )
1 3
/ hombre / 0
i i i
E N E N S IA | | = = = +

2.3 Interaccin entre una variable cuantitativa y una cualitativa
Volviendo al modelo con una variable cuantitativa y una cualitativa de la ecuacin
(2.2), supongamos que el IA depende del sexo. Entonces:

(2.3)
1 2 3 4 i i i i i i
N S IA IA S u | | | | = + + + +


N
i
|
1
+|
3
IA
i

IA
i

|
2

Supuestos:
|
2
> 0
|
3
= para ambos sexos
|
1
+ |
2
+|
3
IA
i
( ) ( ) ( )
1 2 3 4
/ mujer / 1
i i i
E N E N S IA | | | | = = = + + +


( ) ( )
1 3
/ hombre / 0
i i i
E N E N S IA | | = = = +

El coeficiente
2
| se llama intercepto diferencial y el coeficiente
4
| pendiente
diferencial.

2.4 Dos variables cualitativas
La nota en econometra podra ser funcin del sexo y de la regin (por ejemplo si
es de zona urbana o rural).

0zona urbana
1 zona rural
i
R

=

(2.4)
1 2 3 i i i i
N S R u | | | = + + + para 1, 2,.... i n =

Cul es la nota esperada para las alumnas mujeres de zona rural?

( ) ( )
1 2 3
/ mujer, rural / 1, 1
i i
E N E N S R | | | = = = = + +
N
i
|
1
+|
3
IA
i

IA
i

|
2

Supuestos:
|
2
> 0
|
4
> 0
|
1
+ |
2
+(|
3
+|4)IA
i

|
1

Cul es la nota esperada para las alumnas mujeres de zona urbana?

( ) ( )
1 2
/ mujer, urbana / 1, 0
i i
E N E N S R | | = = = = +

Cul es la nota esperada para los alumnos hombres de zona rural?

( ) ( )
1 3
/ hombre, rural / 0, 1
i i
E N E N S R | | = = = = +

Cul es la nota esperada para los alumnos hombres de zona urbana?

( ) ( )
1
/ hombre, urbana / 0, 0
i i
E N E N S R | = = = =

2.5 Variables cualitativas politmicas
Supongamos ahora que la nota depende de la nacionalidad

1 R.D.
0resto
1EE.UU.
0 resto
1Espaa
0 resto
i
i
i
RD
US
ES

(2.5)
1 2 3 4 i i i i i
N RD US ES u | | | | = + + + +

Cul es la nota esperada si el alumno es de RD?

( )
1 2 i
E N | | = +

Cul es la nota esperada si el alumno es de EE.UU.?

( )
1 3 i
E N | | = +

Y si es del resto del mundo (diferente de RD, EE.UU Espaa)?

( )
1 i
E N | =

3. Variables dummy para desestacionalizar
En general, las series de tiempo econmicas tienen cuatro componentes:

(3.1) Z C T S I = + + +

Z es la serie original
C es el ciclo
T es la tendencia (en funcin del tiempo)
S es la estacionalidad (en funcin del calendario)
I es la parte irregular

Veamos la siguiente serie para el dinero real
0
10
20
30
40
50
60
86 88 90 92 94 96 98 00 02 04
M1A/IPC

Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-
ciclo) depende de una variable escala (ingreso) y del costo de mantenerlo (tasas de
inters nominal). Pero adems la trayectoria del dinero est afectada por factores
estacionales, como por ejemplo el aumento de la demanda de dinero en diciembre
por las navidades.

Los efectos estacionales los podramos aproximar a travs de variables dummy as:

(3.2)
1 2 3 4 1 5 2 15 11
ln ln ...
i i
M
Y i D D D u
P
| | | | | |
| |
= + + + + + + +
|
\ .

1
2
1si es el mes de enero
0 resto
1si es el mes de febrero
0 resto
D
D
, y as respectivamente hasta D
11

4. Variables dummy para detectar cambio estructural.
Alternativa al test de Chow
Supongamos la siguiente ecuacin para en consumo privado en la Repblica
Dominicana:

(4.1)
1 2 i i
CP Y u | | = + +

Si usted supone que hay cambio estructural a partir de 1990 debido a las reformas
macroeconmicas realizadas ese ao. En este caso tendramos:

1970-1990
1 2
,
I I
| |
1991-2004
1 2
,
II II
| |

Si definimos
1
0economa sin reforma (1970-1990)
1economa con reforma (1991-2004
D

=

Podemos entonces plantear el modelo:

(4.2)
1 2 3 4 i i i i i
CP D Y D Y u | | | | = + + + +

Si realizamos la siguiente prueba hiptesis:

0
: H
2 4
0 | | = =
1
: H
2 4
0 | | =
Esto es equivalente al test de cambio estructural presentado por Chow, sin
embargo, tiene la ventaja que permite indicar en forma precisa cul parmetro es
diferente, si cambia el intercepto, la pendiente o ambos.

De igual modo, tambin es posible realizar pruebas individuales:

0
: H
2
0 | =
1
: H
2
0 | =

0
: H
4
0 | =
1
: H
4
0 | =

Captulo 7

Multicolinealidad

1. 0BDescripcin
La multicolinealidad es un problema de la muestra, no de especificacin del
modelo. Al no controlar las variables explicativas experimentalmente, ellas pueden
tener una alta correlacin, por lo cual se hace difcil discernir cul es el efecto
individual de cada una de ellas.

Considere el siguiente diagrama, donde los crculos representan las variaciones de
las variables Y, X
2
y X
3
.

A medida que mayor es el rea entre la variable dependiente y las explicativas
(rea 1 y 2) mayor es la informacin comn y menor la varianza de los
coeficientes.
y
x
3

1
2
x
2

y
x
3

3
5
x
2

4
Multicolinealidad 134

Sin embargo, cuanto mayor sea el rea comn entre las variables explicativas (rea
4), mayor ser la colinealidad de las variables y mayor ser la varianza de los
estimadores.

Asimismo, segn se agregan variables explicativas, los parmetros del modelo son
calculados cada vez con menos informacin, provocando un incremento en las
varianzas de los estimadores.

Originalmente, el trmino multicolinealidad signific la existencia de una relacin
perfecta o exacta entre algunas o todas las variables explicativas de un modelo de
regresin. Para la regresin con k variables que incluye las variables explicativas
X
1
,

X
2
, ..., X
k
(donde X
1
= 1 para todas las observaciones que den cabida al trmino
intercepto), se dice que existe una relacin lineal exacta si se satisface la siguiente
condicin:

1 1 2 2
0
k k
X X X + + + = (1.1)

Donde
1,
2 ...
k
son constantes tales que no todas ellas son simultneamente
iguales a cero.

Sin embargo, hoy en da, el trmino se utiliza en un sentido ms amplio, para
incluir tanto el caso de multicolinealidad perfecta de X(1.1)X, como tambin el caso
en el cual hay variables intercorrelacionadas pero no en forma perfecta, de la
siguiente manera:

1 1 2 2
0
k k i
X X X v + + + + = (1.2)

donde v
i
es un trmino de error estocstico.

La diferencia entre ambos tipos de multicolinealidad la podemos ver a travs del
siguiente ejemplo:

Si tenemos

2
0 , entonces X(1.1)X puede escribirse como:

1 3
2 1 3
2 2 2
k
i i i ki
X X X X

= (1.3)

que muestra la forma como X
2
est exactamente relacionada de manera lineal con
las otras variables, o como sta puede derivarse a partir de una combinacin lineal
de otras variables X. En esta situacin el coeficiente de correlacin entre la variable
X
2
y la combinacin lineal del lado derecho debe ser igual a uno.

En forma similar, si
2
0, X(1.2)X puede escribirse como:

1 3
2 1 3
2 2 2 2
1
k
i i i ki i
X X X X v

= (1.4)

Lo cual muestra que X
2
no es una combinacin lineal exacta de otras X porque est
determinada por el trmino de error estocstico
i
.

Hasta ahora nos hemos referido a la multicolinealidad como lineal. Modelos como
el siguiente no se consideraran en este grupo:

2 3
0 1 2 3 i i i i i
Y X X X u | | | | = + + + + (1.5)

Donde Y= costo de produccin y X= produccin. Las variables X
2
i
y X
3
i
estn
funcionalmente relacionadas con X
i
, pero la relacin no es lineal. Por lo tanto,
estrictamente modelos como ste no violan el supuesto de no multicolinealidad, sin
embargo, el coeficiente de correlacin entre las tres variables ser alto, por lo que
se har difcil la estimacin de los parmetros de X(1.5)X con mayor precisin.

El modelo clsico de regresin simple supone que no hay multicolinealidad entre
las X por lo siguiente: Si la Multicolinealidad es perfecta, los coeficientes de la
regresin de las variables X son indeterminados y sus errores estndar son infinitos.
Si la multicolinealidad es menos que perfecta, aunque los coeficientes sean
determinados, poseen grandes errores estndar, lo cual significa que los mismos no
pueden ser estimados con gran precisin o exactitud.

La multicolinealidad puede deberse a los factores siguientes:

El mtodo de recoleccin de informacin. La muestra se obtuvo en un
intervalo limitado de valores de la poblacin.
Restricciones sobre el modelo o en la poblacin objeto de muestreo. Por
ejemplo, si estimamos el modelo de consumo incluyendo como variables
explicativas el ingreso corriente y la riqueza, estas pueden ser vlidas en el
modelo terico, pero van a presentar alta colinealidad, porque familias de
altos ingresos suelen tener mayor riqueza.
Especificacin del modelo. En el caso que el modelo tenga trminos
polinomiales.
Un modelo sobredeterminado. O sea, cuando tiene ms variables
explicativas que el nmero de observaciones.

2. 1BEstimacin en presencia de Multicolinealidad Perfecta
En este caso, como mencionamos anteriormente, los coeficientes de regresin
sern indeterminados. Esto se puede demostrar mediante el modelo de regresin
con tres variables en desvos:

2 2 3 3

i i i i
y x x u | | = + + (2.1)

Sabemos que en el modelo de regresin mltiple:

( )( ) ( )( )
( )( ) ( )
2
2 3 3 2 3
2 2
2 2
2 3 2 3
i i i i i i i
i i i i
y x x y x x x
x x x x
|

=

(2.2)

Si suponemos que X
3i
= X
2i
, donde es una constante diferente de cero,
sustituyendo esto en X(2.2)X tenemos:

( )( ) ( )( )
( )( ) ( )
2 2 2
2 2 2 2
2 2
2 2 2 2 2
2 2 2
0
0
i i i i i i
i i i
y x x y x x
x x x

|

= =

(2.3)

que es una expresin indeterminada.

Debemos recordar que
2
| es el cambio en el valor promedio de Y cuando X

2

aumenta en una unidad, manteniendo X
3
constante. Pero si estas dos variables son
perfectamente colineales, a medida que X
2
cambia, tambin X
3
lo hace por el factor
. Por lo tanto, no hay forma de separar las influencias individuales de cada
variable en la variable dependiente para la muestra dada.

En conclusin, en el caso de multicolinealidad perfecta no se puede obtener una
solucin nica para los coeficientes de regresin individual. Si sustituimos X
3i
=
X
2i
obtenemos lo siguiente:

2 2 3 2
2 3 2
2

( )

( )

i i i i
i i
i i
y x x u
x u
x u
| |
| |
o
= + +
= + +
= +
(2.4)
donde

2 3

( ) o | | = + (2.5)

Aplicando la frmula MICO a X(2.4)X se obtiene:

2
2 3 2
2

( )
i i
i
x y
x
o | | = + =
(2.6)

Como vemos podemos obtener el estimador individual de o , pero no de
2
| y
3
| .
Si utilizamos del valor de o =0.8 y = 2 tenemos de X(2.5)X que:

2 3

0.8 2 | | = (2.7)

Entonces si seleccionamos un valor arbitrario para
3
| , tendremos un valor para

2
| .
Y si seleccionamos otro valor para
3
| tendremos otro valor para

2
| . Entonces no
existira un valor nico para
2
| .

3. 2BEstimacin en presencia de Multicolinealidad Alta pero
Imperfecta:
El caso de multicolinealidad perfecta es casi imposible de observarse en la
prctica, especialmente para el caso de informacin econmica relacionada con
series de tiempo. Continuando con el modelo para tres variables en desvos ahora
podemos tener:

3 2 i i i
x x v = + (3.1)

donde 0 y donde v
i
es un trmino de error estocstico tal que
2
0
i i
x v =

En este caso la estimacin de los coeficientes de regresin
2
| y
3
| puede ser
realizada sustituyendo X(3.1)X en X(2.2)X, y obtenemos:

( )( ) ( )( )
( )( ) ( )
( )( ) ( )( )
( )( ) ( )
2 2 2 2
2 2 2 2 2
2 2
2 2 2 2 2 2
2 2 2
2 2 2 2
2 2 2 2
2
2 2 2 2 2 2
2 2 2
i i i i i i i i i i i
i i i i
i i i i i i i i i
i i i i
y x x v y x y v x x v
x x v x
y x x v y x y v x
x x v x

|

+ + +
=
+
+ +
=
+

(3.2)

donde se utiliza el hecho de que
2
0
i i
x v =
. Podemos hacer lo mismo con

3
| .

En este caso, el coeficiente es determinado. Sin embargo, vale destacar que si v
i
es
muy cercano a cero la colinealidad es casi perfecta.

4. 3BConsecuencias de la Multicolinealidad
En los casos de casi o alta multicolinealidad es probable que se presenten las
siguientes consecuencias:
1. Varianzas y covarianzas grandes, aun cuando los estimadores MICO son
MELI.
2. Intervalos de confianza tienden a ser muy anchos, lo cual lleva a aceptar
cualquier hiptesis nula (de significancia individual); esto se debe a la
alta varianza.
3. Asimismo, la razn t de uno o ms coeficientes tiende a ser
estadsticamente no significativa.
Ahora bien, cuando existe multicolinealidad el hecho de que la razn t sea
baja, no significa que inevitablemente que hay que excluir la variable
explicativa.
4. Por otro lado, sin embargo, se puede obtener un R
2
alto, que implica
significancia global, aun teniendo test t bajos.
5. Los estimadores MICO y sus errores estndar pueden ser sensibles a
pequeos cambios en la informacin (incluir o no una variable, etc.).

6BDemostracin estimador MICO con varianza y covarianza grandes:
Para el modelo X(2.1)X las varianzas y covarianzas de
2
| y
3
| estn dadas por:

( )
( )
2
2
2 2
2 23
var
1
i
x r
o
| =
(4.1)


( )
( )
2
3
2 2
3 23
var
1
i
x r
o
| =
(4.2)

( )
( )
2
23
2 3
2 2 2
23 2 3

cov
1
i i
r
r x x
o
| |

=

(4.3)

Donde r
23
es el coeficiente de correlacin entre X
2
y X
3.

De estas ecuaciones se entiende que a medida que r
23
tiende a 1, o sea, a medida
que la colinealidad aumenta, la varianza del coeficiente aumenta. En el lmite,
cuando r
23
= 1 la varianza es infinita. Por el mismo argumento tambin aumenta la
covarianza entre ambos coeficientes.

La velocidad con la cual aumentan la varianza y covarianza puede verse con el
factor inflador de varianza (FIV), que para el modelo X(2.1)X (2 variables
explicativas) se define como:

( )
2
23
1
1
FIV
r
=
(4.4)

El mismo muestra como la varianzas de un coeficiente es inflada por la presencia
de la multicolinealidad. Cuando r
2
23
tiende a 1, el FIV~ . Si no hay colinealidad
entre las variables el FIV ser 1.

Para el caso del modelo de k variables, la varianza de un coeficiente puede ser
expresada como:

( )
2
2 2
1
var
1
j
j j
x R
o
| =
(4.5)
y

2
1
FIV=
1
j
R
(4.6)

Sustituyendo X(4.6)X en X(4.5)X:


( )
2
2
var FIV
j j
j
x
o
| =
(4.7)

Que muestra que la varianza del estimador es directamente proporcional al FIV.

5. 4BDeteccin de la Multicolinealidad:
No se tiene un mtodo nico de detectarla o de medir su fuerza. Lo que existen son
ciertas reglas prcticas, algunas informales y otras formales, como son:

1. Un R
2
alto y test t no significativos. Este es un sntoma clsico de
multicolinealidad. Aunque es un diagnstico razonable, tiene la desventaja
de que es muy fuerte, en el sentido de que la multicolinealidad se considera
daina nicamente cuando no se pueden separar la totalidad de las
influencias de las variables explicativas sobre la variable Y.

2. Altas correlaciones entre parejas de regresores. Esto se puede ver
mediante el coeficiente de correlacin de orden cero entre los regresores. Si
es alrededor de 0.8 o ms, el problema se puede considerar como grave.

Sin embargo, hay que tener cuidado. Las correlaciones de orden cero altas son
una condicin suficiente pero no necesaria para la existencia de
multicolinealidad debido a que sta puede existir, a pesar de que las
correlaciones de orden cero sean relativamente bajas. Por qu? El coeficiente
de correlacin simple muestra solamente la correlacin entre 2 variables, sin
embargo puede existir una relacin entre ms de 2 variables explicativas.

3. Regresiones auxiliares. Una forma de encontrar cual variable est
altamente correlacionada con las otras, es efectuar la regresin de cada X
j

sobre las variables X restantes y calcular el R
2
correspondiente, que se
designa R
2
j
. Cada una de estas regresiones se denomina regresin auxiliar.
Siguiendo la relacin entre F y R
2
tenemos:

( )
2 3
2 3
2
2
2
1
1
j k
j k
X X X X
j
X X X X
R
k
F
R
n k
+
(5.1)

que sigue una distribucin F con k-2 y n-k+1 g. de l.

El R
2
XjX2.X3...Xk
es el coeficiente de determinacin en la regresin de la variable
X
j
sobre las X restantes.

Si F calculado > que F crtico se dice que el X
j
particular es colineal con las
dems X restantes, en caso contrario no es colineal, y por tanto podemos
mantener la variable en el modelo.

En lugar de probar formalmente todos los R
2
auxiliares, podemos adoptar la
regla prctica de Klein que sugiere que la multicolinealidad puede ser un
problema complicado solamente si el R
2
obtenido de una regresin auxiliar es
mayor que el R
2
global.

4. Factores de Tolerancia y de Inflacin de Varianza. Mientras mayor es el
FIV, mayor problema o colinealidad tiene la variable X
j
. Como regla
prctica, si el FIV > 10 se dice que la variable es altamente colineal.

Otros autores utilizan la medida de tolerancia para detectar el problema. Esta se
define como:

( )
2
1
1
FIV
j j
j
TOL R = = (5.2)

TOL
j
= 1 si X
j
no est correlacionado con los otros regresores, TOL
j
= 0 si est
perfectamente correlacionado.

Sin embargo, FIV alto no es condicin necesaria ni suficiente para tener
varianza y errores estndar altos. Esto es porque como se puede ver en X(4.7)X, la
( )
var
j
| depende de tres factores:
2 2
,
j
x o

y FIV
j
los cuales pueden ser
contrarrestados entre si.

6. 5BQu hacer?
Existen 2 opciones bsicas: incorporar informacin adicional no hacer nada! Se
pueden llevar a cabo las siguientes prcticas:

1. Aumentar la muestra. Ya que la multicolinealidad se puede deber a la
micronumerosidad o que la muestra haya sido extrada de un pequeo
intervalo de la poblacin, aumentar la muestra puede ayudar a aumentar la
ortogonalidad de las variables. Dado que:

( )
( ) ( ) ( )
2 2
2 2 2
var
1 var 1
j
j j j j
x R n X R
o o
| = =

Cuando aumentamos la muestra aumentamos
2
j
x
, y por tanto disminuye

la varianza de
j
| .
Sin embargo, en economa muchas veces puede ser difcil aumentar la
muestra, bien porque puede ser muy costoso porque no existen los
registros estadsticos necesarios.

2. Especificar una relacin entre parmetros. Si se tiene algn dato debido a
la teora o a una regresin previa de la relacin entre por ejemplo X
2i
y X
3i
se
puede imponer esta restriccin en la regresin.

Por ejemplo el caso de la funcin de produccin Cobb-Douglas linelizada:

1 2 2 3 3
ln ln ln
i i i i
Y X X u | | | = + + + (6.1)

Si suponemos rendimientos constantes a escala:
( )
2 3
1 | | + =

Entonces imponemos esta restriccin en la ecuacin antes de estimarla. Cabe
sealar que estas restricciones deben basarse en algn fundamento terico.

3. Incorporar estimadores de otros estudios. Conocida como mezcla de
datos.

Por ejemplo, si queremos estimar la demanda de un bien y tenemos
informaciones de series de tiempo, podramos utilizar la siguiente ecuacin:

1 2 3
ln ln ln
t t t t
Y P I u | | | = + + + (6.2)

Donde Q = cantidad vendida, P = precio promedio, I = ingreso.

Necesitamos estimar las elasticidades, pero P e I tienen alta colinealidad.
Una solucin posible es calcular la elasticidad ingreso mediante datos de
corte transversal, (como informacin generada a travs de un grupo de
consumidores). Supongamos que la elasticidad ingreso calculada de esta
forma es igual a 1.1. Entonces la ecuacin de series de tiempo puede
estimarse como:

1 2
ln ln 1.1ln
t t t t
Y P I u | | = + + + (6.3)

4. Eliminacin de variables y sesgo de especificacin. Una solucin a la
multicolinealidad es eliminar una de las variables colineales. Sin embargo,
este mtodo puede causar sesgo de especificacin o error de especificacin.
Lo cual es peor que el problema de multicolinealidad.

5. Transformacin de variables. Supongamos que tenemos unos datos de
series de tiempo. Si tenemos la relacin:

1 2 2 3 3 t t t t
Y X X u | | | = + + + (6.4)

Si esta relacin se cumple en t, tambin se cumple en t-1:

1 1 2 2 1 3 3 1 1 t t t t
Y X X u | | |

= + + + (6.5)

Restando ambas ecuaciones tenemos la ecuacin en primeras diferencias:

1 2 2 2 1 3 3 3 1
( ) ( )
t t t t t t t
Y Y X X X X v | |

= + + (6.6)

Podemos eliminar multicolinealidad porque aunque X
2
y X
3
estn
correlacionadas, no necesariamente lo van a estar sus diferencias. Sin
embargo (6.6) puede tener el problema de que los errores estn serialmente
correlacionados, con lo cual el remedio podra ser peor que la enfermedad.

6. Otros mtodos. Tcnicas estadsticas multivariadas como anlisis de
factores y componentes principales. Estos no los veremos porque exceden
los lmites de este curso.

7. No hacer nada! Siempre que el nico objetivo de la regresin sea el
pronstico, la multicolinealidad no es un problema grave, ya que mientras
ms alto el R
2
, mejor la prediccin. La multicolinealidad no afecta las
propiedades de los estimadores, pues stos siguen siendo MELI; la varianza
es grande pero mnima. Simplemente asumimos que la multicolinealidad es
un problema muestral, la realidad es as y la muestra tiene stos problemas.

Pero esto puede suceder siempre que los valores de las variables explicativas
para los cuales se desean las predicciones obedezcan a las mismas
dependencias lineales casi exactas de la matriz X (de los factores) de diseo
original, que es una condicin difcil de conseguir en la prctica.

Captulo 8

Heterocedasticidad

1. Naturaleza

Uno de los supuestos importantes del modelo clsico de regresin lineal es que la
varianza de cada trmino de error u
i
, condicional a los valores seleccionados de las
variables explicativas, es un nmero constante que llamamos
2
. Esto es lo que se
conoce como el supuesto de homocedasticidad:

( )
2 2
, 1, 2,3...
i
E u i n o = = (1.1)

2
( ') E o = uu I (1.2)

Grficamente la homocedasticidad en el modelo con dos variables se puede
observar en el primer grfico de la siguiente pgina. Se observa que la varianza de
Y condicional a las X
i
dadas permanece igual sin importar los valores que tome la
variable X. Esto se refleja en una varianza constante para la regresin, o sea
var(Y
i
)=
2
.

En contraste, si vemos el segundo grfico, ste muestra que la varianza condicional
de Y aumenta a medida que X aumenta. Las varianzas no son las mismas, y por lo
tanto existe heterocedasticidad. Ahora
( )
2 2
i i
E u o = , entonces la varianza de u
i
ya
no es constante.

La heterocedasticidad es ms probable de encontrar en estudios de corte transversal
que en aquellos de series de tiempo. Un ejemplo de este problema sera en un
estudio de corte transversal del ingreso y los gastos familiares, se esperara que los
individuos de ingresos bajos gasten a un ritmo constante mientras que los de
ingresos altos tengan patrones de gastos relativamente voltiles.
Heterocedasticidad 146

|
1

X
Y = |
1
+|
2
X
i

Y
X
3
X
5
X
4
X
1
X
2

X
3
X
5
X
4
X
1
X
2

|
1

X

Y = |
1
+|
2
X
i

Y


Existen varias razones por las cuales las varianzas de u
i
pueden ser variables, como
son:

a) Con base en modelos de aprendizaje sobre errores: a medida que la gente
aprende, con el tiempo, sus errores de comportamiento se hacen menores,
entonces la varianza tiende a reducir.

b) A medida que aumentan los ingresos, la gente posee ms ingreso discrecional:
por lo tanto, tiene mayores posibilidades de seleccin con respecto a la forma
de disponer de su ingreso.

c) A medida que mejoran las tcnicas de recoleccin de la informacin, es posible
que la varianza se reduzca.

d) La heterocedasticidad puede surgir como resultado de la presencia de factores
atpicos (outliers): La inclusin de una variable de este tipo puede alterar los
resultados de la regresin, especialmente si la muestra es pequea.

e) La heterocedasticidad puede surgir por la mala especificacin del modelo: Al
omitir una variable relevante para el modelo por ejemplo. Una mala
especificacin puede hacer que los residuos obtenidos den la impresin de que
existe heterocedasticidad.

2. Estimacin en presencia de heterocedasticidad

Vamos a considerar el modelo clsico con dos variables, pero ahora vamos a
suponer que se viola el supuesto de homocedasticidad,:

1 2 i i i
Y X u | | = + + (2.1)

Y aplicando la frmula conocida de MICO tenemos:

2 2
i i
i
x y
x
| =

(2.2)

Sustituyendo (2.1) en (2.2), utilizando k
i
y sus propiedades:


( )
2 1 2
1 2
1 2
2 2
i i i i i
i i i i i
i i i i i
i i
k Y k X u
k k X k u
k k X k u
k u
| | |
| |
| |
| |
= = + +
= + +
= + +
= +


( ) ( ) ( )
2 2 2
i i i i
E E k u k E u | | | = + = +

( )
2 2
E | | =

Por tanto, aun bajo la presencia de heterocedasticidad, el estimador sigue siendo
insesgado. Obtengamos ahora su varianza:

( )
( )
( )( )
( )
( ) ( ) ( )
2
1
2
2
2 2 2
2
1 1 2 2
1 1 2 2 1 1 2 2
2 2 2 2
1 1 1 2 1 2 1 3 1 3 2 2 2 1 2 1
2 2
1 1 1 2 1 2 1 3 1 3
0 0

var
...
... ...
... ...
...
i i
n n
n n n n
E E k u
E k u k u k u
E k u k u k u k u k u k u
E k u k k u u k k u u k u k k u u
k E u k k E u u k k E u u
o
| | |
(
( = =

(
= + + +

( = + + + + + +

(
= + + + + +

= + +
( ) ( ) ( )
( )
2 2
2
2 2 2 2
2 2 2 1 2 1
0
2
2 2
2 2 2
2 2
2
...
n
n n
i i
i
i i i
i
i i
k E u k k E u u k E u
x
x
k
x
x
o o
o
o o
+ + +
(
= = =
(
(

La varianza ahora es:

( )
( )
2 2
2 2
2
var
i i
i
x
x
o
| =

(2.3)

que difiere de la frmula habitual bajo el supuesto de homocedasticidad:


( )
2
2 2
var
i
x
o
| =
(2.4)

Suponga que
2 2
i i
k o o = donde
2
es una constante y k
i
son ponderaciones
conocidas, pero no necesariamente iguales. Si sustituimos en (2.3), tenemos:

( )
( ) ( )
2 2 2 2 2
2
2 2 2 2 2
2 2
var
i i i i i i
i i
i i
x x k x k
x x
x x
o o
o
| = = =

Donde el primer trmino del lado derecho es la varianza del estimador MICO de
2

bajo el supuesto de homocedasticidad.
Cul es la relacin de
( )
2
var | bajo homocedasticad y bajo heterocedasticidad?

Si el segundo trmino del lado derecho es mayor que uno,
2 2
i i i
x k x >

la
varianza heterocedstica ser mayor a la homocedstica, por lo que si utilizamos
esta ltima, subestimamos la varianza heterocedstica, inflando los estadsticos t y
F. Si
2 2
i i i
x k x <

, ocurre lo contrario. Por tanto, la subestimacin o
sobreestimacin de la varianza de
2
, depende de la relacin entre
2
y la variable
X
i
.

En cuanto al modelo general expresado en forma matricial, cuando se viola el
supuesto de homocedasticidad:

( ) | |
( ) ( )
( ) ( )
( ) ( )
2
1 1 2 1
1
2
2 2 1 2 2
1 2
1
2
1
1 2
2
1 1
2
2 2 2 2
2
( )
( )
'
( )
0 0 0 0
0 0 0 0
0 0 0 0
n
n
n
n
n
n
n n n
n n
n n
E u E u u E u u
u
u E u u E u E u u
E E u u u
u
E u u E u u E u
e o
e o
o o
e o
(
(
(
(
(
(
= =
(
(
(
(
(

( (
( (
( (
= = = O
( (
( (

uu

Sabemos que ( ) Y X' X X'
1

= y u X Y + = . Sustituyendo tenemos:

( ) ( )
( ) ( )
( )
1
1 1
1
= +
= +
= +
X'X X' X u
X'X X'X X'X X'u
X'X X'u


| | ( )
1
( )
( )
E E E
E
(
= +

=
X'X X'u

Por lo tanto
es insesgado, a pesar de la presencia de heterocedasticidad, debido a

que este supuesto no es necesario para demostrar insesgamiento. Ahora veamos la
varianza:

( ) ( )( )
( )( )
( )
{ }
( )
{ }
( ) ( )
( ) | | ( )
( ) ( )
1 1
1 1
1 1
1 1
2

var cov ( ) ( ) '

'
'
'
'
E E E
E
E
E
E
o

(
=

(
=

(
=

(
=

=
=

X'X X'u X'X X'u
X'X X'uu X X'X
X'X X' uu X X'X
X'X X' X X'X

( )
( ) ( )
1 1
2
var cov o

= X'X X'X X'X (2.5)

Esta varianza se diferencia de las encontradas bajo el supuesto de homocedasticidad, donde

( )
( )
1
2
var cov o

= X'X

3. Que pasa con el estimador MICO en presencia de
heterocedasticidad?

El estimador MICO, ya no es el mejor estimador lineal insesgado (MELI).
Mantiene la propiedad de linealidad e insesgadez, pero ya no es el mejor de los
estimadores, pues no tiene la varianza mnima. Por lo tanto este estimador sera
consistente pero no eficiente.

Lo que sucede es que la estimacin MICO en presencia de heterocedasticidad, trata
con igual ponderacin una observacin de una poblacin de varianza elevada y una
de varianza pequea, cuando lo ms razonable sera dar ms ponderacin a las
observaciones provenientes de poblaciones con menores varianzas respecto de las
de mayor varianza. Esto afecta los distintos tests y la inferencia se hace invlida.

Si utilizamos el estimador MICO ignorando heterocedasticidad, entonces el
estimador MICO de la
( )
2
var | ser un estimador sesgado, que adems subestima

o sobreestima la varianza, por lo tanto las pruebas t y F usuales y los intervalos de
confianza resultarn errneos. El sesgo viene dado porque el estimador de
2
o ,
( )
2 2
i
e n k o =
, no es insesgado cuando se viola el supuesto de

homocedasticidad.

Por tanto, utilizar el estimador MICO en presencia de heterocedasticidad puede
provocar errores importantes. Para evitarlos, se utiliza un mtodo de estimacin
alternativo: Mnimos Cuadrados Generalizados.

( ) ( )

var var
MCG MICO
Heterocedstico
<

4. Mnimos Cuadrados Generalizados (MCG)

Este mtodo de estimacin tiene en cuenta la existencia de varianzas no
homocedsticas, y por lo tanto nos permite obtener estimadores que s sern MELI.

Lo que hace el mtodo de MCG es ponderar de forma diferente las observaciones,
dando mayor ponderacin a las observaciones con menor varianza, ya que estas
son ms precisas para sealar por donde pasa la funcin de regresin poblacional.

Si consideramos nuevamente el modelo de dos variables ya visto:

1 2 i i i
Y X u | | = + + (4.1)

que podemos rescribir como:

1 01 2 i i i
Y X X u | | = + + (4.2)

Donde X
0i
= 1.

Si las varianzas heterocedsticas son conocidas dividimos a ambos lados por
i
:

0
1 2
i i i i
i i i i
Y X X u
| |
o o o o
| | | | | |
= + +
| | |
\ . \ . \ .
(4.3)

Esto podemos rescribirlo como:

0
* * * * * *
1 2
i i i
i
Y X X u | | = + + (4.4)

Las variables X con * quieren decir las variables transformadas y los beta *
son para diferenciarlos de los MICO.

Para ver el propsito de transformar las variables, veamos la siguiente
caracterstica del error transformado:

( ) ( )
( )
2
2
* *
2
2
2 2
var
1
1
i
i i
i
i
i
i i
u
u E u E
E u
o
o
o o
| |
= =
|
\ .
= = =
(4.5)

Dado que
2
i
o es conocida y ( )
2
i i
E u o =

La varianza de
*
var( )
i
u es igual a la unidad, o sea es una constante, por lo tanto es
homocedstica. Entonces si se aplica la estimacin MICO al modelo transformado,
se producirn estimadores MELI. Por lo tanto
*
1
| y
*
2
| son eficientes.

En resumen, MCG es MICO sobre las variables transformadas que satisfacen
los supuestos estndar de mnimos cuadrados. Los estimadores as obtenidos
se conocen como estimadores MCG y stos son los estimadores que son MELI.

Para obtener los estimadores MCG se minimiza los residuos al cuadrado del
modelo transformado:

( )
2
*2 * * * * *
1 0 2
min
i i i i
e Y X X | | =

(4.6)

( )
2
2 * * *
1 0 2
min
i i i i i i
we w Y X X | | =

donde w
i
= 1/
2
i
o , es decir las observaciones son ponderadas inversamente
proporcional por la varianza de u
i
.

2
* *
1 2
*
1
* *
1 2
* *
1 2
* * * *
1 2
* * * *
1 2

2 ( )( 1) 0

( ) 0

0

0

0
i
e
i i
i i i
i i i
i i i i i
i i
n
n
we
w Y X
w Y X
wY w w X
Y X
Y X
| |
|
| |
| |
| |
| |
c
= =
c
=
=
=
=

Despejando
1
| tenemos:

* * * *
1 2

Y X | | = (4.7)
Resolviendo para
2
| :

( )
*
1
2
* *
1 2
*
2
* * 2
1 2
* * * * 2
2 2

2 ( )( ) 0

0

0
i i
i i i i
i i i i i i i
i i i i i i i
we
w Y X X
wY X w X w X
wY X Y X w X w X
|
| |
|
| |
| |
c
= =
c
=
=

(4.8)

( )
* * * * 2
2 2
* * 2
2 2
* * 2
2 2
* 2
2
*
2

i i i i i i i
i i i i
i i i i i i i
i i
i i i i i i i i
i i i i i
i i
i i i i i i i i
i i i i i
i i
i i
wY X Y X w X w X
wY w X
wY X w X w X
w w
wY w X w X w X
wY X w X
w w
wY w X w X w X
wY X w X
w w
wY X
| |
| |
| |
|
|
=
| |
=
|
|
\ .
=
| |
=
|
|
\ .
=

( )
( )
2
*
2
2
i i i i
i
i
i i i i
i i
i
i i i i i i i i i
i i i i i i i
wY w X
w
w X w X
w X
w
w wY X w wY w X
w w X w X w X
|

El estimador MCG de
*
2
| es:

( )( ) ( )( )
( )( ) ( )
*
2 2
2
i i i i i i i i
i i i i i
w w X Y w X wY
w w X w X
|

=

(4.9)

donde w
i
= 1/
2
i
o . Su varianza est dada por:

( )
( )
( )( ) ( )
*
2 2
2
var
i
i i i i i
w
w w X w X
| =

(4.10)

4.1 Derivacin MCG en forma matricial

Sabemos que u X Y + = y bajo el supuesto de heterocedasticidad ( )
2
' E o = O uu .
Necesitamos modificar el modelo, de forma tal que el error sea homocedstico, por
tanto supongamos una matriz T que transforma los datos:

TY = TX + Tu
= TX + v
(4.11)

Donde = v Tu y requerimos que
( )
2
' E o = vv I

( ) ( ) ( ) ( )
2 2
var ' E E E o o = = = = = v vv Tuu'T' T uu' T' T T' TT'
Donde necesitamos TT' = I , por tanto
1 1
= T T' y:

1
= T'T (4.12)

La matriz T debe cumplir el requisito (4.12), para que pueda cumplirse el supuesto
de homocedasticidad del modelo trasnformado (4.11).

Los estimadores MCG equivalen a los estimadores MICO sobre el modelo
transformado (4.11):

( ) ( )
| |
| |
1 1
1 1
1 1 1 1
1 1
' '
' ' ' '
' '
' '
' ' ' '
' '

(

=
( =

(

( ( = +

( = +

-1
MCG
-1
-1
-1
-1 -1
-1
= TX TX TX TY
X T TX X T TY
X X X Y
= X X X X +u
X X X X X X X u
X X X u
(4.13)

Propiedades del estimador MCG

Sesgo

( )
( )
( )
( )
1 1
' '
E E E
E

( +

-1
MCG
MCG
= X X X u
=
(4.14)

Varianza

( ) ( )( )
( )( )
{ }{ }
( )
1 1 1 1
1 1 1 1
1 1 1 1
1

var ( ) ( ) '

'
' ' ' ' '
' ' ' '
' ' ' '
'
E E E
E
E
E
E

(
=

(
=

(
( ( =

(

(
( ( =

(

( ( =

=

MCG MCG MCG MCG MCG
MCG MCG
-1 -1
-1 -1
-1 -1

X X X u X X X u
X X X uu X X X
X X X uu X X X
X X
1 2 1 1
2 1
' '
'
o
o

( (

( =

-1 -1
-1
X X X X
X X

( )
2 1
var ' o

( =

-1
MCG
X X (4.15)

Puede demostrarse que (4.15) cumple con el teorema de Gauss-Markov.

Estimador de
2

El estimador de
2
o es:

2
'
n k
o =
v v
(4.16)

Donde
=
MCG
v TY TX , y sustituyendo en (4.16):


( ) ( )
( ) ( )
( ) ( )
2
1

'
'

' '

'
n k n k
n k
n k
o

= =

=
MCG MCG
MCG MCG
MCG MCG
TY TX TY TX
v v
Y X T T Y X
Y X Y X

( ) ( )
1
2

'
n k
o

=
MCG MCG
Y X Y X
(4.17)
Diferencia entre MICO y MCG:

MCG minimiza una suma ponderada de residuos al cuadrado donde w
i
acta como
un ponderador, en cambio que MICO minimiza la SRC sin ponderar. Como lo que
tratamos es de estimar una funcin de regresin poblacional (FRP), la idea es
ponderar con un peso relativamente mayor las observaciones ms cercanas a la
media (poblacional), que aquellas que estn ms dispersas.

Como en (4.6) se minimiza la SRC ponderados, estos estimadores se conocen
como Mnimos cuadrados ponderados (MCP), que son un caso particular de los
MCG (veremos otra aplicacin de MCG en el caso de autocorrelacin).

5. Deteccin de la heterocedasticidad

Mtodos informales:

Naturaleza del problema: con mucha frecuencia, la naturaleza del problema
en estudio sugiere la posibilidad de que exista heterocedasticidad,
principalmente cuando se trabaja con datos de corte transversal.

Mtodo grfico: Una vez estimado el modelo, la inspeccin y anlisis de los
residuos permite detectar la presencia de heterocedasticidad, dado que
pueden considerarse como proxies de las perturbaciones aleatorias:

1 2 i i i
e Y X | | =

La representacin grfica de los residuos al cuadrado (o en valor absoluto) frente a
los valores de las variables explicativas puede permitir valorar la presencia de
heterocedasticidad y, en su caso, la posible causa de sta. Una pauta clara de
crecimiento o decrecimiento del cuadrado de los residuos indicara un
crecimiento/decrecimiento de la varianza de las perturbaciones aleatorias con la
variable en cuestin. Otra opcin til en el caso de 2 o ms variables explicativas
es graficar los residuos al cuadrado (o en valor absoluto) respecto a los valores
estimados de la variable dependiente.

Un ejemplo claro de presencia de heterocedasticidad se observa en los siguientes
diagramas:

Mtodos Formales:

Existen diversos test de hiptesis que pueden plantearse para valorar el fenmeno
de la heterocedasticidad, pero pueden clasificarse en dos grupos:

a. Los que parten de asignar una estructura concreta (heterocedasticidad
directa):
Goldfeld y Quandt (1965)
Glejser (1969)
Park (1966)
Breusch, Pagan & Godfrey (1978, 1979)

b. Los que no suponen una estructura concreta (heterocedasticidad indirecta):
White (1980)
Test de homogeneidad de varianzas de Barlett (1949)

5.1 Prueba de Park

Park formaliza el mtodo grfico sugiriendo que
2
i
o es algn tipo de funcin de la
variable explicativa X
i
.

La forma funcional que sugiere es:

2 2
i
v
i i
X e
|
o o =

2 2
ln ln ln
i i i
X v o o | = + +

Esta prueba se realiza en dos etapas:
1. Se corre la regresin por MICO ignorando la heterocedasticidad en los datos, y
se recupera el error estimado
i
u .
2. Como generalmente no conocemos
2
i
o utilizamos
2
i
u como proxy y corremos la
siguiente regresin:

2 2
ln ln ln
i i i
u X v o | = + +

Si es significativo, existe heterocedasticidad en los datos. En caso contrario
se acepta el supuesto de homocedasticidad.

Esta prueba tiene un inconveniente, y es que el trmino de error
i
v puede ser
heterocedstico.

5.2 Prueba de Glejser

Esta prueba es similar a la de Park, pero a diferencia de sta, no se restringe la
heterocedasticidad a una sola forma funcional, y propone varias formas que sta
podra adoptar. Los pasos para aplicar esta prueba son los siguientes:

1. Se realiza la estimacin MCO del modelo original y se obtienen los residuos.
2. Se realiza la regresin de los valores absolutos de los residuos frente a los
valores de la exgena que parece causar la heterocedasticidad. En sus
experimentos Glejser utiliz las formas funcionales siguientes:

1 2
i i i
u X v | | = + + (6.1)

1 2
i i i
u X v | | = + + (6.2)

1 2
i i i
u X v | | = + + (6.3)

1 2
1
i i
i
u v
X
| | = + + (6.4)

1 2
i i i
u X v | | = + + (6.5)

2
1 2
i i i
u X v | | = + + (6.6)

La significacin estadstica, valorada mediante el estadstico t del coeficiente,
indicar tanto la presencia de heterocedasticidad (la variabilidad no es constante)
como su estructura (depende de X).

Sin embargo presenta inconvenientes, ya que el trmino de error
i
v tiene
problemas pues su valor esperado es distinto de cero, est correlacionado y puede
presentar heterocedasticidad
1
. No obstante, Glejser ha encontrado que para
muestras grandes, los cuatro primeros modelos son satisfactorios. Tiene la ventaja
de que trata de estimar la verdadera forma de la heterocedasticidad.

Por otro lado modelos como el (6.5) y (6.6) son no-lineales en los parmetros, por
lo cual no pueden ser estimados por MICO.

5.3 Prueba de Goldfeld-Quandt

Este mtodo es aplicable si se supone que la varianza heterocedstica est
relacionada monotnicamente con una de las variables explicativas del modelo de
regresin.

1
Ver Goldfeld, S. M. and R. E. Quandt (1972). Captulo 3. Nonlinear Methods in Econometrics. Amsterdam, North
Holland Publishing Company.

Esta prueba se hace mediante los siguientes pasos:

1. Ordenar las observaciones de acuerdo a los valores de X
i
, empezando por el
valor de X ms bajo.
2. Omitir c observaciones centrales, que han sido especificadas a priori y dividir
las observaciones restantes (n-c) en dos submuestras, cada una de (n-c)/2
observaciones.
3. Correr las regresiones MICO por separado cada submuestra y luego obtener las
SRC
1
y SRC
2
respectivas. Donde la primera corresponde al grupo de varianzas
pequeas y la segunda al de varianzas grandes. Con
( )
2
n c
k
o
( 2 )
2
n c k

grados. de libertad.
4. Calcular el estadstico
2
:

2
2
1
1
2
2
SRC
n c
k
SRC
F
SRC
SRC
n c
k

= =

2
2
2
2
1
1
2
SRC
n c
k
F
SRC
n c
k
o
o

= =

Donde
,
2 2
n c n c
k k
F F
o

Si el F calculado es mayor que el crtico, se rechaza la hiptesis nula de
homocedasticidad
3
.

El numero c de observaciones a excluir debe ser aproximadamente una cuarta
parte de la muestra, o sea c=n/4.

Si se tiene un modelo de regresin mltiple, y no hay seguridad de cual varible X
es la causante de la heterocedasticidad, se debe realizar la prueba sobre cada una de
las varibles explicativas.

2
El mayor valor debe incluirse en el numerador, por lo que debe comprobarse que SRC
2
>SRC
1
, en caso contrario se
debe incluir SRC
1
en el numerador.

3
Si SRC
2
>SRC
1
, la hiptesis alterna es que la relacin heterocedstica de X es creciente, en cambio si SRC
1
>SRC
2
,
la hiptesis alterna es que la relacin heterocedstica de X es creciente y viceversa.

5.4 Prueba de White

Para esta prueba se procede de la siguiente forma:

1. Se realiza la estimacin por MICO del modelo original y se obtienen
los residuos. Supongamos que nuestro modelo es:

1 2 2 3 3 i i i i
Y X X u | | | = + + + (6.7)

2. Se realiza la regresin auxiliar de los cuadrados de los residuos frente
a todas las exgenas, sus cuadrados y los productos cruzados:

2 2 2
1 2 2 3 3 4 2 5 3 6 2 3 i i i i i i i i
e X X X X X X v o o o o o o = + + + + + + (6.8)

3. Se obtiene el coeficiente de determinacin de la regresin auxiliar y el
producto de ste por el nmero de observaciones se distribuye, bajo la
hiptesis nula de homocedasticidad, como una ji-cuadrado con p
grados de libertad, siendo p el nmero de regresores en la regresin
auxiliar, o sea p=k-1 (cinco en nuestro caso). Si el producto nR
2
es
mayor que
2
p
_ al nivel de confianza fijado, entonces se rechaza la
hiptesis de homocedasticidad y se admite la presencia de
heterocedasticidad.

6. Soluciones al problema de heterocedasticidad.

6.1 Cuando
2
i
o es conocida
En este caso el mtodo ms directo de corregir la heterocedasticidad es utilizar
Mnimos Cuadrados Generalizados (MCG) conocidos tambin como Mnimos
cuadrados Ponderados (MCP), ya que los estimadores obtenidos por este mtodo
son MELI.

6.2 Cuando
2
i
o es no conocida

Varianzas y errores estndar consistentes con heterocedasticidad de White
Cuando no conocemos
2
i
o White ha demostrado que existe una forma de obtener
estimaciones que sean asintticamente vlidas. Existen diversos paquetes que
presentan los errores varianzas y errores estndar bajo la correccin de
heterocedasticidad de White en forma simultnea con los de MICO. Los errores
estndar de White pueden ser mayores o menores que los de MICO.

Supuestos razonables sobre el patrn de heterocedasticidad

Una desventaja del mtodo de White, adems de ser un mtodo para muestras
grandes, es que los estimadores obtenidos por este medio pueden no ser tan
eficientes como aquellos obtenidos por mtodos que transforman la informacin
para reflejar tipos especficos de heterocedasticidad.

Una alternativa al mtodo de White, es hacer supuestos sobre el patrn de
heterocedasticidad y aplicar la transformacin de MCG, los cuales pasan ahora a
llamarse Mnimos Cuadrados Generalizados Factibles (MCGF).

Pueden tenerse diversos supuestos sobre el patrn de heterocedasticidad, y
dependiendo de stos se hace la transformacin al modelo original:

Supuesto 1: la varianza del error es proporcional a X
2
i
:
( )
2 2 2
i i
E u X o =

( )
2 2 2
2
1
2
2
2 2
3
2
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u X
X
X
X
X
o o
o
= =
(
(
(
(
=
(
(
(


2
1
2
2
2
3
2
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
X
X
X
X
(
(
(
(
(
=
(
(
(
(
(
(

-1

Dado que
1
= T'T, entonces:

1
2
3
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
X
X
X
X
(
(
(
(
(
=
(
(
(
(
(

T

Estimamos el modelo transformado ponderado TY= TX +Tu = TX + v , lo
cual equivale a transformar el modelo original de la siguiente forma:

1
2
1 2
1
i i
i i i
i
i
Y u
X X X
v
X
|
|
| |
| |
= + +
|
\ .
| |
= + +
|
\ .

Por lo tanto, la varianza es:

2
2
2 2 2 2
2 2
( )
1 1
i
i
i
i i
i i
u
E v E
X
E u X
X X
o o
(
=
(

( = = =


que implica que la varianza es homocedstica.

Supuesto 2: la varianza del error es proporcional a X
i
:
( )
2 2
i i
E u X o =

( )
2 2
1
2
2
3
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u X
X
X
X
X
o o
o
= =
(
(
(
( =
(
(
(

1
2
3
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
X
X
X
X
(
(
(
(
(
=
(
(
(
(
(

-1

Dado que
1
= T'T, entonces:

1
2
3
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
X
X
X
X
(
(
(
(
(
(
=
(
(
(
(
(

T


1
2
1 2
1
i i
i
i i i
i i
i
Y u
X
X X X
X v
X
|
|
| |
| | | |
= + +
| |
| |
\ . \ .
| |
= + +
|
|
\ .

Por lo tanto, la varianza es:

2
2
2 2 2
( )
1 1
i
i
i
i i
i i
u
E v E
X
E u X
X X
o o
(
=
(
(

( = = =

que implica que la varianza es homocedstica.

Supuesto 3: la varianza del error es proporcional al cuadrado del valor medio de
Y:
( ) ( )
2
2 2
i i
E u E Y o ( =

.

( ) ( )
( )
( )
( )
( )
2
2 2
2
1
2
2
2 2
3
2
var
0 0 0
0 0 0
0 0 0
0 0 0 0
i i
n
u E Y
E Y
E Y
E Y
E Y
o o
o
( = =

(
(
(
(
=
(
(
(
(


( )
( )
( )
( )
2
1
2
2
2
3
2
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
E Y
E Y
E Y
E Y
(
(
(
(
(
(
=
(
(
(
(
(
(

-1

Dado que
1
= T'T, entonces:

( )
( )
( )
( )
1
2
3
1
0 0 0
1
0 0 0
1
0 0 0
1
0 0 0 0
n
E Y
E Y
E Y
E Y
(
(
(
(
(
= (
(
(
(
(
(

T


Se transforma el modelo original de la siguiente forma:

( ) ( ) ( ) ( )
( ) ( )
1
2
1 2
1
i i i
i i i i
i
i
i i
Y X u
E Y E Y E Y E Y
X
v
E Y E Y
|
|
| |
= + +
= + +

Se puede demostrar que en este caso tambin,
2 2
( )
i
E v o = .

Por otra parte, una transformacin logartmica tal como
1 2
log log
i i i
Y X u | | = + +
con gran frecuencia reduce la heterocedasticidad cuando se compara con la
regresin sin logaritmos.

Captulo 9

Autocorrelacin

Uno de los supuestos formulados para el Modelo Clsico de Regresin Lineal, es
que no existe autocorrelacin del trmino estocstico
i
u de la funcin de regresin
poblacional. En este captulo veremos cual es la naturaleza de la autocorrelacin,
sus las consecuencias tericas y prcticas, como detectar su presencia y como
remediar el problema.

1. Definicin
El trmino autocorrelacin se puede definir como la correlacin entre miembros
de series de observaciones ordenadas en el tiempo (como series de tiempo) o en el
espacio (como datos de corte transversal)
1
. En el contexto de regresin, el mtodo
clsico supone que tal autocorrelacin de los errores
i
u no existe.

El modelo clsico supone
( )
0
i j
E u u i j = =

Mientras que la autocorrelacin implica
( )
0
i j
E u u i j = =

Podemos observar los patrones de autocorrelacin, observando las grficas de los
errores en el tiempo, o bien los errores en el periodo t versus el errores en t-s,
donde s es el orden del rezago de correlacin.

2. Causas de la autocorrelacin
Algunas de las causas de la autocorrelacin se deben a:

1
Maurice G. Kendall y William R. Buckland, A Dictionary of Statistical Terms, Hafner Publishing Company, New
York, 1971, p. 8.
Autocorrelacin 170

Error de especificacin: Forma Funcional Incorrecta. Si el modelo
verdadero de una funcin de costos es:

2
1 2 3 i i i i
Y X X u | | | = + + +

donde Y = Costo marginal, X = produccin, pero estimamos:

1 2 i i i
Y X v o o = + +

Entonces el patrn de errores ser sistemtico, como se muestra en la siguiente
grfica:

Algo similar ocurre cuando la muestra presenta cambio estructural, los residuos
pueden presentar patrones sistemticos antes y despus del cambio estructural.

Error de especificacin: Omisin de una variable relevante. El no incluir en
el modelo una variable autocorrelacionada provocar un residuo
autocorrelacionado.

Si el modelo es
1 2 2 3 3 t t t t
Y X X u | | | = + + +
Pero estimamos
1 2 2 t t t
Y X v | | = + +
Forma funcional estimada
Errores positivos o negativos
Verdadera forma
C
o
s
t
o

m
a
r
g
i
n
a
l

Produccin
Autocorrelacin 171
donde:
3 3 t t t
v u X | = +

Si
3
X presenta autocorrelacin, entonces
t
v estar autocorrelacionada, en
consecuencia, la solucin es incorporar
3
X .

En adelante, supondremos que la autocorrelacin no est provocada por errores de
especificacin

Influencia prolongada de shocks. En las series de tiempo, los shocks en
general persisten por ms de un perodo. Por ejemplo, en el caso de un
terremoto, probablemente este afectar la actividad econmica durante varios
de los periodos siguientes a que ste ocurra.

Inercia. Tambin conocida como lentitud, es una caracterstica relevante en la
mayora de las series de tiempo econmicas, las cuales suelen presentar ciclos
que se repiten a travs del tiempo, y en el que se hechos pasados tienen efectos
en el presente.

Rezagos. Hay modelos que requieren rezagos tanto de la variable dependiente
como de una o varias de las explicativas
2
. Si esta relacin es ignorada al
momento de hacer la regresin, el error recoger este patrn sistemtico de la
serie, presentando autocorrelacin.

Manipulacin de datos. En ocasiones los datos trimestrales son el resultado
de promediar los datos de los meses pertinentes, lo cual crea un suavizamiento y
elimina fluctuaciones de la informacin mensual. En otros casos, a falta de
alguna observacin, esta se suele interpolar o extrapolar en base a los datos de
la muestra y algunos supuestos.

El Fenmeno de la Telaraa. La oferta de muchos productos agrcolas se
refleja lo ste fenmeno, donde la oferta reacciona al precio con un rezago de
un periodo debido a que la implementacin de las decisiones de oferta toman
tiempo, lo cual suele expresarse como
1 2 1 t t t
oferta P u | |

= + + . Si tras el
periodo t, existen excedentes de produccin, los agricultores reducirn entonces
su produccin para el periodo t+1, producindose el patrn de la telaraa.

2
Por ejemplo, el consumo de un periodo, no slo depende del ingreso en dicho periodo, sino tambin del consumo
en el periodo anterior, debido a que las personas suelen tener hbitos en el consumo.
Autocorrelacin 172
Autocorrelacin espacial. En datos de corte transversal regional, un shock
aleatorio que afecta la actividad econmica de una regin puede causar que la
actividad econmica de regiones adjuntas corran la misma suerte, es decir,
ocurre el efecto vecindad.

3. Estimacin en presencia de autocorrelacin
Debemos suponer el mecanismo que genera las
t
u ya que el supuesto de que
( ) 0
t t s
E u u
= para 0 s = es muy general. Podemos pensar en las siguientes

formas:

Autorregresivo de primer orden [ AR(1) ]

Se define como:

1 t t t
u u c
= + (3.1)

con 1 1 < < , donde se conoce como coeficiente de autocorrelacin de primer
orden y
t
c es un error estocstico conocido como ruido blanco, el cual cumple con
las siguientes propiedades:

( )
( )
( )
2
0
var
cov , 0 0
t
t
t t s
E
s
c
c o
c c

=
=
= =
(3.2)

Podemos demostrar, tomando la definicin de coeficiente de correlacin que
3
:

| | ( ) | | ( ) { }
( ) ( )
| |
( )
1 1
1
1
1
cov
var
var var
t t t t
t t
t
t t
E u E u u E u
u u
u
u u

= =

Demostrar:
( )
2
2
var
1
t
u
c
o
, ( )
2
2
cov ,
1
s
t t s
u u
c
o
, ( , )
s
t t s
corr u u
=

3
Suponemos que | | 0
t
E u = y la varianza sigue siendo constante, por lo que | | | |
1
var var
t t
u u

= . equivale al
coeficiente de pendiente de una regresin entre
t
u y
1 t
u

.
Autocorrelacin 173

El nombre de autorregresivo se debe a que es una regresin del error u
t
sobre el
mismo, pero con rezago. Se dice que es de primer orden, porque solamente est
regresado con el primer rezago, as un esquema autorregresivo de orden p, se
representa como:

1 1 2 2
...
t t t p t p t
u u u u c

= + + + + , donde 1 1
t p

< < (3.3)

Media Mvil de primer orden [ MA(1) ]

Se define como:

1 t t t
u v v

= +

donde v es un trmino de perturbacin aleatorio con media cero y varianza
constante; y es una constante tal que 1 < . La media mvil de primer orden
MA(1), equivale a un promedio de dos variables aleatorias adyacentes. Existen
tambin procesos MA de rdenes mayores.

ARMA ( 1,1 )

Es una combinacin de procesos autorregresivos de primer orden y media mvil de
primer orden, el cual se representa como:

1 1 t t t t
u u v v

= + +

Concepto de estacionariedad

Una variable es no estacionaria cuando la relacin entre las observaciones de t y t-
1 se tiene un 1 = . Durante este curso, supondremos siempre, que -1 > y
1 < , al menos que se indique lo contrario. Los shocks de una variable no
estacionarios, son permanentes por qu?

3.1 Estimacin utilizando MICO
Supongamos por su simplicidad y amplia utilizacin, que el proceso de generacin
de los errores es un AR(1); el estimador MICO sigue siendo:

Autocorrelacin 174

2 2
t t
t
x y
x
| =
(3.4)

Sin embargo, su varianza ahora es:

( )
1 2
2 2 1 2
2 1
1 1 1
2 2 2
1
2 2 2
1 1 1
2
var .......
n n
t t t t
n
t t n
n n n
AR
t t
t t t
t t t
x x x x
x x
x x
x x x
o o
|

+ +
= =
= = =
(
(
= + + + + (
(
(

(3.5)

Podemos contrastar (3.5) con la varianza sin autocorrelacin dada por

( )
2
2 2
var
t
x
o
| =
(3.6)

Vemos que (3.5) es igual a (3.6) ms un trmino que depende de y de las
covarianzas muestrales entre los valores que toma X. A priori, no se puede afirmar
que
( )
2
var | es mayor o menor que

( )
2
1
var
AR
| .

En presencia de autocorrelacin nuevamente
2
| no es MELI; es lineal e insesgado,

pero ya no es eficiente, pues no tiene la mnima varianza.

3.2 Estimador de Mnimos Cuadrados Generalizados (MCG)
Al igual que con heterocedasticidad, podemos utilizar el MCG para obtener
estimadores que sean MELI, ya que incorpora informacin adicional sobre las
varianzas-covarianzas, en el procesos de estimacin mediante la transformacin de
variables.

Bajo un proceso AR(1) es posible demostrar que el estimador MELI de
2
| est
dado por:

( )( )
( )
1 1
2
2
2
1
2
n
t t t t
MCG
t
n
t t
t
x x y y
C
x x

|
=

= +

Autocorrelacin 175

( )
2
2
2
1
2
var
MCG
n
t t
t
D
x x
o
|

=
= +

donde C y D son factores de correccin de la primera observacin que pueden ser
ignorados en la prctica.

Una forma intuitiva de obtener los estimadores es la siguiente. Supongamos un
modelo de regresin de dos variables:

1 2 t t t
Y X u | | = + + (3.7)

rezagando (3.7) en un perodo, tenemos

1 1 2 1 1 t t t
Y X u | |

= + + (3.8)

Multiplicando (3.8) por se obtiene:

1 1 2 1 1 t t t
Y X u | |

= + + (3.9)

Si restamos (3.9) de (3.7):

1 1 2 2 1 1
1 2 1
1 2
( ) (1 ) ( )
(1 ) ( )
t t t t t t
t t t
t t t
Y Y X X u u
X X
Y X
| | |
| | c
| | c

- - - -
= + +
= + +
= + +

1 2 t t t
Y X | | c
- - - -
= + + (3.10)

donde
1 t t t
u u c

= , ( )
*
1 1
1 | | = ,
*
1 t t t
Y Y Y

= ,
*
1 t t t
X X X

= .

Este modelo se conoce como ecuacin en diferencias generalizada o
cuasidiferencias y equivale a Mnimos Cuadrados Generalizado (MCG).

Autocorrelacin 176
4. Consecuencias de utilizar MICO en presencia de
autocorrelacin
Si admitimos la autocorrelacin y usamos
( )
2
1
var
AR
| , es probable que los
intervalos de confianza sean ms amplios que si usamos MCG. Por lo tanto
2
| es
insesgado y consistente, pero no eficiente.

Ahora bien, si utilizamos MICO ignorando la autocorrelacin, la situacin es an
ms grave:
Es probable que la varianza de los residuos
2
2
2
t
u
n
o =
subestime la
verdadera varianza.
Por lo tanto, es posible que se sobreestime R
2
.
Aunque no se subestimara
2
o , puede que
( )
2
var | subestime a
( )
2
1
var
AR
| .
Las pruebas t y F dejan de ser vlidas y de ser aplicadas nos llevarn a
conclusiones errneas sobre la significancia estadstica.

Para un proceso de autocorrelacin AR(1), puede mostrarse que:

( )
1 2
1
2
2 1
2
2
1
2
n
t t
t
n
t
t
x x
n
x
E
n
o
=
=

(

`
(

)
=
(4.1)

Si
1
1
2
1
n
t t
t
n
t
t
x x
x
=
=
y son positivos (algo muy probable), entonces

( )
2 2
E o o < , es decir,
la formula usual de la varianza de los residuos en promedio subestimar la
verdadera varianza, o sea que ser sesgada hacia abajo, y lo mismo ocurrir con
( )
2
var | .

Asimismo, aun no sea subestimada, segn lo mostrado anteriormente comparando
(3.5) y (3.6), la
( )
2
var | ser un estimador sesgado de

( )
2
1
var
AR
| .

Autocorrelacin 177
5. Deteccin de la autocorrelacin
5.1 Mtodo grfico
El simple anlisis de los residuos obtenidos puede confirmar la presencia de
errores mal comportados. Los residuos y los residuos estandarizados con el tiempo.

5.2 Prueba de Durbin-Watson
El estadstico Durbin-Watson se define como:

( )
2
1
2
2
2

t n
t t
t
t n
t
t
u u
d
u
=
=
=
=
(5.1)

A diferencia de las pruebas t, F o Ji-cuadrado no hay un valor crtico nico que
lleve al rechazo o aceptacin de H
0
. Se usa en cambio un lmite inferior d
L
y un
lmite superior d
U
tales que si el valor d cae por fuera de estos valores crticos,
puede tomarse una decisin con respecto a la presencia de autocorrelacin positiva
o negativa.

Los lmites de d son 0 y 4. Estos pueden establecerse expandiendo la frmula de d
anterior:
x
u
i
t
u
i

t
x
x
x
x
x x
x
x
x
x
x
x
x
x
x
x
x
Autocorrelacin 178

2 2
1 1
2
2
t t t t
t
u u u u
d
u

+
=

(5.2)

si hacemos
2 2
1

t t
u u
=

, ya que apenas difieren en una observacin, entonces

2 2 2
1 1 1 1
2 2
1
2
2 2 2

2 1
t t t t t t t
t t
t t
t
u u u u u u u
d
u u
u u
d
u

+
~ =
| |
~
|
|
\ .

Definiendo
1
2

t t
t
u u
u

| |
=
|
|
\ .
como el coeficiente de autocorrelacin muestral de

primer orden, luego:
( )
2 1 d ~

Como 1 1 s s , entonces 0 4 d s s

Regla prctica
si d = 2 no hay autocorrelacin,
0
d
L
d
U
2 4 -d
U
4 d
L
4
Z
o
n
a

d
e

I
n
d
e
c
i
s
i
n

Z
o
n
a

d
e

I
n
d
e
c
i
s
i
n

R
e
c
h
a
z
o

H
o

A
u
t
o
c
o
r
r
e
l
a
c
i
n

(
+
)

No
rechazo
H
o
o H
0
*

R
e
c
h
a
z
o

H
o
*

A
u
t
o
c
o
r
r
e
l
a
c
i
n

(
-
)

H
o
No hay autocorrelacin positiva de primer orden
H
o
* No hay autocorrelacin negativa de primer orden

Autocorrelacin 179
si = +1 entonces d=0, por lo tanto hay autocorrelacin +
si = -1 entonces d=4, por lo tanto hay autocorrelacin

Pasos:
1. Efectuar regresin por MICO y obtener residuos.
2. Calcular d
3. Encontrar valores crticos d
L
y d
U
.
4. Seguir las reglas de decisin del grfico anterior.

Este estadstico es calculado con los residuos de la regresin MICO y es usado
para probar autocorrelacin de primer orden.

Cabe destacar que este test es vlido bajo las condiciones siguientes:
1. Hay constante en la regresin.
2. Las variables explicativas, son no estocsticas, es decir, son fijas en
muestreo repetitivo.
3. Los errores u
t
se generan por un proceso AR(1), o sea autocorrelacin de
primer orden.
4. El modelo no incluye variable endgena rezagada.
5. No hay observaciones faltantes.

5.3 Prueba h de Durbin
Cuando tenemos un modelo con variable endgena rezagada no podemos utilizar el
Durbin-Watson, pero tenemos como alternativa la prueba h de Durbin.

H
o
: = 0
H
1
: 0

( )
2
1
n
h
n Var
|
=
(

donde
2
| es el coeficiente asociado a Y
t-1
(la variable endgena rezagada) y
~ (0,1) h N por lo que:
[-1.96 1.96] 0.95 P h < < =

Si h calculado > 1.96, entonces se rechaza H
0
al 5%.

Autocorrelacin 180
5.4 Prueba Breusch-Godfrey sobre autocorrelacin de orden superior
Esta prueba es similar a la prueba de White de Heterocedasticiad, y es una prueba
de multiplicadores de Lagrange para detectar autocorrelacin de orden general. En
esta prueba la hiptesis nula de un proceso AR(), es:
1
=
2
=...=
p
= 0.

Pasos de esta prueba:
1. Estimar por MICO y obtener los residuos.
2. Efectuar la regresin de los residuos estimados sobre todas las X, ms
1 2
, , ,
t t t p
u u u

. Si p = 4, se introduciran los
t
u con cuatro rezagos.
3. Para muestras grandes B-G han demostrado que:

2 2
( )
p
n p R _ ~
Si
2 2
( ) >
p
n p R _ , se rechaza H
o
, por lo tanto hay autocorrelacin.

5.5 Estadsticos de Box-Pierce y Ljung-Box
Una alternativa para probar la existencia de autocorrelacin, es el estadstico Q de
Box y Pierce (1970). Para probar la hiptesis nula de que no existe autocorrelacin
de orden p, se calcula estadstico Q y se compara con una ji-cuadrado de p grados
de libertad.

2 2
1
p
BP
s p
s
Q n _
=
=

(5.3)
Donde

1
2
1
p
t t s
t s
s p
t
t s
e e
e

= +
= +
=

(5.4)

Con n=tamao de la muestra, s= las autocorrelaciones y p=orden de la
autocorrelacin de la hiptesis nula
4
.

Una variante del estadstico de Box y Pierce es el propuesto por Ljung-Box (LB)
que se define como:

4
Si el la serie representa los residuos de una estimacin ARIMA, el nmero apropiado de grados de libertad debe
ser ajustado para representar el numero de autocorrelaciones menos el numero de trminos AR y MA.
Autocorrelacin 181
( )
2
2
1
2
p
LB
s
p
s
Q n n
n s
_
=
= +
(5.5)

Aunque para muestras grandes, tanto el estadstico Q de BP como LB siguen la
distribucin ji-cuadrada con p grados de libertad, se ha encontrado que la
estadstica de LB posee mejores propiedades de muestra pequea que el estadstico
de BP.

6. Correccin de Autocorrelacin
Qu hacemos si hay autocorrelacin?

Verificar que la misma no es consecuencia de variables omitidas (ej. ausencia
de rezagos), o forma funcional incorrecta.
Para corregir autocorrelacin se puede utilizar una transformacin del modelo
original, utilizando los mnimos cuadrados generalizados.
Para muestras grandes se puede utilizar el mtodo de Newey-West.
Puede utilizarse MICO en algunos casos, siempre que no se necesite hacer
inferencia sobre los coeficientes

A continuacin, veamos detalladamente algunas formas de corregir
autocorrelacin.

En el caso de que conozcamos , aplicamos MCG segn lo presentado en la
ecuacin (3.10). El problema es que la mayora de las veces no conocemos ,
entonces tendremos que buscar la forma de estimarlo, para luego utilizar los
Mnimos Cuadrados Generalizados Factibles (MCGF). Una vez obtenido un
estimador de , para aplicar MCGF slo tendramos que incluirlo en la estimacin
de la ecuacin (3.10).

6.1 Estimacin a travs de los residuos
Si tenemos un proceso AR(1)
1 t t t
u u c
= + , podemos hacer una regresin entre

los residuos para encontrar un estimador de :

1

t t t
u u v

= +

En este caso no es necesario incluir interseccin, porque la suma de los errores
sabemos por definicin son iguales a cero.

Autocorrelacin 182
6.2 Mtodo basado en el estadstico d de Durbin-Watson
puede ser estimado a partir del estadstico D-W. Sabemos que
( )
2 1 d ~ . Si
despejamos , tenemos:
1 / 2 d = (6.1)

El inconveniente es que slo es vlido para muestras grandes. Para evitar este
problema Theil-Nagar propusieron la siguiente modificacin:

( )
2
2
2 2
1
d
n
n k
(6.2)

donde n = nmero total de observaciones, k = nmero de coeficientes a ser
estimados (incluyendo interseccin).

Luego de obtenido se procede a estimar la ecuacin (3.10), o sea en diferencias
generalizada.

6.3 Mtodo Iterativo de Cochrane-Orcutt
Como su nombre lo indica, deben de seguirse ciertos pasos:
1) Se estima modelo por MICO y se obtienen los residuos.
2) Luego se estima por MICO la siguiente regresin:
1

t t t
u u u
= +
3) Con efectese la ecuacin en diferencia generalizada (3.10)
1 2 t t t
Y X | | c
- - - -
= + +
4) Como no sabemos si es el mejor estimador de sustituimos los valores
1
|
-
y
2
|
-
en la regresin original y obtenemos los nuevos residuos
t
u
--

5) Se estima la regresin
1

t t t
u u w
-- --
= + , con esta
se vuelve a hacer el
proceso desde el paso 3 repetidas veces hasta que en 2 corridas consecutivas
los estimados difieran poco.

6.4 Mtodo de la Malla Hildreth y Lu
Se define un conjunto de valores posibles de entre 1 y 1, donde los intervalos
entre los distintos valores de son de 0.1.
Para cada se corre el modelo en diferencias generalizado y se computa la
2
t
u
.
Se elige un valor de que minimice la suma de cuadrados residuales (o sea que
maximizamos R
2
).

Captulo 10

Especificacin de modelos

Uno de los supuestos del modelo clsico de regresin lineal es que el modelo que
utilizamos est correctamente especificado, o sea que no hay error o sesgo en la
especificacin. La discusin sobre especificacin de modelos economtricos es
amplia y abarca diferentes corrientes de pensamiento, por lo que a continuacin
nos concentraremos en las consecuencias de tener un modelo mal especificado,
posible deteccin del problema y algunas tcnicas conocidas para especificar
modelos de manera correcta.

Existen cuatro posibles errores de especificacin
Omitir una variable relevante (variables omitidas).
Inclusin de variables irrelevantes (variables intrusas).
Forma funcional incorrecta.
Errores de medicin de los datos

En un pasado los econometristas tendan a asumir que el modelo provisto por la
economa terica representaba precisamente el mecanismo del mundo real para
generar los datos. En este sentido se vea el rol del econometrista en proveer
buenos estimadores para los parmetros del modelo. Cualquier incertidumbre
acerca de la especificacin del modelo, la tendencia era utilizar la econometra para
buscar el mecanismo de la generacin de los datos en el mundo real. Esta visin
de la econometra es obsoleta y hoy se reconoce que los modelos economtricos
son falsos y que no se debe esperar o pretender encontrar la verdad a travs de la
econometra.

1. Atributos de un buen modelo
Un modelo que est bien especificado tiene los siguientes atributos:

Especificacin de modelos 184
Parsimonia. Maximizar la explicacin del fenmeno, maximizando la
simplificacin. Mientras ms simple el modelo mejor.
Identificabilidad. Dadas las observaciones, los coeficientes estimados deben
ser nicos.
Bondad del ajuste. R
2
alto
1
, signos correctos de los coeficientes y
significativos segn las pruebas t y F, etc. Pero cuidado con el uso
indiscriminado de variables con la nica finalidad de aumentar el R
2
! (data
mining
2
).
Plausibilidad terica. Los coeficientes deben tener consistencia con el modelo
terico planteado. Aun teniendo un R
2
alto, un modelo puede tener los signos
incorrectos.
Poder predictivo. El R
2
es un indicador del ajuste dentro de muestra, pero
tambin importa predecir fuera de muestra, dentro y fuera del periodo.
Estabilidad. Inexistencia de cambio estructural y coeficientes estables.

2. Consecuencias de los errores de especificacin
2.1 Variables Omitidas
Si el verdadero modelo es

1 2 2 3 3 i i i i
Y X X u | | | = + + + (1)

Pero el modelo utilizado es:

1 2 2 i i i
Y X v o o = + + (2)

donde X
3
es la variable omitida.

Si expresamos (1) y (2) en desvos

( )
2 2 3 3 i i i i
y x x u u | | = + +
( )
2 2 i i i
y x v v o = +
Al estimar
2
o tenemos:

1
Debemos recordar que MICO maximiza el R
2
, ya que minimiza los errores al cuadrado.
2
Ames y Reiter (1961) encuentran que en promedio el R
2
de una regresin entre una variable econmica y su rezago
es 0.7.

( )
( )
( )
2 2 2 2 3 3
2 2 2
2 2
2
2 2 3 2 3 2
2
2
3 2 3 2
2 2
2
i i i i i i
i i
i i i i i
i
i i i i
i
x y x x x u u
x x
x x x x u u
x
x x x u u
x
| |
o
| |
|
|
+ +
= =
+ +
=
+
= +

Si aplicamos la esperanza

| |
3 2 3
2 2 2
2
i i
i
x x
E
x
|
o | = +

Las consecuencias de omitir X
3
son las siguientes:

1. Si la variable omitida est correlacionada con al variable incluida, los
coeficientes estimados son sesgados e inconsistentes.

2. An cuando X
2
y X
3
no estn correlacionados,
1
o es aun sesgado, aunque
2
o
sea insesgado
3
.

3. Si X
2
y X
3
estn correlacionados, la varianza del estimador ser menor que
del verdadero modelo.
Modelo original:
( )
2
2
2 2
2 2,3
var( )
1
i
x r
o
| =

Modelo estimado:
2
2 2
2
var( )
i
x
o
o =

2 2
var( ) var( ) o | < , dado que

2
2,3
0 1 r < s

Como el estimador
2
o es sesgado pero tiene varianza menor que el estimador
2
| , existe un tradeoff, en el que se podra utilizar el criterio del error

cuadrtico medio.

4. La varianza de la perturbacin
2
est estimada incorrectamente.

3
Dado
1 2 2
Y X o o = , y
1 2 2 3 3

Y X X | | | = , si aplicamos el operador de esperanza, ( )
1 2 2
E Y X o | = , (porque
2 3
0 x x =
) en cambio
( ) 1 2 2 3 3
E Y X X | | | =

2
2
( ) ( )
i
u
e
E E
n k r n k r
o
(
(
>
(
(

e'e

r es el nmero de variables omitidas. La SRC es mayor (porque se omite una
variable relevante), mientras que el efecto contrario sobre el denominador es
marginal, por lo que el estimador de la varianza est sesgado al alza.

5. En consecuencia, los intervalos de confianza y pruebas de hiptesis en
relacin a estos parmetros no sern precisos y nos pueden llevar a
conclusiones erradas
4
.

2.2 Inclusin de una variable irrelevante
Suponiendo que el verdadero modelo es

1 2 2 i i i
Y X u | | = + + (3)

pero se utiliza el siguiente:

1 2 2 3 3 i i i i
Y X X v o o o = + + + (4)

donde X
3
es la variable intrusa.

Las consecuencias de incurrir en este error de especificacin son las siguientes

1. Los estimadores MICO de los parmetros del modelo incorrecto son todos
insesgados y consistentes.
2. La varianza del error
2
o est correctamente computada.

2
2
( ) ( )
i
e
E E
n k s n k s
o
(
(
~
(
(
+ +

e'e

s es el nmero de variables intrusas La cada en la SRC no es muy grande,
porque la variable es intrusa (explica poco) mientras que en el denominador
se produce una variacin marginal en sentido contrario.

4
Adicionalmente los estimadores de las varianzas,
( )
2
2
2 2
2 2

2 2 2
2 2 2,3

1
u v
i i
x x r
o
|
o o
o o = > s =

.

3. Los procedimientos usuales de intervalos de confianza y de prueba de
hiptesis siguen siendo vlidos.

4. Pero la varianza estimada para los parmetros son ms grandes que las del
modelo original, por lo que son ineficientes.

Modelo original:
2
2 2
2
var( )
i
x
o
| =

Modelo estimado:
( )
2
2
2 2
2 2,3
var( )
1
i
x r
o
o =

Dado que
2
2,3
0 1 r < s (siempre habr alguna relacin entre las variables),
entonces
( )
( )
2 2
var var o | > .

En resumen, la inclusin de una variable irrelevante tiene menores costos que
omitir una variable; esto no quiere decir que sea poco costoso, pues la varianza del
estimador es mayor.

3. Pruebas de errores de especificacin
3.1 Examen de residuos
Pueden ser examinados, especialmente en informacin de corte transversal, para
detectar errores de especificacin en los modelos, tales como la omisin de una
variable importante o la definicin de una forma funcional incorrecta. Si en
realidad tales errores existen, una grfica de los residuos permitir apreciar
patrones distinguibles.

3.2 El estadstico Durbin-Watson
Si tenemos un d estimado muy bajo, sugiere que hay correlacin positiva en los
residuos estimados.

La correlacin positiva observada en los residuos refleja simplemente el hecho de
que hay una o ms variables pertenecientes al modelo que estn incluidas en el
trmino de error y necesitan ser desechadas de ste y ser incluidas como variables
explicativas.

Para aplicar este mtodo de probar mala especificacin se procede de la siguiente
manera:
1. Obtener los residuales MICO.
2. Si se cree que el modelo supuesto est mal especificado porque excluye una
variable explicativa relevante, por ejemplo Z, ordenar los residuales
obtenidos en el paso 1 de acuerdo con los valores crecientes de Z.
3. Calcular el estadstico d con los residuos as ordenados mediante la frmula
conocida
5
.
4. Con base a las tablas de D-W, si el valor d estimado es significativo,
entonces se puede aceptar la hiptesis de la mala especificacin.

3.3 Prueba RESET de Ramsey
Ramsey ha propuesto una prueba general de errores de especificacin conocida
como RESET (Regression Specification Error Test prueba de error de
especificacin en la regresin).

Si suponemos por ejemplo una funcin de costos es lineal a la produccin de la
siguiente forma:

1 2 i i i
Y X u = + + (5)

Ahora los pasos considerados en RESET:
1. A partir del modelo seleccionado, se obtiene
Y y R
2
(ecuacin restringida)
2. Se vuelve a estimar la regresin introduciendo como variables explicativas,
formas funcionales de
Y como uno o varios regresores adicionales, como

por ejemplo:

2 3
1 2 3 4

i i i i i
Y X Y Y u | | | | = + + + + (6)

Obtenemos el R
2
de la regresin auxiliar (ecuacin no restringida)

3. Entonces, bajo la hiptesis nula de que el modelo est bien especificado, se
puede utilizar la siguiente prueba F:

5

( )
2
1
2
2
1

n
t t
t
n
t
t
u u
d
u
=
=


( )
( )
2 2
,
2
1
( )
NR R
R n k
NR
R R
R
F F
R
n k

4. Con esto comprobamos si el incremento en el R
2
al utilizar (6) es
significativo. Si el F calculado es significativo, se rechaza la hiptesis nula,
vale decir que el modelo est especificado incorrecto.

La ventaja de esta prueba es que es fcil de aplicar, sin embargo al no especificarse
un modelo alterno tambin es una desventaja pues no nos proporciona ayuda en la
seleccin de una alternativa.

3.4 Prueba del Multiplicador de Lagrange (ML) para agregar
variables
Supongamos una funcin cbica de costos

2 3
1 2 3 4 i i i i i
Y X X X | | | | c = + + + + (7)

Si se compara la funcin lineal de costos (5) con una funcin cbica de costos (7),
la primera es una versin restringida de la ltima. La regresin restringida supone
que los coeficientes de los trminos de produccin elevados al cuadrado y al cubo
son iguales a cero ( )
3 4
0 | | = = . Para probar esto, la prueba ML se realiza de la
siguiente manera:

1. Estimar la regresin restringida (5) mediante MICO y obtener los residuos.
2. Si la regresin no restringida (7) resulta ser la verdadera regresin, los
residuos obtenidos al correr la ecuacin restringida (5) deben estar
relacionados con los trminos de la produccin elevada al cuadrado y al
cubo.
3. Esto sugiere que se efecte la regresin de los
i
u obtenidos en el paso 1
sobre todos los regresores (incluyendo los de la regresin restringida) lo que
significa:

2 3
1 2 3 4
i i i i i
u X X X v o o o o = + + + +

4. Para un tamao de muestra grande, Engle ha demostrado que
2 2
asi
R
nR _ ,
donde R es el nmero de restricciones.
5. Si el valor ji cuadrado obtenido excede al valor ji cuadrado crtico se rechaza
la regresin restringida. De lo contrario no se rechaza.

3.5 Deteccin de la presencia de variables innecesarias
Si tenemos el siguiente modelo:

1 2 2 3 3 i i i k ki i
Y X X X u | | | | = + + + + +

Puede ser que no tengamos seguridad de que la variable X
k
pertenezca a este
modelo. Asimismo, si no tenemos seguridad que X
3
y X
4
pertenezcan al modelo.
En este caso podemos averiguar de forma sencilla de probando la significancia de
k
mediante un test t y un test F para probar si
3
=
4
=0.

4. Errores de medicin
4.1 En la variable Y
Si consideramos el siguiente modelo:

i i i
Y X u o |
-
= + + (8)
donde
i
Y
-
= gasto de consumo permanente (no observado)
X
i
= ingreso anual
u
i
= trmino de perturbacin estocstica

Puesto que
i
Y
-
no pueda medirse directamente, puede utilizarse una variable de
gasto observable Y
i
, tal que:

i i t
Y Y c
-
= + (9)

donde
t
c denota los errores de medicin en
i
Y
-
. Por consiguiente, en lugar de
estimar (8) se estima:

( )
( )
i i i i
i i i i
i i i
i i
Y X u
Y X u
X u
X v
c o |
o | c
o | c
o |
= + +
= + + +
= + + +
= + +
(10)

donde v
i
es un trmino de error compuesto que contiene el trmino de error
poblacional y el trmino de error de medicin.

Bajo los supuestos
| | | |
0
i i
E u E c = = , ( ) cov , 0
i i
X u = , ( ) cov , 0
i i
X c = , los errores
de medicin en la variable Y no deshacen la propiedad de insesgamiento de los
estimadores MICO.

Sin embargo, las varianzas y los errores estndar del estimado de (8) y (10) sern
diferentes:
Modelo (8)
2
2
var( )
u
i
x
o
| =

Modelo (10)
2 2 2
2 2
var( )
v u
i i
x x
c
o o o
|
+
= =

La ltima varianza es ms grande que la primera. Por consiguiente aunque los
errores de medicin en la variable dependiente an producen estimaciones
insesgadas de los parmetros y de sus varianzas, las varianzas estimadas son ahora
ineficientes (ms grandes) que en el caso en el cual no existen errores de medicin.

4.2 En la variable X
Suponiendo que se tiene:

i i i
Y X u o |
-
= + + (11)
donde
i
Y = gasto de consumo

*
i
X = ingreso permanente (no observado)
u
i
= trmino de perturbacin estocstica

La variable que observamos es el ingreso corriente,
i i i
X X w
-
= + , donde
i
w
representa el error de medicin en
i
X
-
. Entonces en lugar de estimar (11) se
estima:

( )
( )
i i i i
i i i
i i
Y X w u
X u w
X z
o |
o | |
o |
= + +
= + +
= + +
(12)

donde
i
z es una combinacin del termino de perturbacin y del error de medicin.

Si suponemos que E(
i
z )= 0 :

( ) ( )
( ) ( )
| |
2
2
cov( , )
i i i i i i
i i i i i i i i
i i i i i i
w
z X E z E z X E X
E u w E u w X w E X w
E u w w E u w w
| |
| |
|o
- -
( ( =

(
( = + +

( = =

=

Ahora la variable explicativa y el trmino de error de (12) estn correlacionados, lo
cual viola el supuesto del modelo clsico de regresin lineal de que la variable
explicativa no est correlacionada con el trmino de error estocstico. Si este
supuesto se viola, los estimadores MICO no solamente estn sesgados, sino que
son tambin inconsistentes, es decir permanecen sesgados aun si el tamao de la
muestra, n, aumenta indefinidamente.

Por consiguiente, los errores de medicin constituyen un grave problema cuando
estn presentes en las variables explicativas, porque su presencia hace imposible la
estimacin consistente de los parmetros.

Solucin
Se puede suponer que
2
w
o es pequea comparada con
2
x
o
-
, en otras palabras, para
los fines prcticos se puede suponer que no existe el problema y proceder con la
estimacin MICO usual. El problema con esto es que no es posible observar o
medir
2
w
o y
2
x
o
-
fcilmente, por lo tanto no hay forma de juzgar sus magnitudes
relativas.

Otro medio sugerido es el conocido como variables instrumentales (VI) o
aproximadas, utilizando variables que estn altamente correlacionadas con las
variables X originales, pero no estn correlacionadas con los errores ecuacionales y
de medicin. Si es posible encontrar tales variables, entonces se puede obtener una
estimacin consistente de . Pero es mucho ms fcil hablar de esto que hacerlo.
No es fcil encontrar buenas variables aproximadas.

5. Criterios para la seleccin de modelos
5.1 El criterio R
2

Es una de las medidas de bondad de ajuste y se define como:


2
1
SCE SCT SCE SCR
R
SCT SCT SCT
= = =

Desventajas
Mide la bondad de ajuste dentro de la muestra, pero no garantiza un buen
pronstico fuera de la muestra
Para comparar, la variable dependiente debe ser la misma
No disminuye cuando se agregan variables al modelo

5.2 R
2
ajustado
Debido a este ltimo inconveniente Henry Theil desarrollo la R
2
ajustada:

( )
2 2
1 1
1
n k
R R
n

Aunque contina siendo necesario que la variable regresada sea la misma para
poder hacer comparaciones.

5.3 Criterio de informacin de Akaike (AIC)
La idea tambin es imponer penalizacin por aadir regresoras al modelo:

2k SRC
AIC
n n
= +

donde k es el nmero de regresoras y n el nmero de observaciones. Al comparar
entre modelos, se preferir el que tenga menor AIC.

5.4 Criterio de informacin de Schwarz (SIC)
El criterio de Schwarz impone una penalizacin mayor a la de AIC, y equivale a:

ln ln
k SRC
SIC n
n n
| |
= +
|
\ .

Al igual que con el criterio de Akaike, se preferir el modelo que tenga un menor
valor de SIC.

Es preciso destacar, que ninguno de los criterios es superior a los dems.
6. Estabilidad del modelo
6.1 Mnimos cuadrados recursivos
Anteriormente hemos vistos la prueba de Chow para la estabilidad estructural del
modelo. El problema de esta prueba es cuando no conocemos el punto de inflexin
del cambio estructural.

La estimacin recursiva consiste en estimar repetidamente el modelo especificado
para distintos tamaos muestrales. Si el modelo tiene k parmetros, se utiliza una
muestra de las primeras k observaciones para estimar los parmetros, luego se
agrega la siguiente observacin y se estiman los parmetros, repitiendo este
proceso hasta llegar a la ltima observacin (T). En cada estimacin obtenemos un
vector de estimadores que nos permite a su vez calcular la prediccin de la variable
endgena para el periodo siguiente y el error de prediccin correspondiente. De
este modo, con las sucesivas estimaciones, generamos las series de los llamados
coeficientes recursivos y residuos recursivos. La idea es que si no hay cambio
estructural las estimaciones de los parmetros se mantendrn constantes al ir
aumentando la muestra secuencialmente y los residuos no se desviarn
ampliamente de cero.

Residuos recursivos

Los residuos recursivos son los errores de prediccin un periodo hacia delante
calculados en cada etapa de la estimacin recursiva. Por ejemplo, si utilizamos t-1
observaciones, el vector de estimadores se denomina:

( )
1 1 1 1 1
t t t t t
=
-1
X 'X X 'Y (13)

Donde
1 t
X denota la matriz de orden t-1 por k de regresores del perodo 1 al
perodo t-1;
1 t
Y el vector correspondiente a las observaciones de la variable
dependiente del periodo 1 al t-1;
1
t
es el vector de los coeficientes estimados con
las observaciones 1 hasta t-1.

Con estos coeficientes podemos pronosticar el valor de la variable dependiente en
el perodo t. El pronstico es
1
t t
' x , donde
t
' x es el vector fila de observaciones
sobre los regresores en el perodo t. Entonces, el error de prediccin un periodo
hacia delante equivale a:


1
1, 1 2, 1 2, , 1 ,

...
t t t t
t t t t k t k t
f Y
Y X X | | |

'
=
=
x
(14)

La varianza del error de prediccin equivale a:

( )
( )
1
2 2
1 1
1
t
f t t t t
o o

' = + x X 'X x (15)

Se define el residuo recursivo para la observacin t como:

( )
( )
1
1
2
1 1 1
-
1 t
t t t t
t
f
t t t t
f Y
w
o
o

'
= =
' +
x
x X 'X x
(16)

Conceptualmente los residuos recursivos se interpretan como el cociente del error
de pronstico y su error estndar.

Se pueden calcular los residuos recursivos desde la observacin t=k+1 hasta T, los
cuales bajo el supuesto de normalidad de u
i
y estabilidad estructural se distribuyen
como una normal con media cero y varianza constante
( )
2
0,
t
w N o .

Si comparamos (grficamente por ejemplo) los residuos recursivos junto con sus
bandas de confianza ( 2 veces la desviacin estndar), podemos detectar
inestabilidad en los parmetros cuando uno o varios residuos exceden los lmites
de confianza.

Estadstico CUSUM

La prueba CUSUM est basada en la suma acumulada de los residuos recursivos.
En esta prueba existe inestabilidad si la suma acumulada est fuera del intervalo
crtico.

El estadstico CUSUM es:

1
; t=k+1,....T
T
i
i k
t
w
W
s
= +
=

(17)
Donde s es el error estndar de la regresin estimada con todas las observaciones
disponibles.

Si el vector permanece constante en el tiempo,
| |
0
t
E W = ; sin embargo, si
cambia,
t
W tender a divergir de cero. El anlisis se realiza comparando los
residuos
t
W frente al tiempo con sus bandas de confianza que, para el nivel de
confianza de 95% se obtiene de las rectas que unen los puntos:

( )
1
2
, 0.945 k t k
(

y
1
2
, 3 0.948( ) T T k
(

La hiptesis nula de estabilidad estructural se rechaza si el valor del estadstico
t
W
sale fuera de las bandas, es decir, si es estadsticamente distinto de cero.

Estadstico CUSUM de los cuadrados (CUSUMQ)

Esta prueba est basada en el estadstico:

2
1
2
1
t=k+1,.....T
t
i
i k
t T
i
i k
w
S
w
= +
= +
=

(18)

Bajo la hiptesis nula de estabilidad de los parmetros, el estadstico
t
S tiene
esperanza igual a:

| |
t
t k
E S
T k

La cual vara entre cero cuando t=k, y la unidad cuando t=T. El contraste se
realiza al igual que en el caso de CUSUM, comparando los residuos
t
S , con sus
bandas de confianza, por lo que los movimientos de
t
S fuera de las lneas crticas
sugieren inestabilidad en los parmetros.

Coeficientes recursivos

Si se comparamos los valores estimados de los parmetros cada vez que agregamos
una observacin, con un intervalo de confianza (2 su desviacin estndar), se
observar como cambian a medida que se agregan observaciones. Si el modelo es
estable las variaciones de los valores estimados sern mnimas y aleatorias; en
cambio si los valores cambian en forma significativa indicara un cambio
estructural.

6.2 Prueba de prediccin de Chow
Esta es una versin de la prueba de Chow para comprobar el poder predictivo de
un modelo de regresin. Esta prueba es especialmente til cuando el nmero de
observaciones luego del quiebre es menor que k.

Supongamos que tenemos el modelo:

1 2 t t t
C Y u | | = + +

donde C = consumo y Y = ingreso para el perodo 1970-2005 (n = 36). Si
dividimos la muestra en dos periodos (I y II) donde:
Periodo I: 1970-2002 (n = 32)
Periodo II: 2003-2005 (n = 2)

Estimando los parmetros con las observaciones del primer grupo
1
I
| y
2
I
| ,
podemos utilizarlos para predecir los valores del consumo (
C) correspondientes al
resto de la muestra (2003-2005). Si no hay un cambio estructural en los valores de
los parmetros, los valores del consumo estimado (
C) para el periodo 2003-2005

en base a los estimadores
1
I
| y
2
I
| , no deberan de ser distintos de los valores
observados (C) para dicho periodo.

Para estos fines, bajo la hiptesis nula de estabilidad de los parmetros (
I II
| | = ,
podemos utilizar el estadstico F:

2 1
2
,
1
R NR
n n k
NR
SRC SRC
n
F F
SRC
n k

donde n
1
= nmero de observaciones del periodo I
n
2
= nmero de observaciones del periodo II
SRC
R
= es la SRC de la ecuacin estimada para todo el periodo (n
1
+ n
2
)
SRC
NR
= es la SRC de la ecuacin estimada para el periodo I (n
1
)

En resumen:
1. Estimamos la regresin para el periodo completo (regresin restringida)
calculamos la SRC.
2. Estimamos la regresin para el primer periodo y calculamos SRC.
3. Calculamos el estadstico F y si este es mayor que el F de tabla, rechazamos la
hiptesis nula de estabilidad de los parmetros.

7. Principios generales para la especificacin
6

Aunque la controversia entre distintas escuelas sobre la metodologa economtrica
podra no resolverse nunca, segn Kennedy el debate ha sido fructfero y algunos
principios generales han emergido para la especificacin de modelos:

1. La teora econmica debe ser el fundamento y la gua para encontrar la
especificacin. Sin embargo, usar los datos para ayudar a mejorar una teora
econmica puede ser de utilidad, siempre y cuando el investigador no utilice los
mismos datos para probar la teora.
2. Los residuos deben ser ruido blanco, en caso contrario debe evaluarse como
reflejo de una mala especificacin.
3. A pesar de que testing down
7
, conlleva menos sesgo que testing up
8
, empezar
con un modelo completamente general no es posible. En consecuencia, en la
prctica es necesario utilizar una mezcla de testing up y testing down. Sobre la
base del aprendizaje de este proceso, un modelo ms complicado puede ser
propuesto y luego repetir el proceso.
4. Las pruebas de especificacin tienen un mejor desempeo probando
simultneamente varias especificaciones errneas en vez de probar una por una.
Con esto se elimina el problema de que una especificacin errnea afecte
adversamente las pruebas de otras especificaciones.
5. Los modelos deben ser expuestos a una batera de pruebas de especificacin
9

antes de ser aceptados. Es importante poder contar con un subconjunto de la
muestra, para poder hacer pruebas prediciendo fuera de muestra.
6. El modelo deber abarcar modelos rivales, en el sentido que puede predecir los
resultados que obtendra el modelo rival.
7. Debe reportarse los rangos de resultados correspondiente a diferentes
especificaciones razonables (anlisis de sensibilidad) en vez de proveer slo los
resultados de la especificacin adoptada, y los pasos tomados para la seleccin
de esa especificacin.

6
Tomado de Peter Kennedy, A Guide to Econometrics, Fifth Edition (2003), MIT Press. Pags. 85-86.
7
Iniciar la estimacin de una forma general hasta llegar a una particular reduciendo el nmero de variables.
8
Iniciar la estimacin de una forma particular hasta llegar a una general aumentando el nmero de variables
9
Esta batera abarca pruebas de variables omitidas (restricciones F y t), cambio estructural, autocorrelacin,
heterocedasticidad, especificacin (RESET), residuos recursivos, etc.

Apuntes de Econometría I

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apuntes de Econometría I

Transféré par

Droits d'auteur :

Formats disponibles

APUNTES DE ECONOMETRA

= el valor estimado de Y ser la esperanza

es insesgado de u si el valor esperado del estimador es igual al

E . Esto no significa que u u =

, sino que si calculamos el

es consistente si se aproxima al verdadero valor de u a medida

es consistente y su varianza asinttica es menor que la de otros

lim p u u = , donde plim significa probabilidad en el lmite.

Y Y = . Restando las dos expresiones anteriores

| , por lo que necesitamos al menos dos pares de puntos.

, con las propiedades siguientes:

| es un estimador que puede expresarse de forma lineal, donde k

| es un estimador insesgado. Esto quiere decir que

, sustituyendo en (9.5) tenemos:

| , dependen entre si.

al trmino con sumatoria:

, que es una condicin

, por lo tanto es un estimador insesgado

. En el caso del modelo sin intercepto, no sucede esto,

| es una elasticidad constante e indica el cambio % en la variable Y

| , y haciendo algunas manipulaciones algebraicas:

| de la ltima expresin de ambas ecuaciones normales y las

, equivale a e e' , por lo tanto el problema de

| , reflejando el problema de multicolinealidad.

| son inversamente proporcionales a las variabilidad

| de los parmetros poblacionales

del verdadero E(Y/X

, equivale a la sumatoria al cuadrado de

~ , y por similar procedimiento

| est en el intervalo con una

| , no puedo decir que el intervalo contiene al

~ , entonces exactamente el ( ) o 1 de esta

~ , entonces bajo la hiptesis nula

| cae en alguna de las colas de la distribucin (Rechazo H

> rechazo que H

Y es un predictor insesgado de E(Y

por ser combinacin lineal de variables

Y en promedio estar sobre

e Y Y = , podemos obtener un intervalo de confianza para

| es el cambio en el valor promedio de Y cuando X

| , tendremos un valor para

| tendremos otro valor para

. Podemos hacer lo mismo con

| estn dadas por:

, y por tanto disminuye

var | bajo homocedasticad y bajo heterocedasticidad?

es insesgado, a pesar de la presencia de heterocedasticidad, debido a

var | ser un estimador sesgado, que adems subestima

, no es insesgado cuando se viola el supuesto de

= para 0 s = es muy general. Podemos pensar en las siguientes

var | es mayor o menor que

| no es MELI; es lineal e insesgado,

y son positivos (algo muy probable), entonces

var | ser un estimador sesgado de

como el coeficiente de autocorrelacin muestral de

= + , podemos hacer una regresin entre

var( ) var( ) o | < , dado que

| , existe un tradeoff, en el que se podra utilizar el criterio del error

var var o | > .

Y como uno o varios regresores adicionales, como

C) para el periodo 2003-2005

Vous aimerez peut-être aussi