Vous êtes sur la page 1sur 57

Dpto.

de Economa Cuantitativa
Universidad Complutense de Madrid
Econometra I
Tema 1 Especicaci on y Estimacion del Modelo Lineal General
Marcos Bujosa
Material de apoyo para el curso Econometra I
c 20042008 Marcos Bujosa marcos.bujosa@ccee.ucm.es
Actualizado el: 6 de octubre de 2008 Versi on 2.03
Copyright c _ 20042008 Marcos Bujosa marcos.bujosa@ccee.ucm.es
Algunos derechos reservados. Esta obra esta bajo una licencia Reconocimiento-CompartirIgual de Creative
Commons. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by-sa/
2.5/es/deed.es o enve una carta a Creative Commons, 559 Nathan Abbott Way, Stanford, California
94305, USA.
Puede encontrar la ultima version de este material en:
http://www.ucm.es/info/ecocuan/mbb/index.html#ectr1

Indice

Indice 1
Especicacion y Estimaci on del Modelo Lineal General 3
1. Introduccion 3
1.1. El punto de vista estadstico: Regresion como descomposicion ortogonal . . . . . . . . . . . 3
1.2. El punto de vista del Analisis Economico: Regresion como modelo explicativo . . . . . . . . 4
2. Modelo Clasico de Regresion Lineal 5
2.1. Tres primeros supuestos en el Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . 5
2.2. Variacion de los supuestos 2 y 3 en algunos casos especiales: . . . . . . . . . . . . . . . . . . 11
. Supuestos del Modelo con Muestras Aleatorias . . . . . . . . . . . . . . . . . . . . . 11
. Supuestos del Modelo con Regresores No Estocasticos . . . . . . . . . . . . . . . . . 12
3. Estimacion MCO (Mnimos Cuadrados Ordinarios) 12
3.1. Cuarto supuesto del Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . . . . . . 13
3.2. Algunas expresiones que seran empleadas frecuentemente . . . . . . . . . . . . . . . . . . . 13
3.3. Algunos casos particulares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
. Modelo con solo una constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
. Modelo Lineal Simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
. Modelo con tres regresores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
. Modelo Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4. Propiedades algebraicas de la estimacion MCO 21
4.1. Propiedades basicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2. Mas propiedades algebraicas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
. Proyecciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
. Regresion particionada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
. Regresion en desviaciones respecto a la media . . . . . . . . . . . . . . . . . . . . . . 26
. A nadiendo regresores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
. Correlaciones parciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.3. Medidas de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2
5. Propiedades estadsticas de los estimadores MCO 32
5.1. Esperanza de los estimadores MCO

| x
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
5.2. Varianza de los estimadores MCO

| x
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.3. Momentos de los valores ajustados y
| x
y de los errores e
| x
. . . . . . . . . . . . . . . . . . 36
6. Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 37
6.1. Quinto supuesto del Modelo Clasico de Regresion Lineal . . . . . . . . . . . . . . . . . . . . 37
6.2. Estimacion de la varianza residual y la matriz de covarianzas . . . . . . . . . . . . . . . . . 38
6.3. Cota mnima de Cramer-Rao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7. Estimacion por maxima verosimilitud 42
8. Ejercicios 43
9. Bibliografa 44
10.Trasparencias 44
A. Geometra del modelo clasico de regresion lineal 46
A.1. Geometra del estimador MCO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
B. Derivacion tradicional de las Ecuaciones Normales 48
C. Caso General 49
C.1. Modelo Clasico de Regresion Lineal General . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
. Ecuaciones normales en el Modelo Lineal General . . . . . . . . . . . . . . . . . . . . 50
D. Una expresion alternativa de las estimaciones MCO 50
Soluciones a los Ejercicios 51
Este es un material de apoyo a las clases. En ning un caso sustituye a los libros de texto que guran en el
programa de la asignatura; textos que el alumno debe estudiar para afrontar el examen nal con ciertas
garantas de exito.
Referencias recomendadas para la asignatura: Novales (1993), Wooldridge (2006), Verbeek (2004)
Otra referencia seguida en la elaboracion de este material es el captulo 1 de Hayashi (2000), que se puede
descargar desde:
http://www.pupress.princeton.edu/chapters/s6946.pdf
3
Especicacion y Estimaci on del Modelo Lineal General
Captulos 1, 2 y 3 y secciones 4.1, 4.2, 6.2 y 6.3 de Wooldridge (2006)
Apendices E1, E2 y E3 de Wooldridge (2006)
1. Introduccion
Lease el Captulo 1 de Wooldridge (2006)
Otra referencia seguida en la elaboracion de este material es el captulo 1 de Hayashi (2000), que se puede
descargar desde: http://www.pupress.princeton.edu/chapters/s6946.pdf
1.1. El punto de vista estadstico: Regresion como descomposicion ortogonal
Descomposicion ortogonal y causalidad 1
Y = E(Y [ T) +U
donde el conjunto de informacion es T : (X = x) ; por tanto
Y = E(Y [ X) +U
donde E( Y [ x) es una funcion arbitraria
lectura estadstica: de izquierda a derecha.
Siempre es cierta. No implica causalidad ni conclusiones teoricas
lectura teorica: de derecha a izquierda.
Interpretacion puede ser falsa (regresiones espurias)
De Spanos (1999, Captulo 7, en particular la Seccion 7.5.3)
Sea Y una variable aleatoria con segundo momento nito, es decir, E
_
[Y[
2
_
< , y un conjunto de
informacion T; entonces siempre podemos encontrar una descomposicion de Y como la siguiente:
Y = E(Y [ T) +U (1.1)
donde
E(Y [ T): es el componente sistematico
1
U: es el componente NO-sistematico
La existencia de dicha descomposicion
2
esta garantizada siempre que E
_
[Y[
2
_
< .
Ambos componentes de Y satisfacen las siguientes propiedades
1. E( U [ T) = 0
2. E
_
U
2

T
_
= Var( Y [ T) <
3. E
_
U
_
E(Y [ T)
__
= 0 por tanto ambos componentes son ortogonales.
Supondremos que disponemos de una sucesion de variables aleatorias Y
n
(para n = 1, . . . , N) y de una
matriz de variables aleatorias X
[Nk]
; y que nuestro conjunto de informacion T es
T : (X = x)
es decir, el conjunto de variables aleatorias X (en total N k variables) ha tomado conjuntamente la
matriz de valores x.
Siendo as, la descomposicion ortogonal para cada Y
n
queda como sigue:
Y
n
= E(Y
n
[ X) +U
n
1
vea la Seccion ??, en la p agina??, del Tema 2 del curso de Introduccion a la Econometra de LECO
2
Si interpretamos las variables aleatorias con varianza nita como elementos de un espacio vectorial, entonces E(Y | D)
representa una proyeccion ortogonal, y la descomposici on (1.1) es analoga al teorema de proyeccion ortogonal (Luenberger,
1968), con E(Y | D) como el mejor predictor en el sentido de la propiedad ECSV4 en la pagina?? del Tema 2 del curso de
Introduccion a la Econometra de LECO.
Seccion 1: Introduccion 4
Notese que esta es una descomposicion puramente estadstica.

Unicamente nos dice que si disponemos
de cierta informacion acerca de las variables X, podemos descomponer la variable Y
n
en dos partes. Pero
no hay una teora economica detras; por tanto no dice si hay relaciones de causalidad entre las variables.
Podra ocurrir que:
1. bien las variables X generaran parcialmente a Y (y por tanto, al conocer T : (X = x) sabemos
que parte de Y es debida a X y que parte no)
2. o bien que Y causa (o genera) las variables X (y por tanto, al observar T : (X = x) sabemos
que cabe esperar que ha ocurrido con la variable causante Y; como cuando vemos llover por la
ventana, y entonces sabemos que hay nubes en el cielo
3. o bien, que hay alguna otra causa com un (y quiza desconocida) que genera conjuntamente tanto a
Y como a X (y observar lo que ha ocurrido con X (la informacion T) nos indica que cabe esperar
que ha ocurrido con Y (puesto que tienen un causante com un).
La descomposicion ortogonal
Y
n
= E(Y
n
[ X) +U
n
se lee de izquierda a derecha (es decir, puedo descomponer Y
n
en las dos partes descritas a la derecha),
y no hay una teora detras.
1.2. El punto de vista del Analisis Economico: Regresion como modelo explicativo
Como economistas deseamos que la descomposicion estadstica de mas arriba sea reejo de las relaciones
teoricas entre X y Y. En este sentido queremos leer la relacion de derecha a izquierda, es decir Y (por
ejemplo el consumo) esta generado por una funcion de las variables X (por ejemplo una funcion de la
renta) junto a otras causas distintas de la renta (U).
Esta vision sugiere algunos de los nombres dados tanto para Y como para X. No obstante (y a pesar
de los nombres), no debemos nunca perder de vista que la descomposicion ortogonal es una relacion
estadstica que siempre
3
podemos encontrar; pero que en general no permite sacar conclusiones teoricas
de ella (regresiones espurias). Solo en aquellos casos en que las variables situadas a derecha e izquierda
provienen de un modelo teorico bien establecido, que nos sugiere que variables son causantes (y por ello
las situamos a derecha) y cuales son causadas (izquierda) quiza podamos sacar conclusiones. La palabra
quiza, se debe a que con frecuencia los datos disponibles no miden aquellos conceptos empleados en los
modelos teoricos (consumo permanente, preferencias, nivel de precios, utilidades, aversion al riesgo, etc.),
o bien a que los modelos no estan correctamente especicados (temas que se veran en otros cursos de
econometra).
Modelo de regresi on 2
Y
n
= h
_
X
_
+U
n
= h
_
1, X

2
, . . . , X

k
_
+ U
n
donde :
Y
n
: Vble. endogena, objetivo, explicada (o regresando)
X =
_
1, X

1
, . . . , X

Vbles. exogenas, de control, explicativas (o regresores)


U
n
: factor desconocido o perturbacion
Suponemos que la variable aleatoria Y en el momento n, es decir, Y
n
es funcion del vector X
n
y de U
n
.
Llamamos a Y vble. endogena (porque consideramos que se determina su valor o caractersticas a traves
del modelo), vble. objetivo (porque es una magnitud que deseamos controlar, por ejemplo la inacion si
somos la autoridad monetaria) o simplemente regresando.
La matriz X =
_
1, X

1
, . . . , X

: esta constituida por k columnas de variables que llamamos


exogenas (porque consideramos que vienen dadas de manera externa al modelo), o vbles. de control (porque
tenemos capacidad de alterar su valor para, a traves del modelo, controlar Y; por ejemplo jar la oferta
monetaria o los tipos de interes en el ejemplo anterior), o simplemente regresores.
U
n
es el efecto conjunto de otras variables o circunstancias que inuyen en la observacion de Y
n
, y que
decidimos no contemplar en el modelo por alguna razon (dicultad o imposibilidad de observarlas) o sen-
cillamente que desconocemos. Tambien puede ser sencillamente un error cometido al medir Y
n
. Llamamos
a U
n
perturbacion.
3
siempre y cuando E

|Y
n
|
2

<
Seccion 2: Modelo Clasico de Regresion Lineal 5
Tipos de datos 3
Datos temporales (series de tiempo)
Seccion cruzada
Datos de panel
2. Modelo Clasico de Regresion Lineal
Modelo Clasico de Regresi on Lineal 4
Modelo especial en el que la descomposicion ortogonal
Y
n
= E(Y
n
[ X) +U
n
es tal que E( Y
n
[ x) es una funcion lineal de x
n
Var( Y
n
[ x) es una constante (homocedasticidad)
QU

E DEBO SUPONER PARA QUE ESTO SE CUMPLA?


(al menos como lectura estadstica!)
En el analisis de regresion estamos interesados en estimar los dos primeros momentos de Y
n
condicionados
a X = x, es decir, E( Y
n
[ x) y Var( Y
n
[ x).
El modelo Modelo Clasico de Regresion Lineal es un caso particular en el que E( Y
n
[ x) es funcion lineal
de x
n
(los regresores con subndice n, es decir, del instante n, o de la empresa n, o del pas n, o del
individuo n, . . . ) y Var( Y
n
[ x) es una funcion constante (por tanto Y
n
[ x es homocedastica).
A continuacion, vamos a describir los tres supuestos de un modelo econometrico que garantizan la exis-
tencia de una descomposicion ortogonal como la del modelo clasico de regresion lineal. El cuarto supuesto,
que garantiza que la estimacion de la relacion lineal es unica, lo veremos en la seccion siguiente.
2.1. Tres primeros supuestos en el Modelo Clasico de Regresion Lineal
Captulos 2 y 3 de Wooldridge (2006)
Seccion 6.2 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)
Supuesto 1: linealidad 5
h() es lineal: Y
n
= h
_
X
n
_
+ U
n
= a
1
+a
2
X
t2
+a
3
X
t3
+ +a
k
X
tk
+U
n
por lo tanto
Y
1
= a
1
+a
2
X
12
+a
3
X
13
+ +a
k
X
1k
+U
1
Y
2
= a
1
+a
2
X
22
+a
3
X
23
+ +a
k
X
2k
+U
2

Y
N
= a
1
+a
2
X
N2
+a
3
X
N3
+ +a
k
X
Nk
+U
N
o
Y
n
= X
n
+U
n
donde = (a
1
, . . . , a
k
)

, y X
n
=
_
1 X
n2
X
n3
X
nk

es decir
Y
[N1]
= X
[Nk]

[k1]
+ U
[N1]
donde
Y =
_
Y
1
, . . . , Y
N

, X =
_
1, X

2
, . . . , X

, U =
_
U
1
, . . . , U
N

es decir,
X =
_

_
1 X
12
X
13
. . . X
1k
1 X
22
X
23
. . . X
2k
. . . . . . . . . . . . . . . . . . .
1 X
N2
X
N3
. . . X
Nk
_

_
;
Seccion 2: Modelo Clasico de Regresion Lineal 6
o bien X =
_

_
X
1
X
2
.
.
.
X
N
_

_
=
_
1, X

2
, . . . , X

; donde X

j
=
_

_
X
1j
X
2j
.
.
.
X
Nj
_

_
por tanto
Y =
_
1, X

2
, . . . , X

+U
=a
1
+a
2
X

2
+a
3
X

3
+ +a
k
X

k
+U
es decir
_

_
Y
1
Y
2
.
.
.
Y
N
_

_
= a
1

_
1
1
.
.
.
1
_

_
+a
2

_
X
12
X
22
.
.
.
X
N2
_

_
+a
3

_
X
13
X
23
.
.
.
X
N3
_

_
+ +a
k

_
X
1k
X
2k
.
.
.
X
Nk
_

_
+
_

_
U
1
U
2
.
.
.
U
N
_

_
Supuesto 1: linealidad 6
Modelo Interpretacion
Y
n
= X
n
+U
n
=
dY
n
dX
n
Cambio esperado en nivel de
Y
n
cuando X
n
aumenta una
unidad
ln(Y
n
) = ln(X
n
) +U
n
=
X
n
Y
n
dY
n
dX
n
Cambio porcentual (en tan-
to por uno) esperado en Y
n
cuando X
n
aumenta un uno
por ciento (en tanto por uno,
ie, 0.01)
ln(Y
n
) = X
n
+U
n
=
1
Y
n
dY
n
dX
n
Cambio porcentual (en tan-
to por uno) esperado en
Y
n
cuando X
n
aumenta una
unidad
Y
n
= ln(X
n
) +U
n
= X
n
dY
n
dX
n
Cambio esperado en el nivel
de Y
n
cuando X
n
aumenta
un uno por ciento (en tanto
por uno)
Mas tipos de modelos lineales en Ramanathan (1998, Captulo 6, pp. 232 y siguientes) y en el material
preparado por J. Alberto Mauricio http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-Guion.pdf
Ejemplo 1. [funcion de consumo:]
CON
n
=
1
+
2
RD
n
+U
n
donde CON
n
y RD
n
son el consumo y la renta disponible del individuo n-esimo respectivamente, y U
n
son otros factores que afectan al consumo del individuo n-esimo distintos a su renta disponible (activos
nancieros, estado de animo, etc.).
Aqu la variable exogena Y es el consumo (CON), y los regresores son X
1
=1 (una constante) y X
2
la
renta disponible (RD).
Ejemplo 2. [ecuacion de salarios:] Supongamos el siguiente modelo no-lineal en los parametros
SALAR
n
= e

1
+
2
EDUC
n
+
3
ANTIG
n
+
4
EXPER
n
+U
n
;
donde SALAR
n
es el salario del individuo n-esimo, EDUC
n
son sus a nos de educacion, ANTIG
n
sus
a nos de antig uedad en la empresa, y EXPER
n
sus a nos de experiencia en el sector de la empresa.
Al tomar logaritmos tenemos un nuevo modelo para ln(SALAR
n
) que es lineal en los parametros:
ln(SALAR
n
) =
1
+
2
EDUC
n
+
3
ANTIG
n
+
4
EXPER
n
+U
n
Seccion 2: Modelo Clasico de Regresion Lineal 7
En este caso la interpretacion de un valor como
2
= 0.03 es que un a no adicional en la formacion
educativa implica un incremento esperado del salario del 3 %.
Ejemplo 3. [funcion de produccion Cobb-Douglas:] Pensemos en la clasica funcion de produccion
Q
n
= cK
n

2
L
n

3
donde Q
n
es la produccion el el momento n, K
n
es el capital empleado en el instante n; L
n
el trabajo
empleado en n. Supongamos, ademas, que hay un efecto aleatorio adicional
n
debido a otras causas o
factores
Q
n
= cK
n

2
L
n

n
;
tomando logaritmos tenemos
ln Q
n
=
1
+
2
ln K
n
+
3
ln L
n
+U
n
,
donde
1
= ln c, y U
n
= ln
n
(es decir,
n
= e
U
n
. )
En este caso, un valor como
2
= 5 es interpretado como que un incremento de capital del 1 % (0.01)
aumenta la produccion en un 5 %
Nota 1. Denimos la esperanza de una matriz X como la matriz de las esperanzas de sus elementos, es
decir
E(X) E
_
_
_
_
_
_

_
X
11
X
12
X
1N
X
21
X
22
X
2N
.
.
.
.
.
.
.
.
.
.
.
.
X
N1
X
N2
X
NN
_

_
_
_
_
_
_

2
6
6
6
6
6
6
6
6
6
6
6
4
E(X
11
) E(X
12
) E(X
1N
)
E(X
21
) E(X
22
) E(X
2N
)
.
.
.
.
.
.
.
.
.
.
.
.
E(X
N1
) E(X
N2
) E(X
NN
)
3
7
7
7
7
7
7
7
7
7
7
7
5
Supuesto 2: Esperanza condicional de U Estricta exogeneidad 7
E( U[ x) = 0
[N1]
es decir
E( U[ x) =
_

_
E( U
1
[ x)
E( U
2
[ x)
.
.
.
E( U
N
[ x)
_

_
=
_

_
0
0
.
.
.
0
_

_
E( U
n
[ x) E( U
n
[ x

2
, . . . , x

k
) E( U
n
[ x
1
; . . . ; x
N
)
para n = 1, . . . , N.
E( U
n
[ x) E( U
n
[ x

2
, . . . , x

k
) E
_
_
_U
n
[
_

_
x
1
.
.
.
x
N
_

_
_
_
_
para n = 1, . . . , N.
Ejemplo 4. [funcion de consumo: (continuacion del Ejemplo 1 en la pagina anterior)]
Estricta exogeneidad implica que para el individuo n-esimo
E( U
n
[ 1, rd) = E( U
n
[ (rd
2
, rd
3
, , rd
k
)) = 0,
es decir, la esperanza de la perturbacion n-esima, condicionada a todas y cada una de las rentas disponibles,
es cero.
Ejemplo 5. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina anterior)]
Estricta exogeneidad implica que para el individuo n-esimo
E( U
n
[ 1, educ, antig, exper) = 0,
Seccion 2: Modelo Clasico de Regresion Lineal 8
es decir, la esperanza de la perturbacion del individuo n-esimo, condicionada no solo a los a nos de edu-
cacion, antig uedad y experiencia de dicho individuo sino a los a nos de educacion, antig uedad y experiencia
de todos los trabajadores es cero.
Supuesto 2: Esperanza condicional de U Estricta exogeneidad 8
E( U[ x) = 0
[N1]

_
E(U
n
X) = 0 ortogonalidad U
n
X
E(U
n
) = 0
por tanto Cov(U
n
, X) = 0
(ortogonalidad entre lo que conozco X y lo que desconozco U
n
)
Comentario. En el caso de regresion con datos temporales, la exogeneidad estricta implica que los
regresores son ortogonales a las perturbaciones pasadas, presentes y futuras. Esta es una restriccion muy
fuerte, que no se cumple en general con datos temporales (se discutira en el segundo trimestre [Econometra
II]).
A continuacion aparecen las demostraciones de la transparencia anterior T8 :
Proposicion 2.1. Si E( U
n
[ x) = 0, entonces E(U
n
X) = 0
[Nk]
Demostracion.
E(U
n
X) =
_

_
u
n
xf (u
n
, x) du
n
dx
kN
dx
11
=
_

_
u
n
xf ( u
n
[ x) f (x) du
n
dx
kN
dx
11
=
_
u
n
__

_
xf (x) dx
kN
dx
11
_
f ( u
n
[ x) du
n
=
_
u
n
[E(X)] f ( u
n
[ x) du
n
=[E(X)]
_
u
n
f ( u
n
[ x) du
n
=E(X) E( U
n
[ x)
=E(X) 0 = 0
[Nk]
por hipotesis
Una importante implicacion de E( U
n
[ x) = 0, es que entonces E(U
n
) = 0 ya que
E(U
n
) =E(E(U
n
[ x)) por el T
a
de las esperanzas iteradas.
=E(0) = 0 por ser E( U
n
[ x) las realizaciones de E(U
n
[ x)
Y de los dos resultados anteriores se deriva que
Cov(U
n
, X) = E(U
n
X) E(U
n
) E(X) = 0
[Nk]
0 E(X) = 0
[Nk]
Ejercicio 6. [Relacion si y solo si entre la funcion de regresion lineal y los supuestos 1 y 2]
Demuestre que los supuestos 1 y 2 implican la primera condicion del Modelo Cl asico de Regresion Lineal,
esto es, que la funcion de regresion de Y
n
sobre los regresores es lineal
E( Y
n
[ x) = x
n
.
Recprocamente, demuestre que si dicha condicion se verica para todo n = 1, . . . , N, entonces necesaria-
mente se satisfacen los supuestos 1 y 2.
Seccion 2: Modelo Clasico de Regresion Lineal 9
Solucion:
E( Y
n
[ x) =E( X
n
+U
n
[ x) por el Supuesto 1
= x
n
+E( U
n
[ x) puesto que X
n
= x
n
= x
n
por el Supuesto 2.
Recprocamente, suponga que E( Y
n
[ x) = x
n
para todo n = 1, . . . , N. Denamos U
n
= Y
n
E( Y
n
[ x) .
Entonces, por construccion el Supuesto 1 se satisface ya que U
n
= Y
n
X
n
. Por otra parte
E( U
n
[ x) =E( Y
n
[ x) E( E(Y
n
[ x) [ x) por la denicion que aqu damos a U
n
=0;
pues E( E(Y
n
[ x) [ x) = E( Y
n
[ x) , ya que:
E( E(Y
n
[ x) [ x) =
_ __
y
t
f (U
n
[ x) du
n
_
f (U
n
[ x) du
n
=
_ __
(U
n
+x
n
)f (U
n
[ x) du
n
_
f (U
n
[ x) du
n
=x
n
+
_ __
U
n
f (U
n
[ x) du
n
_
f (U
n
[ x) du
n
=x
n
+E( E(U
n
[ x) [ x)
=x
n
+E( U
n
[ x) = E( X
n
+U
n
[ x) = E( Y
n
[ x)
Ejercicio 6
Supuesto 3: Perturbaciones esfericas 9
homocedasticidad
E
_
U
n
2

x
_
=
2
para n = 1, 2, . . . , N
no autocorrelacion
E( U
i
U
j
[ x) = 0 si i ,= j para i, j = 1, 2, . . . , N
Denicion 1. Denimos la matriz de varianzas y covarianzas de un vector columna Y como
Var(Y) E
_
_
Y E(Y)
__
Y E(Y)
_

_
(2.1)
Ejercicio 7. Demuestre que Var(Y) = E
_
Y Y

_
E(Y) E
_
Y

_
.
Nota 2. Por tanto la matriz de varianzas y covarianzas de un vector columna Y es de la forma
Var(Y) Var
_
_
_
_

_
Y
1
.
.
.
Y
N
_

_
_
_
_ E
_
Y Y

_
E(Y) E
_
Y

_
=
2
6
6
6
6
6
6
6
6
6
6
6
4
E
(
Y
1
2
)
E(Y
1
Y
2
) E(Y
1
Y
N
)
E
(
Y
2
2
)
E(Y
2
Y
N
)
.
.
.
.
.
.
E
(
Y
N
2
)
3
7
7
7
7
7
7
7
7
7
7
7
5

2
6
6
6
6
6
6
6
6
6
6
6
4
[E(Y
1
)]
2
E(Y
1
)E(Y
2
) E(Y
1
)E(Y
N
)
[E(Y
2
)]
2
E(Y
2
)E(Y
N
)
.
.
.
.
.
.
[E(Y
N
)]
2
3
7
7
7
7
7
7
7
7
7
7
7
5
=
2
6
6
6
6
6
6
6
6
6
6
6
4

2
Y
1

Y
1
Y
2

Y
1
Y
N

2
Y
2

Y
2
Y
N
.
.
.
.
.
.

2
Y
N
3
7
7
7
7
7
7
7
7
7
7
7
5
Aplicando la denicion de varianza al vector de perturbaciones, y teniendo en cuenta los dos supuestos
Seccion 2: Modelo Clasico de Regresion Lineal 10
anteriores, tenemos que la matriz de varianzas y covarianzas de las perturbaciones es
Var( U[ x) =E
_
UU

x
_
E( U[ x) E
_
U

x
_
=E
_
_
_
_

_
U
1
.
.
.
U
N
_

_
_
U
1
U
N

x
_
_
_
_

_
0
.
.
.
0
_

_
_
0 0

por el Supuesto 2
=
_

_
E( U
1
2
[ x) E( U
1
U
2
| x) ... E( U
1
U
N
| x)
E( U
2
U
1
| x) E( U
2
2
[ x) ... E( U
2
U
N
| x)
.
.
.
.
.
.
.
.
.
.
.
.
E( U
N
U
1
| x) E( U
N
U
2
| x) ... E( U
N
2
[ x)
_

_
0 0 0
0 0 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0
_

_
=
_
_
_
_
_

2
0 . . . 0
0
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
_
_
_
_
_
por el Supuesto 3
Supuestos 2 y 3: Implicacion conjunta 10
Var( U[ x) =
_
_
_
_
_
Var( U
1
| x) Cov( U
1
,U
2
| x) ... Cov( U
1
,U
N
| x)
Cov( U
2
,U
1
| x) Var( U
2
| x) ... Cov( U
2
,U
N
| x)
.
.
.
.
.
.
.
.
.
.
.
.
Cov( U
N
,U
1
| x) Cov( U
N
,U
2
| x) ... Var( U
N
| x)
_
_
_
_
_
=
_
_
_
_
_

2
0 . . . 0
0
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
0 0 . . .
2
_
_
_
_
_
=
2
I
[NN]
El supuesto de que la matriz de varianzas y covarianzas de la perturbaciones (condicionada a x) es
2
veces la matriz identidad (estructura denominada perturbaciones esfericas)
=
_

2
0 0 . . . 0
0
2
0 . . . 0
0 0
2
. . . 0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0 0 0 . . .
2
_

_
es una restriccion muy fuerte, ya que implica:
1. que la dispersion (la varianza) del efecto de termino perturbacion asociada a cada observacion (o
a cada instante, o a cada individuo, etc) es identica a la de las demas (no sabemos exactamente a
que se debe la perturbacion que afecta a cada Y
n
pero la dispersion (incertidumbre) de ese efecto es
identica para todos).
Dicho de otra forma: las perturbaciones U
n
son hocedasticas, ya que
Var( U
n
[ x) =
2
para todo n = 1 : N.
2. que la covarianza entre las perturbaciones de observaciones distintas (o de instantes ,o individuos
diferentes) es cero. Dicho de otra forma: las perturbaciones no tienen correlacion serial, ya que
Cov( U
i
, U
j
[ x) = 0 para i ,= j.
Esto a nadido al supuesto de distribucion conjunta Normal
_
ver Supuesto 5 mas adelante T31
_
signicara que las perturbaciones son independientes para las distintas observaciones.
Ejemplo 8. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Estricta exogeneidad y perturbaciones esfericas implican conjuntamente que: aunque el factor desco-
nocido U
n
de cada el individuo n-esimo es desconocido; la incertidumbre (la varianza) de dicho factor
Seccion 2: Modelo Clasico de Regresion Lineal 11
condicionada a los a nos de educacion, antig uedad y experiencia de todos los individuos es la misma
en cada caso (Supuesto curioso! no?).
Hay cierto factor que inuye en los salarios de Pepito y Juanito; no se que es, pero la incertidumbre
que tengo sobre el es la misma (la dispersion del efecto que tiene el factor desconocido es la misma) para
ambos casos.
Nota 3 (Relacion entre la funcion cedastica contante y los supuestos 1 y 3). Notese que con los supuestos
1 y 3 tambien se cumple la segunda condicion del modelo clasico de regresion lineal ya que
Var( Y
n
[ x) = Var(
1
+
2
X
n
+U
n
[ x) = Var( U
n
[ x) =
2
2.2. Variacion de los supuestos 2 y 3 en algunos casos especiales:
Supuestos del Modelo con Muestras Aleatorias
Si (Y, X) es una muestra aleatoria simple, i.e.. Y
n
, X
n
es i.i.d. para n = 1, . . . , N; entonces,
E( U
n
[ x) =E( U
n
[ x
n
)
E
_
U
n
2

x
_
=E
_
U
n
2

x
n
_
y tambien E( U
i
U
j
[ x) =E( U
i
[ x
i
) E( U
j
[ x
j
) para i ,= j
Con lo que los los supuestos 2 T7 y 3 T9 quedan reducidos a
supuesto 2: E( U
n
[ x
n
) = 0
supuesto 3: E
_
U
n
2

x
n
_
=
2
> 0
para todo n = 1, . . . , N
(Notese que los regresores estan referidos exclusivamente a la observacion n-esima)
En general este supuesto no es adecuado para modelos con datos de series temporales ya que las muestras
no son i.i.d. (no son muestras aleatorias simples puesto que suele haber correlacion entre los datos).
Ejemplo 9. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Con muestras aleatorias, estricta exogeneidad implica que para el individuo n-esimo
E( U
n
[ 1, educ, antig, exper) = E( U
n
[ 1, educ
n
, antig
n
, exper
n
) = 0,
es decir, la esperanza de la perturbacion del individuo n-esimo, condicionada exclusivamente a los a nos
de educacion, antig uedad y experiencia de dicho individuo es cero, independientemente de lo que ocurra
con el resto de trabajadores. Por supuesto, tambien ocurre con la varianza condicionada:
Var( U
n
[ 1, educ, antig, exper) = Var( U
n
[ 1, educ
n
, antig
n
, exper
n
) =
2
I,
Ejercicio 10. Demuestre que
E( U
i
U
j
[ x) = E( U
i
[ x
i
) E( U
j
[ x
j
) para i ,= j
para el caso de muestras aleatorias simples (m.a.s.)
Pista.
E( U
i
U
j
[ x) = E( E(U
i
[ XU
j
) U
j
[ x)
debido a que U
i
, X
i
es independiente de U
j
, X
1
, . . . , X
i1
, X
i+1
, . . . , X
N
para i ,= j, junto con
el teorema de las esperanzas iteradas.
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 12
Supuestos del Modelo con Regresores No Estocasticos
Si los regresores son no estocasticos, es decir son la matriz determinista x, entonces no es necesario
distinguir entre funciones de densidad condicionales, f (u
n
[ x) , e incondicionales, f (u
n
) ; por tanto los
supuestos 2 T7 y 3 T9 quedan reducidos a
supuesto 2: E(U
n
) = 0
supuesto 3: E
_
U
n
2
_
=
2
> 0 y E(U
i
U
j
) = 0 para i ,= j
para todo n, i, j = 1, . . . , N
(Estos son los supuestos empleados en la mayora de libros de texto, como por ejemplo en Novales
(1993))
Este caso no puede suponerse con modelos autorregresivos o de ecuaciones simultaneas.
La interpretacion geometrica de estos supuestos aparece en la Seccion A en la pagina46 del Apendice.
Queda un cuarto supuesto acerca del rango de la matriz de regresores y un quinto supuesto acerca de la
distribucion conjunta de U que enunciaremos mas adelante (vease Supuesto 4 T13 y Supuesto 5 T31 )
3. Estimacion MCO (Mnimos Cuadrados Ordinarios)
Captulos 2 y 3 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)
Termino de error 11
Las perturbaciones U
n
no son observables
Pero las podemos estimar para un hipotetico valor

de y una muestra concreta y
n
, x
n

N
n=1
de
Y
n
, X
n

N
n=1
.
e
n
= y
n
x
n

= y
n
y
n
Consideremos la Suma de los Residuos al Cuadrado para todo n
SRC(

)
N

n=1
_
y
n
x
n

_
2
= (y x

(y x

) = e

e
Mnimos cuadrados ordinarios: Ecuaciones normales 12
El Supuesto 2 del modelo implica que U
n
X (ortogonalidad).
La SRC(

) es mnima para valores



tales que los errores
e = y x

son ortogonales a los regresores de la muestra x


e x x

e = 0.
As
x

e = 0; x

_
y x

_
= 0; x

y x

x

= 0
es decir
x

y =x

x

(3.1)
Estimacion MCO es la solucion

a dichas ecuaciones
Proposicion 3.1. La suma de residuos al cuadrado SRC(

) es mnima para

=

.
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 13
Demostracion. Sea

una estimacion de , entonces
e

e = (y x

(y x

) =(y x

+x

(y x

+x

) sumando y restando x

=
_
e +x(



)
_

_
e +x(



)
_
= e

e +(

x(



) ya que x

e = 0.
Y puesto que (

x(



) es una suma de cuadrados (por tanto semi-denido positivo), se deduce
que
SRC(cualquier

) = e

e e

e = SRC(

).
Para una interpretacion geometrica, vease tambien la Seccion A.1 en la pagina47 del apendice.
La demostracion anterior es, para mi gusto, mas elegante que la que aparece en la mayora de los manuales
(b usqueda del mnimo de la suma residual igualando a cero las primeras derivadas). No obstante, en la
Seccion B en la pagina48 del apendice se muestra la derivacion tradicional de las ecuaciones normales.
Para que la solucion al sistema de ecuaciones normales (3.1) sea unica es necesario que se cumpla un
cuarto supuesto.
3.1. Cuarto supuesto del Modelo Clasico de Regresion Lineal
Supuesto 4: Independencia lineal de los regresores 13
El rango de X
[Nk]
es k con probabilidad 1.
n umero de observaciones k
Vectores columna 1, X

2
, . . . , X

k
linealmente indep.
Este supuesto implica que x

x es de rango completo, es decir, que existe la matriz (x

x)
1
.
Se dice que existe multicolinealidad perfecta cuando el Supuesto 4 NO se satisface; es decir, cuando hay
dependencia lineal entre los regresores, o lo que es lo mismo: hay multicolinealidad perfecta cuando alguno
de los coecientes de correlaci on lineal entre dos regresores es uno en valor absoluto.
El Supuesto 4 garantiza la unicidad de las soluciones. Si no se cumple no es posible encontrar la
estimacion MCO de los parametros (pues hay innitas soluciones posibles).
Ejemplo 11. [ecuacion de salarios: (continuacion del Ejemplo 2 en la pagina6)]
Que pasa si todos los individuos de la muestra nunca han cambiado de empresa?
Entonces a nos de experiencia y a nos de antig uedad coinciden. Por tanto no es posible discriminar el
efecto por separado de ambas variables; solo podemos calcular su efecto conjunto.
ln(SALAR
n
) =
1
+
2
EDUC
n
+ (
3
+
4
)EXPER
n
+U
n
Volveremos sobre esto en la Seccion 3 sobre Multicolinealidad en la pagina8 del Tema 3
3.2. Algunas expresiones que seran empleadas frecuentemente
Las expresiones que aparecen a continuaci on seran empleadas repetidamente durante el curso.
Denotamos a la media aritmetica de los elementos del vector y de orden N como:
y = (

y
n
)/N.
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 14
Nota 4. Sean x e y vectores de orden N, entonces

n
(x
n
x)(y
n
y) =

n
y
n
(x
n
x) para n = 1, . . . , N.
Demostracion.

n
(x
n
x)(y
n
y) =

n
y
n
(x
n
x) y

n
(x
n
x)
=

n
y
n
(x
n
x) y 0 =

n
y
n
(x
n
x) para n = 1, . . . , N.
Nota 5. Sean x e y vectores de orden N, entonces

n
(x
n
x)(y
n
y) =

n
y
n
x
n
Ny x = y

xNy x.
Ejercicio 12. Compruebe la igualdad de la nota anterior.
As pues, del ejercicio anterior, Ns
xy
=

n
(x
n
x)(y
n
y) = y

x Ny x, es decir
s
xy
=

n
(x
n
x)(y
n
y)
N
=
y

x
N
y x; (3.2)
donde s
xy
es la covarianza muestral entre los elementos de x e y; por tanto, la expresion de mas arriba
es el analogo muestral de Cov(X, Y) = E([X E(X)][Y E(Y)]) = E(XY) E(X) E(Y) .
Nota 6. Sea z un vector de orden N, entonces

n
(z
n
z)
2
=

n
z
2
n
Nz
2
= z

z Nz
2
Demostracion. De la Nota 4 sabemos que

n
(z
n
z)(y
n
y) =

n
y
n
(z
n
z), por tanto, si y = z

n
(z
n
z)
2
=

n
z
n
(z
n
z)
=

n
z
2
n
z

n
z
n
=

n
z
2
n
Nz
2
= z

z Nz
2
para n = 1, . . . , N;
Es decir,
s
2
z
=

n
(z
n
z)
2
N
=
z

z
N
z
2
; (3.3)
donde s
2
z
es la varianza muestral de los elementos de z; por tanto, la expresion anterior es el analogo
muestral de Var(Z) = E
_
[Z E(Z)]
2
_
= E
_
Z
2
_
[E(Z)]
2
.
3.3. Algunos casos particulares
Modelo con solo una constante
Modelo 1: No vbles explicativas 14
Si no se nada (T : ) ; Y = h(1) +U donde g() es lineal; por lo tanto
Y
n
= a 1 +U
n
E(Y
n
[conjunto de informacion vaco) = E(Y
n
) = a
Veamos que nos da la estimacion MCO
x

y = x

es decir
1

y = 1

1a
y calculando los productos escalares,

y
n
= N a; a =

y
n
N
= y (3.4)
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 15
Notese como la estimacion MCO consiste en sustituir el momentos teorico E(Y
n
) por su analogo muestral
(la media aritmetica).
En este caso los residuos del modelo son las deviaciones de los datos respecto a su media, ya que
e = y y = y y. (3.5)
Modelo Lineal Simple
Modelo 2: Modelo Lineal Simple 15
Si (T : X

= x

) ; Y = h(1, X

) +U donde g() es lineal; por lo tanto


Y
n
= a +bX
n
+U
n
;
entonces
E( Y
n
[ x
n
) =E( a +bX
n
+U
n
[ x
n
)
=a +bx
n
+ E( U
n
[ x
n
) = a +bx
n
.
Por lo tanto, es funcion lineal y
E( Y
n
[ x
n
) = E(Y)
Cov(Y, X)
Var(X)
E(X)
. .
a
+
Cov(X, Y)
Var(X)
. .
b
x
n
; (3.6)
para todo x
n
R
X
,
Veanse las ecuaciones (??) y (??) Seccion ?? (??) del Tema 2 del curso de Introduccion a la Econometra
de LECO, pagina ??.
Modelo 2: Modelo Lineal Simple 16
Sea Y
n
= a +bX
n
+U
n
; entonces
y =
_
_
_
_
_
y
1
y
2
.
.
.
y
N
_
_
_
_
_
; x =
_
_
_
_
_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
N
_
_
_
_
_
;

=
_
a

b
_
y loas ecuaciones normales son
x

y = x

es decir
_
1 1 . . . 1
x
1
x
2
. . . x
N
_
_
_
_
_
_
y
1
y
2
.
.
.
y
N
_
_
_
_
_
=
_
1 1 . . . 1
x
1
x
2
. . . x
N
_
_
_
_
_
_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
N
_
_
_
_
_
_
a

b
_
Modelo 2: Modelo Lineal Simple 17

y
n
= a N +

b

x
n

x
n
y
n
= a

x
n
+

b

x
2
n
; (3.7)
dividiendo por N la primera igualdad, despejando a y sustituyendo en la segunda, y empleando (3.2) y
(3.3)
y = a +

b x
s
xy
=

bs
2
x
(3.8)
es decir

b =
s
xy
s
2
x
(3.9)
y
a = y
s
xy
s
2
x
x = y

b x (3.10)
Supuesto 4 (independencia lineal de regresores) solucion unica.
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 16
Notese como las estimaciones MCO consisten en sustituir los momentos teoricos de la Ecuacion (3.6) por
sus analogos muestrales.
Ejercicio 13. Empleando el sistema de ecuaciones (3.7), obtenga el segundo sistema (3.8) de la transpa-
rencia anterior.
Ejercicio 14. Como afectara al problema de estimacion que la variable x fuera un vector de constantes
c?
Ejemplo 15. [precio de las viviendas:]
n Precio Supercie
1 199.9 1065
2 228.0 1254
3 235.0 1300
4 285.0 1577
5 239.0 1600
6 293.0 1750
7 285.0 1800
8 365.0 1870
9 295.0 1935
10 290.0 1948
11 385.0 2254
12 505.0 2600
13 425.0 2800
14 415.0 3000
Cuadro 1: Supercie (en pies al cuadrado) y precio de venta de los pisos (en miles de dolares) (Ramanathan, 1998, pp. 78)
Planteamos el modelo Y
n
= a+bX
n
+U
n
, donde Y
n
es el precio del piso n-esimo, X
n
es su supercie, y U
n
son otros factores que inuyen en el precio del piso, pero ortogonales al la supercie del mismo (situacion,
estado de mantenimiento, servicios, etc.) Deseamos saber cual es el efecto marginal del incremento de la
supercie de un piso en su precio. Por lo tanto necesitamos estimar el valor del parametro b.
Puesto que

n
x
n
= 26 753

n
x
2
n
= 55 462 515

n
y
n
= 4 444.9

n
x
n
y
n
= 9 095 985.5
De 3.7 en la pagina anterior tenemos el sistema de ecuaciones lineales
4 444.9 = a 14 +

b 26 753
9 095 985.5 = a 26 753 +

b 55 462 515
cuya solucion nos da la estimacion por mnimos cuadrados de a y b:
a = 52.3509

b = 0.13875;
que tambien podemos calcular a partir de (3.9) y (3.10) en la pagina anterior
a = y x
s
xy
s
2
x
= 52.3509

b =
s
xy
s
2
x
= 0.13875
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 17
Estimaciones MCO utilizando las 14 observaciones 114
Variable dependiente: price
Variable Coeciente Desv. tpica Estadstico t valor p
const 52,3509 37,2855 1,4041 0,1857
sqft 0,138750 0,0187329 7,4068 0,0000
Media de la var. dependiente 317,493
D.T. de la variable dependiente 88,4982
Suma de cuadrados de los residuos 18273,6
Desviacion tpica de los residuos ( ) 39,0230
R
2
0,820522

R
2
corregido 0,805565
Grados de libertad 12
Criterio de informacion de Akaike 144,168
Criterio de informacion Bayesiano de Schwarz 145,447
Salida del programa libre Gretl (Gnu Regression, Econometrics and Time-series Library)

price = 52, 3509


(1,404)
+ 0, 138750
(7,407)
sqft
N = 14

R
2
= 0, 8056 F(1, 12) = 54, 861 = 39, 023
(entre parentesis, los estadsticos t)
Por lo tanto, el precio de venta esperado de un piso con una supercie de 1800 pies cuadrados, E( Y [ 1800),
sera de
y
7
= 52.3509 + 0.139 1800 = 302101.5
sin embargo y
7
= 285. Esta discrepancia (el error e
7
puede deberse a que dicho piso esta en una mala
situacion, dispone de pocos servicios, etc.)
n Precio Supercie Precio estimado Error
E( P | supercie) b e
1 199.9 1065 200.1200 -0.22000
2 228.0 1254 226.3438 1.65619
3 235.0 1300 232.7263 2.27368
4 285.0 1577 271.1602 13.83984
5 239.0 1600 274.3514 -35.35142
6 293.0 1750 295.1640 -2.16397
7 285.0 1800 302.1015 -17.10148
8 365.0 1870 311.8140 53.18600
9 295.0 1935 320.8328 -25.83278
10 290.0 1948 322.6365 -32.63653
11 385.0 2254 365.0941 19.90587
12 505.0 2600 413.1017 91.89826
13 425.0 2800 440.8518 -15.85180
14 415.0 3000 468.6019 -53.60187
Cuadro 2: Supercie (en pies al cuadrado), precio de venta (en miles de dolares), precio estimado, y errores estimados.
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 18
Estimacion MCO: Interpretacion graca 18
150
200
250
300
350
400
450
500
550
1500 2000 2500 3000
p
r
i
c
e
sqft
price versus sqft
E
(
P
|
s
u
p
e
r
f
i
c
i
e
)
y
7
y
12
E(P|2600) = y
12
e > 0
regresion a ojo GNU Gretl (este ejemplo) data list
Continuaci on del ejemplo precio de las viviendas en la p agina 34
Modelo con tres regresores
Ejercicio 16. Repita los pasos dados en la transparencia T16 y llegue hasta el sistema de ecuaciones
equivalente a ( 3.7 en la pagina15) para los siguientes modelos:
(a) Y
n
= aX
1n
+bX
2n
+cX
3n
+U
n
(b) Y
n
= a +bX
2n
+cX
3n
+U
n
Ejercicio 17. Obtenga la siguiente solucion del segundo sistema de ecuaciones del ejercicio anterior.
a =y

b x
2
c x
3
(3.11)

b =
s
x
2
y
s
2
x
3
s
x
3
y
s
x
2
x
3
s
2
x
2
s
2
x
3

_
s
x
2
x
3
_
2
(3.12)
c =
s
x
3
y
s
2
x
2
s
x
2
y
s
x
2
x
3
s
2
x
2
s
2
x
3

_
s
x
2
x
3
_
2
(3.13)
Notese que si la covarianza entre x
2
y x
3
es cero, la estimacion de

b del modelo Y
n
= a+bX
2n
+cX
3n
+U
n
coincide exactamente con la estimacion de

b en el modelo restringido Y
n
= a +bX
2n
+U
n
en el que se ha
quitado el regresor X
3n
.
Ejercicio 18. Si la covarianza entre x
2
y x
3
es cero, Con la estimacion de que modelo restringido
coincide la estimacion de c?
Nota 7. Si los regresores de una regresion m ultiple tienen correlacion muestral cero entre si (por tanto
son ortogonales), entonces las estimaciones de las pendientes de la regresion m ultiple son las mismas que
las estimaciones de las pendientes de las regresiones simples.
Multicolinealidad perfecta: Ejercicio 19. Como afectara al problema de estimacion que los regre-
sores x
2
y x
3
tuvieran un coeciente de correlacion muestral con valor absoluto igual a uno?
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 19
Relacion entre los modelos de tres regresores y los de dos. Considere los siguientes modelos de
regresion simple
1. Y = a
yx
2
+b
yx
2
X
2
+U : Regresion de Y sobre X
2
2. Y = a
yx
3
+b
yx
3
X
3
+U

: Regresion de Y sobre X
3
3. X
2
= a
x
2
x
3
+b
x
2
x
3
X
3
+U

: Regresion de X
2
sobre X
3
(Notese como los subndices de los coecientes describen cada regresion)
Que relacion tienen las estimaciones MCO de estos tres modelos con las estimaciones MCO del modelo
Y = a +b X
2
+c X
3
+U : Regresion de Y sobre X
2
y X
3
descritas en las ecuaciones (3.12) y (3.12)?
Si multiplicamos y dividimos (3.12) y (3.12) por s
2
x
2
s
2
x
3
obtenemos las siguientes expresiones en
terminos de los coecientes MCO de las tres regresiones anteriores:

b =

b
yx
2


b
yx
3

b
x2x
3
1 r
2
x
2
x
3
(3.14)
c =

b
yx
3


b
yx
2

b
x2x
3
1 r
2
x
2
x
3
(3.15)
donde r
x
2
x
3
es la correlacion muestral entre ambos regresores.
Modelo simulado P
n
= 100 + 3S
n
130D
n
+U
n
Modelo simulado P
n
= 100 + 3S
n
130D
n
+U
n
Modelo 1 P
n
=
1
+
2
S
n
+U
n
Modelo 1: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable Coeciente Desv. tpica Estadstico t valor p
const 8,86429 11,7399 0,7551 0,4506
superc 2,99968 0,166441 18,0225 0,0000
Media de la var. dependiente 218,374
D.T. de la variable dependiente 47,0678
Suma de cuadrados de los residuos 669080,
Desviacion tpica de los residuos ( ) 36,6542
R
2
0,394756

R
2
corregido 0,393541
Grados de libertad 498
Criterio de informacion de Akaike 5022,46
Criterio de informacion Bayesiano de Schwarz 5030,89
Seccion 3: Estimacion MCO (Mnimos Cuadrados Ordinarios) 20
Modelo simulado P
n
= 100 + 3S
n
130D
n
+U
n
Modelo 2 P
n
=
1
+
2
D
n
+U
n
Modelo 2: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable Coeciente Desv. tpica Estadstico t valor p
const 310,482 6,32078 49,1208 0,0000
distanci 130,54 8,61143 15,1599 0,0000
Media de la var. dependiente 218,374
D.T. de la variable dependiente 47,0678
Suma de cuadrados de los residuos 756399,
Desviacion tpica de los residuos ( ) 38,9727
R
2
0,315768

R
2
corregido 0,314394
Grados de libertad 498
Criterio de informacion de Akaike 5083,80
Criterio de informacion Bayesiano de Schwarz 5092,23
Modelo simulado: P
n
= 100 + 3S
n
130D
n
+U
n
Modelo 3 P
n
=
1
+
2
S
n
+
3
D
n
+U
n
Modelo 3: estimaciones MCO utilizando las 500 observaciones 1500
Variable dependiente: precio
Variable Coeciente Desv. tpica Estadstico t valor p
const 98,9950 8,70328 11,3744 0,0000
superc 3,06214 0,111940 27,3553 0,0000
distanci 133,93 5,44707 24,5876 0,0000
Media de la var. dependiente 218,374
D.T. de la variable dependiente 47,0678
Suma de cuadrados de los residuos 301877,
Desviacion tpica de los residuos ( ) 24,6454
R
2
0,726925

R
2
corregido 0,725826
F(2, 497) 661,506
Criterio de informacion de Akaike 4626,52
Criterio de informacion Bayesiano de Schwarz 4639,17
Ejercicio 20. Coinciden los valores estimados para los parametros
2
y
3
en el modelo P
n
=
1
+

2
S
n

3
D
n
+ U
n
con los valores obtenidos para las pendientes en los modelos restringidos anteriores?
Que podemos armar entonces sobre la covarianza muestral de los regresores distancia y supercie?
Seccion 4: Propiedades algebraicas de la estimacion MCO 21
Modelo Lineal General
Modelo Lineal General 19
En general tenemos mas de una variable exogena por lo que (T : X = x);
Y
n
= X
n
+U
n
=
_
1, X
n2
, . . . , X
nk


[k1]
+U
n
;
entonces
E( Y
n
[ x
n
) = E
__
1, X
n2
, . . . , X
nk

+U
n

x
n
_
=
= E
__
1, x
t2
, . . . , x
tk

+U
n

x
n
_
=
= E( a
1
+a
2
x
n2
+ +a
k
x
nk
+U
n
[ x
n
) =
= a
1
+a
2
x
n2
+ +a
k
x
nk
+ E( U
n
[ x
n
)
= a
1
+a
2
x
n2
+ +a
k
x
nk
= x
n
;
donde x
n
= (1, x
n2
, . . . , x
nk
).
Necesitamos conocer el valor de los elementos de ,
(a
1
, a
2
, , a
k
).
que dependen de las varianzas y covarianzas de
_
Y
n
, X
n

.
(Vease la Seccion C.1 del apendice)
La expresion general de las ecuaciones normales es
x

y = x

x

.
El Supuesto 4 garantiza (con probabilidad 1) que la matriz x

x es invertible. Por tanto la estimacion MCO


del vector se puede expresar como

= (x

x)
1
x

y .
(Vease la Seccion D para una interpretacion de esta expresion.)
4. Propiedades algebraicas de la estimacion MCO
4.1. Propiedades basicas
Captulos 2 y 3 de Wooldridge (2006)
Apendice E1 de Wooldridge (2006)
Mnimos cuadrados ordinarios: Propiedades algebraicas 20
El vector de residuos evaluado en

=

es
e
[N1]
= y x

Reordenando las ecuaciones normales x

y = x

x

tenemos
x

(y x

) = 0; x

e =0 y

e =0 (4.1)
La propiedad
x

e = 0
es el analogo muestral de las condiciones de ortogonalidad derivadas del Supuesto 2 T8 (recuerdese que
dos vectores de n umeros a y b son ortogonales si a

b =

a
i
b
i
= 0.)
Esta propiedad indica que el termino de error estimado, e, es ortogonal a todos y cada uno de los
regresores.
Del mismo modo que hemos denido e como e = y x

, denimos los valores ajustados y como
y = x

;
entonces y

, y por tanto
y

e =

e =

0 = 0.
Practica 21. Con alg un programa econometrico estime un modelo del tipo
Y
n
=
1
+
2
X
n2
+
3
X
n3
+U
n
.
Seccion 4: Propiedades algebraicas de la estimacion MCO 22
Obtenga los residuos e y los valores ajustados y. Compruebe que
x
1

e =0
x
2

e =0
y

e =0
Calcule los valores medios de e, y e y. Explique los resultados. A nadir script de Gretl
Mnimos cuadrados ordinarios: Mas propiedades algebraicas 21
y

y = y

y + e

e (T
a
Pitagoras T46 ) (4.2)
Ya que
y

y =( y +e)

( y +e) puesto que e = y y


= y

y + 2 y

e + e

e desarrollando el producto
= y

y + e

e ya que de (4.1) y

e = 0
Sumas de cuadrados 22
SRC
N

n=1
e
n
2
= e

e
STC
N

n=1
(y
n
y)
2
= y

y Ny
2
SEC
N

n=1
( y
n
y)
2
= y

y +Ny
2
2Ny y
Por tanto, STC = Ns
2
y
donde s
2
y
es la varianza muestral de y; por el contrario, las sumas SRC y SEC
no son necesariamente N veces las varianzas de e y y (aunque veremos que as ocurre si el modelo tiene
termino cte.).
Ejercicio 22. Verique las igualdades de la transparencia anterior.
Caso especial (Modelos con termino constante). Cuando hay termino constante en el modelo (el primer
regresor es un vector de unos tal y como hemos presentado el modelo aqu) se verica que
1

e = 0;
N

n=1
e
n
= 0 e =0 .
Y puesto que para cada n, se verica que y
n
= y
n
+ e
n
, entonces sumando para n = 1, . . . , N
N

n=1
y
n
=
N

n=1
y
n
+ 0 o bien 1

y = 1

y y = y
Ademas, de (4.2)

y
2
n
=

y
n
2
+

e
2
;
restando a derecha e izquierda Ny
2
(que es igual a N y
2
),

y
2
n
Ny
2
=

y
n
2
N y
2
+

e
2
;
y empleando el resultado de la Nota 6 en la pagina14
N

n=1
(y
n
y)
2
=
N

n=1
( y
n
y)
2
+
N

n=1
e
n
2
o bien (y y)

(y y) = ( y y)

( y y) + e

e .
Seccion 4: Propiedades algebraicas de la estimacion MCO 23
Dividiendo por N tenemos
s
2
y
=s
2
b y
+s
2
b e
ya que e = 0; y donde s
2
z
es la varianza muestral de z.
Ejercicio 23. Demuestre que y

y = y

y; es decir,

y
n
2
=

y
n
y
n
.
Caso especial (Modelos con termino constante). La suma explicada de cuadrados, SEC, se puede ex-
presar como:
SEC = y

y +Ny
2
2Ny y
= y

y Ny
2
ya que y = y por haber termino cte.
=Ns
2
b y
por la Nota 6
otras expresiones son:
=

x

Ny
2
sustituyendo y por x

= y

y N yy por Ejercicio 23 y por y = y


=Ns
b y y
por la Nota 4
Ademas, en este caso en particular, la suma total de cuadrados, STC, se puede descomponer en la
suma:
STC = SEC +SRC
ya que
y

y = y

y + e

e de (4.2) (pagina 22)


y

y Ny
2
= y

y Ny
2
+ e

e restando a ambos lados Ny


2
STC = y

y Ny
2
+SRC por denicion de STC y SRC
STC =SEC +SRC por haber termino constante y = y
Esta relacion sugiere el nombre de suma explicada de cuadrados, ya que descomponemos la variabilidad
de la variable que queremos estudiar (y) en dos partes: SRC es la variabilidad de los residuos (aquello que
el modelo no explica) y SEC es la variabilidad de y, que es la estimacion de la esperanza condicionada
a los datos (aquello que explica el modelo).
En esta discusion se debe tener presente que el termino explicacion es enga noso. En el ejemplo del
precio de las viviendas y su supercie, es sensato suponer que los precios dependen de las caractersticas
de las viviendas, y en particular, que parte de las variaciones de los precios se deben a la variacion en la
supercie de las viviendas; por ello, el nombre de suma explicada de cuadrados toma todo su sentido.
Ahora bien, suponga que estima el modelo:
S
n
=
1
+
2
P
n
+U
n
.
En este modelo, la supercie es funcion del precio de la vivienda, y por ser un modelo lineal con termino
constante, la relacion algebraica STC = SEC + SRC se cumple. Pero no tiene sentido suponer que
las caractersticas de la vivienda se deben al precio; de lo contrario podramos suponer que si el piso
experimenta un alza en su precio, entonces, en consecuencia su supercie aumentara. Esto es absurdo, y
podemos concluir que la relacion STC = SEC + SRC es puramente algebraica, y que su interpretacion
solo es posible cuando el modelo estimado tiene sentido desde el punto de vista de la Teora Economica.
La unica interpretacion posible a las estimaciones es de caracter puramente estadstico (y no de Teora
Economica): si un piso tiene un precio muy elevado, cabe esperar que el piso sea grande. (Este es un
buen momento para que lea de nuevo la Introduccion a este Tema 1 en la pagina3).
Seccion 4: Propiedades algebraicas de la estimacion MCO 24
4.2. Mas propiedades algebraicas.
Proyecciones
Si se cumple el cuarto supuesto, entonces x

x es de rango completo y existe la matriz (x

x)
1
. Solo
entonces, es posible despejar

en las ecuaciones normales (3.1) para obtener la expresion:

= (x

x)
1
x

y .
Llamamos estimacion MCO de y a
y = x

que es igual a
y = x

= x(x

x)
1
x

y .
Por otra parte,
e =y y = y x

=y x(x

x)
1
x

y
=(I x(x

x)
1
x

) y
Si llamamos p x(x

x)
1
x

y m I p, entonces
y = py y
x
; e = my y

x
.
donde y
x
es la parte de y que se puede expresar como funcion lineal de las x; e y

x
es la parte de y que no
se puede expresar como funcion lineal de las x, es decir, la parte de y ortogonal a las x.
Ademas sabemos que y = y + e, por tanto
y = py +my = y
x
+y

x
.
(vease la gura de la Transparencia T46); y p+m = I .
Nota 8. La inversa de una matriz simetrica es simetrica, as pues, (x

x)
1
es una matriz simetrica, y por
tanto
_
(x

x)
1

= (x

x)
1
. La traspuesta de un producto de matrices a y b es [ab]

= b

.
Ejercicio 24. Cual sera la expresion de la traspuesta del producto de tres matrices (abc)

?
Ejercicio 25. Demuestre que p

m = p

(I p) = 0.
Se puede vericar (empleando el resultado del ejercicio anterior) que y

e = 0, pues
y

e = (py)

my = y

my = y

0y = 0;
resultado que ya vimos en la Ecuacion 4.1 en la pagina21. Por tanto, podemos concluir que:
La estimacion MCO separa el vector y en dos componentes, y y e, ortogonales entre si
(perpendiculares). La primera componente y es una combinacion lineal de los regresores (la
parte de y que se puede describir mediante un modelo lineal con las variables explicativas). La
segunda componente es la parte de y ortogonal a los regresores (lo que no se puede describir
linealmente con los regresores, ni siquiera de manera aproximada).
Ejercicio 26. Demuestre que m

= m y que m

m = m,
De los ejercicios y resultados anteriores, se deduce que
y

y =(py +my)

(py +my)
=y

py +y

my pues p

m = pm

= 0
= y

y + e

e (expresion que ya obtuvimos en (4.2); T. de Pitagoras)


(vease la gura de la Transparencia T46).
La estimacion MCO de y, es decir el vector y = py, se obtiene proyectando y sobre el conjunto de
todas las combinaciones lineales de los regresores (todos los posibles modelos lineales generados con los
regresores x), para seleccionar aquel cuya suma de residuos al cuadrado e

e es menor. (compare la gura


de la Transparencia T46 con la gura inmediatamente anterior).
Seccion 4: Propiedades algebraicas de la estimacion MCO 25
De manera analoga, los residuos e = my son la proyeccion del vector y sobre el espacio ortogonal al
anterior (al de los modelos lineales obtenidos como combinaciones lineales de los regresores x). Es decir,
e es la parte de y que no es expresable en funcion de un modelo lineal de x (o lo que es lo mismo, no es
explicable como combinacion lineal de los regresores).
Por tanto, la matriz p es una aplicacion lineal que proyecta el vector y sobre las x (sobre el espacio
vectorial expandido por las columnas los regresores de la matriz x); y la matriz m es una aplicacion
lineal que proyecta el vector y sobre el espacio ortogonal a las x (sobre el espacio vectorial ortogonal al
expandido por las columnas de la matriz x);
Proyectores ortogonales
Denicion 2. Decimos que una matriz q es simetrica si se verica que q

= q.
Denicion 3. Decimos que una matriz q es idempotente si se verica que qq = q.
Denicion 4. Sea q una matriz idempotente (qq = q). Si ademas la matriz es simetrica (q = q

),
entonces se dice que la matriz q es un proyector ortogonal.
Ejercicio 27. Verique que p y m son proyectores ortogonales.
Regresion particionada
Wooldridge (paginas 85 y ejercicio 3.17 de la pagina 119 2006). Pero mejor en:
Johnston y Dinardo (paginas 88 a 95 y 116 a 118 2001)
Novales (paginas 85 a 86 1993)
Pe na (paginas 390 a 392 2002)
En la parte de contrastacion de hipotesis sera necesario, en ocasiones, tener expresiones explcitas de
sub-vectores de

=
_
_

2
_
_
Para ello vamos a reescribir el modelo lineal de la forma Y =X
1

1
+X
2

2
+U y tambien las ecuaciones
normales 3.1 en la pagina12 del siguiente modo
__
x
1

x
2

_
_
x
1
x
2

_ _

2
_
=
_
x
1

y
x
2

y
_
o mejor a un
x
1

x
1

1
+x
1

x
2

2
= x
1

y
x
2

x
1

1
+x
2

x
2

2
= x
2

y
(4.3)
donde x =
_
x
1
.
.
. x
2

, es decir, hemos dividido la matriz de regresores en dos conjuntos de columnas, cada


uno asociado a los parametros de los vectores

1
y

2
.
Si pre-multiplicamos la primera de las ecuaciones por x
2

x
1
(x
1

x
1
)
1
y la restamos de la segunda,
tenemos
_
x
2

x
2
x
2

x
1
(x
1

x
1
)
1
x
1

x
2
_

2
= x
2

y x
2

x
1
(x
1

x
1
)
1
x
1

y (4.4)
Vamos ha denir los proyectores
p
1
= x
1
(x
1

x
1
)
1
x
1

y m
1
= I p
1
El primero de ellos es una aplicacion lineal que proyecta cualquier vector z sobre el primer conjunto
de regresores x
1
, y el segundo lo proyecta sobre el espacio ortogonal al primero. Por tanto p
1
z realiza la
regresion MCO del vector z sobre los regresores x
1
y m
1
z son los residuos (los errores) de dicha regresion.
Sustituyendo p
1
y m
1
en (4.4) tenemos

2
= (x
2

m
1
x
2
)
1
x
2

m
1
y (4.5)
y sustituyendo esta expresion en las ecuaciones normales (4.3)

1
= (x
1

x
1
)
1
x
1

(y x
2

2
) (4.6)
Seccion 4: Propiedades algebraicas de la estimacion MCO 26
Es sencillo vericar que, de nuevo, m
1

= m
1
. y que m
1

m
1
= m
1
. Por lo que (4.5) se puede escribir
como

2
= (x
2

m
1

m
1
x
2
)
1
x
2

m
1

m
1
y
En esta expresion, m
1
y son los residuos obtenidos al realizar la regresion de y sobre el subconjunto de
regresores x
1
(la parte de y ortogonal a x
1
). Y m
1
x
2
es una matriz cuyas columnas son los residuos
obtenidos realizando la regresion de cada una de las columnas de x
2
sobre x
1
(la parte de x
2
ortogonal a
x
1
).
Notese que si llamamos y

x
1
= m
1
y a los residuos de la primera regresion, y x
2

x
1
= m
1
x
2
a la matriz
de residuos de las regresiones de las columnas de x
2
, entonces (4.5) se puede escribir como

2
= (x
2

x
1

x
2

x
1
)
1
x
2

x
1

x
1
Este resultado nos indica que podemos estimar

2
mediante regresiones auxiliares:
1. Realizamos la regresion de y sobre el primer conjunto de regresores x
1
y obtenemos el vector de
residuos y

x
1
2. Realizamos las regresiones de cada una de las columnas de x
2
sobre las variables x
1
, almacenando
los residuos de cada regresion en las columnas de x
2

x
1
.
3. por ultimo,

2
se obtiene de la regresion de y

x
1
sobre x
2

x
1
, es decir,

2
= (x
2

x
1

x
2

x
1
)
1
x
2

x
1

x
1
4. las estimaciones de

1
se pueden recuperar de (4.6)
Notese que si
2
=
2
; es decir, si el sub-vector se reduce a un escalar (un unico parametro), entonces la
expresion (4.5) se reduce a

2
=

2
= ( x

2
[1N]
m
1
[NN]
x
2
[N1]
)
1
x
2

m
1
y =
x
2

m
1
y
x

2
[1N]
m
1
[NN]
x
2
[N1]
(4.7)
Regresion ortogonal particionada. Suponga que ambos grupos de regresores
_
x
1
.
.
. x
2

, son ortogo-
nales entre si (x
1

x
2
= 0), es decir, estan incorrelados. En este caso, las ecuaciones 4.3 en la pagina
anterior se reducen a
x
1

x
1

1
= x
1

y
x
2

x
2

2
= x
2

y
;
y por lo tanto los vectores de coecientes

1
y

2
se pueden estimar por separado mediante las regresiones
de Y sobre X
1
, y de Y sobre X
2
. Esta es una generalizacion de la Nota 7 en la pagina18.
Regresion en desviaciones respecto a la media
Wooldridge (paginas 63, 64, 90 2006). Pero mejor:
Novales (paginas 86 a 91 1993)
Johnston y Dinardo (paginas 84 a 88 2001)
Gujarati (Seccion 6.1 2003, hay version castellana de este manual)
Un caso particular de la regresion particionada es que el primer grupo de regresores se limite a la columna
de unos. Es decir x =
_
1
.
.
. x
2

, donde x
1
= 1. En este caso
p
1
= x
1
(x
1

x
1
)
1
x
1

= 1(1

1)
1
1

=
11

N
=
_

_
1
N
1
N

1
N
1
N
1
N

1
N

.
.
.
.
.
.
1
N
1
N

1
N
_

_
por lo que
m
1
y = (I p
1
) y =
_

_
y
1
y
y
2
y
.
.
.
y
N
y
_

_
= y y

1
Seccion 4: Propiedades algebraicas de la estimacion MCO 27
es decir, y = m
1
y son las desviaciones de los elementos del vector columna y respecto de su media muestral
y (son los residuos y

x
1
y

1
de la primera regresion en el paso 1; aqu x
1
= 1. Vease la Ecuacion 3.5 en
la pagina15). De manera similar, m
1
x
2
da como resultado una matriz x
2

1
x
2
en la que aparecen las
desviaciones de los datos de cada una de las columnas de X
2
respecto de sus respectivas medias (son los
residuos de las regresiones auxiliares del paso 2).
Ahora es inmediato estimar

2
como (paso 3)

2
= ( x

2
x
2
)
1
x

2
y (4.8)
es decir, en un modelo con termino constante, la estimacion de todos los parametros excepto el de la
constante. se pueden obtener mediante la regresion de las variables del modelo en desviaciones respecto a
su media. Por ultimo (paso 4)

1
= (1

1)
1
1

(y x
2

2
) =
1

(y x
2

2
)
N
= y

2
x
2

3
x
3

k
x
k
(4.9)
En denitiva, si en el modelo Y
n
=
1
+
2
X
2n
+ +
k
X
kn
deseamos estimar por MCO solo
2
,
3
,
. . . ,
k
. Basta restar la media muestral a cada una de las variables del modelo, y realizar la regresion en un
nuevo modelo sin termino constante y con las nuevas variables transformadas.

Y
n
=
2

X
2n
+ +
k

X
kn
.
Practica 28. Verique con un programa econometrico la armacion anterior.
Notese ademas, que la expresion (4.8) se puede reescribir como:

2
=
_
1
N
x

2
x
2
_
1
_
1
N
x

2
y
_
;
donde
1
N
x

2
x
2
es la matriz de covarianzas muestrales de los regresores, y
1
N
x

2
y es el vector de covarianzas
muestrales entre los regresores y el regresando (que es la contrapartida muestral de la Ecuacion C.1 en la
pagina49).
A nadiendo regresores
Suponga que ha estimado por MCO el siguiente modelo
Y = X +U.
Posteriormente decide incluir como regresor adicional la variable Z; entonces el nuevo modelo ampliado
sera:
Y = X

+c Z+U

.
Podemos aplicar los resultados de la regresi on particionada para obtener el coeciente, c, asociado al nuevo
regresor Z del siguiente modo (de 4.5 en la pagina25):
c = (z

mz)
1
z

my = (z

x
)
1
z

x
; (4.10)
donde y

x
son los residuos de la regresion MCO de y sobre x (la parte de y que no se puede expresar como
funcion lineal de las x, es decir, la parte de y ortogonal a las x), y z

x
son los residuos de la regresion MCO
de z sobre x (la parte de z ortogonal a las x), es decir z

x
= mz, e y

x
=my; donde m =
_
I x(x

x)
1
x

.
Practica 29. Verique con un programa econometrico la armacion anterior. Los pasos a seguir son
1. Calcule los residuos MCO con el modelo reducido.
2. Calcule los coecientes estimados en el modelo ampliado. Fjese en el valor obtenido para el coeciente
c asociado al nuevo regresor
4
.
3. Calcule los residuos en la regresion de la nueva variable explicativa z sobre los antiguos regresores
x.
4. Calcule por MCO la regresion de los residuos del punto 3 sobre los residuos del punto 1; y compare
el valor estimado con el obtenido en el punto 2.
4
Notese que el resto de coecientes puede diferir respecto de los obtenidos en la nueva regresion. Esto sera as siempre
que el nuevo regresor tenga correlaci on con los del modelo inicial.
Seccion 4: Propiedades algebraicas de la estimacion MCO 28
Suma de residuos: Cuando se a naden regresores a un modelo, la suma de residuos al cuadrado nunca
crece; de hecho suele disminuir. Esto se cumple incluso si la variable a nadida no tiene ning un sentido
dentro del modelo (ninguna relacion teorica). Veamoslo:
Del modelo inicial obtendremos los residuos
e = y x

;
por otra parte, los residuos con el modelo ampliado son
e

= y x

z c.
(notese que si x

z ,= 0 entonces

,=

; y que si c ,= 0 entonces e ,= e

.)
De (4.6) sabemos que

= (x

x)
1
x

(y z c) =

(x

x)
1
x

z c.
Sustituyendo

en e

obtenemos
e

=y x

+x(x

x)
1
x

z c z c
= e mz c
= e z

x
c de (4.10)
As pues,
e

= e

e +c
2
_
z

x
_
2cz

e
Teniendo en cuenta que de (4.10) c = (z

x
)
1
z

x
y que e = my = y

x
tenemos
c
2
_
z

x
_
= c
_
z

x
_
c = c
_
z

x
_
(z

x
)
1
z

x
= cz

x
= cz

e .
Por lo que nalmente
e

. .
SRC

= e

e
..
SRC
c
2
_
z

x
_
. .
0
(4.11)
por lo que la suma de residuos al cuadrado del modelo ampliado SRC

nunca sera mayor que la del modelo


reducido SRC.
Correlaciones parciales
Suponga que tiene tres variables; por ejemplo, la renta r, la edad e y el n umero de a nos de estudio o
formacion f de una serie de individuos.
R
n
=
1
+
2
F
n
+
3
E
n
+U
n
Querramos saber el grado de relacion lineal entre dos de ellas, una vez descontado la relacion lineal que
la tercera tiene con ellas. En nuestro ejemplo nos podra interesar conocer el grado de relacion lineal de la
renta con la formacion, una vez descontado el efecto lineal que la edad tiene con ambas (notese que tanto
para formarse como para generar rentas es necesario el transcurso del tiempo, por lo que generalmente
hay una relacion directa entre la edad y las otras dos variables).
La soluci on es tomar la parte de ambas variables, renta y educacion, ortogonal a la tercera,
laedad; y observar la correlacion de dichas partes (que ya no mantienen relacion lineal ninguna con la
variable edad).
El modo de hacerlo es sencillo una vez visto lo anterior:
1. Se toman los residuos de la regresion de la variable renta r sobre la variable edad e y la constante
(modelo lineal simple); es decir, se obtiene r

e
.
2. Se toman los residuos de la regresion de la variable formacion f sobre la variable edad e y la constante
(modelo lineal simple); es decir, se obtiene f

e
.
3. Por ultimo se calcula el coeciente de correlacion simple de ambos residuos r
r

e
f

e
.
Dicho coeciente es la correlacion parcial de la variable renta r con la variable formacion f, una vez
descontado el efecto de la edad e sobre ambas variables. Notese que ambos residuos tiene media cero
por ser residuos de un modelo con termino constante.
Suponga por tanto que dividimos la matriz de regresores x en dos columnas; por ejemplo la primera
variable no cte. x
2
y el resto de k 1 regresores (incluyendo el termino cte.) w.
x =
_
x
2
.
.
. w
_
Seccion 4: Propiedades algebraicas de la estimacion MCO 29
entonces el coeciente de correlacion parcial de y con x
2
una vez descontado el efecto de las demas variables
(incluida la constante) w es
r
(y,x
2
)

z
=
y

m
w
x
2
_
y

m
w
y

x
2

m
w
x
2
=
s
y

w
x
2

w
_
s
2
y

w
_
s
2
x
2

w
,
donde m
w
= I w(w

w)
1
w

.
Ejercicio 30. Resuelva el ejercicio propuesto n
o
2 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.
Ejercicio 31. Resuelva el ejercicio propuesto n
o
3 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/ectr1/index.html#Material.
4.3. Medidas de ajuste
Las medidas de ajuste sirven para
Cuanticar la reduccion de incertidumbre que proporciona el modelo estimado.
Comparar la bondad de modelos alternativos para la misma muestra
Medidas de ajuste: Coeciente de determinaci on R
2
23
R
2
1
SRC
STC
; R
2
1 (no acotado inferiormente)
Cuando hay termino constante
R
2
=
SEC
STC
; 0 R
2
1 (acotado)
Coeciente de Determinacion o R
2
es una medida de ajuste frecuente. Cuando el modelo contiene
un regresor constante, muestra el poder explicativo de los regresores no constantes. Se dene como
R
2
1
SRC
STC
;
y puesto que SRC y STC son siempre mayores o iguales a cero, R
2
1.
Cuando el modelo no tiene cte. SRC puede ser mayor que STC, por lo que R
2
no esta acotado
inferiormente.
GNU Gretl: ejemplo simulado
Caso especial (Modelos con termino constante). Si el modelo tiene termino constante, el coeciente R
2
mide el porcentaje de variacion de y explicado por los regresores no constantes del modelo; ya que
R
2
= 1
SRC
STC
=
STC SRC
STC
=
SEC
STC
y por tanto 0 R
2
1.
Notese ademas que
R
2
=
SEC
STC
=
SEC
2
STC SEC
=
_
Ns
b y y
_
2
Ns
2
y
Ns
2
b y
=
N
2
N
2
_
_
s
b y y
_
s
2
y
s
2
b y
_
_
2
=
_
r
b y y
_
2
, (4.12)
donde r
b y y
=
s
b y y
s
b y
s
y
es el coeciente de correlacion lineal simple entre y y y.
Seccion 4: Propiedades algebraicas de la estimacion MCO 30
Ejercicio 32. Calcule el coeciente de determinacion R
2
para el el ejemplo del precio de las viviendas
Ejercicio 33. Calcule el coeciente de determinacion para el Modelo 1: Y
n
= a +U
n
Pista. piense cuanto vale SEC en este caso.
Ejercicio 34. Verique que, para el caso del Modelo Lineal Simple Y
n
= a +bX
n
+U
n
, el coeciente de
determinacion R
2
es el cuadrado del coeciente de correlacion simple entre el regresando y y el regresor
x; es decir, que en este caso R
2
= r
2
y x
. (N otese que este resultado es diferente de (4.12)).
El coeciente de determinacion R
2
tiene algunos problemas al medir la bondad del ajuste.
a nadir nuevas variables al modelo (cuales quiera que sean) nunca hace crecer SRC pero esta suma
si pude disminuir (vease la Seccion )
Por tanto el R
2
del modelo ampliado nunca puede ser menor que el del modelo inicial.
Para evitar este efecto se emplea el coeciente de determinacion corregido (o ajustado)

R
2
El coeciente de determinacion corregido

R
2
de dene como

R
2
1
SRC
Nk
STC
N1
; = 1
s
2
b e
s
2
y
es decir, uno menos la fraccion de la cuasivarianza de los errores con la cuasivarianza muestral del regre-
sando. Por ello tambien es siempre menor o igual a uno.
1. compara estimadores insesgados de la varianza residual y de la varianza de la variable dependiente
2. penaliza modelos con un elevado numero de parametros, al corregir por el n umero de grados de
libertad N k.
Otras medidas de ajuste 24
R
2
corregido (mejor cuanto mas elevado)

R
2
1
SRC
Nk
STC
N1
= 1
N 1
N k
(1 R
2
) 1
Criterios de informacion de Akaike y de Schwartz (mejor cuanto mas bajos)
AIC =N ln(2) +N ln
_
e

e
N
_
+N + 2(k + 1)
SBC =N ln(2) +N ln
_
e

e
N
_
+N + (k + 1) ln(N)
Volver al recuadro del ejemplo del precio de las viviendas (pagina 17).
Otras medidas de la bondad del ajuste son los criterios de informacion de Akaike y de Schwartz (mejor
cuanto mas bajos)
Akaike prima la capacidad predictiva del modelo (pero tiende a sobreparametrizar)
Schwartz prima la correcta especicacion
El programa Gretl (Gnu Regression, Econometrics and Time-series Library) realiza un calculo especial
de R
2
cuando el modelo no tiene termino cte. En este caso el R-cuadrado es calculado como el cuadrado
de la correlacion entre los valores observado y ajustado de la variable dependiente (Vease Ramanathan,
1998, Seccion 4.2).
Los coecientes de determinacion nos dan informacion sobre el grado de ajuste del modelo, pero ojo! nos
pueden conducir a enga nos. No es recomendable darles demasiada importancia, hay otras cuestiones sobre
el modelo de mayor relevancia a la hora de valorarlo. . .
Ejemplo 35. [peso de ni nos seg un su edad:]
Seccion 4: Propiedades algebraicas de la estimacion MCO 31
n Peso Kg Edad
1 39 7
2 40 7
3 42 8
4 49 10
5 51 10
6 54 11
7 56 12
8 58 14
Cuadro 3: Peso (en kilogramos) y edad (en a nos)
(Modelo 1 P
n
=
1
+
2
EDAD
n
+U
n
)
40
45
50
55
60
7 8 9 10 11 12 13 14
P
e
s
o
Edad
Peso con respecto a Edad
E( P | e) = a + b e
ajustado
observado

Peso Kg = 19, 6910


(6,999)
+ 2, 93003
(10,564)
Edad
T = 8

R
2
= 0, 9405 F(1, 6) = 111, 6 = 1, 8161
(entre parentesis, los estadsticos t)
(Modelo 2 P
n
=
1
+
2
EDAD
n
+
3
EDAD
n
2
+U
n
)
40
45
50
55
60
7 8 9 10 11 12 13 14
P
e
s
o
Edad
Peso con respecto a Edad
E( P | e) = a + b e + c e
2
ajustado
observado

Peso Kg = 5, 11497
(0,664)
+ 8, 06835
(5,159)
Edad 0, 252102
(3,305)
Edad2
T = 8

R
2
= 0, 9776 F(2, 5) = 153, 57 = 1, 1148
(entre parentesis, los estadsticos t)
(Modelo 3 P
n
=
1
+
2
EDAD
n
+
3
EDAD
n
2
+
4
EDAD
n
3
+U
n
)
40
45
50
55
60
7 8 9 10 11 12 13 14
P
e
s
o
Edad
Peso con respecto a Edad
E( P | e) = a + b e + c e
2
+ d e
3
ajustado
observado

Peso Kg = 81, 7714


(1,904)
18, 5964
(1,419)
Edad + 2, 37778
(1,845)
Edad2 0, 0836541
(2,043)
Edad3
T = 8

R
2
= 0, 9863 F(3, 4) = 168, 75 = 0, 87188
(entre parentesis, los estadsticos t)
Seccion 5: Propiedades estadsticas de los estimadores MCO 32
5. Propiedades estadsticas de los estimadores MCO
Captulos 2 y 3 de Wooldridge (2006)
Apendice E2 de Wooldridge (2006)
Estimador MCO
b

| x
25
Los coecientes estimados verican
x

y = x

por Supuesto 4 T13 de independencia lineal podemos despejar



:

= (x

x)
1
x

y
que es una estimacion.
El estimador de los coecientes es

= (X

X)
1
X

Y o bien

| x

x = (x

x)
1
x

Y = aY = +aU
donde Y = x +U suponiendo conocidas las realizaciones de los regresores.
Nota 9. Notese las dimensiones de la matriz:
a
[kN]
(x

x)
1
x

=
_

_
a
11
a
12
a
1N
a
21
a
22
a
2N
.
.
.
.
.
.
.
.
.
.
.
.
a
k1
a
k2
a
kN
_

_
;
por lo tanto,

son k combinaciones lineales de los N datos del vector y, donde los coecientes especcos
de cada combinacion son los elementos de cada una de las las de la matriz (x

x)
1
x

.
Del mismo modo, cada uno de los elementos del vector aleatorio

es una combinacion lineal de las N
variables aleatorias Y
n
.
Notese ademas que

| x

x = aY
= a
_
x +U

= +aU
= +(x

x)
1
x

U
es decir:

| x
es igual al verdadero valor de los parametros m as una combinacion lineal (o suma ponde-
rada) de las perturbaciones determinada por los coecientes a
ij
de la matriz a.
5.1. Esperanza de los estimadores MCO

| x
Esperanza del estimador MCO
b

| x
26
Denotemos (X

X)
1
X

por A
[kN]
E
_

x
_
=E( +AU[ x)
=E( +aU[ x)
= +aE( U[ x)
=
por lo tanto es un estimador insesgado.
Seccion 5: Propiedades estadsticas de los estimadores MCO 33
Si los regresores son NO estocasticos, la demostracion es mas sencilla a un
E
_

_
=E( +aU)
= +aE(U)
=
Modelo 2. [Modelo Lineal Simple (caso particular T16 ).]
De 3.7 en la pagina15 resulta

b =

n
(x
n
x)(y
n
y)

n
(x
n
x)
2
=

n
y
n
(x
n
x)

n
(x
n
x)
2
.
es decir,

b =

n
m
n
y
n
, (5.1)
donde
m
n
=
x
n
x

n
(x
n
x)
2
.
Por tanto,

b es una combinacion lineal de los datos y


n
(donde m
n
son los coecientes de dicha combi-
nacion); y entonces a tambien es combinacion lineal de los datos y
n
(vease 3.10 en la pagina15).
Por 5.1 sabemos que

b
| x
=

m
n
Y
n
, donde
m
n
=
x
n
x

(x
n
x)
2
.
Se puede vericar que
1.

m
n
= 0
2.

m
2
n
=
1
P
x
2
n
=
1
P
(x
n
x)
2
=
1
Ns
2
x
3.

m
n
(x
n
x) =

m
n
x
n
= 1.
Entonces,

b
| x
=

m
n
(a +bx
n
+U
n
)
=a

m
n
+b

m
n
x
n
+

m
n
U
n
= b +

m
n
U
n
y
E
_

x
_
= b +

m
n
E( U
n
[ x) = b.
(Novales, 1997; Gujarati, 2003, pag. 488491 y pag. 100 respectivamente).
Por otra parte, de 3.10 en la pagina15 sabemos que
a = y

b x =
1
N

y
n

b
1
N

x
n
.
Por lo tanto el estimador condicionado es
a
| x
=
1
N

Y
n

b
| x
_
1
N

x
n
cuya esperanza es
E(a [ x) =
1
N

E( Y
n
[ x) E
_

x
_
1
N

x
n
=
1
N

E( Y
n
[ x) b
1
N

x
n
=
1
N

E( a +bx
n
+U
n
[ x) b
1
N

x
n
=
1
N

a +b
1
N

x
n
+
1
N

E( U
n
[ x) b
1
N

x
n
= a.
Ejercicio 36. Verique que el estimador MCO del parametro a del Modelo 1 (constante como unico
regresor) es insesgado.
Seccion 5: Propiedades estadsticas de los estimadores MCO 34
5.2. Varianza de los estimadores MCO

| x
Varianza del estimador MCO
b

| x
27
Aplicando la denicion de varianza de un vector tenemos:
Var
_

x
_
=E
_
_


__


_

x
_
=E
_
(x

x)
1
x

UU

x(x

x)
1

x
_
=(x

x)
1
x

E
_
UU

x
_
x(x

x)
1
=
2
(x

x)
1
Modelo 2. [Modelo Lineal Simple] Sabemos de (3.7) en la pagina15 que x

x =
_
N
P
x
n
P
x
n
P
x
2
n
_
cuyo
determinante es
det x

x [x

x[ = N

x
2
n

x
n
_
2
= N

(x
n
x)
2
;
Por tanto la matriz de varianzas y covarianzas del estimador es:

2
(x

x)
1
=

2
N

(x
n
x)
2

_
x
2
n

x
n

x
n
N
_
.
Notese que

(x
n
x)
2
= N s
2
x
.
As pues, podemos deducir que
Var(a [ x) =

2

x
2
n
N

(x
n
x)
2
=

2
x
2
N s
2
x
; y Var
_

x
_
=

2

(x
n
x)
2
=

2
N s
2
x
. (5.2)
Ademas, ambos estimadores tienen una covarianza igual a
Cov
_
a,

x
_
=

2

x
n
N

(x
n
x)
2
=

2
x
N s
2
x
(5.3)
Ejemplo 37. [continuacion de precio de las viviendas:]
Podemos calcular la inversa de x

x:
(x

x)
1
=
_
9.1293e 01 4.4036e 04
4.4036e 04 2.3044e 07
_
;
as pues, las desviaciones tpicas de a
| x
y

b
| x
son (vease 5.2)
Dt(a [ x) =
_

2
(9.1293e 01) =


2
x
2
N s
2
x
Dt
_

x
_
=
_

2
(2.3044e 07) =


2
N s
2
x
.
Pero no conocemos
2
U
n
.
Continuacion del ejemplo precio de las viviendas en la pagina 40
Practica 38. Observe los resultados de las estimaciones del ejemplo del precio de las viviendas. Que es-
timacion cree que es mas able, la de la pendiente o la de la constante? Con los datos del ejemplo del
precio de las viviendas, repita la regresion pero con las siguientes modicaciones:
1. con todos los datos excepto los de la ultima vivienda
2. con todos los datos excepto los de las ultimas dos viviendas
3. con todos los datos excepto los de la primera y la ultima viviendas
Seccion 5: Propiedades estadsticas de los estimadores MCO 35
Conrman los resultados de estas regresiones su respuesta a la primera pregunta?
ejemplo del precio de las viviendas en GNU Gretl
Nota 10. Sea a
[mN]
, entonces, aplicando la denicion de la Nota 2
Var(aY) =E
_
aY Y

_
E(aY) E
_
Y

_
=a
_
E
_
Y Y

_
E(Y) E
_
Y

_
a

sacando factores comunes


=aVar(Y) a

Nota 11. Sean q


[nN]
y r
[mN]
matrices, y v y w vectores de orden n y m respectivamente. Entonces
E(qU+v) = E(qU) + E(v) = qE(U) +v,
y
Var(qU+v) = Var(qU) = qVar(U) q

,
ademas
Cov(qU+v, rU+w) = Cov(qU, rU) = qCov(U, U) r

= qVar(U) r

Nota 12. Sean Q


[nN]
= f(X) y R
[mN]
= g(X) matrices, y v y w vectores de orden n y m respectivamente;
sea ademas X = x, por lo que q = f(x) y r = g(x). Entonces
E( QU+v [ x) = E( qU[ x) + E( v [ x) = qE( U[ x) +v,
y
Var( QU+v [ x) = Var( qU[ x) = qVar( U[ x) q

;
ademas
Cov( QU+v, RU+w[ x) = Cov( qU, rU[ x) = qVar( U[ x) r

Ejercicio 39. Denotemos (X

X)
1
X

por A
[kN]
. Sabiendo que

= +AU, calcule de nuevo la ex-
presion de Var
_

x
_
empleando las propiedades de la esperanza y la varianza de vectores de las notas
anteriores.
Eciencia del estimador MCO
b

x: T
a
de Gauss-Markov 28
Con los supuestos 1 a 4,

| x
eciente entre estimadores lineales e insesgados
es decir, para cualquier estimador lineal insesgado

| x
Var
_

x
_
Var
_

x
_
en sentido matricial
a
Entonces se dice ELIO (BLUE en ingles).
a
La matriz
h
Var

Var

x
i
es denida positiva
De hecho el T
a
arriba mencionado implica que
Var
_

x
_
Var
_

x
_
para j = 1, . . . , k.
es decir, la relacion es cierta para cada uno de los estimadores de cada uno de los parametros individuales.
Teorema 5.1 (Gauss-Markov). Sea

| x
el estimador MCO de , y sea

| x
otro estimador lineal e
insesgado de ; entonces bajo los supuestos 1 a 4, para cualquier v
[k1]
se verica que Var
_
v

x
_

Var
_
v

x
_
Seccion 5: Propiedades estadsticas de los estimadores MCO 36
Demostracion. Puesto que

| x
= f Y es un estimador insesgado, E
_

x
_
= f E( Y [ x) = f x = . Por
tanto la insesgadez implica necesariamente que fx = I . Sea g = a+f , donde a = (x

x)
1
x

; entonces
gx = 0 (y por tanto g a

= 0
[kk]
y, trasponiendo, ag

= 0

[kk]
). Puesto que Var( Y [ x) = Var( U[ x) =
2
I
se deduce que:
Var
_

x
_
= f Var( Y [ x) f

=
2
_
a+g
_
a

+g

=
2
_
aa

+ag

+g a

+g g

=
2
(x

x)
1
. .
Var(
c

j [ x)
+
2
g g

,
donde g g

es semi-denida positiva.
Por tanto, para cualquier vector v de orden k
Var
_
v

x
_
=v

Var
_

x
_
v

=Var
_
v

x
_
+
2
v

g g

v;
que implica
Var
_
v

x
_
Var
_
v

x
_
.
Ejercicio 40. En particular que implica el Teorema de Gauss-Markov para el caso particular de un
vector v =
_
0 . . . 0 1 0 . . . 0

; es decir, con un 1 en la posicion j-esima y ceros en el resto?


5.3. Momentos de los valores ajustados y
| x
y de los errores e
| x
Recuerde las deniciones que aparecen al nal de la Subseccion en la pagina25; y resuelva el siguiente
ejercicio:
Ejercicio 41. Denotemos x (x

x)
1
x

por p.
Notese que
p x (x

x)
1
x

= xa.
Verique que px = x. Demuestre ademas que p

= p y que pp = p; es decir, que p es simetrica e


idempotente.
Primeros momentos de los valores ajustados por MCO 29
Denotemos x (x

x)
1
x

por p, entonces
y
| x
= x

| x
=x
_
+(x

x)
1
x

=x +x(x

x)
1
x

U = x +pU T47
as pues:
E( y [ x) = x por el Supuesto 2 T7
Var( y [ x) =pVar( U[ x) p

=
2
pp

=
2
p por el Supuesto 3 T9
Donde hemos empleado los resultados de la Nota 11 en la pagina anterior.
Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que la
matriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.
Ejercicio 42. Denotemos I x(x

x)
1
x

por m.
Notese que
m I x(x

x)
1
x

= I p = I xa.
Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 37
Verique que mx = 0, y que am = 0. Demuestre ademas que m = m

y que mm = m; es decir, que m


es simetrica e idempotente.
Primeros momentos de los errores MCO 30
Denotemos I x(x

x)
1
x

por m, entonces
e
| x
= Y
| x
y
| x
=
_
x +U

x
_
+(x

x)
1
x

=
_
I x(x

x)
1
x

U = mU T47
por tanto,
E( e [ x) = 0 por el Supuesto 2 T7
y
Var( e [ x) =mVar( U[ x) m

=
2
mm

=
2
m por Supuesto 3 T9
Notese que la matriz de varianzas y covarianzas es (en general) una matriz llena (al contrario que la
matriz identidad) por tanto los valores ajustados son autocorrelados y heterocedasticos.
Ejercicio 43. Demuestre que el estimador de la suma residual es

SRC
| x
= U

mU.
6. Distribucion de los estimadores MCO bajo la hipotesis de Normalidad
Secciones 4.1 y 4.2 de Wooldridge (2006)
Apendice E3 de Wooldridge (2006)
Nota 13. Distribucion conjunta normal implica
1. distribucion queda completamente determinada por el vector de esperanzas y la matriz de varianzas
y covarianzas (lo que ya hemos calculado).
2. Correlacion cero implica independencia
3. Cualquier transformacion lineal tambien es conjuntamente normal
6.1. Quinto supuesto del Modelo Clasico de Regresion Lineal
Supuesto 5: Distribucion Normal de las perturbaciones 31
Para conocer la distribucion completa necesitamos un supuesto mas sobre la distribucion conjunta de U:
U
| x
N
_
0,
2
I
_
Y
| x
N
_
x ,
2
I
_
donde I es la matriz identidad.
Puesto que

| x
= +(x

x)
1
x

U = +AU
es funcion lineal de U, entonces

| x
tiene distribucion normal multivariante.

| x
N
_
,
2
(x

x)
1
_

| x
N
_
,
2
(x

x)
1
_
es decir (y si el modelo tiene termino constante)
_
_
_
_
_
_
_
_
_
_
_
_

2
.
.
.

k
_
_
_
_
_
_
_
_
_
_
_
_
| x
N
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_
_

2
.
.
.

k
_
_
_
_
_
_
_
_
_
_
_
,
2
_
_
_
_
_
_
_
_
_
_
_
1

1 1

2
1

k
x

1 x

2
x

k
.
.
.
.
.
.
.
.
.
.
.
.
x

1 x

2
x

k
_
_
_
_
_
_
_
_
_
_
_
1
_
_
_
_
_
_
_
_
_
_
_
Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 38
Distribuci on del estimador MCO
b

| x
32
As pues,

j
| x
N
_

j
,
2
_
(x

x)
1

jj
_
donde
_
(x

x)
1

jj
es el elemento (j, j) de la matriz (x

x)
1
.
y

j
| x

j
Dt
_

x
_ N(0 , 1)
(a partir de ahora tambien denotaremos los estadsticos condicionados, i.e.,
b

| x
o b e
| x
sencillamente como
b
y
b e)
Modelo 2. [Modelo Lineal Simple.] De la transparencia anterior y de 5.2 en la pagina34 podemos
armar que bajo todos los supuestos del MLS
a
| x
N
_
a ,

2
x
2
N s
2
x
_
y

b
| x
N
_
b ,

2
N s
2
x
_
. (6.1)
Distribuci on de los estimadores de valores ajustados y residuos 33
Ambos estimadores son transformaciones lineales de U N; y vistos sus primeros momentos T29 y
T30 :
y
| x
N
_
x ,
2
p
_
pues y
| x
= x +pU
e
| x
N
_
0 ,
2
m
_
pues e
| x
= mU
donde p = x(x

x)
1
x

; y m = I x(x

x)
1
x

6.2. Estimacion de la varianza residual y la matriz de covarianzas


Nota 14. Llamamos traza a la suma de los elementos de la diagonal de una matriz.
El operador traza es un operador lineal con la siguiente propiedad: Sean a y b dos matrices cuadradas,
entonces
traza (ab) = traza (ba)
Proposicion 6.1. traza (m) = N k;
Demostracion.
traza (m) =traza
_
I
[NN]
p
[NN]
_
puesto que m I p
=traza (I) traza (p) puesto que traza es lineal
=N traza (p)
y
traza (p) =traza
_
x(x

x)
1
x

_
puesto que p x(x

x)
1
x

= xa
=traza
_
(x

x)
1
x

x
_
puesto que traza (xa) = traza (ax)
=traza
_
I
[kk]
_
= k
Por tanto traza (m) = N k.
Proposicion 6.2. E
_
e

x
_
= (N k)
2
Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 39
Demostracion. En T30 vimos que e
| x
= mU; por tanto
E
_
e

x
_
=E
_
U

mU

x
_
= E
_
U

mU

x
_
por ser m idempotente
=
N

i=1
N

j=1
m
ij
E( U
i
U
j
[ x) pues el operador esperanza es lineal
=
N

i=1
m
ii

2
por el supuesto 3 T9
=
2
traza (m) =
2
(N k) por la Nota 14 (Pag. 38) y Proposicion 6.1
Por tanto,

s
2
b e

b e

b e
Nk
es un estimador insesgado de
2
. Consecuentemente emplearemos como estimador
de la matriz de varianzas y covarianzas la expresion (6.2) de mas abajo.
Estimacion de la varianza residual 34
El parametro
2
es desconocido T9
La cuasivarianza de e

s
2
b e

e

e
N k
es un estimador insesgado de
2
puesto que
E
_

s
2
b e

x
_
= E
_
e

e
N k

x
_
=

2
(N k)
N k
=
2
Estimador de la matriz de varianzas y covarianzas de

| x

Var
_

| x
_
=

s
2
b e
(x

x)
1
(6.2)
Proposicion 6.3. Si una matriz cuadrada q es idempotente entonces rango (q) = traza (q) .
Demostracion. (Demostracion en Rao, 2002, pp. 28)
Proposicion 6.4. Sea el vector Z N(0, I) , y sea q una matriz simetrica e idempotente, entonces
Z

qZ
2
(rango(q))
.
Demostracion. (Demostracion en Mittelhammer, 1996, pp. 329)
Distribuci on cuando la varianza de U es desconocida 35

j

j
_

2
_
(x

x)
1
_
jj
N(0 , 1)
sustituyendo
2
por su estimador,

s
2
b e
, tenemos el estadstico T del parametro j -esimo:

j

j
_

s
2
b e
_
(x

x)
1
_
jj
=

j

j
_
_

Var
_

__
jj
T
j
t
Nk
(6.3)
Proposicion 6.5.
Nk

s
2
b e
=
b e

b e

2

2
(Nk)
Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 40
Demostracion.
N k

s
2
b e
=
N k

2
e

e
N k
=
e

2
=
1

e
1

=
1

mU
1

ya que e = mU
=
1

mU
1


2
(Nk)
puesto que m es idempotente, U
| x
N
_
0,
2
I
_
, por las proposiciones 6.3 y 6.4 en la pagina anterior
y la Proposicion 6.1 en la pagina38.
Ejercicio 44. Teniendo en cuenta que si una v.a. X
2
Nk
entonces E(X) = N k y Var(X) =
2(N k), y puesto que

s
2
b e
es una variable aleatoria
2
Nk
multiplicada por

2
Nk
; calcule la esperanza y
la varianza de

s
2
b e
Proposicion 6.6. Las variables aleatorias
_


_
| x
y e
| x
son independientes.
Demostracion. Puesto que
_


_
| x
= aU y e
| x
= mU, ambas variables son transformaciones
lineales de U, y por tanto ambas tienen distribucion conjunta normal condicionada a x (Nota 13 en la
pagina37)
Basta, por tanto, demostrar que ambas variables tienen covarianza nula
Cov( aU, mU[ x) = aVar( U[ x) m

por el supuesto 2 y la Nota 12 (Pagina 35)


= a
2
I m

por el supuesto 3
=
2
am =
2
0 = 0
Nota 15. Si dos variables aleatorias X e Y son independientes, entonces transformaciones de ellas, h(X)
y g(Y), tambien son independientes.
Proposicion 6.7. El estadstico T
j
de distribuye como una t con N k grados de libertad, es decir,
T
j
t
Nn
Demostracion.

j

j
_

s
2
b e
_
(x

x)
1
_
jj
=

j

j
_

2
_
(x

x)
1
_
jj

s
2
b e
=
Z
_
c
s
2
b e

2
=
Z
_
b e

b e /
2
Nk
donde la parte de numerador es funcion de
_


_
| x
y la del denominador es funcion de e
| x
. As pues,
por la Nota 15 y la Proposicion 6.6 el numerador y el denominador son independientes.
Ademas, en numerador tiene distribucion N(0 , 1). Por tanto tenemos una N(0 , 1) dividida por la raz
cuadrada de un
2
dividida por sus grados de libertad; este cociente tiene distribucion t de Student con
N k grados de libertad.
Ejemplo 45. [continuacion de precio de las viviendas:]
La inversa de x

x es:
(x

x)
1
=
_
9.1293e 01 4.4036e 04
4.4036e 04 2.3044e 07
_
;
as pues, las desviaciones tpicas de a y

b son (vease 5.2 en la pagina34)


Dt(a) =
_

2
(9.1293e 01) =

x
2
n
N

(x
n
x)
2
Dt
_

b
_
=
_

2
(2.3044e 07) =

(x
n
x)
2
.
Seccion 6: Distribucion de los estimadores MCO bajo la hipotesis de Normalidad 41
No conocemos
2
U
n
; pero podemos sustituirla por la la cuasi-varianza:

Dt(a) =
_
(1522.8) (9.1293e 01) =

(1522.8)

x
2
n
N

(x
n
x)
2
= 37.285;

Dt
_

b
_
=
_
(1522.8) (2.3044e 07) =

(1522.8)

(x
n
x)
2
= 0.01873
puesto que

s
2
b e
=
b e

b e
Nn
=
18273.6
142
= 1522.8.
Vease los resultados de estimacion en el ejemplo del precio de las viviendas (pagina 17).
Por otra parte,

Cov
_
a,

b
_
= (1522.8) (4.4036e 04) =

c
s
2
b e
P
x
n
N
P
(x
n
x)
2
= 0.671
(vease 5.3 en la pagina34).
6.3. Cota mnima de Cramer-Rao
Matriz de Informaci on 36
Funcion de verosimilitud
(; y, x) = (2
2
)

n
2
exp
_

1
2
2
(y x)

(y x)
_
= f (y, x; ) ;
donde =
_

2
_
Matriz de Informacion para
I() = E
_

2
ln (; Y, X)

x
_
Cota mnima de Cramer-Rao 37
I() =
_
x

2
0
0
N
2
4
_
Cota mnima es la inversa de la Matriz de Informacion
I()
1
=
_

2
(x

x)
1
0
0
2
4
N
_
Matriz de varianzas y covarianzas de los estimadores MCO

| x
,
c
s
2
b e
=
_

2
(x

x)
1
0
0
2
4
Nk
_
I() =E
_
_
_
_

x

2

_
x

Y x

_
x

Y x

4
N
2
4

1

6
_
Y x

_
Y x

_
_

x
_
_
=
_
x

2
0
0
N
2
4
_
1. La matriz de varianzas y covarianzas
b

| x
alcanza la cota mnima de Cramer-Rao. Es decir es el
estimador insesgado de mnima varianza (resultado mas fuerte que T
a
de Gauss-Markov)
2. La varianza del estimador

s
2
b e
no alcanza la cota mnima de Cramer-Rao. No obstante, no existe
ning un estimador insesgado de
2
con varianza menor a
2
4
N
.
Seccion 7: Estimacion por m axima verosimilitud 42
Ejercicio 46. Revise el ejercicio numerico n
o
1 del profesor Jose Alberto Mauricio
http://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.
Ejercicio 47. Resuelva el ejercicio propuesto n
o
1 del profesor Jose Alberto Mauricio.
http://www.ucm.es/info/ecocuan/jam/ectr1/index.html#Material.
Para los ejercicios practicos con ordenador le puede ser util
El programa gratuito GRETL. (http://gretl.sourceforge.net/gretl_espanol.html)
Tiene documentacion en castellano
Gua del usuario
Gua de instrucciones
Tambien puede obtener los datos del libro de texto (Wooldridge, 2006) desde http://gretl.sourceforge.
net/gretl_data.html
la guia de Eviews del profesor Jose Alberto Mauricio (material extenso)
(http://www.ucm.es/info/ecocuan/jam/ectr1/Ectr1-JAM-IntroEViews.pdf).
Ejercicio 48. Anscombe
GNU Gretl: ejemplo Anscombe
Ejercicio 49. Replique con el ordenador la practica con ordenador propuesta por el profesor Miguel Jerez
http://www.ucm.es/info/ecocuan/mjm/ectr1mj/.
GNU Gretl MLG peso bbs
7. Estimacion por maxima verosimilitud
funci on de verosimilitud vs funci on de densidad 38
Los supuestos 1, 2, 3 y 5, implican que
Y[ x N
_
x ,
2
I
[NN]
_
por tanto, la funcion de densidad de Y dado x es
f (y [ x) = (2
2
)
n/2
exp
_

1
2
2
(y x)

(y x)
_
donde los parametros
_
,
2
_
son desconocidos.
Estimaci on por Maxima Verosimilitud 39
Sustituyendo el vector desconocido
_
,
2
_
por un hipotetico
_

,
2
_
y tomando logs
a
obtenemos
funcion de verosimilitud logartmica
ln (

,
2
) =
n
2
ln(2)
n
2
ln(
2
)
1
2
2
(y x

(y x

)
Maximizando
max
e
,e
2
ln (

,
2
)
obtenemos estimaciones maximo verosmiles de
_
,
2
_
.
a
transformacion mon otona
Seccion 8: Ejercicios 43
Estimacion por Maxima Verosimilitud: derivacion 40
Cond. primer orden en maximizacion:
ln (

,
2
)

= 0 =
1
2e
2

(y x

(y x

) = 0

MV
= (x

x)
1
x

y
ln (

,
2
)

2
= 0 =
n
2e
2
+
1
2e
4
(y x

(y x

) = 0

2
MV
=
b e

b e
N
=

s
2
b e
=
Nk
N

s
2
b e
Por tanto:
la estimacion de coincide con el MCO
la estimacion de
2
es sesgada
Ejercicio 50.
(a) Calcule la esperanza de
2
MV
. Es un estimador insesgado de
2
?
(b) Calcule la varianza de
2
MV
(c) Compare su resultado con la cota mnima de Cramer-Rao. Pero es aplicable esta cota a este estimador?
8. Ejercicios
Ejercicio 51. Demuestre que en el modelo de regresion simple Y
n
= a+bX
n
+U
n
el supuesto E( U
n
[ x) = 0
implica E( Y
n
[ x) = a +bX
n
; donde los regresores son no-estocasticos, y Ues la perturbacion aleatoria del
modelo.
Ejercicio 52. (Consta de 5 apartados)
Sean los siguientes datos:
Empresa y
i
x
i
x
i
y
i
x
2
i
A 1 1 1 1
B 3 2 6 4
C 4 4 16 16
D 6 4 24 16
E 8 5 40 25
F 9 7 63 49
G 11 8 88 64
H 14 9 126 81
sumas 56 40 364 256
Cuadro 4:
donde y son benecios, y x son gastos en formacion de personal de una empresa.
Ademas se sabe que las varianzas y covarianzas muestrales son tales que:
N s
2
y
=

(y
i
y)
2
= 132,
N s
2
x
=

(x
i
x)
2
= 56,
N s
xy
=

(x
i
x)(y
i
y) = 84,
donde N es el tama no muestral.
Seccion 9: Bibliografa 44
Suponga que se plantea el siguiente modelo
Y
i
= a +bx
i
+U
i
,
donde U
i
son otros factores que afectan a los benecios distintos de sus gastos en formacion (el termino
de error). Se sabe que la distribucion conjunta de dichos factores es:
U N(0,
2
I),
donde I es una matriz identidad de orden 8, y
2
es la varianza de U
i
, cuyo valor es desconocido.
(a) Estime por MCO los parametros a y b del modelo.
(b) Cual es el benecio esperado para una empresa que incurriera en unos gastos de formacion de personal
de 3?
(c) Calcule los residuos de la empresa E y F. Que indica en este caso el signo de los residuos? La
comparacion de los residuos para estas empresas contradice el hecho de que F tiene mayores benecios
que E? Justique su respuesta.
(Los siguientes apartados solo tras haber estudiado el tema siguiente)
(d) Estime por MCO un intervalo de conanza del 95 % para el parametro b del modelo, sabiendo que la
suma de los residuos al cuadrado es 6.
(e) Contraste la hipotesis de que la pendiente del modelo es uno frente a que es menor que uno con
un nivel de signicacion del 10 %. Cu al es el p-valor de la estimacion de dicha pendiente?
9. Bibliografa
Gujarati, D. N. (2003). Basic Econometrics. McGraw-Hill, cuarta ed. ISBN 0-07-112342-3. International
edition. 26, 33
Hayashi, F. (2000). Econometrics. Princeton University Press, Princeton, New Jersey. ISBN 0-691-01018-8.
2, 3
Johnston, J. y Dinardo, J. (2001). Metodos de Econometra. Vicens Vives, Barcelona, Espa na, primera
ed. ISBN 84-316-6116-x. 25, 26
Luenberger, D. G. (1968). Optimization by vector space methods. Series in decision and control. John
Wiley & Sons, Inc., New York. 3
Mittelhammer, R. C. (1996). Mathematical Statistics for Economics and Business. Springer-Verlag, New
York, primera ed. ISBN 0-387-94587-3. 39
Novales, A. (1993). Econometra. McGraw-Hill, segunda ed. 2, 12, 25, 26
Novales, A. (1997). Estadstica y Econometra. McGraw-Hill, Madrid, primera ed. ISBN 84-481-0798-5.
33
Pe na, D. (2002). Regresion y dise no de experimentos. Alianza Editorial, Madrid. ISBN 84-206-8695-6. 25
Ramanathan, R. (1998). Introductory Econometrics with Applications. Harcourt College Publisher, Or-
lando. 6, 16, 30
Rao, C. R. (2002). Linear Statistical Inference and Its Applications. Wiley series in probability and
statistics. John Wiley & Sons, Inc., New York, segunda ed. ISBN 0-471-21875-8. 39
Spanos, A. (1999). Probability Theory and Statistical Inference. Econometric Modeling with Observational
Data. Cambridge University Press, Cambridge, UK. ISBN 0-521-42408-9. 3
Verbeek, M. (2004). A Guide to Modern Econometrics. John Wiley & Sons, Inc., segunda ed. 2
Wooldridge, J. M. (2006). Introducci on a la econometra. Un enfoque moderno. Thomson Learning, Inc.,
segunda ed. 2, 3, 5, 12, 21, 25, 26, 32, 37, 42
10. Trasparencias
Lista de Trasparencias
1 [Descomposici on ortogonal y causalidad]
2 [Modelo de regresion]
3 [Tipos de datos]
4 [Modelo Cl asico de Regresion Lineal]
5 [Supuesto 1: linealidad]
6 [Supuesto 1: linealidad]
7 [Supuesto 2: Esperanza condicional de U Estricta exogeneidad]
8 [Supuesto 2: Esperanza condicional de U Estricta exogeneidad]
Seccion 10: Trasparencias 45
9 [Supuesto 3: Perturbaciones esfericas]
10 [Supuestos 2 y 3: Implicaci on conjunta]
11 [Termino de error]
12 [Mnimos cuadrados ordinarios: Ecuaciones normales]
13 [Supuesto 4: Independencia lineal de los regresores]
14 [Modelo 1: No vbles explicativas]
15 [Modelo 2: Modelo Lineal Simple]
16 [Modelo 2: Modelo Lineal Simple]
17 [Modelo 2: Modelo Lineal Simple]
18 [Estimacion MCO: Interpretaci on graca]
19 [Modelo Lineal General]
20 [Mnimos cuadrados ordinarios: Propiedades algebraicas]
21 [Mnimos cuadrados ordinarios: Mas propiedades algebraicas]
22 [Sumas de cuadrados]
23 [Medidas de ajuste: Coeciente de determinacion R
2
]
24 [Otras medidas de ajuste]
25 [Estimador MCO
b

| x
]
26 [Esperanza del estimador MCO
b

| x
]
27 [Varianza del estimador MCO
b

| x
]
28 [Eciencia del estimador MCO
b

x: T
a
de Gauss-Markov]
29 [Primeros momentos de los valores ajustados por MCO]
30 [Primeros momentos de los errores MCO]
31 [Supuesto 5: Distribucion Normal de las perturbaciones]
32 [Distribucion del estimador MCO
b

| x
]
33 [Distribucion de los estimadores de valores ajustados y residuos]
34 [Estimacion de la varianza residual]
35 [Distribucion cuando la varianza de U es desconocida]
36 [Matriz de Informacion]
37 [Cota mnima de Cramer-Rao]
38 [funcion de verosimilitud vs funcion de densidad]
39 [Estimacion por M axima Verosimilitud]
40 [Estimacion por M axima Verosimilitud: derivacion]
41 [Geometra del Modelo lineal]
42 [Supuesto 2: Regresores no estocasticos]
43 [Geometra del Modelo lineal: regresores no estocasticos]
44 [Estimacion de la esperanza condicional: MCO]
45 [Estimacion modelo lineal: geometra MCO]
46 [Modelo lineal estimado: geometra MCO]
47 [Geometra del estimador]
48 [Mnimos cuadrados ordinarios: Ecuaciones normales (Tradicional)]
Seccion A: Geometra del modelo clasico de regresion lineal 46
A. Geometra del modelo clasico de regresion lineal
Geometra del Modelo lineal 41
X =
_
1, X

; =
_
a
b
_
; Y = X +U
Vision en 3D interactiva
Supuesto 2: Regresores no estocasticos 42
Suponemos que realmente disponemos de una unica realizacion de X que denotamos por x.
Es decir, condicionamos a que
X = x
Bajo este supuesto, se mantiene que
E(x
ij
U
n
) = 0 para n, i = 1, . . . , N; y j = 1, . . . , k.
Esto signica que, como en el caso general, los regresores son ortogonales a los terminos de perturbacion
de todas las observaciones
E(x
ij
U
n
) = x
ij
E(U
n
) = 0 para todo i, n = 1, . . . , N; y j = 1, . . . , k.
por lo que
E(x
i
U
n
) = x
i
E(U
n
) = x
i
0 = 0
[1k]
para todo i, n = 1, . . . , N.
Y la correlacion entre los regresores y las perturbaciones es cero, ya que
Cov(U
n
, x
ij
) =E(x
ij
U
n
) E(x
ij
) E(U
n
)
=x
ij
E(U
n
) x
ij
E(U
n
) = 0
es decir, regresores no estocasticos en un caso particular del caso general: Supuesto 2 T7 (vease tambien
la Seccion en la pagina12, Pagina 12)
Seccion A: Geometra del modelo clasico de regresion lineal 47
Geometra del Modelo lineal: regresores no estocasticos 43
x =
_
1, x

; =
_
a
b
_
; Y = x +U
Vision en 3D interactiva
A.1. Geometra del estimador MCO
Estimacion de la esperanza condicional: MCO 44
Tenemos realizaciones de Y y X; es decir, disponemos de
y =
_
_
_
_
_
y
1
y
2
.
.
.
y
N
_
_
_
_
_
x =
_
_
_
_
_
1 x
1
1 x
2
.
.
.
.
.
.
1 x
N
_
_
_
_
_
y buscamos

=
_
a

b
_
tales que
y = x

+e
y e sea peque no.
Estimacion modelo lineal: geometra MCO 45
1
y
X2
e
a 1
y = X

bX2
x =
_
1, x

;

=
_
a

b
_
; y = y + e; y = x

;
e = y y
Seccion B: Derivacion tradicional de las Ecuaciones Normales 48
Modelo lineal estimado: geometra MCO 46
a 1
1
y
X2

bX
2
e
y = X

x =
_
1, x

;

=
_
a

b
_
; y = y + e; y = x

;
e = y y
Geometra del estimador 47
Vision en 3D interactiva
B. Derivacion tradicional de las Ecuaciones Normales
Mnimos cuadrados ordinarios: Ecuaciones normales (Tradicional) 48
SRC(

) = y

y 2

y +

Buscamos un vector

que minimice SRC
mn
b

SRC(

)
SRC(

= 0; 2 x

y +2 x

x

= 0
con lo que obtenemos las ecuaciones normales
x

y = x

x

(B.1)
Estimacion MCO es la solucion a dichas ecuaciones
Seccion C: Caso General 49
SRC(

) =(y x

(y x

)
=
_
y

_
(y x

) puesto que (x

=y

y y

x

+

=y

y 2y

x

+

ya que el escalar

y es igual a su traspuesta y

(por ser escalar)


Renombremos algunos terminos. . . por una parte denimos a y

x y por otra c x

x, entonces
SRC(

) = y

y 2 a

c

.
Puesto que y

y no depende de

la diferencial de SRC(

) respecto de

es
SRC(

=2 a+2 c

por las propiedades de derivacion matricial
=2 x

y +2 x

x

sustituyendo a y c;
que igualando a cero nos da
2 x

y +2 x

x

= 0 x

x

= x

y
Las condiciones de segundo orden son:
SRC(

= 2 x

x que es una matriz denida positiva.


C. Caso General
Sean Y
n
, y X

n

_
X
n2
, . . . , X
nk

con matriz de varianzas y covarianzas


Var
__
Y
n
, X

n
_
=
_

2
Y
n

Y
n
X

n
Y
n

X

n
_
entonces siempre podemos encontrar unos parametros
1
y

=
_

2
, . . . ,
k

, tales que
Y
n
=
1
+X

+U
n
donde E(U
n
) = 0, y Var(U
n
) =
Y
n
X

n

1
X

n
Y
n
Dichos parametros resultan ser

=
1
X

n
Y
n
; (C.1)
(es decir, las covarianzas pre-multiplicadas por la inversa de matriz de varianzas de los regresores) y

1
= E(Y
n
)

E(X

n
) . (C.2)
Estos parametros son la solucion a las ecuaciones normales
E
_
X

Y
_
= E
_
X

X
_
_

_
donde la primera columna de X esta exclusivamente compuesta por unos.
Notese como los parametros a y b de la Ecuacion (3.6) en la pagina15 son un caso particular, donde
a =
1
y b =
2
.
Llamamos a
1
+X

el mejor predictor lineal de Y


n
dado X

n
; puesto que se puede demostrar
que
1
y

son los valores de b


1
y b

que minimizan
E
_
_
Y
n
b
1
X

n
b

_
2
_
En este contexto, llamamos a U
n
= Y
n

1
+X

_
el error de prediccion.
Podemos estimar por MCO los parametros desconocidos,
1
y

, sustituyendo, en las expresiones


anteriores, los momentos poblacionales por sus equivalentes muestrales (vease la Subseccion D en la pagina
siguiente). Pero, puesto que aqu no estamos imponiendo las restricciones del Modelo Cl asico de Regresi on
Lineal, no podemos, siquiera, conocer la esperanza del estimador. Para ello es necesario especicar algo
mas sobre la relacion entre X

n
e Y
n
.
Seccion D: Una expresion alternativa de las estimaciones MCO 50
C.1. Modelo Clasico de Regresion Lineal General
El modelo lineal general es mas restrictivo precisamente es este sentido; puesto que supone que la
esperanza condicional E( Y
n
[ X

n
) sea funcion lineal de X

n
.
Bajo esta hipotesis clasica el predictor lineal de mas arriba se convierte en el mejor predictor posible
en el sentido de que
E
_
_
Y
n
E( Y
n
[ X

n
)
_
2
_
E
_
_
Y
n
g(X

n
)
_
2
_
para cualquier funcion g().
Ecuaciones normales en el Modelo Lineal General
Las matrices y vectores de las ecuaciones normales x

y = x

x

en el caso general (k regresores) quedan
del siguiente modo
x

x
[kk]
=
_
_
_
_
_
_
_
_
_
_
_
1

1 1

2
1

k
x

1 x

2
x

k
.
.
.
.
.
.
.
.
.
.
.
.
x

1 x

2
x

k
_
_
_
_
_
_
_
_
_
_
_
donde cada elemento de la matriz x

x es de la forma
x

j
=
_
x
1i
x
2i
x
Ni
_
_
_
_
_
x
1j
x
2j

x
Nj
_
_
_
_
=

N
n=1
x
ni
x
nj
Ademas, 1

1 = N y 1

i
=

N
n=1
x
ni
. Por otra parte, el vector x

y es de la forma
x

y
[N1]
=
_
_
_
_
_
_
_
_
_
_
_
x

y
x

y
.
.
.
x

y
_
_
_
_
_
_
_
_
_
_
_
donde cada elemento es x

y =
_
x
1i
x
2i
x
Ni
_
_
_
_
_
y
1
y
2

y
N
_
_
_
_
=

N
n=1
x
ni
y
n
D. Una expresion alternativa de las estimaciones MCO
Si suponemos que la matriz (x

x) es invertible, entonces se puede despejar



en las ecuaciones normales
para obtener

= (x

x)
1
x

y;
y puesto que
(x

x)
1
x

y = (x

x/n)
1
x

y /n
las estimaciones MCO se pueden escribir como

=
_
S
2
x
_
1
S
xy
(D.1)
donde
S
2
x
=
x

x
n
; y S
xy
=
x

y
n
;
Compare (D.1) con (C.1) y resuelva el ejercicio de mas abajo.
Por ejemplo, para k = 2
S
2
x
=
_
1 x
x
1
N

x
2
n
_
; y S
xy
=
_
y
1
N

y
n
x
n
_
Ejercicio 53.
(a) Verique las dos igualdades anteriores
(b) Empleando la expresion (D.1) obtenga las expresiones de las ecuaciones (3.9) y (3.10) de la pagina 15.
Soluciones a los Ejercicios 51
Soluciones a los Ejercicios
Ejercicio 7.
Var(Y) =E
_
_
Y E(Y)
__
Y E(Y)
_

_
=E
_
Y Y

Y E
_
Y

_
E(Y) Y

+ E(Y) E
_
Y

_
_
desarollando el producto
=E
_
Y Y

_
E
_
Y E
_
Y

_
_
E
_
E(Y) Y

_
+ E
_
E(Y) E
_
Y

_
_
=E
_
Y Y

_
E(Y) E
_
Y

_
E(Y) E
_
Y

_
+ E(Y) E
_
Y

_
pues E
_
Y

_
es constante
=E
_
Y Y

_
E(Y) E
_
Y

_
Ejercicio 7
Ejercicio 10. Puesto que U
i
, X
i
es independiente de U
j
, X
1
, . . . , X
i1
, X
i+1
, . . . , X
N
; tenemos
que E( U
i
[ xu
j
) = E( U
i
[ x
i
) . As
E( U
i
U
j
[ x) = E( E(U
i
U
j
[ XU
j
) U
j
[ x) por Teorema esperanzas iteradas
= E( E(U
i
[ XU
j
) U
j
[ x) por linealidad de la esperanza condicional
= E( E(U
i
[ x
i
) U
j
[ x) por ser m.a.s.
= E( U
i
[ x
i
) E( U
j
[ x
j
) por ser m.a.s.
Ejercicio 10
Ejercicio 12. Por la Nota 4 en la pagina14 sabemos que

n
(x
n
x)(y
n
y) =

n
y
n
(x
n
x); por
tanto, operando

n
(x
n
x)(y
n
y) =

n
y
n
(x
n
x)
=

n
y
n
x
n
x

n
y
n
=

n
y
n
x
n
Ny x
= y

xNy x.
Ejercicio 12
Ejercicio 13. Por una parte, dividiendo la primera ecuacion de (3.7) por N obtenemos directamente
y = a +

b x ; por lo que a = y

b x.
Por otra parte, dividiendo la segunda por N tenemos

x
n
y
n
N
= a x +

x
2
n
N
o lo que es lo mismo, tenemos
x

y
N
= a x +

b
x

x
N
expresando los sumatorios como productos escalares
=
_
y

b x
_
x +

b
x

x
N
sustituyendo a
= x y

b x
2
+

b
x

x
N
operando en el parentesis
= x y +

b
_
x

x
N
x
2
_
sacando

b factor com un
es decir
x

y
N
x y =

b
_
x

x
N
x
2
_
por lo que empleando (3.2) y (3.3) tenemos la segunda ecuacion s
xy
=

b s
2
x
Ejercicio 13
Ejercicio 14. Entonces el Supuesto 4 no se cumplira, pues x sera conbinacion lineal del vector de unos
ya que x = c 1.
Soluciones a los Ejercicios 52
En tal situacion el sistema de ecuaciones normales (3.7) se reducira a:

y
n
= a N +

b

x
n
c

y
n
= c a N + c

x
n
donde la segunda ecuacion es c veces la primera, por lo que realmente tenemos una sola ecuacion con dos
incognitas.
Ademas, la varianza de un vector constante es cero, por lo que s
2
x
= 0 y tambien s
xy
=
y

x
N
y x =
c
y

1
N
cy = 0; por lo que la estimacion de

b esta indeterminada, ya que

b =
s
xy
s
2
x
=
0
0
.
Ejercicio 14
Ejercicio 16(a)

x
1n
y
n
=a

x
1
2
n
+

x
1n
x
2n
+c

x
1n
x
3n

x
2n
y
n
=a

x
2n
x
1n
+

x
2
2
n
+c

x
2n
x
3n

x
3n
y
n
=a

x
3n
x
1n
+

x
3n
x
2n
+c

x
3
2
n

Ejercicio 16(b)

y
n
=aN +

x
2n
+c

x
3n

x
2n
y
n
=a

x
2n
+

x
2
2
n
+c

x
2n
x
3n

x
3n
y
n
=a

x
3n
+

x
3n
x
2n
+c

x
3
2
n

Ejercicio 17. Dividiendo la primera ecuacion del sistema anterior por N obtenemos
y = a +

b x
2
+c x
3
esta ecuacion indica que el plano de regresion para por el punto de los valores medios de las variables del
sistema.
Despejando a tenemos
a = y

b x
2
c x
3
que se puede sustituir en las otras dos ecuaciones del sistema:

x
2n
y
n
=
_
y

bx
2
cx
3
_

x
2n
+

x
2
2
n
+c

x
2n
x
3n

x
3n
y
n
=
_
y

bx
2
cx
3
_

x
3n
+

x
3n
x
2n
+c

x
3
2
n
;
operando

x
2n
y
n
=y

x
2n

bx
2

x
2n
cx
3

x
2n
+

x
2
2
n
+c

x
2n
x
3n

x
3n
y
n
=y

x
3n

bx
2

x
3n
cx
3

x
3n
+

x
3n
x
2n
+c

x
3
2
n
;
puesto que

x
2n
= Nx
2
y

x
3n
= Nx
3
, sustituyendo

x
2n
y
n
=Ny x
2
N

b x
2
x
2
Nc x
3
x
2
+

x
2
2
n
+c

x
2n
x
3n

x
3n
y
n
=Ny x
3
N

b x
2
x
3
Nc x
3
x
3
+

x
3n
x
2n
+c

x
3
2
n
;
sustituyendo los sumatorios que restan por productos escalares:
x
2

y =Ny x
2
N

b x
2
x
2
Nc x
3
x
2
+

b x
2

x
2
+c x
2

x
3
x
3

y =Ny x
3
N

b x
2
x
3
Nc x
3
x
3
+

b x
3

x
2
+c x
3

x
3
;
Soluciones a los Ejercicios 53
reordenando terminos:
x
2

y Ny x
2
=

b
_
x
2

x
2
Nx
2
2
_
+c
_
x
2

x
3
Nx
3
x
2
_
x
3

y Ny x
3
=

b
_
x
3

x
2
Nx
2
x
3
_
+c
_
x
3

x
3
Nx
3
2
_
;
y teniendo en cuenta las notas 4 a 6 en la pagina14
Ns
x
2
y
=

b Ns
2
x
2
+c Ns
x
2
x
3
Ns
x
3
y
=

b Ns
x
2
x
3
+c Ns
2
x
3
;
o bien;

n
y
n
(x
2n
x
2
) =

n
x
2n
(x
2n
x
2
) +c

n
x
3n
(x
2n
x
2
)

n
y
n
(x
3n
x
3
) =

n
x
3n
(x
2n
x
2
) +c

n
x
3n
(x
3n
x
3
);
por tanto, resolviendo el sistema, obtenemos los dos ultimos resultados

b =
s
x
2
y
s
2
x
3
s
x
3
y
s
x
2
x
3
s
2
x
2
s
2
x
3

_
s
x
2
x
3
_
2
c =
s
x
3
y
s
2
x
2
s
x
2
y
s
x
2
x
3
s
2
x
2
s
2
x
3

_
s
x
2
x
3
_
2
Ejercicio 17
Ejercicio 18. Con la estimacion de la pendiente en el modelo Y
n
= a +cX
3n
+U
n
Ejercicio 18
Ejercicio 19. Un coeciente de correlacion muestral con valor absoluto igual a uno signica que hay una
dependencia lineal entre los regresores, por lo que el Supuesto 4 deja de cumplirse; y por tanto el sistema
de ecuaciones normales tiene innitas soluciones.
En tal caso las expresiones (3.11), (3.12) y (3.13) dejan de estar denidas ya que, en este caso
[
x
2
x
3
[ =

s
x
2
x
3
_
s
2
x
2
s
2
x
3

= 1,
lo que implica que [s
x
2
x
3
[ =

_
s
2
x
2
s
2
x
3

y por tanto s
2
x
2
s
2
x
3
=
_
s
x
2
x
3
_
2
; y los denominadores de de las
expresiones (3.12) y (3.13) son cero.
Ejercicio 19
Ejercicio 20. Los valores estimados en los modelos restringidos y sin restringir dieren. Por lo tanto,
podemos armar que la covarianza muestral entre los regresores S
n
y D
n
en esta simulacion es distinta de
cero.
Ejercicio 20
Ejercicio 22. La primera es inmediata. La segundad tambien lo es por la Nota 6 en la pagina14. La
tercera en un poco mas complicada (pero no mucho):
Pista. Transforme el producto escalar en un sumatorio. Opere dentro del sumatorio y tenga en cuenta
que las medias muestrales son constantes que se pueden sacar fuera de los sumatorios como un factor
com un.
Ejercicio 22
Ejercicio 23.
Pista.
y = y e
y

e = 0
Ejercicio 23
Ejercicio 24.
(abc)

= ((ab) c)

= c

(ab)

= c

.
Ejercicio 24
Soluciones a los Ejercicios 54
Ejercicio 25. Por la Nota 8 en la pagina24 sabemos que
p

=
_
(x(x

x)
1
) x

T
= x
_
x(x

x)
1
_
T
= x(x

x)
1
x

= p
y entonces
p

m =p(I p) = ppp
=px(x

x)
1
x

x(x

x)
1
. .
I
x

=px(x

x)
1
x

= pp = 0
Ejercicio 25
Ejercicio 26.
1.
m

=
_
I p

= I

= I p = m
2.
mm

mm = mm =
_
I p
_
I p

= I pp+pp = I pp+p = I p = m
Ejercicio 26
Ejercicio 32.
Pista. Calcule el coeciente de correlacion lineal simple entre y y y y elevelo al cuadrado.
Solucion numerica en el recuadro del ejemplo del precio de las viviendas (pagina 17).
Ejercicio 32
Ejercicio 33. Por una parte, SEC =

( y
n
y)
2
; pero en este modelo los valores ajustados son constantes
iguales a la media muestral de y, es decir y
n
= y. Por tanto SEC = 0.
Por otra parte, este modelo tiene termino cte. y, entonces, R
2
=
SEC
STC
= 0.
Es decir, un modelo que consiste unicamente en un constante, no tiene ninguna capacidad de explicar
las variaciones de la variable dependiente.
Otra forma de verlo es la siguiente. En este modelo sabemos que y
n
= y. As que
SEC =

( y
n
y)
2
= y

y +Ny
2
2Ny y por T22
= y

y N y
2
pues en este caso y = y
=y 1

y N y
2
pues y es un vector de constantes y
=N y
2
N y
2
pues en este caso y = y
Ejercicio 33
Ejercicio 34. En este caso

b =
s
xy
s
2
x
y a = y x

b,
por tanto
y
n
= a +

bx
n
= y +

b(x
n
x); y
n
y =

b(x
n
x).
Entonces
SEC =

( y
n
y)
2
=

b
2

(x
n
x)
2
y consiguientemente (por tener un termino constante el Modelo Lineal General)
R
2
=
SEC
STC
=

b
2

(x
n
x)
2

(y
n
y)
2
=
_
s
xy
_
2
_
s
2
x
_
2

Ns
2
x
Ns
2
y
=
_
s
xy
_
2
s
2
x
s
2
y
= r
2
y x
Ejercicio 34
Ejercicio 39.
Var
_

x
_
=Var
_

x
_
ya que es cte.
=Var( AU [ x) ya que

= +AU
=E
_
AUU

x
_
pues E( AU [ x) = 0
=aVar( U[ x) a

pues a cte. si X = x
=a
2
I a

por los supuestos 2 y 3 T10


=
2
aa

=
2
(x

x)
1
Soluciones a los Ejercicios 55
puesto que aa

= (x

x)
1
x

x(x

x)
1
= (x

x)
1
.
Si los regresores son NO estocasticos: denotemos (x

x)
1
x

por a
[kN]
Var
_

_
=Var
_


_
ya que es cte.
=Var(aU) ya que

= +aU
=aVar(U) a

ya que a es una matriz cte.


=a
2
I a

por los supuestos 2 y 3


=
2
aa

=
2
(x

x)
1
Ejercicio 39
Ejercicio 40. En este caso seleccionamos la componente j-esima del vector

, por tanto
Var
_
v

x
_
= Var
_

x
_
Var
_

x
_
= Var
_
v

x
_
.
Es decir, el teorema de Gauss-Markov implica que la varianza del estimador de cada parametro j-esimo
Var
_

x
_
es mayor o igual que la del estimador MCO Var
_

x
_
.
Ejercicio 40
Ejercicio 41.
1. px = x (x

x)
1
x

x
. .
I
= x
2.
p

=
_
x(x

x)
1
x

=
_
(x

x)
1
x

pues
_
xa

= a

=x
_
(x

x)
1

identica regla de trasposicion sobre el corchete


=x(x

x)
1
x

= p pues (x

x)
1
es simetrica
3.
pp =pxa
=xa = p pues px = x
Ejercicio 41
Ejercicio 42.
1.
mx =
_
I p

x = xpx = xx = 0
2.
am = a
_
I p

= a(x

x)
1
x

x (x

x)
1
x

= aa = 0
3.
m

=
_
I p

= I

= I p = m
4.
mm =
_
I p
_
I p

= I pp+pp = I pp+p = I p = m
Ejercicio 42
Ejercicio 43.

SRC
| x
= e
| x

e
| x
= U

mU = UmU
por ser m simetrica e idempotente.
Ejercicio 43
Ejercicio 44.
E
_

s
2
b e

x
_
=

2
N k
(N k) =
2
y Var
_

s
2
b e

x
_
=
_

2
N k
_
2
2(N K) = 2

4
(N k)
.
Ejercicio 44
Soluciones a los Ejercicios 56
Ejercicio 50(a)
E
_

2
MV

x
_
= E
_

s
2
b e

x
_
=
_

2
N
_
(N K) =
(N k)
2
(N)
.

Ejercicio 50(b)
Var
_

2
MV

x
_
= Var
_

s
2
b e

x
_
=
_

2
N
_
2
2(N K) =
2
4
(N)
.

Ejercicio 50(c) La varianza coincide con la cota mnima, pero esto no quiere decir nada; esta cota solo
es aplicable a estimadores insesgados, y este estimador es sesgado.

Ejercicio 51. Ya que


E( Y
n
[ x) =E( a +bX
n
+U
n
[ x)
=a +bX
n
+ E( U
n
[ x) pues a, b, y X
n
son ctes
=a +bX
n
por el supuesto: E( U
n
[ x) = 0
Ejercicio 51
Ejercicio 52(a)
1. Por una parte:

b =
s
xy
s
2
x
=
84
56
= 1.5
por otra, las medias muestrales son
x =

x
i
8
=
40
8
= 5; y =

y
i
8
=
56
8
= 7;
por lo que
a = y

b x = 7 1.5 5 = 0.5.

Ejercicio 52(b) Seg un el modelo estimado, una empresa que incurra en unos gastos de 3 debera tener
unos benecios de
y = a +

bx = 0.5 + 1.5 3 = 4

Ejercicio 52(c) Los residuos de la empresa E seran:


y
E
y
E
= y
E

_
a +

bx
E
_
= 8
_
0.5 + 1.5 5) = 8 7 = 1
y los de la empresa F:
y
F
y
F
= y
F

_
a +

bx
F
_
= 9
_
0.5 + 1.5 7) = 9 10 = 1.
Puesto que
y = E( Y [ x
f
) ,
un signo positivo para el residuo de cierta empresa signica que esta ha logrado unos benecios mayores
que los esperados (dado su nivel de gasto en formacion de personal, x). Por el contrario, un residuo negativo
signica que la empresa ha obtenido unos benecios menores de los esperados por el modelo (dado su gasto
en formacion).
La comparacion entre empresas con distinta inversion en formacion no es apropiada para valorar los
datos sobre benecios (solo lo es entre empresas con mismo nivel de gasto en formacion). La empresa
F tiene mayores benecios que los de E, pero, dado su nivel de gasto en formacion (7), estos benecios
deberan haber sido a un mayores (el valor esperado es 10).

Ejercicio 52(d) El estimador MCO se distribuye Normal con esperanza igual al verdadero valor de los
parametros estimados, y varianza desconocida.
Soluciones a los Ejercicios 57
Buscamos los valores A y B tales que
P
_
_
_A
b
bb
s
c
s
2
b e
P
(x
i
x)
2
B
_
_
_ = (1 )
Donde
b
bb
s
c
s
2
b e
P
(x
i
x)
2
se distribuye como una t de Student con N 2 grados de libertad; por tanto A y
B son los valores que aparecen en las tablas, y que determinan un intervalo centrado en cero con una
probabilidad asociada del 95 %; es decir, A = 2.447, y B = 2.447, y

s
2
b e
= 6/(N 2) = 1. As pues,
la estimacion del intervalo de conanza de parametro desconocido b es
IC
b
0.95
(w) =
_
1.5 2.447
_
1/56


Ejercicio 52(e) Las hipotesis son:
H
0
: b = 1
H
1
: b < 1
La region critica de una sola cola es
RC =
_

_
x

b 1
_
c
s
2
b e
P
(x
i
x)
2
< k
_

_
,
donde k es el valor de la tablas para una t de Student de seis grados de libertad, ya que el estadstico de la
parte izquierda de la desigualdad tiene dicha distribucion. Para = 0.1, tenemos que k = t
6, 0.1
= 1.44.
Sustituyendo tenemos que
1.5 1
_
1/56
= 3.74 > k = t
6,0.1
= 1.44
por lo que no rechazamos H
0
.
El p-valor es la probabilidad de
P
_

b 1.5

H
0
_
=P
_
_
_
_

b b
_
c
s
2
b e
P
(x
i
x)
2

1.5 b
_
c
s
2
b e
P
(x
i
x)
2

H
0
_
_
_
_
=P
_
W
1.5 1
_
1/56
= 3.74
_
0.999
donde W se distribuye como una t de Student con seis grados de libertad.

Vous aimerez peut-être aussi