Académique Documents
Professionnel Documents
Culture Documents
Notas de clase
Algebra matricial
Estas notas presentan resultados de lgebra matricial que sern de utilidad para el curso de Econometra.
1.1
Productos matriciales
Los productos matriciales son multiplicaciones del tipo fila-columna. Sea A una matriz de dimensin n m cuya
i-sima fila es el vector ai 0 (es decir, ai Rm es la i-sima columna de A0), sea C una matriz de orden r s cuya
i-sima fila es el vector c i 0 (c i Rs ) y sea B una matriz de dimensin n r con elemento tpico bi j . As
A0BC =
n X
r
X
bi j a i c j 0 .
(1)
i=1 j=1
1.2
Rango
El rango de una matriz A de dimensin n r (r n) es definido como el nmero de columnas (o filas) linealmente
independientes y se denota como rk(A). Obviamente, rk(A) r . Cuando rk(A) = r se dice que A tiene rango
completo. Una propiedad de utilidad es que rk(A) = rk(A0A).
1.3
Inversa
La inversa de una matriz cuadrada A de dimensin n n es otra matriz (nica) de dimensin n n denotada como
A1 que satisface AA1 = A1A = I n . La inversa no siempre existe. Cuando A1 no existe se dice que A es una
matriz singular, mientras que de existir la inversa A es no singular.
Una matriz cuadrada es no singular si tiene rango completo, rk(A) = n, lo que significa que no existe ningn vector
c , 0 tal que Ac = 0. Si tal vector existiera, entonces A sera singular y por tanto rk(A) < n.
Algunas propiedades de la inversa (para A y B no singulares):
(A0 ) 1 = (A1 ) 0 .
(AB) 1 = B 1A1 .
(A + B) 1 = A1 (A1 + B 1 ) 1 B 1 .
A1 (A + B) 1 = A1 (A1 + B 1 )A1 .
NC 1 - Algebra matricial
adjA
,
det A
donde adjA es la matriz adjunta de A (la traspuesta de la matriz de cofactores de A). La matriz adjunta siempre
existe y se concluye que una condicin suficiente para la existencia de la inversa es det A , 0.
En general, es tedioso calcular adjA, con la excepcin de una matriz de 2 2 (se intercambian los elementos de la
diagonal principal y se cambia el signo a los elementos de la diagonal secundaria):
"
#
"
#
"
#
1
a b
d b
d b
1
Si A =
,
adjA =
por tanto
A =
.
(2)
c d
c a
ad bc c a
1.4
(3)
(4)
(5)
Por su parte, dos igualdades relacionadas con una matriz simtrica particionada son:
"
A B
B0 C
# 1
"
=
A1 0
0 0
"
+
A1 B
I
#
W 1
B 0A1 I
(6)
y
"
det
A B
B0 C
#
= det A detW
(7)
o, alternativamente,
Ahi = i hi .
El vector hi es el vector propio de A asociado con i . Usualmente hi es normalizado tal que khi k = 1.
Sea una matriz diagonal de orden n que contiene sobre la diagonal los valores propios de A, []ii = i y []i j = 0
para i , j. Asimismo, defina H como la matriz cuadrada de orden n cuyas columnas vienen dadas por los vectores
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
NC 1 - Algebra matricial
o, anlogamente,
= HAH 1 .
(8)
Si A es simtrica, entonces hi0h j = 0 para todo i , j. Ello implica que H es una matriz ortogonal, H 1 = H 0:
A = H 0H
= HAH 0
cuando A es simtrica .
(9)
Matrices definidas
Una matriz cuadrada y simtrica A es semidefinida positiva (A 0) si para todo vector c , 0 se cumple que la
forma cuadrtica c 0Ac 0. Por su parte, A es definida positiva (A 0) si la desigualdad es estricta c 0Ac > 0.
Igualmente, una matriz cuadrada A es semidefinida negativa (A 0) si c 0Ac 0, mientras que A es definida
negativa (A 0) si c 0Ac < 0. Una matriz no es definida si c 0Ac 0 para algunos vectores c y c 0Ac 0 para otros.
Entre las propiedades ms importantes se tiene:
Si A = B 0B para cualquier matriz B, entonces A 0: para cualquier c , 0, c 0Ac = d 0d 0, donde d = Bc.
Si B es de rango completo (es no singular), entonces A 0.
Si A 0, entonces A es no singular y A1 es tambin definida positiva.
A 0 [resp., A 0] si todos sus valores propios son positivos [negativos].
A 0 [resp., A 0] si todos sus valores propios son positivos [resp., negativos] y al menos uno es igual a
cero. Es decir, una matriz semidefinida es singular.
Si A 0, es posible encontrar una matriz B tal que A = BB 0. Usualmente, B se denomina raz cuadrada
de A y no es necesariamente nica. Una manera comn de encontrar B es inspirada por la descomposicin
espectral (9): B = H 1/2 .
A B 0 si y slo si B 1 A1 0.
1.7
Traza
(10)
NC 1 - Algebra matricial
P
tr(A) = ni=1 i , donde i son los valores propios de A. Para ello, note que A = H H 1 , donde es la matriz
diagonal cuyo i-simo es i . Luego, tr(A) = tr().
Si A es idempotente, tr(A) = rk(A). Ello se debe a que los valores propios de A son en este caso iguales a 0
1. El nmero de valores propios distintos de cero (es decir, iguales a 1) corresponde al rango de A.
1.8
Clculo vectorial
Sea x Rn y defina una funcin : Rn R. El vector de primeras derivadas o gradiente (x )/x tiene como
i-simo elemento (x )/x i , mientras que la matriz de segundas derivadas o Hessiano 2(x )/x x 0 es simtrica
y contiene como (i, j)-simo elemento 2(x )/x i x j .
Algunos resultados son:
x 0a a 0x
x 0a a 0x
=
= a0 ,
=
= a y, anlogamente,
x
x
x 0
x 0
Ax
Ax
= A0 y, anlogamente,
= A0 ,
x
x 0
x 0Ax
= A + A0 .
x
Es bueno notar que las segundas derivadas vectoriales en el Hessiano implican dos operaciones: primero,
diferenciacin y segundo post o pre multiplicacin. El resultado de primera diferenciacin, asociada con x, entra
premultiplicando mientras que el resultado de la segunda diferenciacin, asociada con x 0, entra postmultiplicando.
Esta manera de computar la matriz de segundas derivadas es particularmente til al combinarla con la regla de la
cadena. Por ejemplo,
!
2x 0Ax
(A + A0 )x
x 0Ax
=
=
= A + A0 .
x x 0
x
x 0
x
2 log(x 0a)
x x 0
2 exp(x 0a)
x x 0
1.9
!
(x 0a) 2
(x 0a) 2 x 0a
(x 0a) 0
=
=
2
a = 2aa 0 .
x
x 0
x (x 0a) x 0
x
!
!
log(x 0a)
log(x 0a) x 0a
a0
(x 0a) a 0
aa 0
=
=
=
.
x
x 0
x (x 0a) x 0
x x 0a
x (x 0a) 2
(x 0a) 2
!
exp(x 0a)
exp(x 0a) x 0a exp(x 0a) 0 exp(x 0a) (x 0a) 0
=
=
a =
a = exp(x 0a)aa 0 .
x
x 0
x (x 0a) x 0
x
(x 0a)
x
Sea f (x ) una funcin escalar de la variable escalar x y suponga que f () es continua y diferenciable en el intervalo
x [a,b]. Luego, si f 0 (x ) denota la derivada de f () respecto a x, existe un punto c [a,b] tal que
f (a) = f (b) + f 0 (c)(a b) .
(11)
(12)
donde cada elemento del vector c se encuentra en el segmento que conecta los elementos correspondientes de los
vectores a y b. Es decir, c i = i ai + (1 i )bi y por tanto c i [ai ,bi ], donde x i denota al i-simo elemento de x
(para x = a,b,c) y i [0, 1] (para i = 1, 2, . . . ,n).
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
Notas de clase
A continuacin se repasan algunos conceptos de estadstica multivariada. Se trabajar con dos variables aleatorias,
w e y, y ocasionalmente se har referencia al comportamiento de un grupo de variables aleatorias recogidas en el
vector w junto con un conjunto de otras variables aleatorias recogidas en el vector y.
2.1
Sea f (w,y) la funcin de densidad conjunta de dos variables aleatorias w e y. Esta funcin dicta el comportamiento
aleatorio de w e y y define cmo una depende de la otra. Por su parte, defina f (w ) y f (y) como las respectivas
funciones de densidades marginales. Las distribuciones marginales rescatan el comportamiento de una de las
variables, una vez que se toma en cuenta todos los posibles eventos que ocurrirn con la otra. Estas funciones se
definen como
Z
Z
f (w ) =
f (w,y) d y
y, de la misma manera,
f (y) =
f (w,y) d w .
(1)
La integracin es el modo de descontar toda la influencia de una variable aleatoria sobre la otra.
Finalmente, la funcin de densidad condicional de w dado y, denotada por f (w | y), da cuenta del comportamiento
de w tomando a y como dado (es decir, ignorando la aleatoriedad en y). Obviamente, los momentos de f (w | y) son
funciones de y. Por la ley multiplicativa de probabilidades, f (w,y) = f (w | y) f (y), se deduce que
f (w | y = y)
=
f (w, y)
f (y)
y, anlogamente,
f (y | w = w ) =
f (w,y)
,
f (w )
(2)
Expectativa
Dada una variable aleatoria w y una funcin (), puede crease una nueva variable aleatoria (w ). La expectativa o
valor esperado de (w ) es un promedio ponderado de todos los posibles valores de (w ), donde las ponderaciones
vienen dadas por la probabilidad de ocurrencia de los diversos valores que puede tomar (w ):
Z
E( (w ) ) =
(w ) f (w ) d w .
(3)
En el caso de contar con una funcin de densidad bivariada, por ejemplo de w e y, el valor esperado de una funcin
arbitraria (w,y) se define como
Z Z
E( (w,y) ) =
(w,y) f (w,y) d w d y ,
(4)
definicin que se extiende naturalmente a integrales de rdenes superiores. En general, si w denota un vector de
variables aleatorias, (3) se generaliza a
Z
E( (w ) ) =
(w ) f (w ) d w .
(5)
donde se entiende que la integracin es sobre cada elemento del vector w.
El operador de expectativas es tan slo una integral y como tal hereda sus propiedades. En particular, E( ) es un
operador lineal: si w 1 ,w 2 , . . . ,w p denotan vectores o matrices con elementos aleatorios y A1 ,A2 , . . . ,Ap ,B denotan
vectores o matrices confortables de constantes (elementos no aleatorios), es fcil verificar que
E( A1w 1 + A2w 2 + . . . + Ap w p + B ) = A1 E( w 1 ) + A2 E( w 2 ) + . . . + Ap E( w p ) + B .
2.3
(6)
Matriz de covarianzas
(7)
y es siempre positiva, al menos que w no sea una variable aleatoria, en cuyo caso V( w ) = 0.
La covarianza entre dos variables aleatorias w e y es la medida de asociacin lineal relacionada:
C( w,y ) = E( (w E( w ))(y E( y )) ) = E( xy ) E( x )E( y ) .
(8)
(9)
El elemento (i,i) de V( w ) es igual a V( w i ), la varianza del i-simo elemento de w, mientras que el elemento (i, j)
contiene la covarianza entre w i y w j . Debido a que C( w i ,w j ) = C( w j ,w i ), la matriz de covarianzas V( w ) es
necesariamente simtrica.
Considere un vector de variables aleatorias de dimensin m 1 que es formado por combinaciones lineales de los
elementos del vector w (de dimension n 1), y = Aw donde A es una matriz de constantes de dimensin m n.
Luego, la matriz de covarianzas de y de dimensin m m viene dada por
V( y ) = E( yy 0 ) E( y )E( y ) 0 = E( Aww 0A0 ) E( Aw )E( w 0A0 ) = AV( w )A0 .
(10)
En el clculo anterior la matriz A no es afectada por la expectativa al no contener elementos aleatorios. El resultado
(10) se conoce como la forma sandwich de la matriz de covarianzas. sta es una generalizacin del resultado escalar
V( aw ) = a 2 V( w ) para una constante a.
El resultado en (10) permite concluir que las matrices de covarianza son, en general, definidas positivas. Considere al
vector aleatorio w y un vector de constantes a. El escalar a 0w es una variable aleatoria formada por una combinacin
lineal arbitraria de los elementos del vector w. Como tal, su varianza debe ser positiva. Utilizando la forma sandwich
se tiene luego que
V( a 0w ) = a 0V( w )a > 0 .
(11)
Dado que a es arbitrario, la desigualdad en (11) se cumple si y slo si V( w ) es definida positiva, ver seccin 1.6.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
2.4
La pregunta de cun cerca se encuentran dos variables aleatorias es central en estadstica. El objetivo de los
ejercicios de inferencia es encontrar variables aleatorias observadas que sean cercanas a otras variables aleatorias
no observadas o a parmetros (desconocidos) de inters. Estas variables aleatorias de denominan estimadores
cuando la cantidades no observadas son parmetros (no aleatorios), mientras que se llaman predictores si las
variables no observadas son aleatorias. El error cuadrtico medio es un criterio de cercana muy difundido y al
que prestaremos especial atencin en este curso.
Sea q el estimador (o predictor) de (no observable). El error cuadrtico medio de q es
ECM( q, ) = E( (q ) 2 ) .
(12)
(13)
(14)
es decir, el error cuadrtico medio es la suma de un componente de varianza ms un componente de sesgo (al
cuadrado). Cuando no es aleatorio, el caso ms estudiado en este curso, (14) se simplifica a
ECM( q, ) = V( q ) + ( E( q ) )( E( q ) ) 0 .
(15)
Note que si q es insesgado, E( q ) = , el error cuadrtico medio coincide con la matriz de covarianzas de q.
) ECM( q, ) es una matriz semidefinida positiva .
En general, q ser preferible a la alternativa q si ECM( q,
Este postulado es equivalente a la siguiente condicin: para toda matriz semi definida positiva A,
E( (q ) 0A(q ) ) E( (q ) 0A(q ) )
) ECM( q, ) 0 ,
si y slo si ECM( q,
por lo que pasamos de un criterio de comparacin matricial a uno escalar. Cuando A = I las formas cuadrticas
anteriores se suelen llamar funcin de riesgo.
Asimismo, utilizando A = aa 0, donde a es un vector, es posible estudiar comparaciones de combinaciones lineales
de , a 0 . Dado que ECM( a 0q,a 0 ) = a 0ECM( q, )a, se concluye que
) ECM( q, ))a 0
0 ) ECM( a 0q,a 0 ) = a 0 (ECM( q,
ECM( a 0q,a
si y slo si
2.5
) ECM( q, ) 0 . (16)
ECM( q,
Mtodo de momentos
(17)
Un momento tiene una contraparte muestral. Si se tiene informacin de n observaciones, el r -simo momento
muestral es
n
1X
mr =
(w i ) r .
(18)
n i=1
El mtodo de momentos es un principio de estimacin que consiste en igualar los momentos poblacionales, que
dependen de parmetros desconocidos, con los momentos muestrales. Es decir, el valor de que resuelve igualdades
del tipo mr = r ( ) es un estimador del mtodo de momentos.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
2.6
La ley de expectativas iteradas (LEI) provee un mtodo para computar expectativas que involucran mltiples
variables aleatorias. Sean w e y dos variables aleatorias cuya funcin densidad conjunta es f (w,y). Si se desea
calcular la expectativa de w, la LEI indica que primero puede calcularse (y) = Ew ( w | y ), que es una funcin
exclusivamente de y (ya que w fue integrada), y luego calcular Ey ( (y) ). Formalmente,
E( w ) = Ey ( Ew ( w | y ) ) .
(19)
Los subndices en las expectativas son slo indicativos. La demostracin utiliza propiedades de integracin doble y
distribuciones multivariadas (seccin 2.1):
Ey ( Ew ( w | y ) ) =
Ew ( w | y ) f (y) d y
#
Z "Z
Z Z
=
w f (w | y) d w f (y) d y =
w f (w | y) f (y) d w d y
Z Z
Z Z
=
w f (w,y) d w d y =
w f (w,y) d y d w
"Z
#
Z
Z
=
w
f (w,y) d y d w =
w f (w ) d w = E( w ) .
Independencia
La nocin de independencia en estadstica apunta a que el comportamiento aleatorio de w ser el mismo sin importar
lo que suceda con y. Ello ocurre cuando la funcin de probabilidad condicional es idntica a la funcin de densidad
marginal. Formalmente,
f (w | y) = f (w )
si w e y son independientes .
(20)
si w e y son independientes .
(21)
Es decir, si w e y son independientes, la funcin de densidad conjunta es igual al producto de las respectivas
funciones marginales.
Independencia y expectativas
(22)
Independencia y covarianza
La covarianza (y, por tanto la correlacin) entre dos variables aleatorias independientes es cero: Si w e y son
independientes, de (23) se concluye que E( xy ) = E( w )E( y ) y, por tanto, C( x,y ) = E( xy ) E( w )E( y ) = 0.
El resultado converso no es necesariamente cierto. El hecho que C( w,y ) = 0 no implica necesariamente que w e y
sean independientes. Considere un contraejemplo: sean w e y dos variables aleatorias discretas tal que
- y toma los valores de 1 2 con igual probabilidad;
- una vez obtenido el valor de y, w toma los valores de y o y con igual probabilidad.
En este caso E( w | y = 1 ) = E( w | y = 2 ) = 0, es decir la expectativa condicional es independiente de y. Para
obtener E( w ) note que existen cuatro posible valores para w, cada uno con probabilidad 41 . As,
E( w ) =
1
4
(1 1 + 2 2) = 0.
Media condicional
(24)
Una consecuencia de este resultado junto con la LEI es que si E( w | y ) = E( w ), entonces para cualquier h():
E( h(y)w ) = E( E( h(y)w | y ) ) = E( h(y)E( w | y ) ) = E( h(y)E( w ) ) = E( h(y) )E( w ) .
(25)
Varianza condicional
(26)
2.10
(27)
10
Estimador de varianza
Una aplicacin interesante del resultado anterior se da cuando A = I n 1n 1n 0/n, donde 1n es un vector de dimensin
P
n 1 lleno de unos. Dado que 1n 0w = ni=1 w i , donde w i es el i-simo elemento de w, 1n se conoce como un vector
suma. Por otro lado, es sencillo verificar que en este caso A es simtrica e idempotente. As, la forma cuadrtica
puede escribirse como Q = w 0A0Aw = (Aw ) 0 (Aw ) y equivale al producto interno del vector Aw (es decir, Q es la
suma de cuadrados de los elementos de Aw). Defina a w = 1n 0w/n como el promedio de todos los elementos de w.
Con ello, Aw = w 1n w,
de modo que el i-simo elemento de Aw es w i w.
La forma cuadrtica es, pues, igual a
la suma de los cuadrados de los desvos de los elementos de w respecto a su promedio,
Q=
n
X
(w i w ) 2 .
i=1
Usualmente, se tiene que todos los elementos de w provienen de una misma distribucin y no se encuentran
correlacionados entre ellos. En este caso, = 1n (la media es el mismo escalar para todo w i ) y = 2 I n (la
varianza de w i es 2 para todo i, y la covarianza entre w i y w j , i , j, es cero). Luego, evaluando el resultado general
en este caso particular se consigue
E( Q ) = 2 1n 0A1n + 2 tr(A) = 2 (n 1) ,
donde se han utilizado los resultados A1n = 0 y tr(A) = n 1 (por ser una matriz idempotente). En consecuencia,
se tiene que s 2 = Q/(n 1) es un estimador insesgado de 2 : E( s 2 ) = E( Q )/(n 1) = 2 .
2.12
Momentos de un promedio
Los promedios juegan un rol fundamental en la teora estadstica. Nuevamente, considere un vector w de dimensin
n 1 tal que E( w ) = y V( w ) = . Asimismo, su promedio es igual a w = 1n 0w/n. Note que w no es ms que
una combinacin lineal de los elementos de w.
En primer lugar,
n
E( w ) =
1n 0E( w ) 1n 0 1 X
=
=
i .
n
n
n i=1
(28)
La expectativa del promedio es igual al promedio de expectativas (ambos operadores son lineales). En el caso
particular en el que i = para todo i, se tiene que w es un estimador insesgado de , E( w ) = .
En segundo lugar, utilizando la forma sandwich de la matriz de covarianzas,
!
n
n
n
1n 0w
1n 0 1n
1 X
2 X X
V( w ) = V
=
=
+
i j ,
ii
n
n2
n2 i=1
n2 i=1 j=i+1
(29)
donde i j es el (i, j)-simo elemento de , y se ha utilizado el hecho que i j = ji . El resultado (29) es una
expresin muy general que en la prctica se ve simplificada cuando se imponen supuestos sobre la naturaleza de los
elementos de w. Por ejemplo, si se asume que estos elementos no se encuentran correlacionados, i j = 0 para todo
i , j, se tiene que
V( w ) =
1
n
n
1
ii ,
n i=1
es decir, la varianza del promedio es 1/n veces el promedio de las varianzas de los elementos de w. Si se asume,
adems, homocedasticidad (ii = para todo i) se llega al resultado ms familiar
V( w ) =
.
n
11
Pgina en blanco
Notas de clase
A continuacin se revisan propiedades importantes de variables normalmente distribuidas y distribuidas como chicuadrado. Ambas son de primera importancia en el anlisis economtrico.
3.1
Sea w Rn un vector cuyos elementos son normalmente distribuidos con media E( w ) = Rn y varianza
V( w ) = (una matriz definida positiva de dimensin n n). Ello se denota cotidianamente como w N (, ) ya
que y caracterizan completamente la distribucin de w. La funcin de densidad conjunta de w es
(
)
1
1
0 1
exp (w ) (w ) .
f (w ) =
(1)
2
( 2 ) n (det ) 1/2
Resultado 1: Combinaciones lineales
Las variables aleatorias obtenidas como combinaciones lineales de variables normalmente distribuidas, son
normalmente distribuidas. Es decir, si w N (, ) luego y = Aw N (A,AA0 ), donde A es una matriz
arbitraria de dimensin m n matrix (tal que y Rp ).
Corolario 1: Distribuciones marginales
13
(2)
1|2 = 11 12 1
22 21 .
(3)
Por definicin, la distribucin de w 1 condicional a w 2 (es decir, tomando w 2 como dado) es igual a
f (w 1 | w 2 ) =
f (w )
Distribucin conjunta entre w 1 y w 2
=
.
Distribucin marginal de w 2
f (w 2 )
=
.
0
22
0
I n2
1
22 21 I n 2
(4)
(5)
donde la matriz 1|2 es definida en (3). Tomando determinantes a (5) ver ecuacin (7) se consigue
det = det 1|2 det 22 .
(6)
(7)
(8)
Luego de postmultiplicar la primera matriz de (8) por el vector (w ) 0 y de premultiplicar la ltima por w se
obtiene
0 1
(w ) 0 1 (w ) = (w 1 1|2 ) 0 1
1|2 (w 1 1|2 ) + (w 2 2 ) 22 (w 2 2 ) ,
(9)
donde el vector 1|2 es definido en (3). De este modo, el escalar B en (4) es igual a
0 1
B = (w ) 0 1 (w ) (w 2 2 ) 0 1
22 (w 2 2 ) = (w 1 1|2 ) 1|2 (w 1 1|2 ) .
(10)
Resultado 3: Independencia
Anteriormente se concluy que un conjunto de variables aleatorias independientes mostraran covarianza igual a
cero, pero el resultado converso no era necesariamente cierto. El caso de variables normalmente distribuidas es
particular: si dos variables normales tienen covarianza cero entonces son independientes.
14
Es sencillo verificar este resultado. Si 12 = 0 en la particin (2), entonces los momentos de la distribucin
condicional w 1 | w 2 en (3) se simplifican a 1|2 = 1 y 1|2 = 11 y, por consiguiente, la distribucin condicional
es idntica a la distribucin marginal, f (w 1 | w 2 ) = f (w 1 ), ver (20).
Alternativamente, cuando 12 = 0 en la particin (2), la forma cuadrtica de la distribucin conjunta puede
escribirse como la suma de dos formas cuadrticas:
0 1
(w ) 0 1 (w ) = (w 1 1 ) 0 1
11 (w 1 1 ) + (w 2 2 ) 22 (w 2 2 ) .
Asimismo, det = det 11 det 22 . De esta forma, es posible escribir la distribucin conjunta de w como el
producto de la distribucin de w 1 por la distribucin de w 2 , f (w ) = f (w 1 ) f (w 2 ).
Corolario 2
(11)
Como era de esperar, w 1 1|2 puede entenderse como w 1 libre de toda influencia de w 2 .
3.2
(12)
n
X
i=1
ii yi2 =
v
X
yi2 ,
i=1
por lo que Q es la suma del cuadrado de v variables normales independientes. El parmetro de no centralidad
satisface 2 = y 0 y = 0HH 0 = 0 . As, la distribucin de Q se desprende inmediatamente por la definicin de
la distribucin chi-cuadrado no centrada.
Como caso particular, si w N (0,I n ) entonces la forma cuadrtica Q = w 0Aw v2 se distribuye como chicuadrado con v grados de libertad si y slo si A es simtrica e idempotente de rango v.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
15
Resultado 2
Una aplicacin de este resultado es que si w N (, ) donde es no singular, entonces la forma cuadrtica
Q = w 0 1w se distribuye como n2 (), donde = 12 0 1 .
Una manera alternativa de llegar a esta conclusin sin utilizar el postulado del Resultado 2 es la siguiente: dado que
es definida positiva, puede escribirse como = L 0L lo que implica que 1 = (L1 )(L1 ) 0. Defina y = (L1 ) 0w
tal que Q = w 0 1w = w 0 (L1 )(L1 ) 0w = y 0y. Note que y contiene variables normalmente distribuidas con
media y = E( y ) = (L1 ) 0E( w ) = (L1 ) 0 y varianza V( y ) = (L1 ) 0V( w )(L1 ) = (L1 ) 0L 0L(L1 ) = I n .
El parmetro de no centralidad satisface 2 = y 0 y = 0 (L1 )(L1 ) 0 = 0 1 . As, distribucin de Q se
desprende inmediatamente de la definicin de la distribucin chi-cuadrado no centrada.
Resultado 3
Distribucin t de student
(13)
Distribucin F
Si Q 1 v21 y Q 2 v22 son dos variables independientes, entonces el ratio = (Q 1 /v 1 )/(Q 2 /v 2 ) es una variable
aleatoria que se distribuye como F (v 1 ,v 2 ), una F centrada (F de Snedecor).
De los Resultados 1 y 4 se deduce que si w N (0,I n ), entonces
w 0Aw rk(B)
F ( rk(A), rk(B) )
w 0Bw rk(A)
(14)
16
Notas de clase
Obtener resultados analticos en muestras finitas sobre las propiedades de estadsticos y estimadores de inters
puede ser sumamente engorroso o requerir de supuestos muy restrictivos. La teora asinttica provee un marco de
anlisis en donde se estudian estas propiedades a medida que el tamao muestral va creciendo indefinidamente,
n . Este lmite elimina la aleatoriedad observada en la muestra (digamos, la variabilidad muestral) y provee
aproximaciones del comportamiento de los estadsticos en muestras grandes.
4.1
Convergencia en probabilidad
Pr {kw n w k > } 0
conforme
n .
(1)
o, alternativamente,
w n w .
(2)
Consistencia
Sea qn un estimador del vector de parmetros obtenido a partir de una muestra de tamao n. Luego, {qn }n=1
es la secuencia de estimadores de conseguidos a medida que el tamao muestral aumenta. El estimador qn es
consistente si
plim qn =
o, alternativamente,
qn .
(3)
En otras palabras, un estimador es consistente si converge (en probabilidad) al valor del parmetro que pretende
estimar conforme n tiende a infinito. La consistencia es quiz uno de los requerimientos mnimos (en muchas
ocasiones es el requerimiento) para que un estimador sea considerado aceptable.
4.3
Convergencia en distribucin
Sean F 1 (), F 2 (), . . . las funciones de distribucin acumuladas (fda) asociadas con una secuencia de variables
. Esto es, F (w ) = Pr(w w ).
aleatorias {w n }n=1
n
n
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
17
Suponga que la variable aleatoria w tiene una fda F (). Luego, w n converge en distribucin a w si
Fn (w ) F (w )
conforme
n .
(4)
para todos los valores de w. La fda F () usualmente se denomina distribucin lmite o distribucin asinttica y la
convergencia en distribucin se denota como
d
w n w .
4.4
(5)
Equivalencia asinttica
p
El anlisis asinttico de los estimadores ms utilizados en econometra consiste escencialmente en tres pasos.
Primero, los estimadores son escritos como funciones (continuas) de momentos muestrales, es decir de promedios
muestrales. Segundo, una batera de teoremas que conforman la teora asinttica (leyes de grandes nmeros y
teoremas de lmite central) muestran cmo estos promedios convergeran en probabilidad a momentos poblacionales
y proveen informacin sobre su distribucin asinttica. Tercero, el teorema del mapeo continuo o el teorema de
Cramr entran en accin. A continuacin se presentan resultados vinculados con los dos ltimos puntos arriba
mencionados.
4.5
Teorema de Slustky
Un atractivo de los lmites probablsticos es que, a pesar de lidiar con variables aleatorias, tienen el mismo
tratamiento que lmites ordinarios (aquellos aplicados a secuencias determinsticas) para funciones continuas. ste
es el teorema de Slutsky:
p
(w n ) (w )
o, alternativamente,
plim (w n ) = (plim w n ) .
(6)
Note que el operador de expectativas no presenta esta propiedad: en general, E( (w n ) ) , (E( w n )).
4.6
(w n ,an ) (w,a) .
(7)
d
18
4.7
Teorema de Cramr
d
Este teorema es un corolario popular del teorema del mapeo continuo. Si qn N (, ) y An A, luego
d
An qn N (A,AA0 ) .
(8)
Note que An qn = Aqn +(An A)qn . El segundo trmino converge, por el teorema del mapeo continuo, a cero por una
variable aleatoria normalmente distribuida, o en concreto converge a cero. As, se tiene que An qn es asintticamente
equivalente a Aqn que converge a una distribucin normal (note que A no es aleatoria).
4.8
Este teorema sostiene en trminos simples que, en una muestra aleatoria, promedios muestrales tienden a
expectativas conforme n crece. En otras palabras, momentos muestrales convergen hacia momentos poblacionales.
Suponga que se tiene una muestra w i para i = 1, 2, . . . ,n donde todas las variables aleatorias w i son idntica e
independientemente distribuidas, iid. Adems, considere que E( w i ) = para todo i. Luego,
n
w n =
4.9
p
1X
w i .
n i=1
(9)
Teorema de Chebyshev
En la ley dbil de los grandes nmeros, el supuesto de que todas las w i son iid puede relajarse tras imponer
ciertas restricciones en los momentos de estas variables. Suponga que w i es tal que E( w i ) = i , V( w i ) = i y
C( w i ,w j ) = 0 para todo i , j. Sea n el promedio de los n vectores i . Si
n
1 X
i 0
n2 i=1
(10)
entonces,
n
w n n =
p
1X
( w i i ) 0 .
n i=1
(11)
Es decir, el promedio muestral converge en probabilidad al lmite del promedio de las medias problacionales:
p
w n lim n .
(12)
4.10
Recuerde que si w i N (, ) para i = 1, 2, . . . ,n, entonces la distribucin muestral del promedio w n (en una
muestra aleatoria) es
n(w n ) N (0, ) .
(13)
w n N (, /n)
o, alternativamente,
El teorema del lmite central generaliza (asintticamente) este resultado.
Suponga que w i (i = 1, 2, . . . ,n) son iid con E( w i ) = y V( w i ) = , ambas cantidades finitas. Luego,
n(w n ) N (0, ) .
(14)
Frecuentemente este resultado se escribe tal que la funcin lmite sea normal estndar. Sea B la raz cuadrada de ,
= BB 0 (ver seccin 1.6, p. 3), entonces
nB 1 (w n ) N (0,I ) .
(15)
19
4.11
Suponga que w i (i = 1, 2, . . . ,n) son independientes con E( w i ) = i y V( w i ) = i finitas para todo i. Sea n el
promedio de los n vectores i y defina el lmite
n
1X
.
i
n i=1
(16)
Luego,
4.12
d
.
n(w n n ) N (0, )
(17)
Con el propsito de ilustrar el funcionamiento de la ley de grandes nmeros y del teorema del lmite central,
considere el siguiente ejercicio de simulacin. Para u N (0, 1) se generan variables aleatorias de la forma
w= p
u a E( u a )
E( u 2a ) E( u a ) 2
donde a es un nmero entero. Note que w es una variable estandarizada, de modo que para cualquier valor de a,
E( w ) = 0 y V( w ) = 1. Conforme a se incrementa, la distribucin de w se vuelve cada vez ms asimtrica, con
una cola larga hacia la derecha. El caso de a = 1 corresponde a w N (0, 1) y por tanto a puede interpretarse como
una medida de desvo de la normalidad. Asimismo, se disponen de resultados analticos para a = 1, w N (0, 1/n)
y nw N (0, 1). Las medias y varianzas muestrales sern las mismas para a , 1, pero la distribuciones variarn.
Este procedimiento se
Para un valor de a se generan n nmeros aleatorios w y se calcula su promedio w y nw.
repite un gran nmero de veces (un milln) y se reporta la distribucin muestral de estos estadsticos (dado el gran
nmero de repeticiones en la simulacin, esta distribucin ser casi idntica a la distribucin muestral analtica).
El panel (a) del Grfico 1 muestra cmo opera la ley de grandes nmeros. Conforme n se incrementa, la distribucin
muestral de w va concentrado cada vez ms masa probabilstica alrededor de E( w ) = 0. Ello refleja que muestrar
cada vez ms observaciones de w (provenientes de la misma distribucin) provee informacin creciente para
caracterizar tal variable aleatoria. En particular, dado que V( w ) = 1/n, cuando n se incrementa la dispersin
de distintas realizaciones de w alrededor de E( w ) = 0 se amortigua. En el lmite, conforme n , V( w ) ir
convergiendo a cero, por lo que plim w deja de ser aleatorio. Grficamente, la distribucin muestral de w colapsa
a una masa de probabilidad igual a 1 ubicada en E( w ) = E( w ), tal y cmo predice la ley dbil de los grandes
nmeros.
El panel (b) muestra la distribucin muestral de nw para a = 4 (la distribucin de w es bastante asimtrica)
y para distintos valores de n. Note que a diferencia de lo ocurrido con la distribucin de w,
estas distribuciones
varianza del estimador y evita que sta converja a cero, V( nw ) = nV( w ) = 1. Tras estabilizar la varianza y
mantener la media, que en todo caso es cero, nw = n(w E( w )), se aprecia que mayores valores de n van
redituando distribuciones cada vez ms cercanas a la normal estndar. En particular, se observa cmo a medida que
n se incrementa la asimetra en las distribuciones muestrales va reducindose y sus modas van aproximndose a
E( w ) = 0. ste es el principal postulado del teorema del lmite central.
Los paneles (c) y (d) permiten reflexionar sobre el alcance de este teorema. En ambos paneles los casos donde a = 1
corresponden a la distribucin normal estndar predicha por el teorema del lmite central. En el panel (c) se aprecia
que para tamaos muestrales reducidos (n = 25 en este caso), no hay garanta que las aproximaciones asintticas
sean satisfactorias. Esto es particularmente cierto cuando la distribucin de w es lejana a la normal (a = 4 y a = 6),
caractersticas que se transmiten a las distribuciones muestrales de los estadsticos de inters. Por su parte, el panel
(d) muestra cmo un mayor tamao muestral (en este caso se pasa de n = 25 a n = 100) aminora los efectos de la
no-normalidad y da respaldo emprico al teorema del lmite central. En resumen, cuando el tamao de la muestra
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
20
Grfico 1. Ilustracin de la ley de grandes nmeros y del teorema del lmite central
n = 25
n = 50
n = 100
n = 200
0.6
n = 25
n = 50
n = 100
n = 200
2.0
0.3
1.0
0.6
0.4
0.2
0.2
0.4
0.6
nw para n = 25
a=6
a=4
a=2
a=1
1.2
0.6
0.6
0.3
0.3
nw para n = 100
a=6
a=4
a=2
a=1
1.2
0.9
0.9
Nota: Los paneles muestran los histogramas de w y nw basados en un milln de repeticiones. En el caso del panel (a) el eje vertical
muestra frecuencias relativas porcentuales, mientras que el eje vertical del resto de paneles son funciones de densidad.
es lo suficientemente grande y las distribuciones de las que provienen los datos no son muy lejanas a la normal (por
ejemplo, no son muy asimtricas), la aproximacines asintticas proveen un marco de inferencia adecuado. Cun
grande n depende de las caractersticas poblacionales de w, y es por tanto una pregunta abierta. Por ejemplo, para
a 2, n = 25 parece ser razonable, mientras que n = 100 provee aproximaciones aceptables para a 4.
4.13
El mtodo delta
n(qn ) N (0, ) .
(18)
El mtodo delta provee una herramienta sencilla para derivar la distribucin asinttica de una funcin continua del
vector qn , (qn ). Utilizando el teorema del valor medio (seccin 1.9, p. 4), (qn ) puede expresarse como
(qn ) ( ) = J (n )(qn ) ,
(19)
donde J () es el Jacobiano (la matriz que contiene derivadas parciales) de (). Note que si : Rk Rp , entonces
J () es de dimensin p k.
21
Por el postulado del teorema del valor medio, cada elemento del vector n se encuentra en el segmento que une a
los elementos correspondientes de los vectores qn y . Un caso muy particular es que n es una combinacin lineal
convexa de qn y : n = qn + (1 ) para [0, 1]. Dado que plim qn = , se deduce que plim n = . Luego,
considerando que J () es una funcin continua, el teorema de Slutsky implica que plim J (n ) = J ( ). Aplicando
este hallazgo en (19), junto con el teorema de Cramr y la distribucin en (18), se obtiene
4.14
n( (qn ) ( ) ) N (0, J ( )J ( ) 0 ) .
(20)
Los teoremas de lmite central dan un lugar primordial a la distribucin normal en el anlisis asinttico. As como
en muestras finitas, a partir de formas cuadrticas de variables normalmente distribuidas en el lmite, es posible
encontrar estadsticos cuya distribucin converja a una chi-cuadrado. Estos procedimientos son muy utilizados en
el contexto de pruebas de hiptesis.
Suponga que
n(qn ) N (0, ) .
(21)
p
Considere una matriz confortable tal que An A, donde v = rk(A). El teorema de Cramr establece que
(22)
(23)
Dado que An A, el teorema de Slustky establece que una forma cuadrtica asintticamente equivalente a Q 1 es
f
g0
f
g d
Q2 =
nAn (qn ) (An An 0 ) 1
nAn (qn ) v2 .
(24)
p
ya que An An 0 AA0 0. Ms an, usualmente es una matriz desconocida y precisa ser reemplazada por
p
(25)
es asintticamente equivalente a Q 2 (y, por tanto, a Q 1 ) en virtud nuevamente del teorema de Slustky.
4.15
Suponga que
n(qn ) N (0, ) .
La matriz es la varianza asinttica de qn y se denota AV( qn ) = /n. La divisin entre n puede causar confusin
ya que es obvio que /n 0 a medida que n . Es por ello que el uso de igualdades como AV( qn ) = /n
debe entenderse como que es la varianza de la distribucin lmite (que es usualmente normal) de n(qn ) o,
es un estimador consistente de AV( qn ), que deber entenderse como una forma corta de decir que es consistente
22
Notas de clase
El modelo de regresin lineal establece una relacin lineal entre la variable aleatoria y llamada variable
dependiente y un conjunto de variables independientes, variables explicativas o regresores recogidas en el vector
x de dimensin k 1. Para una muestra aleatoria de tamao n que contiene observaciones independientes indizadas
por i = 1, 2, . . . ,n se postula que
yi = x i 0 + i
(1)
donde i es una variable aleatoria de media cero, E( i ) = 0 para todo i, denominada error de regresin o
perturbacin. El vector contiene k parmetros desconocidos y el objetivo es estimarlo.
El modelo (1) tiene la siguiente representacin matricial:
y = X + ,
(2)
Veremos cul es el rol de cada supuesto en el anlisis en muestras finitas de estimadores de en (1). El supuesto
ms importante es S1 e implica que la media condicional de yi dado x i es una funcin lineal:
E( yi | x i ) = x i 0
bajo el supuesto S1 .
(3)
En otras palabras, S1 establece que en la poblacin la relacin entre yi y x i es lineal y i se interpreta como el
desvo de yi respecto a su media condicional, i = yi E( yi | x i ). Es decir, es un supuesto sobre la forma funcional
de (1). Note que (3) establece adems que E( yi | x i ) = L( yi | x i ) por lo que es el coeficiente de proyeccin
lineal de yi sobre x i en la poblacin: = E( xx 0 ) 1 E( x y ). Ms an, en una muestra se observa yi y x i y a partir
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
23
de esa informacin se desea inferir sobre el vector de parmetros y la variable aleatoria i , ambos no observables.
El supuesto S1 permite separar la contribucin de estos dos componentes sobre la variable observable yi y es, por
tanto, un supuesto de identificacin.
1
Mnimos cuadrados
El principio de estimacin ms popular en el contexto del modelo lineal es el de mnimos cuadrados. El estimador
de Mnimos Cuadrados Ordinarios (MCO) se obtiene tras minimizar la suma de perturbaciones (vistas como una
funcin de ) al cuadrado
n
1
1
1X
1X
Q ( ) = ( ) 0 ( ) =
i ( ) 2 =
(yi x i 0 ) 2 = (y X ) 0 (y X ) .
2
2 i=1
2 i=1
2
(4)
, i=1
i=1
i=1
(5)
El estimador MCO es el vector b de dimension k 1 que satisface las k condiciones de primer orden S(b) = 0.
Estas condiciones de optimalidad son las denominadas ecuaciones normales y equivalen a X 0Xb = X 0y.
El Hessiano de Q ( ) es igual a
n
Q ( ) X
x i x i 0 = X 0X .
0 =
i=1
(6)
Un supuesto usual que no hemos detallado, pero que es importante para la existencia de b, es que la matriz X 0X
sea no singular. Si X 0X es definida positiva, las condiciones de segundo orden establecen que Q () es estrictamente
convexa y por tanto que el estimador MCO es un mnimo global y es nico. Cuando X 0X es semidefinida positiva
(es singular), entonces existen mltiples mnimos locales y en general las ecuaciones normales son satisfechas por
un nmero indeterminado de vectores b. Una condicin suficiente para la no singularidad de X 0X (y por tanto para
la unicidad del estimador MCO) es que el rango de X sea igual a k, lo que se traduce en que las columnas de X
sean linealmente independientes: cada regresor debe contener informacin nica.
Luego, con una matrix X de rango k, las ecuaciones normales se resuelven para
1 n
n
X
X
0+
*
b=
xixi
x i yi = (X 0X ) 1X 0y .
, i=1
- i=1
1.1
(7)
Linealidad
Dado X , MCO es un estimador lineal. Ello significa que b es un vector aleatorio que puede ser expresado como una
combinacin lineal de los elementos de y, b = W y:
b=
n
X
i=1
w i yi
donde
1
n
X
w i = * x i x i 0+ x i = (X 0X ) 1x i .
, i=1
-
(8)
Un estimador es no lineal cuando no puede ser expresado como en (8). En otras palabras, cuando las ponderaciones
w i dependen de y. La linealidad es un atributo conveniente de b ya que sus propiedades estadsticas en muestras
finitas (dado X ) pueden ser deducidas directamente a travs de las caractersticas de y o de .
1 Recuerde que (A )/ = A0 y que ( 0A )/ = (A + A0 ).
24
1.2
Mtodo de momentos
El estimador MCO es tambin un estimador del mtodo de momentos. Como se mencion, la relacin lineal
en (1) puede entenderse como una proyeccin lineal de y sobre x y, por consiguiente, en la poblacin =
E( xx 0 ) 1 E( x y ). Tras reemplazar las expectativas E( xx 0 ) y E( x y ) por sus contrapartes muestrales X 0X /n y
X 0y/n se obtiene (7).
Alternativamente, al surgir de la proyeccin lineal de y sobre x se cumple por construccin que E( x i i ) = 0.
stas son las condiciones de momentos que definen al estimador de . La contraparte muestral de estas condiciones
es X 0e/n = 0, donde e = y Xb, lo que deriva en las ecuaciones normales.
1.3
el anlogo muestral de X ) y
El vector y puede descomponerse en dos partes: un vector de valores predichos (y,
un vector de residuos (e, el anlogo muestral de ).
El vector de valores predichos de y es y = Xb, donde b es el estimador MCO de . Tras reemplazar el estimador
b por (7) se obtiene y = X (X 0X ) 1X 0y. Se aprecia que cada elemento de y es una combinacin lineal de los
elementos de y. La matriz
P = X (X 0X ) 1X 0
(9)
es una matriz de proyeccin y, como su nombre sugiere, la operacin y = Py proyecta el vector y sobre el espacio
vectorial formado por las columnas de X . Por construccin, la matriz P es simtrica (P = P 0), idempotente (PP = P)
y de rango igual a k (rk(P ) = tr(P ) = tr(X (X 0X ) 1X 0 ) = tr((X 0X ) 1X 0X ) = tr(I k ) = k). Adems, se cumple que
PX = X .
Por su parte, el vector de residuos de la regresin es e = y y = y Xb. Tras reemplazar b por (7) se obtiene
que e = (I n X (X 0X ) 1X 0 )y = My donde M = I n P es la matriz de proyeccin al espacio ortogonal al espacio
formado por las columnas de X . Por definicin, sta es simtrica (M = M 0), idempotente (MM = M) y de rango
igual a n k (rk(M ) = tr(M ) = tr(I n P ) = n tr(P ) = n k). Adems, se cumple que MX = 0.
Note que debido a que e = My, se tiene que X 0e = X 0My = 0: los residuos son ortogonales a X . Ello se da por
construccin a travs de las condiciones de primer orden del problema de minimizacin que da lugar a MCO (las
ecuaciones normales, S(b) = 0). Una implicancia es que si algunas de las columnas de X es un vector de dimensin
n 1 lleno de unos 1, es decir si el modelo incluye una constante como regresor (una prctica muy usual), entonces
P
la suma y por tanto el promedio muestral de los residuos es exactamente igual a cero: 10e = ni=1 ei = 0 donde ei
es el i-simo elemento de e (ver ejercicio E2, p. 32).
Asimismo, dado que PM = MP = 0 (ya que estas matrices proyectan espacios ortogonales), entonces el vector de
valores predichos es ortogonal al vector de residuos: e 0y = y 0MPy = 0. Este resultado permite entender cmo opera
el estimador MCO: escencialmente el estimador utiliza toda la informacin disponible en X al dividir el universo
en el espacio formado por las columnas de X , donde cae lo que la regresin predice o explica Py, y su espacio
ortogonal, donde reside el componente no explicado de la regresin My.
1.4
Regresiones particionadas
(10)
El inters se centra en derivar un mtodo para la estimacin MCO de 1 sin necesidad de calcular el estimador MCO
de todo el vector . El postulado principal de esta seccin, conocido como el teorema de Frisch-Waugh-Lovell, es
de utilidad cuando se cuenta con dos conjuntos de variables, un grupo de variables relevantes (X 1 ) y un grupo de
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
25
variables menos importantes (X 2 ). Las variables menos importantes son conocidas como variables de control y
su rol es asistir la estimacin de 1 ya que usualmente los parmetros en 2 no son de inters per se.
Recuerde las ecuaciones normales (X 0X )b = X 0y. Tras particionar este sistema se obtiene
(X 1 0X 1 )b 1 + (X 1 0X 2 )b 2 = X 1 0y ,
(11a)
(X 2 0X 1 )b 1 + (X 2 0X 2 )b 2 = X 2 0y .
(11b)
(12)
(X 1 0M 2X 1 )b 1 = X 1 0M 2y .
(13)
De esta forma,
b 1 = (X 1 0M 2X 1 ) 1X 1 0M 2y .
(14)
Note que e 2 = M 2y es el vector de residuos de una regresin de y sobre X 2 . Del mismo modo, cada columna de la
matriz E 1|2 = M 2X 1 (de dimensin n k 1 ) es el vector de residuos de la regresin de la columna correspondiente de
X 1 sobre el conjunto de regresores X 2 . Dado que M 2 es simtrica e idempotente, X 1 0M 2X 1 = (M 2X 1 ) 0 (M 2X 1 ) =
E 1|2 0E 1|2 y X 1 0M 2y = (M 2X 1 ) 0 (M 2y) = E 1|2 0e 2 tal que b 1 es el resultado de estimar por MCO una regresin de e 2
sobre E 1|2 : b 1 = (E 1|2 0E 1|2 ) 1 E 1|2 0e 2 .
Este hallazgo sugiere que la estimacin MCO de un modelo de regresin lineal puede efectuarse en dos etapas.
Primero, se estiman regresiones auxiliares sobre las variables X 2 y, segundo, utilizando los residuos generados se
consiguen los coeficientes de las variables X 1 . Mediante el procedimiento de preservar los residuos e 2 y E 1|2 se
obtienen las variables y y X 1 tras haber descontado el efecto comn que puedan tener con las variables X 2 o, en
jerga economtrica, las variables y y X 1 controlando por X 2 (es decir, netas de X 2 ).
Una aplicacin directa se da cuando X 2 = 1, un vector lleno de unos, por lo que el modelo original incluye
una constante. En este caso M 2 = I n 110/n por lo que e 2 = y y1,
donde y es el promedio muestral de las
observaciones en el vector y. En palabras, corregir el efecto de un intercepto en la regresin equivale a ingresar
los datos como desvos de sus promedios muestrales. Otra aplicacin usual se da cuando se incluye como X 2 un
conjunto de variables ficticias (dummies) estacionales o que denotan la pertenencia a un grupo (ver ejercicio E3, p.
32): el teorema sugiere primero desestacionalizar o remover las medias grupales de y y X 1 a travs de regresiones
de las variables en cuestin sobre el conjunto de dummies, y utilizar los datos desestacionalizados o como desvos
de los promedios grupales para obtener los coeficientes de inters.
2
Recuerde que b es un vector aleatorio. A continuacin se describen sus propiedades estadsticas y se estudia cmo
se ven afectadas por diversos supuestos sobre la relacin entre x i y i .
2.1
Sesgo
Tras reemplazar (2) en (7) se obtiene b como una combinacion lineal del vector no observable ,
b = + (X 0X ) 1X 0 .
(15)
(16)
26
Varianza
(17)
1 n
1
n
n
X
X
X
0+
2
0*
0+
*
=
xixi
i x i x i
xixi
.
, i=1
- i=1
, i=1
-
(18)
n
X
2*
xixi
, i=1
2.3
1
0+
(19)
Residuos
(20)
de modo que cada elemento del vector e es una combinacin lineal de todos los elementos de . En el anlisis de
regresin, los residuos juegan un rol primordial ya que permiten inferir ciertas propiedades de las perturbaciones
poblacionales, al ser ei un predictor de i (se reserva el trmino estimador para variables aleatorias que infieren
sobre un parmetro y predictor para variables aleatorias que infieren sobre otras variables aleatorias). Sin embargo,
las propiedades de e son distintas a las de . Ello se debe en parte a que en el modelo lineal no est identificado
por la prdida de grados de libertad, en el contexto de la relacin e = M donde M es no singular.
En particular, si bien bajo S1
E( e | X ) = ME( | X ) = 0 ,
y por la LEI
E( e ) = 0 ,
(21)
(22)
27
E( ei e j | X ) = E( i j + x i 0 (b )(b ) 0x j j x i 0 (b ) i x j 0 (b ) | X )
= E( x i 0 (b )(b ) 0x j | X ) = x i 0V( b | X )x j , 0 . (23)
La expresin (22) se simplifica bajo el supuesto S2: V( e | X ) = 2 M, donde se puede apreciar con mayor
claridad la existencia de correlacin entre residuos: M no es diagonal. Ms an, a pesar de suponer que i es
condicionalmente homocedstico, ei es siempre heterocedstico: V( ei | X ) = 2mii , donde mii es el i-simo
elemento de la diagonal de M y depende de x i .
2.4
En general, no es posible hallar un estimador insesgado de la matriz de covarianzas (18), aunque s es posible
encontrar estimadores consistentes (ver NC 6). Sin embargo, bajo el supuesto S2 la matriz de covarianzas
(condicional) de b se reduce a (19) que depende de un nico parmetro, 2 , que puede ser estimado sin sesgo.
De hecho,
s2 =
e 0e
n k
(24)
E( e 0e | X ) E( 0M | X ) tr(M E( 0 | X )) tr(M )
=
=
=
.
n k
n k
n k
n k
(25)
Bajo S2, = 2 I n y
E( s 2 | X ) = 2
tr(M )
n k
= 2
= 2
n k
n k
(26)
y por la LEI E( s 2 ) = E( E( s 2 | X ) ) = E( 2 ) = 2 .3
Un estimador alternativo es 2 = e 0e/n que es sesgado (aunque el sesgo no es importante si n es grande): utilizando
los mismos pasos arriba descritos es sencillo verificar que E( 2 | X ) = E( 2 ) = 2 (n k )/n < 2 . La diferencia
se debe a que s 2 incluye una correccin por la prdida de grados de libertad (el rango de M es n k). En el ejercicio
E11 (p. 35) se consideran otros estimadores (en general, sesgados).
3
Los supuestos S2 y S3 (note que S3 reemplaza a S1) son la base para un marco de inferencia exacta en el modelo
de regresin lineal. Ellos permiten obtener resultados relevantes para el contraste de hiptesis lineales sobre los
elementos del vector en muestras finitas.
3.1
Normalidad
Dado X , tanto b como e pueden expresarse como combinaciones lineales de , ver las ecuaciones (15) y (20).
El supuesto de normalidad S3 implica | X N (0, ), lo que lleva a concluir que b | X N (, V( b | X )) y del
mismo modo, e | X N (0, V( e | X )).
Ms an bajo S2 y condicional en X ,
#
"
# "
b
(X 0X ) 1X 0
=
N
e
M
"
0
0
# " 2 0 1
#!
(X X )
0
,
0
2M
(27)
28
3.2
En la seccin 2.4 se determin que e 0e = 0M. Bajo S2 y S3, / | X N (0,I n ) y por consiguiente,
2 . Se concluye que
(/ ) 0M (/ ) = e 0e/ 2 nk
(n k )s 2
2
nk
.
2
(28)
Es bueno notar que a diferencia de (27), la distribucin en (28) depende nicamente del nmero de grados de
libertad n k y no depende de X . Ello implica que el resultado en (28) se cumple tanto condicional en X como
incondicionalmente.
3.3
Restricciones lineales
El inters es contrastar hiptesis lineales del tipo H 0 : R = r donde R es una matriz no aleatoria de dimensin q k
y r es un vector de constantes de dimensin q 1. Se asume que las q < k filas de R son linealmente independientes,
de otra forma se incluiran restricciones lineales redundantes. Ello implica que q = rk(R).4
Recuerde que = ( 1 , 2 , . . . , k ) 0. Algunos ejemplos de las matrices R y r bajo diversas restricciones lineales son:
H 0 : 1 = 0, entonces q = 1, R = (1, 0, . . . , 0) y r = 0;
H 0 : 1 + 2 2 = 3, entonces q = 1, R = (1, 2, 0, . . . , 0) y r = 3;
P
H 0 : ki=1 i = 0, entonces q = 1, R = (1, 1, . . . , 1) y r = 0;
H 0 : 1 + 2 = 1 y adems 1 3 = 0, entonces q = 2,
"
#
" #
1 1
0 0
1
R=
y
r=
;
1 0 1 0
0
H 0 : 1 + 2 = 3, 3 2 4 = 5 y 1 5 = 0, entonces q = 3,
1 1 0
0
0 0 0
0 0 0
R = 0 0 1 2
1 0 0
0 1 0 0
3
r = 5 ;
0
H 0 : = 0, entonces q = k, R = I k y r = 0.
Bajo normalidad S3, b | X N (, V( b | X )) por lo que Rb r | X N (R r ,R 0V( b | X )R). Si se impone la
hiptesis nula Rb r | X N (0,RV( b | X )R 0 ) y por ende
(Rb r ) 0 (RV( b | X )R 0 ) 1 (Rb r ) | X q2 .
(29)
(30)
Los estadsticos del tipo (29) (30) se conocen como criterios de Wald. Intuitivamente, casi siempre ocurrir
que Rb r , 0 pero la pregunta relevante desde el punto de vista estadstico es si esta discrepancia de cero
puede atribuirse a un simple error de muestreo o si es significativa. Note que cuanto ms grande es Rb r , es
decir en ocasiones donde el estimador MCO b incumple las restricciones notoriamente, el estadstico chi-cuadrado
(una forma cuadrtica) toma un valor ms alto. As, un valor elevado de los estadsticos en (29) (30) constituye
evidencia en contra de la hiptesis H 0 : R = r .
Si bien la prueba de Wald (30) ofrece una alternativa de contraste H 0 , no es del todo til en la prctica ya que depende
del parmetro 2 que es desconocido y precisa ser reemplazado por un estimador factible. El estadstico (30)
4 Cuando q = k, R es una matriz cuadrada. Si fuera no singular, los coeficientes satisfaran = R 1r y no habra problema de estimacin.
29
depende de b y de X y de (27) se desprende que es independiente de e y funciones derivadas de este vector, como
s 2 . En otras palabras (30) y (28) son dos variables aleatorias distribuidas como chi-cuadrado que son independientes.
Ello forma la base para construir un estadstico F . As, bajo la hiptesis nula5
=
F (q,n k ) .
e 0e
q
(31)
Note que al igual que (28), la distribucin del estadstico bajo H 0 depende nicamente del nmero de grados de
libertad nk y del nmero de restricciones q. No depende de X . El marco de hiptesis es vlido incondicionalmente.
El procedimiento de prueba de hiptesis es mecnico. Dadas las restricciones R = r , se calcula y ese valor se
compara con las tabulaciones de la funcin de distribucin F con q y n k grados de libertad. Si > F , el valor
crtico al nivel de significacin del 100(1 )% o el 100-simo percentil de F (q,n k ), entonces se rechaza H 0 .
Por el contrario, si < F entonces no se cuenta con suficiente evidencia como para rechazar H 0 (se acepta H 0 ).
Pruebas t
Cuando se contrasta una sola restriccin (q = 1) se puede utilizar la distribucin de Student para inferencia. Ello se
debe a que si tv ( se distribuye como una t de Student con v grados de libertad), entonces 2 F (1,v). As, si
R = c 0 es un vector de dimension 1 k, (31) implica que
= p
c 0b r
s 2c 0 (X 0X ) 1c
tnk
(32)
30
Valor-p
Una probabilidad que tiene un rol especial en el contexto de pruebas de hiptesis es el denominado Valor-p o pvalue. Mecnicamente, en el caso de mltiples restricciones p es igual al percentil de la distribucin F (q,n k ) que
corresponde exactamente al valor del estadstico calculado , mientras que en el caso de una sola restriccin p es
el percentil de la distribucin tnk que corresponde al valor del estadstico . El valor p denota el mnimo nivel de
significacin para el que H 0 ser rechazada.
Bajo la hiptesis nula y en un contexto de muestreo repetido, p es igual a la probabilidad de encontrar un estadstico
( o ) que exceda el valor del estadstico encontrado en la muestra. La regla de decisin respecto a H 0 se puede
entender alternativamente como: si p , entonces H 0 se rechaza. As, el valor-p tiene la virtud de mostrar cun
sensible puede ser la decisin de rechazar una hiptesis ante distintas elecciones del nivel de significacin (que
es impuesto por el investigador). Por ejemplo, p = 0.08 indica que H 0 ser rechazada si = 0.10, pero no ser
rechazada si = 0.05.
Errores tipo I y tipo II
El marco de inferencia descrito puede resumirse de la siguiente manera: (i) se formula una hiptesis H 0 ; (ii) se
construye algn estadstico por ejemplo, o que es tpicamente una variable aleatoria que refleja la naturaleza
estocstico de los datos; (iii) se evala el comportamiento de esta variable aleatoria, bajo el supuesto que H 0
efectivamente se cumple; (iv) se decide si rechazar H 0 o no. Se ha verificado que, bajo el supuesto S3, el estadstico
se distribuye como una variable F , mientras que lo hace como una variable t en caso de cumplirse la hiptesis.
Valores extremos de estos estadsticos conllevan al rechazo de H 0 .
El nivel de significacin , conocido tambin como tamao estadstico (statistical size), se define como
= Pr(Rechazo H 0 | H 0 es verdadera). Es decir es la probabilidad de cometer un error tipo I (no
encarcelar a un delincuente; no vacunar a un enfermo). El anlisis hasta el momento requiere saber slo el
comportamiento de los estadsticos bajo H 0 . No obstante, otro elemento relevante del marco de inferencia es la
probabilidad de comenter un error tipo II, = Pr(No rechazo H 0 | H 0 es falsa) (encarcelar a un inocente; vacunar a
una persona sana). Ello requiere conocer el comportamiento de los estadsticos bajo una situacin alternativa, donde
no se cumple H 0 .
Suponga que R r = , que puede ser distinto de cero. Bajo normalidad S3, b | X N (, V( b | X )) por lo que
Rb r | X N (,RV( b | X )R 0 ) y el criterio de Wald pasa a ser
(Rb r ) 0 ( 2R(X 0X ) 1R 0 ) 1 (Rb r ) | X q2 ()
1
donde = 0 ( 2R(X 0X ) 1R 0 ) 1 .
2
(33)
sta es una variable distrbuida como 2 no centrada con parmetro de no centralidad . As, se puede concluir que
=
F (; q,n k ) ,
e 0e
q
(34)
es un variable distribuida como F no centrada con parmetro de no centralidad . Ntese que depende de X y de
y, por tanto, el anlisis del error tipo II es, necesariamente, condicional a lo que ocurra con estas cantidades.
Finalmente, cuando q = 1, el estadstico en (32) se distribuye como una variable t no centrada, tnk ().
La potencia estadstica o el poder estadstico (statistical power) de una prueba se define como 1 , la probabilidad
de rechazo de una hiptesis falsa. El Grfico 1 (p. 33) ilustra cmo se determina, considerando el estadstico para
q = 5 y n k = 100. La lnea continua del panel (a) representa la distribucin centrada F (5, 100), mientras que la
lnea punteada representa la distribucin no centrada F ( = 2; 5, 100). Para un nivel de significacin de = 0.05,
el valor crtico es F = 2.31 y valores hacia la derecha de F se asocian con rechazos de H 0 (por construccin el
rea hacia la derecha de F y por debajo de la lnea continua es igual a = 0.05). La potencia es la probabilidad de
rechazo ( > F ) bajo el supuesto de que H 0 es falsa, es decir bajo el supuesto que la distribucin muestral de es
la no centrada. Esta probabilidad es representada por el rea sombreada bajo la curva punteada.
31
De este anlisis puede concluirse que la potencia dependen positivamente de : una menor valor de implica un
mayor valor de F y, por tanto, una menor probabilidad de > F . Ello ilustra cmo interactan las probabilidades
de error tipo I y tipo II. Un valor de muy exigente (muy cercano a cero) implica valores elevados de F , por lo
que H 0 no ser rechazada fcilmente. Si H 0 es verdadera esto es una buena noticia, mientras que si H 0 es falsa,
no la rechazaremos con la fecuencia con la que quisiramos. Por el contrario, un valor muy laxo de (digamos,
= 0.20) inducira a un rechazo cotidiano de H 0 . La prueba en este caso tendra alta potencia, bajo el riesgo de
rechazar hiptesis verdaderas frecuentemente.
El panel (b) es similar al panel (a), pero el parmetro de no centralidad vara de = 2 a = 10. Claramente, la
potencia es creciente en , lo que se confirma en el panel (c) que presenta 1 como funcin de y de .
El parmetro de no centralidad , fundamentalmente, de dos cantidades. La primera es, obviamente, el desvo . Si
ste es muy reducido, ser difcil distinguirlo de cero y, aunque se d que R = r + , r en realidad tenderemos a
no rechazar R = r . La potencia es baja en este caso. Si es notoriamente distinto de cero, resulta ms probable el
rechazo de H 0 . En segundo lugar, depende proporcionalmente del tamao de la muestra, ya que cuando mayor sea
n, la matriz X 0X contendr elementos cada vez ms grandes. As, considerando adems la relacin negativa entre
y la potencia, una estrategia de inferencia es utilizar valores bajos de en muestras grandes (donde el parmetro
de no centralidad ser, tambin, grande).
Ejercicios
E1
Proyecciones lineales
Sean y y x dos variables aleatorias con varianzas finitas y positivas. Si se quiere predecir y a partir de una funcin
lineal de la forma + x, muestre que la eleccin de y que minimiza ECM( y, + x ) es = C( x,y )/V( x ) y
= E( y ) E( x ). Encuentre, adems, el error cuadrtico medio de este predictor lineal.
Considere ahora el predictor de y que se obtiene a partir de la combinacin lineal de un vector aleatorio x. En
particular, muestre que el vector que minimiza ECM( y,x 0 ) es = E( xx 0 ) 1 E( x y ).
E2
Intercepto en la regresin
Considere el modelo de regresin y = X +, donde X es tal que existe un vector a de dimensin k 1 que satisface
1 = Xa, donde 1 es un vector de dimensin n 1 lleno de unos. Defina el vector x 0 = 10X /n, cuyo j-simo elemento
es el promedio muestral de los elementos de la j-sima columna de X .
Utilizando las ecuaciones normales del problema de estimacin MCO, muestre que y = x 0b, donde b es el
estimador MCO de .
Muestre que los residuos de esta regresin tienen una media muestral igual a cero.
Este resultado significa que la lnea de regresin (mejor dicho, el plano de regresin) contiene a los promedios de
los datos. Cuando a es igual a un vector unitario, un vector lleno de ceros excepto por el j-simo elemento que es
igual a 1, entonces el modelo de regresin incluye una constante como regresor (es un modelo con intercepto).
E3
para i = 1, 2, . . . ,n .
32
F centrada
F no centrada ( = 2)
Potencia
F centrada
F no centrada ( = 10)
Potencia
= 0.01
= 0.05
= 0.10
3
12
15
18
21
24
27
30
Nota: Las distribuciones F utilizan q = 5 y n k = 10. En los paneles (a) y (b) la potencia es igual al rea sombreada, bajo las distribuciones
no centradas.
E4
33
Sean b y M el estimador MCO y la matriz de proyeccin ortogonal, respectivamente, de una regresin de y sobre
X . Considere un vector arbitrario de dimensin k 1. Completando cuadrados, muestre que la suma de errores
al cuadrado Q ( ) = (y X ) 0 (y X ) puede reexpresarse como Q ( ) = y 0My + ( b) 0X 0X ( b). Con ello
responda Cul es el vector que minimiza Q () y cul es el valor mnimo de esta funcin?
E6
Suponga que b es el estimador MCO de una regresin de y sobre X y considere un vector arbitrario b de dimensin
k 1. Defina Q (b ) = (y Xb ) 0 (y Xb ) (y Xb) 0 (y Xb). Muestre que Q (b ) = (b b) 0X 0X (b b) y que
Q (b ) > 0 si b , b Cmo se puede interpretar este resultado?
E7
i = 1, 2, . . . ,n .
para
Esta ecuacin equivale a (1) con x i = (1,x i ) 0 y = (, ) 0. Por simplicidad, asuma que x i es determinstico.
Utilizando los resultados matriciales derivados en estas notas por ejemplo (7) muestre que los estimadores
MCO de y son, respectivamente
Pn
Pn
(x i x )yi
i=1 (x i x )(yi y)
b=
= Pi=1
y
a = y xb
,
Pn
n
2
2
i=1 (x i x )
i=1 (x i x )
P
P
donde y = ni=1 yi /n y x = ni=1 x i /n son los promedios muestrales de yi e x i . Compare estos resultados con
el caso escalar del ejercicio E1 a la luz del mtodo de momentos.
Encuentre V( b ), V( a ) y C( a,b ) bajo el supuesto de homocedasticidad S2.
E8
para
i = 1, 2, . . . ,n ,
.
b = i=1
Pn
2
i=1 (x i x )
Como se vio anteriormente, ste sera el estimador MCO de si el modelo original incluyera una constante.
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?
Considere el estimador alternativo
Pn
yi
b = Pni=1 .
i=1 x i
Es b insesgado? Encuentre la varianza de b y diga cul estimador es preferible, b o b ?
34
E9
i = 1, 2, . . . ,n ,
para
y considere el estimador
Pn
x i yi
b = Pi=1
.
n
2
i=1 x i
Muestre que b es sesgado, E( b ) , , siempre que , 0.
Calcule la varianza de b y muestre que es menor a la varianza de b, el estimador MCO analizado en el
ejercicio E7.
Sea a el estimador MCO de . Muestre que ECM( b , ) es menor que ECM( b, ) si y slo si 2 < V( a ).
Encuentre el estadstico F que contrasta H 0 : = 0. Concluya que ECM( b , ) < ECM( b, ) si y slo si
F < 1.
E10
Prediccin
Suponga que y = X + d + donde X es n k y d es un vector que contiene una variable dummy igual a 1 en la
ltima observacin [d]n = 1 y 0 de otro modo, [d]i = 0 para i < n. Utilizando el teorema de Frisch-Waugh-Lovell
muestre que los estimadores MCO de b y de son
b = (X 0X ) 1X 0y
= yn x n 0b ,
Estimador de varianza
Considere una regresin lineal bajo los supuestos S2 y S3. Considere, adems estimadores de 2 de la forma
2
sm
=
e 0e
,
m
donde e es el vector de residuos de la regresin y m es una constante por determinar. Claramente, m = n k redita
2 , 2 ).
el estimador insesgado (24). Encuentre el valor de m que minimiza ECM( sm
2 . Ms an, no olvide que si w 2 , entonces E( w ) = q y V( w ) = 2q.
Ayuda: Recuerde que e 0e/ 2 nk
q
E12
Ordenamientos de varianzas
35
Pgina en blanco
36
Notas de clase
Anteriormente analizamos las propiedades en muestras finitas del estimador MCO de en el modelo lineal
yi = x i 0 + i
para i = 1, 2, . . . ,n
y = X + ,
o matricialmente
(1)
A continuacin se estudian las propiedades asintticas (conforme n ) del estimador MCO. El anlisis en
muestras grandes permite relajar o debilitar algunos supuestos y, por tanto, provee resultados que se aplican en
contextos ms generales. En particular, los supuestos clsicos sern reemplazados por:
S1*: i y x i no estn correlacionados para todo i, E( x i i ) = 0.
S2*: i es homocedstico, E( i2 ) = 2 , y C( i2 ,x i x i 0 ) = 0 para todo i.
Cuando i es independiente en media condicional de x i significa que i no est correlacionado con ninguna funcin
de x i . Es decir, S1 implica S1* pero lo contrario no ocurre necesariamente. Igualmente, note que por construccin
S2* implica
E( i2x i x i 0 ) = C( i2 ,x i x i 0 ) + E( i2 )E( x i x i 0 ) = E( i2 )E( x i x i 0 ) = 2 E( x i x i 0 ) ,
lo que constituye un requerimiento menos exigente que S2. Finalmente, no se requieren supuestos distributivos
de i . Basta con trabajar con una muestra aleatoria para que los teoremas de lmite central otorguen normalidad
asinttica, lo que es el punto de partida de un marco de inferencia en muestras grandes.
Note que X 0X /n y X 0/n son promedios muestrales con observaciones tpicas x i x i 0 y x i i , respectivamente. De
este modo, se puede aplicar una ley de grandes nmeros para analizar sus lmites probabilsticos. Cuando x i y i
son iid, por el teorema de Khinchine
n
p
1X
X 0X
=
x i x i 0 E( x i x i 0 ) Q
n
n i=1
p
X 0 1 X
=
x i i E( x i i ) ,
n
n i=1
(2)
y se asumir que Q es una matriz no singular. Casi siempre, Q y el lmite probabilstico de X 0/n pueden
ser redefinidos con las condiciones ms dbiles del teorema de Chebyshev. Dado que tanto x i como i son
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
37
p
1X
X 0X
1X
x i x i 0 lim
E( x i x i 0 ) Q
=
n n
n
n i=1
i=1
p
X 0 1 X
1X
x i i lim
E( x i i ) .
=
n n
n
n i=1
i=1
(3)
Por brevedad, asumiremos que x i y i son iid y por tanto favoreceremos el uso de la ley de grandes nmeros de
Khinchine. No obstante, anotaremos las circunstancias en donde los resultados ms generales (3) aplican sin alterar
las principales conclusiones cualitativas del anlisis asinttico.
1
Propiedades asintticas
El estimador MCO es consistente si se trabaja con el supuesto S1* y es asintticamente normal bajo condiciones
bastante generales.
1.1
Consistencia
! 1
X 0 * 1 X
=
x i x i 0+
n
n
, i=1
-
*1
,n
n
X
x i i + Q 1 E( x i i )
i=1
(4)
donde se han utilizado los lmites probabilsticos en (2) y el teorema de Slustky. De este modo, bajo S1*,
p
b + Q 1 0 =
(5)
y por tanto MCO es consistente. El uso de la ley dbil de los grandes nmeros podra reemplazarse por el teorema
de Chebyshev sin comprometer la consistencia de MCO. En ambos casos, X 0/n converge a 0 de acuerdo con S1*.
1.2
Normalidad asinttica
Bajo S1*, E( x i i ) = 0. De esta forma, el teorema del lmite central de Linderberg - Lvy permite concluir que1
n
n
1X
X 0
1 X
d
x i i = n *
( x i i E( x i i ) ) + N (0, E( i2x i x i 0 )) .
=
n
n i=1
, n i=1
-
(6)
X 0X
n(b ) =
n
! 1
X 0 d
N (0,Q 1 E( i2x i x i 0 )Q 1 ) .
n
(7)
Vale la pena notar que n(b ) es una funcin de dos matrices aleatorias: Q n = X 0X /n y qn = X 0/ n. Conforme
n se incrementa, el primer trmino Q n se aproxima a su lmite a una velocidad n, mientras que el segundo qn lo
hace a una tasa n. Es decir, dado que la velocidad de convergencia de qn es menor que la de Q n , llegar un
momento (digamos, un tamao muestral n 0 tal que para todo n > n 0 ) en donde qn se sigue aproximando a su lmite
(una variable aleatoria normalmente distribuida), mientras que Q n ya habr alcanzado su lmite probabilstico Q.
Por ello, la aleatoriedad de Q n qn en muestras grandes la otorga qn , mientras que Q n slo afecta la varianza, de un
modo casi determinstico. Otra manera de analizar el problema es reescribir (7) como
Q n1qn = Q 1qn + (Q n1 Q 1 )qn
(8)
1 Se concluye lo mismo al utilizar el teorema del lmite central de Linderberg - Feller con la salvedad de que la varianza asinttica E( i2x i x i 0 )
debe ser reemplazada por el lmite de la expectativa promedio de i2x i x i 0 .
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
38
donde se ha agregado y restado la expresin Q 1qn . El segundo trmino es importante. Note que Q n1 Q 1 0
mientras que, siguiendo a (6), qn converge en distribucin a un vector normalmente distribuido. Por el teorema
del mapeo continuo se tiene, luego, que este segundo trmino converge en probabilidad a cero. Es decir, Q n1qn es
asintticamente equivalente a Q 1qn . La distribucin asinttica de este ltimo trmino (conocido como la funcin
de influencia del estimador) es, precisamente, (7).
Finalmente, la varianza asinttica de b se simplifica bajo el supuesto S2*:
n(b ) N (0, 2Q 1 ) .
(9)
Una ventaja evidente del enfoque asinttico sobre el anlisis en muestras finitas es que el mismo marco terico
ofrece un procedimiento para el contraste de restricciones no lineales bajo condiciones ms generales que en
muestras finitas. Ello es consecuencia de una simple aplicacin del mtodo delta. Las frmulas (10) a (14) lneas
abajo se aplican no slo a MCO sino que son vlidas para una gran variedad de estimadores economtricos
(asegrese de entenderlas a plenitud).
Defina la funcin vectorial : Rk Rq tal que ( ) es un vector de dimensin q 1 y la matriz Jacobiana
J ( ) = [( )/] tiene rango q. Partiendo de
n(b ) N (0,V ) ,
(10)
n((b) ( )) N (0, J ( )V J ( ) 0 ) .
(11)
n (b) 0 (J ( )V J ( ) 0 ) 1(b) q2 .
(12)
p
Dado que b es consistente bajo S1*, el teorema de Slutsky conlleva a J (b) J ( ). Luego, para un estimador
consistente de V , que denotamos como V n , el estadstico factible
d
(13)
es asintticamente equivalente a (12). Este criterio de Wald es vlido asintticamente para el contraste H 0 : ( ) = 0
y no requiere de supuestos distributivos. La regla de decisin respecto a la evidencia en torno a H 0 es mecnica.
Si w > q2 ( ), el 100-simo percentil de q2 , entonces se rechaza H 0 . De otro modo, no se cuenta con suficiente
evidencia como para rechazar H 0 (en corto, se acepta H 0 ).
Un caso particular se da cuando las restricciones son lineales, ( ) = R r , J ( ) = R y (13) se reduce a
d
(14)
Conviene comparar esta expresin con la ecuacin (29) de las NC 5 (p. 29):
w = (Rb r ) 0 (RV( b | X )R 0 ) 1 (Rb r ) | X q2 .
Ambos estadsticos presentan claras similitudes. Mientras que (14) contiene a V n /n como estimador de la varianza
asinttica de b, el estadstico w utiliza la varianza muestral V( b | X ). Es bueno enfatizar, sin embargo, que
mientras que la elaboracin de w requiere condiciones dbiles, w es vlido slo bajo el supuesto distributivo S3.
En la misma lnea, el estadstico F presentado en la ecuacin (31) de las NC 5 (p. 30), , incorpora correcciones por
grados de libertad y reemplaza la varianza muestral por un estimador. Bajo los supuestos de las NC 5, F (q,nk ).
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
39
No obstante, se deduce que nicamente bajo el supuesto de homocedasticidad S2 (o, mejor an, S2*), el estadstico
q (es decir, despus de remover un ajuste por grados de libertad) es asintticamente equivalente a w en (14) y
por tanto converge en distribucin a una variable chi-cuadrado con q grados de libertad. Ms an, el estadstico
utiliza s 2 , el estimador insesgado de 2 . Ello puede cambiarse por cualquiera de los estimadores barajados en las
NC 5 (e 0e/n presentado en la p. 28 o el estimador deducido en el ejercicio E11, p. 35) sin alterar en absoluto la
distribucin asinttica de q (ver seccin 2.1 lneas abajo).
Por su parte, cuando se contrasta slo una restriccin, R 0 = c Rk , el estadstico t converge a una variable aleatoria
z distribuida como normal estndar (recuerde que si a N (0, 2 ) entonces a = z donde z N (0, 1)):
s
0
c 0 (b )
nc (b ) d
c 0b r
c 0V c
=
=
=
z =z,
(15)
plim c 0V n c
c 0V n c/n
c 0V n c/n
c 0V n c
por el teorema de Cramr aplicado a (10) y el teorema de Slutsky. Luego, si | | > z , el 100-simo percentil de
una normal estndar, entonces se rechaza H 0 : c 0 = r . De otro modo, se acepta H 0 .
En resumen, se ha conseguido un marco de constraste de hiptesis general sin la necesidad de imponer supuestos
distributivos muy estrictos a las variables involucradas en la muestra aleatoria. Un requisito fundamental es contar
con el estimador consistente V n , un punto que se aborda enseguida.
2.1
Como se vio en las NC 5, bajo S2, la varianza condicional de MCO es V( n(b ) | X ) = 2 (X 0X /n) 1 y un
estimador insesgado (bajo S1 y S2) es V n = s 2 (X 0X /n) 1 . Para que este estimador sea consistente de la varianza
asinttica en (9), se necesita (por el teorema de Slutsky) que s 2 sea consistente bajo S2*. Note que
!0
! 1
!
X 0
X 0X
X 0 0
e 0e
n
0M
n 0
2
s =
=
+a.
(16)
n k n k
n
n k n
n
n
n
n
Dado que n/(n k ) 1 y que X 0/n 0, es sencillo verificar que a 0. Por tanto, el lmite probabilstico de
s 2 es igual al lmite probabilstico de 0/n que, a su vez, es igual a la varianza no condicional de i (por la ley dbil
de grandes nmeros):
0 p
E( i2 ) = V( i ) = 2
n
si S2* se cumple.
(17)
Se concluye que s 2 2 con las condiciones arriba discutidas. En general, cualquier estimador de la forma e 0e/m
donde m/n 1 conforme n ser consistente (ver ejercicio E19, p. 45).
2.2
Varianza robusta
En el caso ms general (sin imponer S2*), la varianza asinttica de b es V = Q 1 E( i2x i x i0 )Q 1 . Dado que ya se
cuenta con un estimador consistente de Q, se precisa un estimador consistente de = E( i2x i x i 0 ) para implementar
V n . Sea ei el i-simo residuo de la regresin. Luego, el estimador de momentos de
n
X
=1
e 2x i x i 0 ,
n i=1 i
(18)
0X /n) 1 V .
V n = (X 0X /n) 1 (X
(19)
X
1X 2
2X 2
1X
=1
ei2x i x i 0 =
i x i x i 0
i x i x i 0[x i 0 (b )] +
x i x i 0[x i 0 (b )]2 = T 1 +T 2 +T 3 . (20)
n i=1
n i=1
n i=1
n i=1
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
40
P
El segundo trmino es tal que kT 2 k kb k[ 2 kx i k 3i2 /n ] mientras que el tercer tmino satisface kT 3 k
P
kb k kx i k 4 /n (demostrar estas desigualdades va ms all del alcance de esta clase). En ambos casos se tiene
que las normas son menores que kb k multiplicado por la norma de promedios que convergen en probabilidad a
cantidades finitas, por la ley dbil de los grandes nmeros. Dado que b es consistente, se tiene que plim kb k = 0
y, en virtud del teorema de Slustky, se puede concluir que tanto T 2 como T 3 convergen en probabilidad a 0.
p
.
Asimismo, es sencillo notar que T 1 E( i2x i x i 0 ), dictado por el teorema de Khinchine. De este modo,
0
2
Ms an, (20) establece la equivalencia asinttica entre el promedio de los trminos ei x i x i y los trminos i2x i x i 0,
por lo que su consistencia ocurre bajo condiciones ms generales como las del teorema de Chebyshev:
n
X
X
lim 1
plim 1
plim
E( i2x i x i 0 ) = plim
i2x i x i 0 = 0.
n n
n
i=1
i=1
Note la versatilidad que ofrece este estimador. La inferencia correcta del estimador MCO con un estimador de
varianza como (19) es posible valindose slo de un supuesto: el de identificacin S1*. No se requiere especificar
la forma de heterocedasticidad V( i ) o V( i | x i ), un atributo muy valioso en situaciones donde no se sabe con
certeza la naturaleza de la heterocedasticidad (probablemente, la mayora de veces). Adems, los residuos ei pueden
ser reemplazados por residuos basados en cualquier estimador de que sea consistente (ver ejercicio E20, p. 45).
Finalmente, el estimador es vlido tambin bajo homocedasticidad (supuesto S2*).
El estimador V n se conoce como estimador robusto (de la varianza), estimador corregido por heterocedasticidad
o estimador consistente de White. Es bueno hacer una aclaracin sobre la naturaleza de este estimador. Para ello,
compare la expresin de la varianza de b deducida en la ecuacin (18) de las NC 5 (p. 27) con nV n :
V( b | X ) = (X 0X ) 1X 0 X (X 0X ) 1
nV n = (X 0X ) 1X 0HX (X 0X ) 1 ,
donde = diag(12 ,22 , . . . ,n2 ) y H = diag(e 12 ,e 22 , . . . ,en2 ). A primera vista podra pensarse que ei2 es un estimador
consistente de i2 . Esto es, sin embargo, una conclusin apresurada e incorrecta. Sin imponer restricciones o
estructura a los elementos de , no es posible obtener estimadores consistentes de i2 . La razn es que conforme
n , se incrementa tambin el nmero de parmetros por estimar y por tanto a pesar de disponer de muestras
cada vez ms grandes, no se dispone de ms informacin para la estimacin de estos parmetros. Las n varianzas i2
son lo que se denominan parmetros incidentales. El estimador de White explota (creativamente) el hecho de que
el estadstico relevante para la determinacin de la varianza de b es X 0 X /n que es de dimensin k k (contiene
tan slo k (k + 1)/2 parmetros) y es estimado consistentemente por X 0HX /n. En resumen, (19) se cumple a pesar
de que H no es necesariamente un buen estimador de .
3
Errores de especificacin
Esta seccin estudia las consecuencias de estimar modelos mal especificados por MCO, bajo los supuestos S1*
y S2*. Vale la pena aclarar que las conclusiones sobre la eficiencia asinttica relativa de los estimadores que
analizaremos dependen del cumplimiento del supuesto S2*. Bajo formas generales de heterocedasticidad, no es
posible establecer ordenamientos categricos.
Considere una particin del vector x i = (x 1i 0,x 2i 0 ) 0 que conlleva a la particin X = (X 1 : X 2 ). Luego, el lmite
probabilstico de X 0X /n se puede particionar como
X 0X
n
#
X 1 0X 1 X 1 0X 2
X 2 0X 1 X 2 0X 2
#
"
# "
#
n "
p
1 X x 1i x 1i 0 x 1i x 2i 0
E( x 1i x 1i 0 ) E( x 1i x 2i 0 )
Q 11 Q 12
=
=Q.
=
E( x 2i x 1i 0 ) E( x 2i x 2i 0 )
Q 21 Q 22
n i=1 x 2i x 1i 0 x 2i x 2i 0
1
=
n
"
(21)
41
X 1 0 d
N ( 0, 2Q 11 ) .
n
(22)
n
n
n
n
! 1
X 2 0X 1 p
Q 11 Q 12Q 1
22 Q 21 Q 1|2 .
n
(23)
Defina Z = M 2X 1 como una matriz de regresores corregidos que tiene la misma dimensin de X 1 . Utilizando
S1*, E( z i i ) = 0 y de S2* se tiene que V( z i i ) = 2 E( z i z i 0 ), donde z i es la i-sima columna de Z . Note que
Z 0Z = X 1 0M 2X 1 y por consiguiente plim Z 0Z /n = E( z i z i 0 ) = Q 1 |2 . As,
X 1 0M 2 p
E( z i i ) = 0
n
X 1 0M 2 d
N ( 0, 2Q 1|2 ) .
(24)
1
Finalmente, requeriremos comparaciones entre Q 1
1|2 y Q 11 . Recuerde que
1
Q 1
1|2 Q 11 0
si y slo si
Q 11 Q 1|2 0
Variables omitidas
(25)
pero se omite el conjunto de variables en X 2 . Es decir, se estima 1 por MCO utilizando nicamente a X 1 como
regresores o, en otras palabras, el modelo efectivamente estimado es
y = X 1 1 + .
(26)
siendo un vector de perturbaciones que luego se detalla. Usualmente esta situacin se da cuando X 2 son variables
no observables. La pregunta es Cules son las implicancias en el estimador MCO de 1 cuando se utiliza (26) en
lugar de la especificacin correcta (25)?
El estimador MCO en (26) es
b malo
X 1 0X 1
=
n
! 1
X 1 0y
n
X 1 0X 1
1 +
n
! 1
!
! 1
X 1 0X 2
X 1 0X 1
X 1 0
2 +
n
n
n
(27)
1
1
1 + Q 1
11 Q 12 2 + Q 11 E( x 1i i ) = 1 + Q 11 Q 12 2 .
En (27), la segunda igualdad se consigue al reemplazar y por su definicin en (25) el modelo correctamente
espeficado , mientras que el lmite probabilstico utiliza el teorema de Slutsky, la ley dbil de grandes nmeros y
las definiciones de las matrices Q i j , ver (21). La ltima igualdad se cumple bajo S1*, ver (22).
Dado que Q 11 es definida positiva, de (27) se concluye que b malo es inconsistente al menos que Q 12 = 0 (para
casos no triviales con 2 , 0): b malo es inconsistente si x 1i (las variables incluidas) est correlacionado con x 2i (las
variables omitidas). Ello ilustra lo que se conoce como el sesgo de variables omitidas.
c 2016, Diego Winkelried (Universidad del Pacfico)
Derechos reservados
Prohibida su reproduccin y distribucin fuera del Banco Central de Reserva del Per
42
Esta situacin alude a un problema de mucho inters en econometra: 1 no est identificado en (26).
Puede manipularse (27) para obtener la distribucin asinttica de b malo . Se tiene que
n(b malo
1 Q 1
11 Q 12 2 )
X 1 0X 1
n
! 1
! 1
!
X 1 0 X 1 0X 1
X 1 0X 2
Q 1
Q
+ n
11 12 2
n
n
(28)
N (0, 2Q 1
11 ) .
El segundo trmino a la derecha de (28) (aqul postmultiplicado por 2 ) converge en probabilidad a cero, mientras
que la distribucin asinttica proviene de aplicar el teorema de Cramr a (22).
Suponga ahora que se observa X 2 y se estima 1 basado en el modelo correctamente especificado (25). Por el
teorema de Frisch-Waugh-Lovell (p. 25),
b bueno
X 1 0M 2X 1
=
n
! 1
X 1 0M 2y
X 1 0M 2X 1
= 1 +
n
n
! 1
X 1 0M 2 p
1 ,
n
(29)
La ltima igualdad se cumple por (24). No sorprende verificar que MCO es consistente en el modelo correctamente
especificado. La distribucin asinttica de b bueno se consigue tras aplicar el teorema de Cramr a (24),
X 1 0M 2X 1
n(b bueno 1 ) =
n
! 1
X 1 0M 2 d
N (0, 2Q 1
1|2 ) .
n
(30)
Al comparar las distribuciones asintticas de b malo y la de b bueno se aprecia que la varianza asinttica del estimador
1
inconsistente es menor (Q 1
1|2 Q 11 ), lo que se explica porque b malo ignora la variabilidad proveniente de X 2 en
la estimacin. La pregunta es Es esto deseable? Es difcil establecer un ordenamiento concluyente en trminos
del error cuadrtico medio, ya que para el caso de b malo ste contiene un sesgo positivo (aumenta el ECM) y
una menor varianza (disminuye el ECM). Sin embargo, un estimador sesgado (inconsistente) con baja variabilidad
(asinttica) puede ser muy inconveniente para la inferencia. En trminos simples, b malo se podra encontrar centrado
lo suficientemente lejos de 1 al punto de que la poca variabilidad del estimador no permita que la distribucin
asinttica tenga informacin til sobre 1 , por ejemplo por tener intervalos de confianza angostos que incluso
podran no incluir a 1 .
3.2
Variables redundantes
Considere ahora el caso opuesto: en un modelo de regresin se incluyen ms regresores que los necesarios
(esencialmente, b malo pasa a ser b malo y vice versa). Es decir, en el modelo
y = X 1 1 + X 2 2 + ,
(31)
X 2 contiene variables redundantes o irrelevantes, que implica 2 = 0 en la poblacin. Para calcular el estimador
MCO de 1 utilizando la matriz completa de X , se acude al teorema de Frisch-Waugh-Lovell por lo que
! 1
! 1
X 1 0M 2y
X 1 0M 2X 1
X 1 0M 2X 1
X 1 0M 2 p
b malo =
= 1 +
1 + Q 1
(32)
1|2 0 = 1 .
n
n
n
n
El estimador MCO sigue siendo consistente incluso cuando el modelo estimado contiene variables redundantes. La
distribucin asinttica de b malo es idntica a la del estimador en (30),
d
n(b malo 1 ) N (0, 2Q 1
(33)
1|2 ) .
Note que en este caso el estimador definido en (27) es el estimador correcto. Sin embargo, dado que 2 = 0 en la
poblacin, su distribucin asinttica pasa a ser
(34)
43
La varianza asinttica de b malo es mayor que la varianza asinttica de b bueno : introducir variables irrelevantes
incrementa la dispersin del estimador MCO. Ello puede causar problemas de inferencia que si bien son
inconvenientes (el ECM podra incrementarse aceleradamente adems de dar la impresin en el extremo de
que ningn regresor es significativo), son en la prctica menos severos que lo inducido por la omisin de variables.
Ejercicios
E13
x i = i y V( i ) = 2i.
x i = i y V( i ) = 2 .
P
P
Ayuda: Recuerde que ni=1 i = n(n + 1)/2 y ni=1 i 2 = n(n + 1)(2n + 1)/6.
E14
Ayuda: b = ( n) 1 n(b ).
Suponga que
E15
Estimadores alternativos
para
i = 1, 2, . . . ,n ,
donde x i > 0 es una variable aleatoria escalar, se cumplen los supuestos S1 y S2. Considere los estimadores:
Pn
Pn
n
yi
1 X yi
i=1 x i yi
b = Pn 2 ,
.
b = Pni=1
y
b =
n i=1 x i
i=1 x i
i=1 x i
Muestre que estos estimadores son consistentes, encuentre sus distribuciones asintticas y establezca cul de ellos
es asintticamente ms eficiente.
E16
Mtodo delta
44
E18
Sobre el estimador s 2
0
+a.
n
p
na 0.
Estimador consistente de 2
p
p
donde b es cualquier estimador consistente, b (no necesariamente MCO bajo S1*), y m/n 1.
E20
Estimador consistente de
p
1X
2z i z i 0
(yi x i 0b)
E( i2z i z i 0 ) ,
n i=1
p
donde b es cualquier estimador consistente, b , y z i es cualquier vector (no necesariamente x i ).
Esboce una prueba como la de la seccin 2.2 (p. 40). Si gusta, asuma que z i es un escalar, y que existe alguna
constante C tal que | E( zi ) | < C, k E( zi x i ) k < C y k E( zi x i x i 0 ) k < C para todo > 0.
45
Pgina en blanco