Vous êtes sur la page 1sur 222

Versin impresa ISSN: 0716-7334

Versin electrnica ISSN: 0717-7593




PONTIFICIA UNIVERSIDAD CATLICA DE CHILE
INSTITUTO DE ECONOMA

Oficina de Publicaciones
Casilla 76, Correo 17, Santiago
www.economia.puc.cl






NOTAS DE CLASES
TEORA ECONOMTRICA

Raimundo Soto*


Trabajo Docente N 78










Santiago, Mayo 2010




















* rsoto@faceapuc.cl

Indice
1. Introduccin.....................................................................................................................................1.1
2. Teora de Probabilidades................................................................................................................2.1
2.01 Nocin de Probabilidad.................................................................................................2.2
2.02 Axiomatiacin de las Probabilidades.........................................................................2.3
2.03 !ariables Aleatorias........................................................................................................2."
2.0# $omentos de una %istribucin.................................................................................2.1#
2.0& %istribuciones %iscretas de 'so (om)n.................................................................2.1*
2.0+ %istribuciones (ontinuas de 'so (om)n...............................................................2.1,
2.0* %istribuciones (on-untas............................................................................................2.22
2.0" %istribuciones $ar.inales...........................................................................................2.22
2.0, %istribuciones (ondicionales.....................................................................................2.2#
A/0ndice A1 2-ercicios..........................................................................................................2.2+
3. 2lementos de In3erencia 2stadstica...........................................................................................3.1
3.01 $odelo /robabilstico4 modelo muestral y modelo estadstico ...............................3.1
3.02 2stadsticos muestrales...................................................................................................3.&
3.03 %istribucin de la media muestral................................................................................3.&
3.0# (aractersticas deseables de los estimadores en muestra 3inita................................3.+
3.0& 5mite de (ramer6Rao.....................................................................................................3."
3.0+ 2lementos de teora asinttica1 con7er.encia.............................................................3.,
3.0* 2lementos de teora asinttica1 leyes d0biles de .randes n)meros.......................3.1#
3.0" 2lementos de teora asinttica1 leyes 3uertes de .randes n)meros........................3.1"
3.0, Pro/iedades de los distintos ti/os de con7er.encia.................................................3.20
3.10 Teoremas del lmite central..........................................................................................3.21
3.11 %istribucin asinttica..................................................................................................3.2+
3.12 2stimacin asintticamente e3iciente 8m9ximo 7erosmil:.....................................3.2*
3.13 Tests de ;i/tesis...........................................................................................................3.32
3.1# Tres tests de ;i/tesis asintticamente e<ui7alentes...............................................3.3#
3.1& Test de ;i/tesis no anidadas......................................................................................3.3&
3.1+ (riterios in3ormacionales..............................................................................................3.3*
A/0ndice A1 2-ercicios..........................................................................................................3.#1
#. $odelo (l9sico de Re.resin 5ineal...........................................................................................#.1
#.01 5.ica del modelo de re.resin.....................................................................................#.2
#.02 An9lisis de los su/uestos del modelo de re.resin lineal..........................................#.2
#.03 Re/resentacin .r93ica de la re.resin lineal...............................................................#.*
#.0# %eri7acin del estimador de mnimos cuadrados......................................................#."
#.0& Pro/iedades del estimador de mnimos cuadrados en muestra 3inita...................#.12
#.0+ Tests de ;i/tesis en el modelo multi7ariado...........................................................#.1+
#.0* Tests de ;i/tesis y modelo restrin.ido.....................................................................#.21
#.0" Pro/iedades del estimador de mnimos cuadrados en muestra .rande................#.23
#.0, Trans3ormaciones de estimadores1 el m0todo %elta...............................................#.30
#.10 Prediccin........................................................................................................................#.30
#.11 $0todo .eneraliado de momentos...........................................................................#.32
A/0ndice A1 2-ercicios.........................................................................................................#.#0
(a/tulo & !iolacin de los Su/uestos del $odelo de Re.resin 5ineal
&.01 Problemas de 2s/eci3icacin I1 Re.resores Inadecuados.........................................&.2
&.02 Problemas de 2s/eci3icacin II1 (ambio de R0.imen..............................................&.+
&.03 Problemas de 2s/eci3icacin III1 %atos errneos..................................................&.13
&.0# Problemas de 2s/eci3icacin I!1 (olinealidad........................................................&.20
&.0& $odelos de !ariana No (onstante..........................................................................&.2*
&.0+ =eterocedasticidad........................................................................................................&.2"
&.0* (orrelacin de residuos................................................................................................&.3,
&.0" !ariables instrumentales..............................................................................................&.#&
A/0ndice A1 2-ercicios.........................................................................................................&.&#
(a/tulo +1 $odelos no lineales
+.01 2lementos de c9lculo num0rico....................................................................................+.1
+.02 >/timiacin no lineal....................................................................................................+.&
+.03 2stimacin de mnimos cuadrados no lineales...........................................................+.,
+.0# 2stimacin de 7ariables instrumentales no lineales.................................................+.12
+.0& No linealidad de la 7ariable de/endiente...................................................................+.13
+.0+ Inter/retacin de los /ar9metros de un modelo no lineal......................................+.1#
+.0* Tests de ;i/tesis...........................................................................................................+.1#
(a/tulo *1 $odelos con %atos de Panel.......................................................................................*.1
*.1 $odelo cannico de datos de /anel...............................................................................*.3
*.2 $odelacin con datos de /anel....................................................................................*.1+
*.3 $odelos de /anel din9micos.........................................................................................*.1"
*.# Tests de races unitarias en /anel..................................................................................*.22
Captulo 1
Introduccin
Without data all you are is just another person with an opinion (Annimo)
Facts are stupid things (Ronald Reagan, 1!")#
Con frecuencia en el estudio de la economa -y de la econometra en particular
se comete el error de empezar con el anlisis de modelos econmicos sin definir
previamente lo que se entiende por modelo y sin explicar por qu es importante
construir dichos modelos !ims "#$$%&
#
se'ala que los avances en ciencias naturales y en
(ran medida en economa) se refieren usualmente a descu*rimientos so*re nuevos
modos de comprimir datos con respecto a alg$n %enmeno con una m&nima p'rdida de
in%ormacin Considere el si(uiente e+emplo de la astronoma, -ycho .rahe "#/0%-#%1#&
acumul durante muchos a'os datos confia*les so*re los movimientos de los planetas
!u asistente2 3ohannes 4epler "#/5#-#%61&2 sin em*ar(o2 o*serv que podan ser
modelados como elipses con el sol en uno de sus focos2 lo(rando una nota*le
compresin de informacin
7
8os modelos en economa2 y en econometra en particular2 *uscan el mismo
o*+etivo, transmitir informacin so*re las re(ularidades que caracterizan a la economa
de modo eficiente "mxima compresin& y se(uro "menor prdida& 9ichas
re(ularidades al i(ual que en las ciencias naturales tienen nom*res ms *ien
pintorescos "pe2 ley de oferta y demanda2 propensin mar(inal a consumir& pero
poseen el atri*uto de (eneralidad que les hace particularmente :tiles, cuando se
menciona que un fenmeno queda razona*lemente descrito por una ecuacin de recta
"es decir un modelo&2 el auditor instruido inmediatamente deduce las propiedades de
dicho modelo y2 a la (e), sa*e que para cada situacin especfica en la que dicho
fenmeno se verifique ha*r una recta particular que le descri*e ;no de los primeros y
ms famosos econometristas <rancis =alton se'al que -he o*+ect of statistical science
is to discover methods of condensin( information concernin( lar(e (roups of allied facts
into *rief and compendious expressions suita*le for discussion "*n+uiries into ,uman
Faculty and its -e(elopment, >acmillan, 8ondon2#??62 pp//& @tra manera de ver el rol
de un modelo o teora es provisto por ! AaBCin( D theory is a (ood theory if it
satisfies tBo requirements, it must accurately descri*e a lar(e class of o*servations on
the *asis of a model that contains only a feB ar*itrary elements2 and it must maCe
definite predictions a*out the results of future o*servations "A .rie% ,istory o% /ime,
EeB ForC2 #$??& 9e*iera a'adirse que los modelos de*en cumplir una restriccin
adicional2 derivada de la cle*re sentencia de Gilliam de @ccam "#7?/-#60$& Hssentia
# C !ims2 >acroeconomics and >ethodolo(y2 0ournal o% 1conomic 2erspecti(es, #1 "Ginter&, #1/-#712 #$$%
7 9esilusionado con la incapacidad del modelo de Itolomeo "?/-#%/& para descri*ir la trayectoria de los
planetas2 Copernico enunci su teora heliocntrica en #/06 pero sin proveer soporte emprico al(uno 8a
contri*ucin de .rahe fue hacer mediciones precisas del movimiento de los planetas que hicieron posi*le
a 4epler la modelacin del fenmeno 8a superioridad del modelo de 4epler produ+o fuerte a(itacin
social pues la J(lesia la consider Kcontraria a las !a(radas HscriturasL Hl 7% de fe*rero de #%#/2 el
cardenal +esuita .ellarmino inici el +uicio contra =alileo e incluy los li*ros de Copernico -e
re(olutioni3us2 4epler 4ysterium cosmographicum2 y =alileo -iscorsi en el Jndice de 8i*ros Irohi*idos
donde permanecieron hasta #?6/
#7
non sunt multiplicanda praeter necessitatem2 es decir2 que los elementos de un modelo
no de*en ser aumentados ms all de lo necesario 8a simplicidad es un o*+etivo de la
modelacin
@*+etivamente2 los economistas a:n no somos capaces de desarrollar teoras que
sean capaces de descri*ir la enorme hetero(eneidad de los fenmenos econmicos
Mecientemente2 se ha desarrollado una lnea de investi(acin so*re la pre(unta de cules
son las formas2 causas2 y consecuencias de las comple+idad de los sistemas econmicos
Mosser "7110&
6
clasifica la comple+idad que enfrenta un a(ente econmico en tres reas
fundamentales Irimero2 comple+idad en la estructura dinmica y posi*lemente no
lineal de los fenmenos econmicos2 es decir2 el hecho frecuente que una peque'a
pertur*acin en un sistema econmico ten(a repercusiones y ramificaciones dinmicas
en la economa de (ran impacto "pe2 un cam*io en un precio clave de la economa como
la tasa de inters& !e(undo2 la comple+idad l(ica y computacional que enfrenta un
a(ente econmico al tomar una decisin cuando existe un (ran n:mero de mercados2
oferentes y demandantes Hn particular la nocin de equili*rio de los modelos
econmicos es muy comple+a, por e+emplo2 un equili*rio Galrasiano le exi(e al a(ente
econmico la computacin de un n:mero enorme de precios relativos2 el equili*rio de
Eash exi(e una (ran capacidad de anlisis l(ico para anticipar las reacciones de los
otros +u(adores frente a diferentes alternativas de decisin -ercero2 la comple+idad en la
aprehensin del fenmeno econmico2 es decir2 el pro*lema adicional al que el proceso
de aprehender la realidad econmica es2 en s2 tam*in muy comple+o y no puede ser
llevado a ca*o sin costos excesivamente altos
Dl pro*lema de la comple+idad se le suman las restricciones que enfrenta el
anlisis econmico en trminos de informacin so*re los fenmenos de inters y sus
causas -radicionalmente las ciencias naturales le han otor(ado poco valor al anlisis
pro*a*ilstico de los fenmenos Hllo se de*e a que muchos de dichos fenmenos pueden
ser replicados en la*oratorios *a+o condiciones experimentales controladas Hn la
mayora de los pro*lemas econmicos no resulta facti*le realizar un anlisis
experimental en circunstancias a*solutamente controladas Ior e+emplo2 no es posi*le
pedirle a un (rupo de individuos que vuelva a estudiar una carrera profesional para
estimar cmo ha*ra sido su perfil de in(reso en estas nuevas circunstancias Hn este
sentido2 los economistas usamos los datos disponi*les para in%erir pro3a3il&sticamente la
capacidad de una teora para comprimir informacin pertinente so*re un determinado
ms fenmeno o la con(ruencia con la que lo hace Dl(unas de las ramas de la fsica o la
qumica han adoptado recientemente el esquema metodol(ico de la economa, por
e+emplo2 la astronoma no cuenta salvo honrosas excepciones con muestras de
fenmenos de (ravitacin universal2 sino con un fenmeno :nico
0
8a fsica su*atmica
6 3 .arCley Mosser2 3r "7110& Hpistemolo(ical Jmplications @f Hconomic Complexity2 mimeo2
9epartment of Hconomics2 3ames >adison ;niversity
0 ! = 9+or(ovsCi reporta que el volumen de o*servaciones disponi*les en astronoma se do*la en
aproximadamente cada a'o y medio Hn cada noche2 se produce aproximadamente # -era*yte de datos
adicionales "equivalente a la coleccin completa de la *i*lioteca I;C& Hllo exi(e una modelacin
pro*a*ilstica de los datos Nirtual Dstronomy2 Jnformation -echnolo(y2 and the EeB !cientific
#6
no puede o*servar directamente un fenmeno sino sus efectos2 de los cuales de*e inferir
la validez de una hiptesis terica Hn am*os casos el anlisis es frecuentemente
pro*a*ilstico
Hs por estas razones comple+idad del fenmeno y restricciones de informacin
que la economa se *asa en el desarrollo y anlisis de modelos de comportamiento
validados empricamente mediante mtodos cuantitativos2 en especial2 los mtodos
economtricos que se discuten en lo si(uientes captulos
/
8a modelacin economtrica
propiamente tal comienza de manera si(nificativa a principios del si(lo OO con los
tra*a+os de los fundadores de la disciplina "=alton2 Iearson2 Eeyman2 <ischer2 <risch2
etc& que desarrollaron la *ase estadstica de (ran parte de los tests *sicos que se usan
en la actualidad Iero no fue si no hasta los a'os #$/1 que se masific el uso de modelos
economtricos como *ase del anlisis de polticas econmicas y para la verificacin de
diversos postulados tericos Hl (ran empu+e de mediados del si(lo OO proviene
principalmente del desarrollo de un fundamento terico slido para la econometra en
(eneral y para los modelos economtricos de (ran escala en particular Hstos :ltimos se
*eneficiaron de la aparicin de *ases de datos adecuadas "pe2 cuentas nacionales& y de
una creciente capacidad de computacin Hl xito de la econometra como *ase del
anlisis emprico es induda*le Ciertamente los modelos empricos cometern errores en
la descripcin de los fenmenos que nos interesa modelarP sin em*ar(o2 en este contexto
se aplica la cle*re frase del padre de la computacin Charles .a**a(e "#5$#-#?5#&
1rrors using inade+uate data are much less than those using no data at all
Hl dise'o de modelos analticos y sus contrapartidas empricas son2 en realidad2
dos caras de una ms moneda, el modo como avanza nuestro conocimiento es mediante
la continua contrastacin de teora y evidencia Hn trminos peda((icos2 sin em*ar(o2
en este li*ro nos ocuparemos principalmente de los modelos economtricos2 los cuales
sern desarrollados so*re la *ase de una serie de supuestos que nos permitirn derivar
estimadores que cumplen con requisitos de calidad y los tests estadsticos asociados a
dichos estimadores 8ue(o invalidaremos de manera paulatina dichos supuestos para
estudiar qu efectos tiene una violacin de uno o ms supuestos so*re las caractersticas
de dichos estimadores
Hl captulo 7 realiza una revisin de distintos elementos de pro*a*ilidades y
desarrolla con al(:n detalle el enfoque axiomtico de 4olmo(orov "#$66&
%
que es la *ase
de la estadstica moderna Hste enfoque ofrece una formalizacin axiomtica de la nocin
de pro*a*ilidad2 cuyas venta+as radican en proveer una teora completa "todas las
>ethodolo(y2 en 5omputer Architectures %or 4achine 2erception2 eds N 9i =esu Q 9 -e(olo2 JHHH press
"711/&
/ /he sciences do not try to e6plain, they hardly e(en try to interpret, they mainly ma7e models# .y a model is meant
a mathematical construct which, with the addition o% certain (er3al interpretations, descri3es o3ser(ed phenomena#
/he justi%ication o% such a mathematical construct is solely and precisely that it is e6pected to wor7 3ohn von
Eeumann
% 8rund3egri%%e der Wahrscheinlich7eitsrechnung, 1rge3nisse der 4athemati7 und ihrer 8ren)ge3iete2 3 !prin(er
eds #$66
#0
proposiciones de la teora se derivan de los axiomas&2 no-redundante "nin(:n axioma
puede ser derivado de otros&2 y con(ruente Hl o*+etivo es que el alumno ten(a una
slida *ase de anlisis pro*a*ilstico y2 ms importante a:n2 que pueda conectar los
distintos componentes de la teora de pro*a*ilidades con los componentes *sicos del
anlisis economtrico, entre ellos2 el experimento aleatorio2 las funciones de distri*ucin
con+unta2 condicional y mar(inal2 y la nocin de la independencia entre varia*les
aleatorias Hn particular2 esta seccin *usca que el estudiante entienda cmo los
econometristas enfrentan el pro*lema de la comple+idad del fenmeno que se desea
modelar
Hl captulo 6 usa la estructura anterior para enfrentar el se(undo pro*lema del
anlisis economtrico, la limitacin de informacin 8a principal adicin al modelo de
pro*a*ilidades desarrollado en el captulo 7 es la restriccin derivada del uso de
muestras estadsticas y la inevita*le necesidad de usar mtodos de inferencia estadstica
para emitir +uicios informados respecto de al(una hiptesis Hl captulo *usca que el
alumno entienda cmo se transforma la incertidum*re respecto de ms los resultados de
un experimento aleatorio en incertidum*re so*re los parmetros que caracterizan dicho
experimento2 y cules son las venta+as y limitaciones de dicha transformacin
Ddicionalmente2 se presenta la maquinaria de teora asinttica que ser fundamental en
el anlisis del modelo de re(resin lineal del si(uiente captulo
Hl captulo 0 desarrolla el modelo de re(resin lineal2 que ha sido una de las
principales herramientas de anlisis emprico de los economistas en los :ltimos #11 a'os
Hste modelo2 al que usualmente se le acopla el mtodo de mnimos cuadrados como
tcnica de parametrizacin2 permite enfrentar un n:mero muy (rande de pre(untas en
economa D la vez2 es suficientemente flexi*le como para permitir que2 en caso que no se
cumplan al(uno de los supuestos que le sustentan2 se desarrollen estimadores
alternativos simples y poderosos 8as propiedades de los estimadores de la familia de
mnimos cuadrados de*en ser estudiadas tanto en muestra peque'a "finita& como (rande
"infinita& para entender a ca*alidad el papel de los supuestos del modelo J(ualmente2 se
de*e estudiar las propiedades de los tests que se construyen a partir de dichos
estimadores de mnimos cuadrados2 para determinar ms su aplica*ilidad en
circunstancias prcticas <inalmente2 la tcnica de mnimos cuadrados no es la :nica
forma de parametrizar un modelo Hn el captulo se estudian dos alternativas adicionales
de (ran aplicacin prctica, el estimador de mxima verosimilitud y el mtodo
(eneralizado de momentos
Hn el captulo / se estudian los pro*lemas derivados de la violacin de los seis
supuestos so*re los cuales se desarroll el modelo de re(resin lineal en el captulo
anterior 8a l(ica de operar es directa, en primer lu(ar se estudia el efecto de la
violacin so*re los estimadores de mnimos cuadrados y los diferentes tipos de tests Hn
se(undo lu(ar2 propondremos2 si es posi*le2 al(una solucin2 examinando el contexto en
el que dicha solucin es vlida Hn tercer lu(ar2 se discuten los sntomas que delatan la
violacin de un supuesto y se desarrollan test formales de deteccin Ior razones
#/
peda((icas2 en este captulo se estudian los pro*lemas de manera aislada2 es decir2
afectando un supuesto a la vez
Hl captulo % extiende la tecnolo(a anterior al rea de los modelos no lineales
Hsta es una literatura muy extensa y2 posi*lemente2 aquella que se ha desarrollado con
mayor inters en los :ltimos a'os como resultado del veloz desarrollo de la
computacin 8a (ran mayora de los modelos no lineales se resuelven por medio de
mtodos de clculo numrico de*ido a que no existen formas cerradas que permitan
derivar expresiones matriciales simples para o*tener los estimadores Hn la primera
parte de este captulo se desarrolla el instrumental necesario para entender los mtodos
de optimizacin no lineal que se usan para la estimacin de modelos no lineales Hn la
se(unda parte se aplica dicho instrumental para derivar el estimador de mnimos
cuadrados no lineales y los tests asociados
Hl captulo 5 presenta una introduccin a los modelos de datos de panel Hstos
mtodos com*inan o*servaciones de corte transversal con o*servaciones de series de
tiempo Ds2 nos permiten responder pre(untas que no pueden ser respondidas por
modelos de corte transversal o series de tiempo por separado2 porque usan informacin
so*re una cohorte donde hay 9 individuos hetero(neos a los que se les o*serva
repetidamente durante un periodo de tiempo /
8a literatura de la econometra se expande de manera verti(inosa Ior ello2 no
tiene sentido intentar incluir un (ran n:mero de modelos2 tests2 estimadores y
al(oritmos de solucin Jnevita*lemente aparecern me+ores modelos2 tests ms precisos
y estimadores ms atractivos Hl o*+etivo del li*ro es proveer al estudiante de una *ase
slida para entender las nuevas contri*uciones que la econometra nos ofrece
Captulo 2
Teora de Probabilidades
1
Por qu necesitamos estudiar teora de probabilidades para analizar
observaciones o datos de la realidad? Por qu no nos contentamos con hacer
histogramas y usar medidas descriptivas? Supongamos que contamos con una muestra
de datos de un fenmeno de inters. Podemos hacer un grfico de frecuencias empricas
de los datos y derivar informacin !til.
Figura 2.1
Inflacin mensual en Chile, 19!"2!!#
"unque el grfico anterior describe adecuadamente la distribucin de una
muestra para la inflacin mensual en #hile en el periodo $%&'()''*+ los estadsticos
descriptivos estn confinados a dicha muestra. #ualquier pregunta respecto de la
poblacin de la cual se deriv la muestra no puede ser discutida. ,a esencia del traba-o
economtrico es+ en este sentido+ proveer resultados generales a partir de muestras cuya
informacin es limitada.
,a teora de probabilidades provee un modelo matemtico para la inferencia
estadstica que+ al realizarse sobre una muestra de observaciones+ permite estudiar
fenmenos generales. Por eso+ este captulo repasa la principal teora de probabilidades+
en tanto que el siguiente revisa los fundamentos de la inferencia estadstica clsica.
$ Probabilidad .documentado por primera vez en francs en $/01. viene del latn probabilis y significa
2que puede ser probado3.
).)
2.01 Nocin de Probabilidad
4l desarrollo de la nocin de probabilidad procedi de manera intuitiva y
asistemtica hasta mediados del siglo $&. ,a siguiente definicin de probabilidad .que
como veremos ms adelante es insuficiente. fue utilizada primero por "braham 5e
6oivre en $1$0
)
y formalizada por Pierre(Simn de ,aplace en $0$)
/
7
$ef. 2.17 Si un e8perimento puede resultar en N resultados mutuamente
e8cluyentes y equiprobables y si N
A
es uno de dichos resultados+ entonces
la probabilidad de A es7
P ( A)=
N
A
N
9).$:
4sta definicin tiene dos problemas bastante obvios. Primero+ se requiere que el
n!mero de posibles resultados sea finito. Segundo+ y ms importante+ al usarse el
concepto de 2equiprobable3 la definicin de ,aplace adolece de circularidad.
Por ello se necesita una definicin formal del concepto de probabilidad. ;ichard
von 6ises 9$%$%: sintetiza una primera solucin a los problemas anteriores+ se<alando
que la nocin de equiprobabilidad puede ser eliminada y+ en su reemplazo+ se puede
hablar de frecuencia emprica de los datos.
=
Para que sta sea de aplicacin general+ se
requerira7
lim
N
N
A
N
=P ( A) 9).):
"s+ por e-emplo+ la probabilidad que al lanzar una moneda salga cara no es >
porque 2de dos posibles eventos+ cara es uno de ellos3 sino porque al repetir el
e8perimento un n!mero grande de veces se observa que cara sucede un *'? de los
casos.
,as limitaciones del enfoque frecuentista son tambin obvias. 4ntre ellas+ qu
significa 2lmite cuando N tiende a infinito3? #mo generamos secuencias infinitas de
eventos? @u hacemos cuando no es posible generar secuencias arbitrarias de datos de
un e8perimento?
) ABhe probability of an 4vent is greater or less+ according to the number of chances by Chich it may
happen+ compared Cith the Chole number of chances by Chich it may either happen or fail.A The
Doctrine of Chances.
/ Thorie Analytique de Probabilits. ,aplace e8presa de forma sencilla el significado del clculo de
probabilidades7 A4n el fondo+ la teora de probabilidades es slo sentido com!n e8presado con n!merosA.
= 2Drundlagen der EahrscheinlichFeitsrechnung3+ Zeitschrift fr Ane!andte "athemati# und "echani#+
*7*)(%%.
)./
,o que se necesita es una teora de probabilidades con una slida base
matemtica. 4lla no estuvo disponible sino hasta los a<os $%/'.
2.02 Axiomatizacin de las Probabilidades
4l enfoque a8iomtico de probabilidades procede+ naturalmente+ de un con-unto
de a8iomas 9verdades a priori: y ofrece una formalizacin matemtica de la nocin de
probabilidad+ cuyas venta-as radican en ser completo 9todas las proposiciones de la
teora se derivan de los a8iomas:+ no(redundante 9ning!n a8ioma puede ser derivado de
otros:+ y congruente.
*
4l traba-o fundacional para la econometra clsica en esta rea es el
de "ndrei Golmogorov 9$%//:.
&
48isten otros traba-os fundacionales para la econometra
Hayesiana.
1
4l punto de partida es definir el e$perimento aleatorio+
0
que describe de manera
idealizada y simplista el mecanismo que genera los datos 9usualmente llamado proceso
enerador de los datos% PD5:. 4n particular7
$ef. 2.2% In e8perimento aleatorio+ llamado + es un e8perimento que satisface7
J. Bodos los posibles eventos resultantes son conocidos a&priori.
JJ. 4n cada realizacin particular+ el resultado no es conocido a&priori.
JJJ. Se puede repetir en idnticas condiciones.
In problema con la condicin J es que es difcil de formalizar. Golmogorov
sugiere utilizar el con-unto ' que contiene todos los posibles resultados de un
e8perimento definidos antes de empezar el e8perimento. "s+
* #on frecuencia se traduce errneamente la palabra 2consistency3 por 2consistencia3. 4l trmino correcto
es congruencia 9del ,atn+ coincidir:+ aunque el uso popular es ine8acto como pasa con otras palabras
9p.e.+ sofisticado:.
& (rundberiffe der )ahrscheinlich#eitsrechnun% *rebnisse der "athemati# und ihrer (ren+ebiete+ K. Springer
eds. $%//.
1 ;. B. #o8+ The Alebra of Probable ,nference+ Kohns LopFins Iniversity Press+ Haltimore+ 65+ 9$%&$:.
0 4l trmino 2aleatorio3 se populariz a raz del traba-o de #hristiaan Luygens 9De -atiociniis in .udo
Aleae+ $&*1: sobre el clculo de probabilidades en -uegos de dados 9aleae en latn:. "unque se considera
que este es el primer libro de probabilidades de la historia+ hay un libro anterior de Dirolamo #ardano
9.iber de .udo Aleae+ $*&=: que est a mitad de camino entre manual de cmo apostar y libro de
probabilidades. Luygens fue adems un famoso astrnomo7 descubri la luna ms grande de Saturno .
Bitn. y sus anillos 9en $&**: y la nebulosa de Mrin 9en $&*&:.
).=
$ef. 2.&7 4l espacio muestral+ llamado '+ es el con-unto de todos los posibles
resultados del e8perimento . ,os elementos de ' se llaman 2eventos
elementales3.
Por e-emplo+ el e8perimento que consiste en lanzar una moneda al aire dos veces
tiene como espacio muestral7 CC , CS , SC , SS . ,os elementos CC% C'% 'C% '' son los
eventos elementales.
Por otro lado+ al e8aminar la condicin JJ notamos que el evento de inters no
tiene por qu ser !nicamente referido a eventos elementales y podra ser una funcin de
ellos. Por e-emplo+ el evento 2al menos una cara3 define el con-unto A
1
=CC , CS , SC +
que no es un evento elemental.
4n esta lgica de definir con-untos 9 A
1
+ los eventos elementales+ etc.:+ resulta
natural incorporar los dos elementos clsicos de los con-untos7 el elemento vaco es en
este conte8to el evento imposible 9denotado por :+ en tanto que el mismo con-unto ' es
llamado el evento seuro.
In tercer problema es la nocin de incertidumbre implcita en la definicin de .
4s directo asociar probabilidad con evento elemental y+ si slo e8istieran stos+ no sera
problema usar dicha asociacin. ,a e8istencia de eventos no elementales complica el
problema porque si A
1
es un evento que ocurre con P ( A
1
) + entonces A
1
=SA
1

tambin ocurre con alguna probabilidad cuando ocurre A
1
. 5e hecho si e8isten dos
eventos+ A
1
y A
2
+ se deduce que A
1
A
2
y A
1
A
2
tambin ocurren. 4ntonces+
habr que imponer alguna estructura sobre dichas probabilidades con el fin que el
modelo matemtico sea congruente.
Ina alternativa sera usar el con-unto de todos los posibles A
i
y todas sus
combinaciones y relaciones 9es decir+ el con-unto potencia de ':. 4n el e8perimento de
lanzar la moneda dos veces ste incluira+ aparte de los eventos elementales+ eventos
tales como 2que salga al menos una cara3+ 2que no salgan dos sellos3+ etc. "s+ el
con-unto potencia de este e8perimento es7
={S , , CS , CC , SC , SS ,
(SC , CS) , (SC , CC) ,( SC , SS) ,
(CS , CC ) ,(CS , SS) ,(CC , SS) ,
(CS , SC , CC) ,(CS , SC , SS) , (CC , SS , SC) , (CC , SS , CS)}
9)./:
5e esta manera incluiramos en el espacio de los eventos+ + todas las posibles
alternativas. 5e hecho+ no importa cmo combinemos los elementos de siempre
obtenemos un elemento de .
).*
No obstante+ cuando ' es infinito es posible observar incongruencias 9p.e.+ suma
de probabilidades mayor que $:.
%
"s+ debemos definir independientemente de ' o+ lo
que es lo mismo+ debemos dotarlo de estructura matemtica.
$ef. 2.'7 Sea un con-unto de sub(con-untos de '. es un O(lgebra
$'
si
dado A entonces A 9cerrado para el complemento:
dado A
i
(i =1, 2, .) entonces U
i
A
i
9cerrado para uniones contables o
enumerables:
"mbas propiedades -untas implican que7
S 9porque AA=S :
9porque S= :
A
i
entonces U
i
A
i

5icho de manera ms simple+ cualquier operacin 9unin o interseccin: de
elementos de produce un elemento de . Mbviamente el con-unto potencia de ' es un
O(lgebra. In resultado fundamental para nuestro anlisis posterior de convergencia es
que un O(lgebra contiene todos los lmites de secuencias de eventos+ en tanto que un
lgebra no necesariamente los contiene. 4sta propiedad se deriva del hecho que el O(
lgebra es cerrado para uniones contables+ en tanto que un lgebra es cerrado para
uniones finitas solamente.
Lasta aqu hemos resuelto el problema de incongruencias al postular la
e8istencia de un O(lgebra asociado con un espacio muestral ' 9este par constituye un
espacio medible:. 4l !ltimo paso en la estrategia de Golmogorov consiste en definir el
concepto de probabilidad formalmente+ para lo cual se usa el Beorema de 48tensin de
#onstantin #aratheodory y la nocin de medida de Lenri ,ebesgue
$$
. 4mpezamos
primero con el caso ms simple+ en el cual ' es finito.
% 4-emplo+ S=A
1
, A
2
, . tal que A
1
A
2
= i j y P ( A
i
)=a >0 + entonces
P (S)=
i =1

P( A
i
)=
i =1

a >1
.
$' "lgebra viene del ttulo de un libro rabe ./isab al 0abr !1al muq2balah. escrito en 0)* por "bu KaPfar
6uhammad ibn 6usa "l(GhCarizmi 9de donde se deriva 2algoritmo3:. 5e acuerdo a ,n 3ho4lsat al&
/is4h 94sencia de la "ritmtica: escrito por Heh 4ddin en $&''. Al&5abr significa posiblemente 2reunin
de partes quebradas3 9es decir+ completacin:+ en tanto que al&"uq2balah significa 2reduccin o
balanceo3. 4l ttulo se refiere a las operaciones de suma y resta necesarias para mantener balanceada una
ecuacin y resolverla.
$$ Qer Probability Theory+ S.;.S. Qaradhan+ #ourant ,ecture Notes R1+ "merican 6athematical Society+ )''$.
).&
$ef. 2.#7 Probabilidad es una funcin con-unto en que satisface los siguientes
a8iomas7
"8ioma $7 P ( A)0 para todo A .
"8ioma )7 P (S)=1 .
"8ioma /7 P (U A
i
)=2P( A
i
) si A
i
es una secuencia de eventos
mutuamente e8cluyentes en 9e8cluyentes significa que A
i
A
j
= i j :.
4s decir+ probabilidad es una 2funcin con-unto3 con dominio en y rango en el
intervalo S'+ $T7
P ( ): -| 0, 1 9).=:
,a probabilidad es una medida en el sentido de ,ebesgue. 6edida es una funcin
definida para un O(lgebra del con-unto U y que toma valores en el intervalo S'+ VT tal
que se cumplen dos propiedades7 9$: la medida del vaco es cero y 9): se cumple la
aditividad contable 9O(aditividad:+ es decir+ si tenemos una secuencia de con-untos
dis-untos+ la medida total es la suma de las medidas individuales.
4s conveniente notar que el a8ioma ) opera simplemente como una
normalizacin.
,os dos primeros a8iomas calzan tanto con la definicin clsica de ,aplace como
con la frecuentista. 4l tercero es menos intuitivo+ pero se resume en que la probabilidad
de la unin de eventos no relacionados es la suma de las probabilidades individuales.
5ebido a su importancia+ el tro ( S , , P ( )) tiene un nombre particular7
$ef 2.7 In espacio muestral ' dotado de un espacio de eventos o O(lgebra y
una funcin de probabilidades que satisface los a8iomas $ a / se llama
espacio de probabilidades.
"lgunas propiedades interesantes de esta teora de probabilidades son7
P (

A)=1P ( A) A
P (1)=0
Si A
1
A
2
P ( A
1
) P( A
2
) A
1,
A
2

P ( A
1
A
2
)=P( A
1
)+P ( A
2
)P ( A
1
A
2
)
).1
Si A
n

n=1

es una secuencia de eventos montona 9ordenada: en + entonces


P (lim
n
A
n
)=lim
n
P ( A
n
) .
$)
In problema evidente de la construccin de probabilidades hecha de esta
manera es que no puede usarse para enfrentar fenmenos con 2infinitos eventos3. Por
e-emplo+ cmo le asignamos probabilidades al caso en que se tiran dos dados un
n!mero infinito de veces? Naturalmente+ no podemos escribir el con-unto potencia como
en la ecuacin 9)./:. 5e hecho+ una pregunta crucial es si es posible construir una funcin
que cumpla con las caractersticas que se le e8ige a la funcin de probabilidades cuando
hay infinitos eventos. Isaremos dos elementos para e8tender el anlisis al caso en
cuestin7 el teorema de e8tensin de #arathodory y los lgebras de Horel.
In lgebra de Horel corresponde al siguiente con-unto. Supongamos que ' es la
recta de los reales = x : x y que el con-unto de eventos de inters es
J =B
x
: x donde B
x
=z : z x =(, x ] . 4s decir+ el con-unto 5 incluye todos los
intervalos de reales menores o iguales a $. Podemos construir un O(lgebra en ?
Isando la definicin de O(lgebra debisemos partir de B
x
+ luego a<adir su
complemento B
x
+ e incluir todas las uniones enumerables de B
x
y B
x
. #on ello
tendramos el mnimo O(lgebra generado por los eventos en B
x
+ llamado c( J ) . 4ste
es un con-unto verdaderamente grande+ pues incluye todos los $+ todos los (, x ] +
todos los (, x ) + todos los (x , ) + y todos los 9$%+: tal que estn ordenados+ $6+. 4sta
lgebra es llamada lgebra de Horel+ B, y permite incluir cualquier tipo de eventos+ sean
o no elementales+ en .
13
4l teorema de e8tensin de #onstantin #arathodory prueba que para cualquier
medida de probabilidad P9.: en el lgebra puede e8tenderse de manera !nica al O(
lgebra generado por los reales. Note que esta medida e8tendida es !nica. ,a prueba de
este teorema e8cede los ob-etivos del curso.
Si aplicamos el teorema de e8tensin de #arathodory al lgebra de Horel+
entonces podemos dotar de una medida a cualquier con-unto de eventos. Si esta medida
es la medida de probabilidad definida ms arriba+ podemos dotar de estructura de
probabilidades a cualquier con-unto de eventos+ pero al costo de generar lgebras
verdaderamente comple-as.
$) Isaremos esta propiedad frecuentemente ms adelante.
$/ ,os con-untos de Horel tambin se denominan con-untos de Haire 9$01=($%/):.
).0
2.03 Variables Aleatorias
4n la seccin anterior hemos construido el enfoque a8iomtico de probabilidades
sobre la base del tro ( S , , P ( )) . "hora usaremos este enfoque para estudiar
variables+ probabilidades de eventos y+ al final+ modelacin de incertidumbre. 4l espacio
de probabilidades fue sugerido como una formalizacin .un tanto rgida. de un
e8perimento . Jntuitivamente la cone8in entre los tres elementos queda descrita en la
Wigura ).).
4videntemente+ es difcil pensar en funciones de probabilidades a partir de la
Wigura ).). Labra que tabular todos los elementos de y luego construir un sistema
congruente de P ( ) .
Figura 2.2
Si los resultados del e8perimento fuesen descritos directamente por medio de
atributos cuantificables+ entonces tendramos un enfoque mucho ms fle8ible que
( S , , P ( )) . 4so es+ por lo dems+ lo que sucede usualmente en economa. 4se es el
papel que -uegan las variables aleatorias.
,a variable aleatoria es una funcin 7 que mapea el con-unto ' directamente en
los reales+ + es decir7
X( ) : S -
+
9).*:
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)

S
S
F
P( )
0 1
).%
y asigna a cada elemento de ' un valor en los reales positivos+ x
i
. Drficamente+ el
con-unto de eventos 2obtener sellos al lanzar dos monedas3 corresponde a7
Figura 2.&
,a pregunta que nos preocupa es+ obviamente+ si esta variable aleatoria es capaz
de mantener la congruencia del anlisis de probabilidades al haber eliminado . ,a
respuesta+ no muy sorprendentemente+ es no. ,as probabilidades fueron asignadas a
eventos en + en tanto que U asigna valores a elementos de S.
"s el problema radica en cmo escoger 7 tal que al asignar valores de ' en se
preserve el orden impuesto en + es decir+ que preserve uniones+ intersecciones y
complementos. 4llo es equivalente a pensar en que la 9imagen: inversa de 7 debe ser un
evento en . 5e esta manera+ una variable aleatoria ser cualquier funcin que preserve
el ordenamiento de los eventos para un O(lgebra determinado+ usualmente el lgebra
de Horel+ B
$ef. 2.(7 Ina variable aleatoria 7 es una funcin que toma valores reales y que
mapea de ' a y que satisface la condicin que para cada con-unto de
Horel H B en + el con-unto X
1
( B)={ s : X(s ) B , s S } es un evento
en .
(CC)
(CS)
(SC)
(SS)
S
0 1 2

X( )
).$'
"lgunas implicaciones importantes de la definicin anterior son7
Ina variable aleatoria est siempre definida relativa a un espacio de eventos+ .
"l decidir si alguna funcin Y ( ) : S es una variable aleatoria procedemos
siempre de los elementos del espacio de Horel B al espacio de eventos+ y no
viceversa.
Ina variable aleatoria no es 2variable3 ni 2aleatoria3.
Note que la pregunta 2es Z( ) : S - una variable aleatoria?3 no tiene ning!n
sentido si no se especifica el espacio de eventos asociado. 4n algunos casos habr Z
que es una variable aleatoria para algunos y no para otros.
$=
Para estos !ltimos
siempre se puede general el mnimo O(lgebra+ tomando uniones+ intersecciones y
complementos. 4s directo demostrar que estos mnimos O(lgebras no tienen por qu
calzar con + pero que frecuentemente son subcon-untos de ste.
"dicionalmente+ si X
1
y X
2
estn definidos para un mismo espacio de
probabilidades y definimos operaciones con ellos+ por e-emplo+ Z=X
1
+X
2,
entonces
los mnimos O(lgebras generados por estas variables aleatorias son subcon-untos
ordenados de 7
c( X
1
)c(Z)
4n trminos prcticos+ este !ltimo argumento sugiere que al estudiar una
variable aleatoria nos estamos concentrando en una parte 9el O(lgebra asociado: del
e8perimento completo .
Note que la variable aleatoria no es XaleatoriaY en el sentido que la nocin de
probabilidad no entra en su definicin sino que se le asigna para completar el modelo
del e8perimento aleatorio. Z tampoco es una variable+ sino que es una funcin de valor
real.
#omo vemos+ la definicin 2popular3 de variable aleatoria 9p.e.+ Dreene
$*
usa
8unci9n cuyo rano de :alores es conocido e$&ante pero el :alor que toma es s9lo conocido e$&
post; esconde la verdadera naturaleza de la variable aleatoria+ porque menoscaba el
concepto de funcin incluido en la definicin y enfatiza el de variable.
;ecapitulando+ una variable aleatoria 7 relativa a mapea ' en un subcon-unto
de la lnea de los reales. 4l espacio de Horel B en -uega el papel que antes ocupaba .
$= 4sto no es tan e8tra<o7 en un e8perimento en el que hay hombres y mu-eres+ el gnero es una variable
aleatoria. Pero si slo seleccionamos hombres o mu-eres+ el gnero ya no es una variable aleatoria.
$* *conometric Analysis+ Prentice Lall+ Bercera 4dicin+ $%%1+ p. &).
).$$
Walta+ por lo tanto+ asignarle probabilidades a los elementos ) de B + es decir+ definir
una funcin7
P
x
( ) : B-| 0,1
tal que P
x
(B)=P ( X
1
(B))P (s : X(s )B , s S) para todo ) en B.
Note que no es necesario definir todos los elementos de )+ porque cada uno de
sus elementos puede ser escrito como un intervalo semi(cerrado del tipo 9(V+$T. "s+
eligiendo los intervalos de manera adecuada+ podemos construir fcilmente la funcin
de probabilidad de 7. Por e-emplo+ en el caso del lanzamiento de dos monedas descrito
en el #uadro ).$.
Cuadro 2.1
' X
1
X
2
X
[#+#\ $ $ )
[#+S\ $ ' $
[S+#\ ' $ $
[S+S\ ' ' '
las probabilidades son simplemente7
P
8
9['\:]^ P
8
9[$\:]> P
8
9[)\:]^
P
8
9['\ [$\:]_ P
8
9['\ [)\:]> P
8
9[$\ [)\:]_ P
8
9['\ [$\ [)\:]$
P
8
9['\`[$\:]' P
8
9['\`[)\:]' P
8
9[$\`[)\:]' P
8
9['\`[$\`[)\:]'
Note que no es necesario asignarle a cada elemento de la recta real una
probabilidad sino que definimos el problema por intervalos7
P
x
( (, x ])=
|
0 x0
0 x1
1x2
1 2 x

9).&:
).$)
;ecapitulando+ empezamos con un e8perimento
$&
definido en el espacio de
probabilidades ( S , , P ( )) y luego hemos definido la variable aleatoria U definida en
un espacio de probabilidades equivalente 9 + B + P
x
( ) :. ,a venta-a de este !ltimo es
que es ms fcil mane-ar 2elementos en la recta real3 que 2elementos en con-untos
arbitrarios3. Drficamente7
Figura 2.'
,o !ltimo que falta es definir apropiadamente P
x
( ) . Lasta el momento esta
funcin sigue siendo arbitraria en un subcon-unto de los
<
+ pero lo que se requiere es
una 2funcin punto3 9es decir+ que mapee punto a punto:. ;ecordemos que todos los
elementos del espacio de Horel pueden ser descritos como intervalos 9aV+ $T lo que
permite definir la funcin ! : -| 0,1 de la siguiente manera7
P
x
((, x ])=! ( x)! ()=! ( x) 9).1:
$& Bal vez el nfasis en la nocin de e8perimento pueda parecer e8agerada. ;.". Wisher nos ofrece una
contundente visin de la importancia del dise<o del e8perimento 2To call in the statistician after the
e$periment is done may be no more than as#in him to perform a postmortem e$amination= he may be able to say
!hat the e$periment died of 9Jndian Statistical #ongress+ SanFhya+ $%/0:.
(CC)
(CS)
(SC)
(SS)
(CC)
(CS)
(SC)
(SS)
(CS,SC,CC)
(CS,SC,SS)
(SS,CC)

S
S
F
P( )
0 1
0 1 2 0 1 2 0 1
P
x
( )

B
).$/
y como los intervalos son ordenados+ debemos e8igir que ! ( ) sea no decreciente+
continua y con m8imo igual a $. 4s decir+ lim
x -
! ( x)=1 . 4sta funcin es la que
llamamos funcin de distribucin7
$ef. 2.*% Sea U una variable aleatoria definida en ( S , , P( )) . ,a funcin punto
W7 bS'+$T definida por7
! ( x)=P
x
(( " , x ])=P# (X x ) x X
se llama 8unci9n de Distribuci9n de $ y cumple7
! ( ) es no(decreciente
! ()=lim
x-
! (x )=0 ! ()=lim
x -
! ( x)=1
! ( ) es continua por la derecha
Por qu preferimos ! ( ) a P ( ) o a P
x
( ) ? ,a principal venta-a de ! ( )
es que sta es una funcin punto que se puede representar de manera algebraica+ que es
el mane-o habitual que le damos a las funciones de distribucin.
Labr dos tipos de variables aleatorias7
Qariables aleatorias discretas 9e-7 robos:7 aquella cuyo rango
c
es+ por
convencin+ alg!n subcon-unto del con-unto de los enteros.
Qariables aleatorias continuas 9e-7 ingresos familiares:7 aquella para la cual su
funcin de distribucin ! ( x) es continua para todo $ y e8iste una funcin
no(negativa $ ( ) en la recta real tal que7
! ( x)=

x
$ ( x)%x
donde $ ( ) es llamada la 8unci9n de Densidad de $.
).$=
2.04 Momentos de una Distribucin
4l valor esperado de una variable aleatoria se define como el promedio de las
realizaciones de U ponderado por su probabilidad de ocurrencia.
$1
&| x=

x $ (x )=j
x
para toda funcin U discreta 9).0:
&| x=

x
x
x $ ( x) %x=j
x
para toda funcin U continua
Note que la esperanza 9media: no tiene que ser un valor que la variable aleatoria
puede tomar cuando sta es discreta. Por e-emplo considere el siguiente problema7 usted
recibe d$ por cada punto que salga al tirar un dado numerado de $ a & 9d$ si sale $+ d) si
sale )+ etc:. cunto es lo ms que est dispuesto a pagar por -ugar una vez? 4l valor
esperado del -uego es+ naturalmente+ d/.*.
Mtros descriptores comunes del 2valor central3 de una distribucin son la
mediana que es el valor 2del medio3 del rango de valores de la distribucin y se usa
principalmente cuando hay valores e8tremos+ pues a diferencia de la esperanza no se ve
tan influida por stos. #uando se trata de variables discretas ocasionalmente se usa la
moda+ que es el valor que ocurre con mayor probabilidad. No tiene una aplicacin
interesante en variables continuas pues su definicin es arbitraria.
6s all del valor esperado+ se utiliza frecuentemente7
Qarianza de una distribucin ' (x )=&| x&(x )
2
es decir+ es el valor
esperado de la dispersin de la variable aleatoria.
SFeCness de una distribucin S (x )=&| x&(x )
3
es decir+ es el valor esperado
de la asimetra de la variable aleatoria.
Gurtosis
$0
de una distribucin ( ( x)=&| x&(x )
4
es decir+ es el valor
esperado de las colas de la distribucin de la variable aleatoria.
$1 4n estricto rigor debisemos usar f>$; para variables aleatorias continuas y p>$; para discretas. Para evitar
un e8ceso de notacin+ usaremos slo f>$; entendiendo la naturaleza de cada una dependiendo del
conte8to que se trate.
$0 3urtosis+ del griego #urtos+ encorvado+ curvo. Gurtosis fue usado por primera vez por Garl Pearson en
$%'* en su traba-o A5as Wehlergesetz und seine Qerallgemeinerungen durch Wechner und Pearson. "
;e-oinder+A ?iometri#a+ =+ $&%()$). 4n ese traba-o se acu< adems los trminos leptoFurtica 9lepto
significa flaco: para distribuciones concentradas alrededor de la media y con colas largas:+ platyFurtica
9platy significa gordo:+ para distribuciones con colas flacas+ y mesoFurtica 9colas normales:.
).$*
Para describir la distribucin de una variable aleatoria resulta ms efectivo usar
los llamados momentos
$%
de la distribucin 9esperanza+ mediana+ moda+ varianza+
sFeCness+ Gurtosis+ etc.:+ los cuales pueden ser 2brutos3 o 2centrados3. In momento no
centrado de la distribucin de $ tendr la forma genrica &| x
)
en tanto que un
momento centrado es de la forma &|

xj
x

)
. ;esulta natural preguntarse si e8iste
alguna forma de generar estos momentos de la distribucin. ,a funcin generatriz de
momentos provee una manera elegante de obtener los momentos de una distribucin7
$ef. 2.9% ,a funcin generatriz de momentos de una variable aleatoria .
posiblemente vectorial. 7 se define como7
)(* )=&| +
* , x
=

+
* , x
%! ( x) 9).%:
donde t es el con-unto de vectores no aleatorios para los cuales la funcin generatriz de
momentos e8iste y es finita en la vecindad de * =0 9es decir+ e8iste ->0 tal que para
-* - e8iste &| +
* . x
.
,a funcin generatriz de momentos provee+ como su nombre indica+ una manera
simple de generar todos los momentos de una distribucin. 4n el caso univariado+ se
puede e8pandir la ecuacin 9).%: usando una e8pansin de 6c,aurin para obtener 9el
resultado es general:7
) (* )=&| +
* , x
=&|1+*x+
*x
2
2/
+
*x
3
3/
+...
=1+*&| x +
*
2
2 /
&| x
2
+
*
3
3 /
&| x
3
+...
9).$':
es decir+ el trmino que acompa<a a
*
i
i /
es un momento no(centrado de la distribucin
de $. "hora+ tomando derivadas con respecto a t de la e8presin 9).$': evaluadas en
* =0 tenemos7
$% "omento .que fue utilizado inicialmente por NeCton para designar el 2cambio infinitesimal de una
variable3 9De @uadraturaa Cur:arum+ $1'=:. fue introducido en estadstica por Pearson en $0%/+ en su
tratamiento de la media de la curva de frecuencia como el centro de gravedad entre la curva y el e-e
horizontal 92"symmetrical Wrequency #urves3+ Nature+ Mctober )&th+ $0%/:.
).$&
c)(* =0)
c*
= &| x
c
2
)(* =0)
c*
2
=&| x
2
+*0.
9).$$:
5e esta manera podemos generar los momentos de la distribucin de una
variable aleatoria si sta e8iste. "lgunas propiedades interesantes de esta funcin son
)
xj
=&| +
xj
=+
j*
)
x
(* ) si 1 es constante.
)
x+ 2
=&| +
x+ 2
=)
x
(* ))
2
(* ) si $ y y son variables aleatorias independientes.
Si las variables son acotadas la funcin generatriz de momentos siempre e8iste y
es finita. Sin embargo+ para una distribucin como la #auchy esto no se cumple. Si $ se
distribuye7
$ (x )=
1
n(1+x
2
)
9).$):
la funcin generatriz de momentos es7
) (* )=

+
*x
$ ( x) %x =
|
si * 0
1 si * =0

9).$/:
Ina solucin a este problema consiste en modificar la funcin generatriz de
momentos para obtener la funcin caracterstica+ reemplazando t en la ecuacin 9).%: por
it donde i =.1 . Naturalmente+ esta es la transformacin de Wourier de la funcin
generatriz de momentos. "s+
(* )=&| +
i* , x
9).$=:
Se puede demostrar que dos variables aleatorias son idnticas si tienen igual
(* ) . Para ilustrar el uso que se le da a este tipo de funcin+ consideremos la
distribucin Normal7
).$1
$ (x )=
1
.
2 nc
2
+
( xj)
2
2c
2
9).$*:
"plicando la transformacin de la ecuacin 9).$=:+ tenemos
(* )=
1
.2nc
2

+
i* , x
( xj)
2
2 c
2
%x =+
(i* j1/ 2c
2
*
2
)
1
.2 nc
2

+
( xji c
2
* )
2 c
2
%x
9).$&:
4s posible+ aunque tedioso
)'
+ demostrar que

+
( xji c
2
* )
2 c
2
%x =
.
2 nc
2
+ por lo
que se deduce que la funcin caracterstica de la normal es simplemente7
(* )=+
( i* j1 /2 c
2
*
2
)
9).$1:
,a funcin caracterstica describe completamente la distribucin que+ en este
caso+ depende de la media j y la varianza c
2
. ,a funcin es simtrica alrededor de j
y si j=0 su valor es real 9de otro modo tiene componentes imaginarios:. 4n particular+
si j=0 + la funcin caracterstica de la normal es
(* )=+
1 /2 c
2
*
2
.
2.05 Distribuciones Discretas de so !om"n
Supongamos que el e8perimento tiene dos posibles resultados '][8ito+
fracaso\ y que tienen probabilidades p y A&p+ respectivamente7
48ito 8]$ P98]$: ] p
Wracaso 8]' P98]': ] 9A&p;
4n $1$/ se public el libro Ars Con0enctandi que sintetiza los descubrimientos de
Kacques Hernoulli 9$&*=($1'*: sobre matemticas .en particular+ probabilidades. entre
)' Para demostrar este resultado recuerde que +
i*x
=cos(*x )+i sin(*x ) .
).$0
las cuales se encuentra la distribucin 9o descripcin: de los datos del e8perimento
anterior7
$ (x )=3
x
(13)
(1x)
x=0,1
=0 n c!"l#!i$ o%$o c"so
9).$0:
#omo el mismo Hernoulli se encarg de demostrar+ si el e8perimento se repite n
veces se obtiene la distribucin 2binomial3
)$
$ ( 2 )=
(
n
2
)
3
2
(13)
( n 2)
9).$%:
donde
(
n
2
)
=
n /
(n 2 ) / 2 /
.
Lay muchas otras distribuciones discretas !tiles. 4ntre ellas est la descubierta
por Poisson en $0/1 como el lmite de la binomial cuando n y 3 0 + tal que np es
constante.
))
$ (x
i
4 0)=
+
0
0
i
x
x
i
/
9).)':
)$ Hernoulli gratuitamente asigna el descubrimiento de la binomial con e8ponente entero a Pascal. NeCton
provee la descripcin para e8ponente racional pero no la prueba+ que fue provista tiempo despus por
4uler. 4l nombre 2distribucin binomial3 fue acu<ado por D.I. Zule en An ,ntroduction to the Theory of
'tatistics 9$%$$+ p. /'*:.
)) S.5. Poisson 9$10$($0=': di-o7 2,a vida es buena para slo dos cosas7 descubrir matemticas y ense<ar
matemticas3.
).$%
2.0# Distribuciones !ontinuas de so !om"n
4n muchos e8perimentos en economa no puede suponerse que las variables
aleatorias de inters sean discretas+ por lo que se utilizan funciones continuas.
+a distribucin normal. Si n + la e8presin de la binomial es poco prctica. 5e
6oivre
)/
encuentra la funcin de densidad que resulta en este caso7
$ (z )=
1
.2n
1
c
+
(z&( z))
2
2 c
2
9).)$:
es decir+ la distribucin normal
)=
. 4sta distribucin es la base de muchos tests y
procedimientos de estimacin que usaremos en este curso.
+a distribucin normal est,ndar. ,a distribucin normal se estandariza fcilmente7
si z N(j , c
2
) x=
z j
c
N(0,1) 9).)):
+a distribucin Chi cuadrado. 4sta distribucin deriva de la distribucin normal.
si x N(0,1) 2=x
2
56 (1) 9).)/:
Ina propiedad de esta funcin es que sumas de variables que se distribuyen ef
tambin se distribuyen ef7
si x
1
56 (1) 2 x
2
56 (1) entonces 2 =x
1
+x
2
56 ( 2) 9).)=:
)/ 5e 6oivre descubri en $1// esta distribucin y la incluy en su libro The Doctrine of Chance de $1**.
,aplace e8tendi y generaliz este resultado en $0$) 9Theorie Analytique de Probabilits:+ por lo que el
resultado se conoce como Beorema de 5e 6oivre y ,aplace.
)= 4l nombre de la distribucin normal parece haber sido acu<ado en los a<os $01' independientemente
por #harles S. Peirce 9-eport to the B' Coast (uard+ $01/:+ Eilhelm ,e8is 9Theorie der "assenerscheinunen
in der menschlichen (esellschaft+ $011: y Wrancis Dalton 9Typical .a!s of /eredity+ $011:. 5e los tres+ Dalton
fue el ms influyente y populariz el nombre de curva normal a partir de su libro Natural ,nheritence
9$00%:.
).)'
+a distribucin F
2#
si 2 56 ( )) 2 7 56 (n ) x=
2 / )
7 /n
! ( ) , n) 9).)*:
+a distribucion -t. de /tudent
2
si z N(0,1) 2 7 56 (n ) x=
z
.7 / n
* (n ) 9).)&:
+a distribucin de Cauch0 est,ndar
2(
si X
1
2 X
2
N( 0,1) in%+3+n%i+n*+s , z =
X
1
X
2
$ (z )=
1
n
1
(1+z
2
)
9).)1:
+a distribucin logstica
2*
! (z )=|1++
za
8

1
9).)0:
,a Wigura ).* se<ala la relacin que hay entre las distintas funciones de
distribucin.
)* ,a distribucin 8 fue tabulada en $%/= por D. E. Snedecor en 2#alculation and Jnterpretation of
"nalysis of Qariance and #ovariance3. "unque a veces se le llama distribucin 8 de Snedecor+ la letra 8
que la designa fue escogida en homena-e a Wischer que us una distribucin muy similar llamada +.
)& AStudentA fue el seudnimo que us Eilliam Sealy Dosset 9$01&($%/1: en su traba-o de $%'0 ABhe
Probable 4rror of a 6eanA+ ?iometri#a+ &7$()*. Dosset le escribi a ;. ". Wisher+ AJ am sending you a copy
of StudentPs Bables as you are the only man thatPs ever liFely to use themgA.
)1 ,a paternidad de la distribucin de #auchy es discutible. "lgunos se la atribuyen sobre la base de una
notas presentadas a la "cadmie de Sciences en $0*/+ pero no publicadas. S. 6. Stigler se<ala que
Poisson ya haba estudiado la distribucin en $0)=.
)0 "l parecer+ el primero en usar el trmino 2logstica3 fue 4dCard Eright 9ca. $**0($&$*:+ aunque es
posible que se refiriese a una funcin logartmica y no a la distribucin logstica propiamente tal. ,a
derivacin formal se debe a P.W. Qerhulst 9$0=*:7 2,a ,oi dP "ccroissement de la Population3+ Nou:eau$
"emoirs de lCcadmie -oyale de 'ciences et ?elles&.ettres de ?ru$elles+ $0+ $(*%.
).)$
Figura 2.#
).))
2.0$ Distribuciones !on%untas
4s posible que dos 9o ms: variables puedan ser descritas por una funcin de
probabilidades con-unta
P (ax8 4 0 2% )=

a x8

0 2%
$ (x , 2 )
=

a
8

0
%
$ ( x , 2 )%x%2
9).)%:
4l ob-etivo principal de las ciencias sociales y la economa en particular es
describir 9i.e.+ modelar: distribuciones con-untas. ,a distribucin con-unta permite
asignar probabilidades de ocurrencia a fenmenos econmicos multidimensionales+ es
decir+ nos permite modelar la relacin entre variables que es lo que caracteriza el anlisis
econmico. 4s importante notar que de la e8istencia de una distribucin con-unta no se
deriva que e8ista una relacin causal o de dependencia entre las variables. Simplemente
verifica la e8istencia de eventos que suceden simultneamente+ lo que no implica que no
pueda e8istir alguna relacin entre ellos.
2.0& Distribuciones Mar'inales
Suponiendo que e8iste la densidad con-unta de dos o ms variables+ resulta
natural preguntarse7 qu probabilidad tiene $ 9o y: de ocurrir+ independientemente de
los valores que tome la o las otras variables y 9o $:?
4s decir+ tomamos la distribucin con-unta y sumamos sobre todos los posibles
valores de 2la o las otras variables3. 4n un caso de dos variables7
$
x
(x )=

2
$ (x , 2)

=

2
$ ( x , 2)%2
9)./':
"sociadas a la distribucin marginal habr+ naturalmente+ una esperanza
marginal+ varianza marginal+ etc.
).)/
5e la e8istencia de las distribuciones marginales se deriva el concepto de
independencia estadstica7 2'i la densidad con0unta es el producto de las marinales% las
:ariables son independientes3. 4l siguiente e-emplo utiliza el concepto de independencia
estadstica de un modo interesante.
Isando variables independientes resulta directo demostrar la utilidad de la
funcin generatriz de momentos. Suponga que $ e y son variables aleatorias
independientes normales+ entonces el proceso + D $<y cumple la siguiente propiedad7
)
x
(* )=+
j
x
* +
c
x
2
*
2
2
)
2
(* )=+
j
2
* +
c
2
2
*
2
2
)
x+ 2
(* )=+
j
x
*+
c
x
2
*
2
2
+
j
2
* +
c
2
2
*
2
2
=+
(j
x
+j
2
)* +
(c
x
2
+c
2
2
) *
2
2
es decir+ + se distribuye como una normal con media j
x
+j
2
y varianza (c
x
2
+c
2
2
) .
Parado1a del Che2alier de 3ere
4n una carta de Pascal a Wermat 9)%h'1h$&*=: se presenta el siguiente problema
propuesto por el Sr. de 6r+ un noble francs que se apasion por los -uegos de azar.
4mpricamente+ de 6r observ que la probabilidad de sacar al menos un & en =
lanzamientos de un dado es ms que >+ en tanto que la probabilidad de sacar dos & en
)= lanzamientos es menor que >. 4n su razonamiento+ de 6r concluy que ambas
debian ser iguales7 & es a = como /& es a )=.
Naturalmente+ la probabilidad de obtener un & en $ lanzamiento de un dado es
$h&. 5ebido a que los eventos son independientes+ la probabilidad de obtener un & en n
lanzamientos es 9$h&:
n
. "s+ la probabilidad de no obtener $ seis en = lanzamientos es
9*h&:
n
+ por lo que la probabilidad de obtener al menos $ seis en = lanzamientos es $(
9*h&:=]'.*$11. Por otro lado+ y usando un razonamiento similar+ la probabilidad de
obtener un doble & en $ lanzamiento de dos dados es $h/&. Nuevamente+ por
independencia estadstica+ la probabilidad de obtener un doble & en n lanzamientos de
dos dados es 9$h/&:
n
+ por lo que la probabilidad de no obtener $ doble seis en n
lanzamientos es 9/*h/&:
n
. Winalmente+ la probabilidad de obtener al menos $ doble seis
en )= lanzamientos es $(9/*h/&:
)=
]'.=%$=. 5e 6r estaba en lo correcto desde el punto
de vista emprico pero su razonamiento era errneo.
).)=
2.0( Distribuciones !ondicionales
Para ciencias sociales+ la distribucin ms interesante es la condicional+ es decir
aquella que describe cul es la probabilidad que ocurra y condicional en que $ tome
alg!n cierto valor y que denotamos por $ ( 2 &x) .
Se puede demostrar que $ ( 2 &x)=
$ (x , 2 )
$
x
(x , 2 )
. Para ello+ definiremos primero la
nocin de probabilidad condicional. Supongamos que en el e8perimento de tirar dos
monedas+ sabemos que el primer tiro fue cara. #ambia esta informacin la estructura de
probabilidades? Primero+ note que ahora el espacio de eventos se reduce a '
A
][[##\+
[#S\\. Por lo tanto+ el O(lgebra asociado a '
A
es ahora
A
=, S, CC , SS .
4ntonces+ tienen que cambiar las probabilidades P ( ) + siendo ahora7
P
"
9[ \:]' P
"
9['
A
\:]$ P
"
9[##\:] > P
"
9[#S\:] >
4l conocimiento a&priori que 2ya sali una cara3 nos lleva del espacio de
probabilidad ( S , , P ( )) al espacio de probabilidad condicional (
S
A
,
A
, P
A
( )
) .
5efiniremos la probabilidad condicional como7
P
A
( A
1
)=P( A
1
& A)=
P ( A
1
A)
P ( A)
9)./$:
si y slo si P ( A)>0 . Si ahora escogemos A
1
=X
1
(S)x
1
.de forma anloga a como
definimos la funcin de densidad. obtenemos la Wuncin de 5ensidad #ondicional que
describimos ms arriba.
;esulta clave entender que la media condicional de y en $+ &| 2 &x + es
e8actamente el concepto de una regresin lineal en econometra. Suponga que el
e8perimento puede ser descrito por la siguiente relacin7 2
i
=x
i
+c
i
con c
i
una
variable aleatoria llamada ruido blanco+ cuyas caractersticas son &| c=0 y
09: | c
i
, c
j
=c
2
para iD0 y ' en todo otro caso. 4ntonces &| 2 & x=x .
In segunda propiedad interesante se deriva al aplicar el operador varianza
condicional al modelo anterior. In poco de lgebra permite obtener7
' | 2 &x=&| 2
2
& x( &| 2 &x )
2
9)./):
4sta es la funci9n ced4stica.
).)*
5e la ecuacin 9)./): y usando la ley de las esperanzas iteradas
&| 2 =&
x
| &| 2 &x + se puede obtener la siguiente e8presin 9denominada
descomposicin de varianza: ' | 2 ='
x
| &( 2 &x ) +&
x
| ' ( 2 &x ) . 4sta e8presin
indica que la variacin total de los datos puede ser entendida .o descompuestai como
la variacin de la media condicional ms la variacin de las realizaciones alrededor de la
media condicional. 5e esta descomposicin se desprende que7
&
x
|' ( 2 &x ) =' | 2 '
x
| &( 2 &x ) 9).//:
es decir+ la incertidumbre asociada a la prediccin hecha sobre la base de una regresin
es menor que aquella de los datos.
)%
Bambin se define la bondad de a-uste de una regresin como la relacin entre la
varianza de la media condicional 9es decir+ modelada: respecto de la varianza total del
fenmeno7
;
2
=
'
x
| &( 2 &x )
' | 2
9)./=:
Note que la bondad de a-uste depende de la media condicional+ es decir+
depende como se modele la media condicional. 4llo pone lmites al uso de la bondad de
a-uste como instrumento de seleccin de modelos economtricos.
6s adelante volveremos a revisar conceptos tales como funcin cedstica+
bondad de a-uste+ media condicional+ etc. en el conte8to del modelo de regresin lineal.
4s importante+ a estas alturas+ comprender que dichos conceptos no se restringen al
mtodo de mnimos cuadrados+ sino que son de aplicacin general.
)% Nuevamente+ 2*rrors usin inadequate data are much less than those usin no data at all3 9#. Habbage:.
).)&
A)*ndice A+ ,%ercicios
$. 5 un e-emplo de un e8perimento en economa que pueda ser descrito por una
distribucin normal+ para las cuales usted estim su media y varianza. Kustifique
cuidadosamente cada uno de sus pasos.
). Isando la definicin de O(lgebra asociado a '+ demuestre que el evento seguro y
el evento imposible pertenecen al O(lgebra asociado.
/. " la luz de la a8iomatizacin de Golmogorov de las probabilidades+ critique la
siguiente definicin de variable aleatoria7 8unci9n cuyo rano de :alores es conocido
e$&ante pero el :alor que toma es s9lo conocido e$&post.
=. Jdentifique las principales limitaciones de las definiciones de probabilidad clsica
9de 6oivre+ $1$0: y frecuentista 9von 6ises+ $%$%:. 48plique cmo el enfoque
a8iomtico de probabilidades de Golmogorov 9$%//: da cuenta de dichas
limitaciones.
*. 4n el e-emplo )./ del te8to+ es A=SC , CS un O(lgebra?
&. Ise la siguiente distribucin con-unta f98+y: para demostrar que aunque la
correlacin entre $ e y es cero+ no son independientes7 f9($+$:]f9'+': ] f9$+$: ] .
1. #onsidere la distribucin con-unta Z>"A% ,PC;% donde "A es el dinero y ,PC un
ndice de precios. ,a distribucin marginal del dinero es normal con media

x y
varianza unitaria+ en tanto que la distribucin marginal del ndice de precios es
tambin normal con media

2 y varianza igual a c . Ise la funcin caracterstica


para encontrar la distribucin de Z+ suponiendo que ambas variables son
independientes.
0. Sea una muestra de n observaciones con distribucin
$ ( 2 )=|n(1+ 2
2
)
1
.
5emuestre que el valor esperado no e8iste. 48iste su varianza?
%. 5emuestre que el coeficiente de correlacin es invariante ante transformaciones
lineales 9afines: de los datos. 4s decir+ si #
1
y #
2
son los coeficientes de
correlacin de los datos 2
n
, x
n
para las transformaciones (a+8x
i
4 0 +%2
i
) +
i]$ ... n+ con a% b% c% y d constantes no(negativas conocidas+ entonces es cierto que
#
1
=#
2
.
$'. #onsidere una variable aleatoria [$\ con distribucin normal de media j y
desviacin estndar O. 4ncuentre c .en funcin de la esperanza y la varianza. tal
que P (x0 )=2nP( x 0 )
).)1
$$. Suponga que tiene una muestra con $.''' datos que provienen de una normal
con media y varianzas desconocidas 9j y Of:. Suponga que un cuarto de los datos
es menos de ) y que tres cuartos de ellos son menores a =. Mbtenga una e8presin
para estimar j y Of.
$). Si la funcin de densidad de y es o 2
2
(1 2 )
3
para y definido entre ' y $7 qu
n!mero es y cul es la probabilidad de que y est entre ' y >?
$/. #onsidere el sorteo Gino
/'
9que e8cluye el super n!mero: como un e8perimento
aleatorio su-eto a la siguiente regla7 4n la cartilla de -uego+ usted debe escoger 1
n!meros+ que se eligen ambos de entre /' alternativas. Si acierta a los 1 n!meros+
ya gan el pozo Gino. 9Note que en cada sorteo se sacan 1 n!meros de $ a /' sin
reemplazo.:
5escriba el espacio muestral+ S.
5escriba el O(lgebra asociado a S.
#ompute la probabilidad de ganar si el e8perimento es sin reemplazo.
4s la probabilidad que Isted comput congruente con la informacin que
entrega la ,otera en la misma pgina Ceb? Jnformacin adicional7 Sorteos
realizados a la fecha7 %))+ Danadores con 1 aciertos7 ='.
$=. Suponga que usted debe reorganizar el poder -udicial creando un sistema de
incentivos que promueva eficiencia y ecuanimidad. Lay seis tipos de -ueces
9honestos+ deshonestos+ ineptos+ eficientes+ flo-os+ traba-adores: y cada -uez slo
tiene dos de estos atributos. Se desea estimar cuntos -ueces deben ser
removidos. #onsidere que hay n -ueces+ pero usted slo puede estudiar dos
-ueces cada da+ los que permanecen incgnitos 9muestra con reemplazo:.
#onstruya el modelo probabilstico que describe el fenmeno. 5efina
claramente el e8perimento aleatorio y el espacio de probabilidades.
#onstruya el modelo muestral asociado.
5etermine un criterio de remocin razonable. cmo podra estimar cuntos
-ueces hay que remover?
$*. 4l psiclogo BversFy y sus colegas observan que cerca de 0'? de las personas
preferirn la respuesta 9a: a la siguiente pregunta7 *n un pueblo hay dos hospitales.
*n el rande nacen unos EF niGos cada daH en el chico% AF. Aunque a ni:el nacional la
proporci9n de hombres es FIJ% en cada hospital y en cualquier da dicha proporci9n
puede ser m4s o menos que FIJ. Al final del aGo% Kcu4l de los dos hospitales tendr4 el
mayor nLmero de das en los que dicha proporci9n es m4s que MIJN >a; el hospital
rande% >b; el hospital chico%y >c; ninuno >el nLmero de das ser4 iual;. Puede usted
decir por qu la gente se equivoca tanto al responder?
/' 2JPve heard that the government Cants to put a ta8 on the mathematically ignorant. Wunny+ J thought
thatPs Chat the lottery Casg3 Dallagher
Captulo 3
Elementos de Inferencia Estadstica
Es muy cierto que cuando no est en nuestro poder determinar lo que es verdadero,
debemos actuar de acuerdo a lo que es ms probable.
R. Descartes, Discurso del Mtodo, 1637
En el captulo anterior hemos discutido la estructura axiomtica de las
probabilidades que ser la base del anlisis de inferencia estadstica. Resulta natural
preguntarse por qu es necesario inferir.
1
Despus de todo si tenemos un con!unto de
obser"aciones podemos describirlas usando alguna funci#n de probabilidad o en el
peor de los casos usando un histograma.
3.01 Modelo probabilstico, modelo muestral y modelo estadstico
$a l#gica de ra%onar hasta ahora ha sido la siguiente. &tili%amos el enfoque
axiomtico de probabilidades para formali%ar el concepto de eperimento aleatorio ' (
definido en el espacio de probabilidades ( S , , P( )) . $a incertidumbre respecto del
resultado particular del experimento se resume en P ( ) . )ara e"itar la rigide% de esta
formali%aci#n utili%amos un espacio equi"alente ' B P
x
( ) ( en el que definimos
"ariables aleatorias . Escogiendo apropiadamente los e"entos asociados a de la forma
(, x] podemos construir una funci#n punto que describa congruentemente la
probabilidad de ocurrencia de los e"entos en * que llamamos la funci#n de
distribuci#n F ( ) +
P( s: X ( s)(, x ] , s S)=P
x
(, x ]=F ( x) ',.1(
Esta funci#n puede ser simplificada * hecha a-n ms flexible con la a*uda de la
funci#n de densidad la que cumple F ( x)=

x
f (u)du . $a "enta!a de usar f (u) es que
ella puede ser descrita de manera algebraica. Esto nos permite sustituir la incertidumbre
asociada al experimento por incertidumbre respecto de los parmetros 0 que dentro
de una familia de formas funcionales identifican una funci#n de densidad especfica a la
que denominamos f ( x ,0) .
1 .nferir "iende del latn inferre que significa causar o lle"ar en s. El sentido popular de extraer una
conclusi#n es probablemente del siglo 1/.
,.0
1inalmente definimos el modelo probabil!stico 1= f ( x; 0) , 0O a la familia de
funciones paramtricas de probabilidad 'p.e. normal )oisson etc.( que se usa para
describir las obser"aciones . 2e presume que el "ector de parmetros 0 pertenece al
espacio de los parmetros O 'tpicamente un m-ltiplo de la recta real(.
$a intuici#n es directa+ dado un con!unto de obser"aciones cuando se postula
un modelo probabilstico que las describa basado en una distribuci#n f ( x ,0) se ha
eliminado la incertidumbre respecto del "erdadero mecanismo que genera los datos
')3D( reempla%ndola por incertidumbre respecto de la parametri%aci#n adecuada de
la funci#n f ( x ,0) .
El ob!eti"o de la inferencia estadstica es precisamente identificar * hacer tests de
hip#tesis sobre aquel 0
*
que con alg-n criterio sea elegido para que f ( x ,0
*
) describa
adecuadamente los datos. )ara la inferencia se usarn datos de corte trans"ersal de
series de tiempo o una combinaci#n de ambos tipos de datos que llamamos datos de
panel.
4ote la importante diferencia entre la descripci#n de datos * la inferencia
estadstica. $a descripci#n de las obser"aciones puede ser hecha por medio de funciones
de distribuci#n escogidas a su "e% mediante el anlisis de la frecuencia de los datos. )or
su lado la inferencia estadstica pretende identificar 'aproximarse( el mecanismo que
genera los datos '* no los datos mismos(. Es decir el ob!eti"o de la inferencia es hacer un
modelo general.
$a inferencia estadstica parte de la base que existe un modelo probabilstico
1= f ( x; 0) , 0O al que se le a5ade un segundo modelo llamado modelo muestral
que es el que pro"ee la conexi#n entre el modelo probabilstico * las obser"aciones. )ara
ello definiremos primero algunos conceptos necesarios+
Def. 3.1 &na muestra es un con!unto de "ariables aleatorias ( x
1
, x
2
,.) cu*as
funciones de densidad coinciden con la funci#n de densidad f ( x ,0)
postulada por el modelo probabilstico.
4ote que este significado est le!os del uso cotidiano de la palabra muestra en
particular porque no se refiere a datos obser"ados. De la definici#n se deduce que una
muestra en el sentido coloquial 6una colecci#n de n-meros6 en realidad corresponde a
una de las muchas posibles reali%aciones del con!unto de "ariables aleatorias que
componen la muestra. $a muestra es entonces un segundo experimento dise5ado para
complementar el experimento descrito por el modelo probabilstico.
7s dado que la muestra es un con!unto de "ariables aleatorias ella deber tener
una distribuci#n+
,.,
Def. 3.2 $a distribuci"n de la muestra x=( x
1
, x
2
,., x
n
) se define como la
distribuci#n con!unta de la "ariables aleatorias x
1
, x
2
, ., x
n

denominada por+
f (x
1
, x
2
,., x
n
; 0) f ( x ; 0) ',.0(
4ote que la distribuci#n muestral inclu*e dos elementos+ la informaci#n respecto
de la probabilidad * aquella sobre la muestra. 8abr por tanto dos fuentes de
incertidumbre. 7s la forma que tome f ( x ; 0) depende crucialmente del muestreo. $a
manera ms intuititi"a de pensar en el muestreo se deri"a del mismo experimento
aleatorio .
Resulta con"eniente discutir la naturale%a de las muestras para identificar
algunas de sus caractersticas * ms importante a-n para saber el tipo de informaci#n
contenida en ellas.
Def. 3.3 &n con!unto de "ariables aleatorias x
1
, x
2
, ., x
n
es llamado una
muestra aleatoria de tama#o n de f ( x ; 0) si dichas "ariables aleatorias
pro"ienen de una misma distribuci#n 'poblaci#n( * son independientes
i.i.d. En este caso la muestra queda descrita por+
f ( x
1
, x
2
,., x
n
; 0)=

i=1
n
f ( x
i
; 0)=
|
f ( x
i
; 0)

n
',.,(
$a primera igualdad pro"iene de la noci#n de independencia estadstica
que *a "imos * la segunda de la condici#n que las "ariables estn
distribuidas idnticamente.
9uando las "ariables aleatorias no se distribu*en idnticamente la muestra es
llamada muestra independiente * su distribuci#n es f (x
1
, x
2
, ... , x
n
; 0)=
i =1
n
f (x
i
; 0) . 2i las
"ariables aleatorias tampoco son independientes la muestra es llamada muestra no
aleatoria * la -nica descripci#n posible de la funci#n de probabilidad que di# origen a las
obser"aciones es la distribuci#n condicional f ( x
i
| x
1
, x
2
, ... , x
n
; 0)=
i =1
n
f (x
i
| x
1
, x
2
, ... ; 0) .
$a combinaci#n de los modelos probabilstico * muestral permite definir el
modelo estadstico que ser la base de todo el anlisis economtrico que se desarrolla
posteriormente+
,.:
Def. 3.4 &n modelo estadstico se define como aquel que inclu*e+
un modelo probabilstico 1= f ( x; 0) , 0O
un modelo muestral x=( x
1
, x
2
,., x
n
)
;b"iamente los dos modelos estn interrelacionados pues no resulta ra%onable
suponer un modelo del tipo 1= f ( x; 0) , 0O si la muestra no es aleatoria. En tal
caso habra que proponer un modelo para la distribuci#n con!unta
1= f ( x
1
, x
2
,., x
n
; 0) , 0O .
El modelo estadstico * los datos obser"ados nos permiten responder "arios tipos
de preguntas+
1. <Es el modelo estadstico postulado congruente con los datos= Este tipo de
pregunta es tambin conocido como anlisis de especi$icaci"n del modelo
%
.
0. 2uponiendo que el modelo estadstico es congruente con los datos <qu
podemos inferir de los parmetros=
a( <)odemos reducir la incertidumbre sobre 0 reduciendo el espacio de
parmetros O a O
0
donde O
0
es un subcon!unto de O= $lamada re&i"n de
con$ian'a de la estimaci"n.
b( <)odemos reducir la incertidumbre sobre 0 escogiendo un "alor particular
en O 6llamado

0 6 que sea el ms representati"o de 0 = Estimaci"n punto.


c( <)odemos responder la pregunta si 0 pertenece a alg-n subcon!unto de O=
Esta es una amplia rea de anlisis colecti"amente denominada prueba de
(ip"tesis.
,. 2uponiendo que hemos escogido

0 <qu podemos inferir de las siguientes


obser"aciones del mecanismo generador de datos= Esta rea 6predicci"n> es una
de los principales ob!eti"os del anlisis economtrico.
0 El hombre me!or dotado plantea mal el problema que no comprende 1ulcanelli )as Moradas
*iloso$ales 1?0?.
,.@
3.02 Estadsticos muestrales
2obre la base del modelo estadstico * de los datos obser"ados podemos
construir estad!sticos definidos como+
Def. 3.5 &n estadstico es una funci#n de Aorel tal que q( ): X donde B es
el espacio de las obser"aciones. 4ote que q( ) no depende de
parmetros desconocidos.
Existen bastantes estadsticos de uso com-n entre ellos la media muestral
definida por
x=
1
n

i
x
i
* la "arian%a muestral
Var | x=
1
n1

i
|
x
i

2
. En trminos
generales una parte sustancial del anlisis economtrico se reali%a sobre la base de
estadsticos. Debido a que stos son funciones de "ariables aleatorias deberemos deri"ar
sus distribuciones cosa que usualmente no es fcil.
)odemos generali%ar la definici#n de estadstico para el caso multi"ariado
haciendo+
Def. 3.5' q
m
( ) : X
m
m1 donde q
m
( ) es una funci#n "ector.
3.03 Distribucin de la media muestral
2i x
1
, x
2
, ., x
n
es una muestra aleatoria extrada de una poblaci#n con media
j * "arian%a c
2
entonces

x es una "ariable aleatoria con media j * "arian%a c


2
/ n .
$a demostraci#n es directa la intuici#n tambin+

x=
1
n

i
x
i
',.:(
entonces
E|

x=
1
n

i
j=j
Var | x=
1
n
2
Var |

i
x
i
=
1
n
2

i
c
2
=
c
2
n
',.@(
,./
4ote que la "arian%a de la suma con"erge a cero cuando n . Este resultado
es intuiti"o pues la media muestral tiene que con"erger a la media de la poblaci#n
cuando la informaci#n muestral se aproxima a la poblaci#n. 4#te adems que estos
resultados no dependen de ning-n supuesto de distribuci#n de las "ariables aleatorias .
3.0 Caractersticas deseables de los estimadores en muestra finita
Debido tanto a nuestro inters por aproximarnos al proceso generador de datos
con precisi#n * eficiencia como al ob!eti"o de responder al tipo de pregunta planteado
ms arriba tendremos que estudiar para cada estadstico algunas caractersticas
deseables. 7unque no son las -nicas caractersticas las dos ms importantes son+
Estimador insesgado E|

0=

0 f (

0) d

0=0
Estimador eficiente Cenor V |

0 posible
4aturalmente no puede esperarse que todos los estimadores sean insesgados *
de "arian%a mnima. )or ello es usual preguntarse si para un determinado problema es
preferible tener un estimador con sesgo pero eficiente o insesgado pero ineficiente. &n
criterio posible para e"aluar este trade+o$$ es estudiar la estructura del error cuadrtico
medio E,M, que se define como+
ECM=E|(0

0)
2
=Var | 0+(sesgo|

0)
2
',./(
$a existencia de un trade+o$$ nos hace usualmente preguntarnos si existe alg-n
estimador que sea #ptimo 'es decir insesgado * de "arian%a mnima(. Aa!o ciertas
condiciones el estimador de mxima "erosimilitud resulta ser #ptimo.
9onsideremos que tenemos una muestra de n obser"aciones de la "ariable
aleatoria tal que sus componentes son independientes e idnticamente distribuidos.
9omo se5alamos si cada dato "iene de f ( x
i
,0) la distribuci#n con!unta de la muestra
es+
=f ( x
1
, x
2
,., x
n
;0)=

i=1
n
f ( x
i
;0)=| f ( x ; 0)
n
',.D(
donde es llamada la funci#n de "erosimilitud. Esta funci#n mide la probabilidad que
los datos que disponemos "engan de un mismo modelo probabilstico.
,.D
El estimador de mxima "erosimilitud ser aquel 0
*
que hace mxima la
probabilidad que los datos pro"engan de f ( x ,0) . Este estimador es formidable en el
sentido que posee cuatro caractersticas importantes+ es insesgado es de "arian%a
mnima es asint#ticamente normal * es in"ariante para transformaciones afines. Cs
adelante desarrollamos in extenso este estimador estudiando sus propiedades * las
condiciones necesarias para su existencia.
E!emplo+
2upongamos que los datos son tomados independientemente *
corresponden a robos de billeteras por mes en el campus 2an Eoaqun. $a
muestra B es+ F0G,:1,G0,:,@H. 2i creemos que la distribuci#n de
probabilidades que me!or representa los datos es alguna de la familia de la
)oisson. Entonces+
f ( x
i
; 0)=
e
0
0
i
x
x
i
!
En este caso particular la funci#n de "erosimilitud es+
f ( x
1
, x
2
,., x
12
; 0)=

i =1
12
e
0
0
i
x
x
i
!
=
e
120
0

i=1
10
x
i

i=1
12
x
i
!
=
e
120
0
30
358,318,080
)odemos optimi%ar la ecuaci#n anterior pero resulta ms fcil
optimi%ar el logaritmo de la funci#n de "erosimilitud *a que ste es una
transformaci#n mon#tona. Entonces
log f ( x
1
, x
2
,., x
12
; 0)=120+30 log0log 358,318,080
Auscamos aquel 0 que hace ms probable que los datos "engan de
una )oisson. $o que se resuel"e de manera elemental mediante clculo para
obtener

0=2,5 . 2e debe comprobar que la segunda deri"ada sea negati"a


para asegurar que

0 es un mximo.
,.I
3.0! "mite de Cramer#$ao
3
2uponiendo que la funci#n de densidad satisface ciertas restricciones 6que
estudiamos ms adelante6 la "arian%a de un estimador lineal insesgado de un
parmetro 0 es ma*or o igual a+
:
| I
n
(0)
1
=
(
E
|

2
ln (0)
0
2
)
1
=
(
E
|(
ln (0)
0
)
2
)
1
',.I(
&n estimador que alcan%a este lmite inferior es llamado completamente
eficiente. El in"erso de la cota de 9ramerJRao es llamado n-mero informacional de
1isher * se le designa por I
n
(0) . $a ecuaci#n anterior requiere que se cumpla el
teorema de $indberg * 1eller que *a "amos a estudiar * demostrar. En palabras
sencillas las condiciones requeridas para que sea "lido son+
El con!unto de e"entos que cubre la funci#n de probabilidad no depende de 0 .
)ara cualquier parmetro 0 las deri"adas de la funci#n de "erosimilitud existen
* en particular las segundas deri"adas son finitas.
)or e!emplo el lmite 9rmerJRao en el e!emplo de la )oisson sera+

2
log (0)
0
2
=

i
x
i
0
2
=
n0
0
2
',.?(
$a utilidad del lmite de 9rmerJRao es que si alg-n estimador insesgado alcan%a
dicho lmite entonces ste ser #ptimo * no ser necesario buscar otro. 4ote que en el
caso multi"ariado I (0) es una matri% con "alores fuera de la diagonal posiblemente
distintos de cero.
&n segundo concepto relacionado de gran utilidad es el de estadstico suficiente.
.ntuiti"amente un estadstico suficiente condensa la informaci#n de n "ariables
, Esta desigualdad fue obtenida independientemente por 8. 9ramr '1?:/ Mat(ematical Met(ods o$
-tatistics( * 9. R. Rao '1?:@ .ull. ,alcutta Mat(. -oc. ,D I1J?1(. $. E. 2a"age '*oundations o$ -tatistics, 1/01(
se5ala no obstante que C. 1rchet '1?:,( * 3. Darmois '1?:@( haban propuesto tentati"amente el
nombre Kdesigualdad informacional para la misma ecuaci#n. )redeciblemente s#lo los franceses usan
desigualdad de 1rchetJDarmoisJ9ramrJRao.
: 4ote las diferencias entre ambas expresiones. Cs adelante mostramos por qu ambos parntesis son
iguales.
,.?
aleatorias en una sola "ariable aleatoria. 2i no ha* prdida de informaci#n en esa
reducci#n el estadstico efecti"amente describe los datos de la muestra. &n estadstico
t(!) es suficiente si al hacer inferencias sobre 0 estamos indiferentes entre usar la
colecci#n de "ariables aleatorias 2 o t( x) . ;b"iamente preferimos t( x) por ser de
menor dimensi#n que 2. Cs formalmente el teorema de factori%aci#n de 4e*manJ
1isher es+
Def. 3.6 &n estadstico " ( ): X es llamado suficiente para 0 si la
distribuci#n condicional de f ( x | " ( x)=") es independiente de 0 es
decir 0 no aparece en f ( x | " ( x)=") * el dominio de $'.( no en"uel"e a
0 .
3.0% Elementos de teora asinttica& con'er(encia
&sualmente la distribuci#n de un estimador

0 es desconocida. )ara poder hacer


inferencias utili%amos elementos de la teora asint#tica que nos permiten estudiar las
propiedades de los estimadores cuando la muestra es de tama5o infinito.
7 lo largo de este captulo "amos a usar dos herramientas+ $e*es de los 3randes
4-meros 'en trminos generales describen qu tan le!os est

0 de 0 ( * Leoremas del
$mite 9entral 'que permiten hacer inferencias sobre 0 usando

0 (.
@
&n primer paso
ser estudiar el concepto de con"ergencia que en nuestro caso es anlogo pero no
equi"alente al concepto de con"ergencia usado en series * progresiones.
Def. 3.7+ &na secuencia es una colecci#n infinita de ob!etos ordenados * contables.
)odemos tener secuencias de n-meros "ectores matrices etc.
$a secuencia a
#
con"erge a a si MNG existe 4 tal que LN4 a
3
+ a O M donde
. es la distancia Euclideana. Escribimos
lim
$
a
$
=a # a
$
a ',.1G(
@ El nombre de esta familia de teoremas fue acu5ado por 3eorge )ol*a '1IIDJ1?I@( en KPber den %entralen
3ren%Qertsat% der RahrscheinlichSeitsrechnung und das ComentenproblemK 'Mat(ematisc(e 4eitsc(ri$t
I '1?0G( 1D1J1I1(. )osiblemente )ol*a us# el trmino KTentralK para indicar que su importancia es
central en el anlisis. 4o obstante el traba!o de )ol*a es de tercera generaci#n. $a primera generaci#n la
encabe%a De Coi"re en los a5os 1D,G cuando deri"a la distribuci#n normal. $a segunda generaci#n
corresponde a los traba!os sobre la distribuci#n normal del siglo 1? de $aplace )oisson 9auch* * otros.
$a tercera generaci#n es aquella que encabe%a 9heb*she" * sus estudiantes CarSo" * $*apouno".
,.1G
Este tipo de con"ergencia no es el que nos interesa en estadsticaU no es la
secuencia de "alores o reali%aciones de un experimento aleatorio sino la con"ergencia de
las probabilidades asociadas a la "ariable aleatoria. 7s ha* "arios modos de
con"ergencia de inters para la modelaci#n economtrica. Va nos hemos referido a dos
de ellos al re"isar las distribuciones Aernoulli * 4ormal que en s son dos lmites que
refle!an distintos modos de con"ergencia.
Aernouilli demostr# que si S
n
es el n-mero de ocurrencias de un e"ento 5 en n
intentos de un experimento aleatorio * %=P( &) es la probabilidad de ocurrencia de
5 en cada intento entonces para c>0 +
lim
n-
Pr
(

S
n
n
%

c
)
=1 ',.11(
es decir el lmite de la probabilidad del e"ento S
n
/ n%c se acerca a 1 cuando
n .
Prueba: 2i las "ariables aleatorias siguen una Aernoulli su suma sigue una Ainomial+
P( S
n
=r)=
(
n
r
)
%
r
(1%)
nr
entonces se cumple+
P(

S
n
n%

n6)=

r n% n6
(
n
r
)
%
r
(1%)
nr
'
1
n
2
6
2

rn% n6
(rn%)
2
(
n
r
)
%
r
(1%)
nr
=
1
n
2
6
2
E( S
n
n%)
2
=
1
n
2
6
2
V ( S
n
)
=
1
n
2
6
2
n%(1%)=
%(1%)
n6
2

)or otro lado De Coi"re * $aplace encontraron que cuando S


n
/ n% es
multiplicado por el in"erso de la des"iaci#n estndar * n el resultado se aproxima
a una distribuci#n normal.
lim
n
Pr
(

S
n
n
%

|
%(1%)
n

(
)
=

(
1
.
2n
e
u
2
du
',.10(
,.11
Estos dos teoremas proponen 6como "eremos ms adelante6 distintos modos de
con"ergencia. 7dems tienen algunos supuestos que deben cumplirse * "ale la pena
re"isar antes de seguir a"an%ando+
1. S
n
=

x
i
es decir S
n
corresponde a una suma de "ariables aleatorias.
0. x
i
=1 si el e"ento 7 ocurre * x
i
=0 si no ocurre es decir x
i
es una "ariable
aleatoria que se distribu*en Aernoulli * por lo tanto S
n
es una "ariable
aleatoria que se distribu*e Ainomial.
,. $as "ariables aleatorias x
i
son independientes.
:. f ( x
1
)=f ( x
2
)== f ( x
n
) es decir las "ariables aleatorias x
i
estn
idnticamente distribuidas con Pr ( x
i
=1)=% * Pr ( x
i
=0)=1% para todo x
i
.
@. Debido a que E( S
n
/ n)=% entonces el anlisis se hace considerando las
diferencias entre una "ariable aleatoria S
n
* su "alor esperado. Es decir se
refiere a la dispersi#n de .
$a diferencia ms importante entre ambos teoremas sin embargo tiene que "er
con el tipo de con"ergencia implcita en cada una+ mientras Aernoulli se concentra en
con"ergencia en probabilidad De Coi"re * $aplace usan el concepto de con"ergencia en
distribuci#n. En lo que sigue re"isamos "arias formas de con"ergencia.
Def. 3.8 &na secuencia de "ariables aleatorias 'reales o "ectoriales( x
n

con"erge en probabilidad si+
lim
n
Pr (x
n
xc)=1 c ',.1,(
lo que escribimos %)im x
n
=x . 7 "eces se escribe
x
n
-
%
x
.
Def. 3.9 &na secuencia de "ariables aleatorias 'reales o "ectoriales( x
n

con"erge en distribuci#n a si la funci#n de distribuci#n F
n
( x)
con"erge a la distribuci#n de F ( x) para todo punto de 1 '"er 1igura
,.0(.
lim
n
F
n
( x)=F( x) ',.1:(
Escribimos
x
n
-
d
x
* llamamos a F la distribuci#n lmite de x
n
.
,.10
Figura 3.2
Convergencia en disribuci!n
Def. 3.1" &na secuencia de "ariables aleatorias 'reales o "ectoriales( x
n

con"erge en media cuadrtica a si+
lim
n
E( x
n
x)
2
=0 ',.1@(
lo que escribimos
x
n
-
m
x
.
Def. 3.11 &na secuencia de "ariables aleatorias 'reales o "ectoriales( x
n

con"erge casi seguramente a si+
Pr (lim
n
x
n
=x)=1 ',.1/(
lo que escribimos
x
n
-
a!s!
x
.
/
/ 2uponga que el espacio muestral - est definido en el inter"alo WG1X con distribuci#n uniforme. 2uponga
la siguiente "ariable aleatoria X
n
(s )=s+s
n
* X(s )=s . Entonces para todo S [ 0,1 ) s
n
0 cuando
n * 2n6s7826s7. 2in embargo X
n
(1)=2 para todo n * no con"erge a B'1(. 9omo la con"ergencia
ocurre en WG1( * )'WG1((Y1 entonces 2n82 almost surely.
N=100
N=250
N=500
N=50
P
,.1,
$a relaci#n entre las distintas formas de con"egencia puede sinteti%arse en el
siguiente diagrama.
$a demostraci#n de estas relaciones es directa aunque algo tediosa.
#eore$a 1+
E( x
n
2
) 0 x
n
-
%
0
Demostraci#n
E( x
n
2
)=

x
2
dF
n
( x)
=

x| x
2
c
2
x
2
dF
n
( x)+

x| x
2
c
2
x
2
dF
n
( x)c
2

S
x
2
dF
n
( x) donde S=x| x
2
c
2
Lomando la ultima integral

S
x
2
dF
n
( x)=

c
dF
n
( x)+

dF
n
( x)=F
n
(c)+
|
1+F
n
(c)

=P( x
n
c)+P( x
n
c) P( x
n
2
>c)
Entonces+
P( x
n
2
>c)'
E( x
n
2
)
c
2
7s si E( x
n
2
) 0 entonces x
n
con"erge en probabilidad a cero.
#eore$a 2+
x
n
-
m
x x
n
-
%
x
Demostraci#n+ reemplace x
n
por x
n
x en el Leorema 1.
,.1:
3.0) Elementos de teora asinttica& leyes d*biles de (randes n+meros
7 principios de 1IGG 2. )oisson
D
se di# cuenta que el supuesto : de Aernoulli 6
distribuci#n idntica6 no resultaba fundamental para obtener los resultados de
con"ergencia.
Leorema de )oisson+ -ea x
n
una secuencia de variables aleatorias independientes tipo
.ernoulli con Pr ( x
i
=1)=% y Pr ( x
i
=0)=1% , para todo x
i
,
entonces para cualquier 9:;
lim
n
Pr
(
S
n
n

1
n

i =1
n
%
i

c
)
=1 ',.1D(
Prueba: $a manera ms corta de probar este teorema es usar la funci#n caracterstica.
2ea
X
i
(t )=E| e
itx
la funci#n caracterstica de
i
, una "ariable aleatoria que
se distribu*e con media y varianza finita. $a expansi#n de la funci#n
caracterstica alrededor de t<; es
x
i
(t )=1+( it ) j
1
+
(it )
2
2 !
j
2
+
(it )
3
3!
j
3
+
por lo que la funci#n caracterstica de
x
i
n
es

x
i
/ n
(t )=1+
(it )
n
j
1

(t )
2
2 ! n
2
j
2
+o(1/ n
2
) . Entonces la funci#n caracterstica de
la suma 1/ n

i=1
n
x
i
es
x
i
/ n
(t )=
(
1+
( it )
n
j
1

(t )
2
2! n
2
j
2
+o (1/n
2
)
)
n
. 7plicando
logaritmo se obtiene log
x
i
/n
(t )=n log
(
1+
( it )
n
j
1

(t )
2
2! n
2
j
2
+o (1/n
2
)
)
. )ero
si n - se puede aproximar log(1+z )-z por lo tanto
log
x
i
/ n
(t )=
(
it j
1

(t )
2
2! n
j
2
+o (1/n )
)
. 1inalmente tomando lmite tenemos
lim
n-
log
x
i
/n
(t )=it j
1 . Esta es la funci#n caracterstica de una
distribuci#n cu*a densidad est concentrada en j
1
=j . Es decir
x
i
-
p
j
.
D Recherches sur la )robabilit de Eugements )rincipalment en Catiere 9riminelle ,omptes Rendus
=ebdomadaires des ->ances de l?cadmie de -ciences 1 :D,J:?: 1I,@.
,.1@
). 9heb*she" '1IID(
I
se di# cuenta que en realidad no s#lo el supuesto : era
innecesario sino que el supuesto 0 tampoco a*udaba a obtener el resultado. $o
importante es que se est comparando una suma de "ariables aleatorias con su media
'"alor esperado(.
#eo. de C%eb&s%ev+ -ea x
n
una secuencia de variables aleatorias con media j y varian'a
*+ , y sean c y 9 constantes, entonces para todo 9:;
lim
n
Pr
(
1
n

i=1
n
x
i

1
n

i=1
n
j
i

c
)
=1 ',.1I(
)ara probar este teorema usamos la propiedad que las "ariables aleatorias son
independientes. )or ello+
Var
(
1
n

i=1
n
x
i
)
=
1
n
2

i=1
n
c
i
2
'
,
n
',.1?(
)ara probar el teorema ',.1?( "amos a usar la desigualdad de 9heb*she"+
Pro-|

x
n
,
n

c ' E| ( x
n
,
n
)
2
/ c
2
pero se le aplicar a (1/ n) .x
i
.
7ntes "amos a probar la desigualdad de 9heb*she" para lo cual usamos la
desigualdad de su discpulo 7. CarSo". 2ea x
n
una "ariable aleatoria que toma "alores
no negati"os * Z una constante entonces+
Pro-| x
n
6 '
E| x
n

6
',.0G(
$a prueba es directa. Recordemos que podemos separar la esperan%a de como+
E| x
n
=Pro-| x
n
6 E| x
n
| x
n
6+Pro-| x
n
6 E| x
n
| x
n
6 ',.01(
debido a que x
n
no es negati"o entonces ambos trminos son no negati"os. )or ello+
E| x
n
Pro-| x
n
6 E| x
n
| x
n
6 ',.00(
I Existen numerosas formas de escribir este nombre deri"adas del uso de 3c en "e% de , i en "e% de y * $$
en "e% de v.
,.1/
pero la esperan%a condicional debe ser ma*or o igual que 6 por definici#n luego se
obtiene que E| x
n
Pr | x
n
6 6 . Ello prueba la desigualdad de CarSo". )ara probar la
desigualdad de 9heb*she" simplemente usamos en x
n
,
n
en "e% de x
n
* c en "e% de
6 .
[ol"iendo al teorema de 9heb*she"
Pr
(

1
n

i=1
n
x
i

1
n

i=1
n
j
i

c
)
'
1
c
2

i=1
n
c
i
2
n
2
'
,
nc
2
',.0,(
pero tomando el lmite cuando n8@ de esta ecuaci#n notamos que es cero.
lim
n
,
nc
2
=0
entonces lim
n
Pr
(
1
n

i =1
n
x
i

1
n

i=1
n
j
i

c
)
=0 ',.0:(
debido a que la probabilidad no puede ser negati"a. Ello prueba el teorema de
9heb*she".
CarSo"
?
se di# cuenta que en la prueba anterior el supuesto que las "ariables
x
1
, x
2
,., x
n
fueran independientes cumple un rol menor. De hecho s#lo se usa para
computar la "arian%a de la suma S
n
: Var
(
S
n
)
=
1
n+

i =1
n
c
i
2
. $a prueba anterior s#lo
requiere que Var ( S
n
)0 cuando n . )ero la "arian%a de una suma es la suma de
las "arian%as ms las co"arian%as+
Var
(

i=1
n
x
i
)
=

i =1
n
Var x
i
+

i / 0
Co1 ( x
i
, x
0
) ',.0@(
note que la doble suma de co"arian%as es a lo ms del mismo orden que la "arian%a. )or
ello la condici#n que se necesita cumplir es que Var (

x) con"er!a ms lento que 1/ n


2

para que el teorema se sostenga. )or ello el supuesto , no es crucial.
#eo. de 'ar(ov+ -ea x
n
una secuencia de variables aleatorias tales que 1/ nVar ( S
n
) 0
,cuando n\] entonces
lim
n
Pr
(
1
n

i =1
n
x
i

1
n

i=1
n
E( x
i
)

c
)
=1 ',.0/(
? Pber die freie ^qui"alent% der geschlossenen T_pfe. Recueil Mat(. Coscu 1?,@.
,.1D
4o obstante un estudiante de CarSo" llamado 7. `inchine
1G
not# que en el caso
de "ariables aleatorias independientes e identicamente distribuidas la condici#n de
CarSo" tampoco era necesaria. 2i las "ariables aleatorias son i.i.d. no es necesario poner
restricci#n alguna sobre las "arian%as.
#eo. de )inc%ine+ -ea x
n
una secuencia de variables aleatorias i.i.d., entonces la eistencia
de E( x
i
)=j es su$iciente para &aranti'ar que
Pr
(
1
n

i=1
n
x
i
j

c
)
=1 ',.0D(
)ero ambos teoremas tienen distintas condiciones * no son generales.
1inalmente el teorema de `olmogoro"
11
pro"e*# las condiciones necesarias * suficientes
para que se cumpla la $e* Dbil de 3randes 4-meros '$D34(.
#eo. de )o*$ogorov 1+ )a secuencia de variables aleatorias x
n
obedece )DAB si y s"lo siC
E
(
|
S
n

i
n
E( x
i
)

2
n
2
+
|
S
n

i
n
E( x
i
)

2
)
0 cuando n\] ',.0I(
El teorema anterior requiere que
| S
n

E( x
i
)
2
cre%ca ms lento que n
2
de
otro modo el limite ',.0I( no se des"anece cuando n crece.
1G Recherches sur la structure des fonctions mesurables en *undamanta mat(ematica 1?0D.
11 Arundbe&ri$$e der Da(rsc(einlic(Eeitsrec(nun&, Er&ebnisse der Mat(ematiE und i(rer Aren'&ebiete E. 2pringer
eds. 1?,,.
,.1I
3.0, Elementos de teora asinttica& leyes fuertes de (randes n+meros
7 diferencia del caso anterior ahora estamos interesados en con"ergencia casi
segura. El primero en probar una le* fuerte de grandes n-meros '$134( fue E. Aorel en
1?G?
10
.
#eo. de +ore*: -i x
n
es una secuencia de variables aleatorias i.i.d. distribuidas a la .ernoulli,
entoncesC
Pr
(
lim
n
S
n
n
=%
)
=1 ',.0?(
es decir el e"ento s : lim
n
S
n
( s)/ n=% sS tiene probabilidad 1 cuando n .
Esta expresi#n puede ser reJescrita como+
lim
n
Pr
(
max
m n
|

S
m
m
%

c
)
=0 ',.,G(
de donde se puede "er la relaci#n entre la $D34 * la $134. $a primera se refera a
lim
n
Pr
(
S
n
n
%

c
)
=1 pero+

S
n
n
%

' max
m n
S
m
m
%

',.,1(
por lo tanto si alguna funci#n cumple ',.,:( cumplira con $D34 es decir
x
n
-
a!s!
x x
n
-
%
x
.
7. `olmogoro" reempla%a la condici#n de CarSo" sobre las "arian%as
V
(
S
n
)
=
1
n
2

i=1
n
c
i
2
0 cuando n con una condici#n ms fuerte+

2 =1

1
2
2
V ( x
2
)
',.,0(
10 $es probabilits dnombrables et leurs applications arithmtiques reprinted as 4ote [ in E. Aorel
)eFons sur la 3(eorie de *onctions 3authiersJ[illars '1?1:( 1I0J01/. En 1?0I 7.V. `intchine populari%# el
trmino $e* 1uerte de los 3randes 4-meros para distinguirlos de los teoremas a la Aernouilli basados
en con"ergencia en probabilidad '2ur la loi forte de grand nombres ,omptes Rendus de l?cadmie de
-ciences 1I/ p0I/ 1?0?(.
,.1?
lo que le permite probar la $134 para el caso en que las "ariables son simplemente
aleatorias.
#eo. de )o*$ogorov 2. -ea x
n
una secuencia de variables aleatorias independientes tales
que eiste E( x
i
) y V ( x
i
) y se satis$ace la condici"n anterior,
entoncesC
Pr
(
lim
n
1
n
(

i=1
n
|
x
i
E( x
i
)

)
=0
)
=1 ',.,,(
Este teorema se prueba igual que la $D34 con la sal"edad que en "e% de usar la
desigualdad de 9heb*she" se usa la desigualdad de `olmogoro"+ 2ean x
1
, x
2
,., x
n

"ariables aleatorias independientes tales que V (x
i
)=c
i
2
\i entonces para
cualquier c>0 +
Pr
(
max
l kn
S
k
E(S
k
)c
)
=
1
c
2

i =1
n
c
i
2
',.,:(
Cs a-n si la secuencia es i.i.d. tales que E( x
i
) entonces+

k=1

Var (X
k
)
k
2
=

k=1

1
k
2

x
2
f ( x )dx ',.,@(
lo que se5ala que para tal caso la existencia de la esperan%a es una condici#n necesaria
* suficiente para que se obtenga la $134.
8emos "isto algunas de las condiciones necesarias para la $D34 * $134. <au
es lo que realmente se necesita= )ara la $D34 se necesita la condici#n de CarSo" * para
la $134 se necesita la condici#n de `olmogoro" * ambas se refieren a que se debe
restringir la V (S
n
) para que no cre%ca ms rpido que n
%
.
1,

$a nomenclatura tpica es V (S
n
)=O(n ) donde ;'.( significa orden de
probabilidad. ;rden de probabilidad es un concepto -til que "iene en dos sabores+ ;'n(
* o'n(. 2uponga que existen dos secuencias de n-meros reales a * b. $a notaci#n
a
n
=O(
n
) corresponde a a es al menos del orden de b
n
en tanto que a
n
=o (
n
)
corresponde a a es de un orden menor a b
n
. 1ormalmente
1, $as series de tiempo integradas que son la ma*ora en macroeconoma no cumplen esta restricci#n.
,.0G
a
n
=O(
n
)cuando n si lim
a
a
n

n
! y !>0
a
n
=o (
n
)cuando n si lim
a
(
a
n

n
)
=0
',.,/(
por e!emplo
1
2n
=O
(
1
n"
)
* 2n
2
=O(n
2
)=o(n
3
) .
3.0- .ropiedades de los distintos tipos de con'er(encia
7lgunas propiedades interesantes * -tiles de los distintos tipos de con"ergencias
son+
1. Leorema de 2lutsS*+ %)im g( x
n
)=g ( %)imx
n
) .
0. Leorema de mapeo continuo+ 2ea x
i
un "ector de "ariables aleatorias * sea
g() una funci#n real continua en el "ector fi!o o . Entonces
x
i
-
%
o=g ( x
i
) -
%
g (o)
.
,. 2i g( x
n
) es c#nca"a se cumple la desigualdad de Eensen+ g( E | x
n
)>E| g( x
n
) .
Esta desigualdad es crucial cuando se desea hacer predicciones.
:. 2i x
n
e 3
n
son "ariables aleatorias con %)im x
n
=a * %)im 3
n
=- entonces+
%)im( x
n
+3
n
)=a+-
%)im( x
n
3
n
)=a-
%)im( x
n
/ 3
n
)=a/ - si bbG
@. 2i
x
n
-
d
x
* %)im 3
n
=, entonces
x
n
3
n
-
d
,x
/. 2i
x
n
-
d
x
* g( x
n
) es continua entonces
g( x
n
)-
d
g ( x)
D. 2i la distribuci#n lmite de x
n
existe * %)im( x
n
3
n
)=0 entonces 3
n
tiene la
misma distribuci#n lmite de x
n
.
,.01
3.10 /eoremas de lmite central
aueremos describir las propiedades de un estimador de 0 cuando la
distribuci#n de

0 es desconocida. 2aber que

0 es insesgado consistente o que


con"erge en probabilidad a 0 es poco -til. 2i plim

0=0 , entonces toda la densidad
colapsa a un punto * no es posible hacer inferencias. Lampoco sabemos qu pasa antes
que n .
2in embargo si plim

0=0 entonces podra existir una funci#n tal que+
#
n
=.n (

00) -
d
f ( $ )
',.,D(
donde f ( $ ) es una distribuci#n con media * "arian%a finitas. Ello nos permitira hacer
inferencias estadsticas sobre el estimador de 0 . Esa es la l#gica de los teoremas de
lmite central.
7ntes de llegar ah consideremos que al igual que en el caso de las le*es de
grandes n-meros no resulta difcil demostrar que el supuesto 0 'distribuci#n binomial(
no es necesario para el teorema de de Coi"re * $aplace. 4ote que la contribuci#n de
estos matemticos fue descubrir la distribuci#n lmite para la distancia entre S
n
*
E( S
n
) a!ustando por la des"iaci#n estndar. )ara ello usaron la distribuci#n binomial
pero "amos a "er que es innecesario limitarse a la binomial bastando imponer
adecuadamente restricciones en algunos de los momentos de la distribuci#n de
probabilidades.
2ea x
n
% n 1 una secuencia de "ariables aleatorias con S
n
=&x
i'
$os teoremas
de lmite central estudian la expresi#n en el lmite de+
#
n
=
S
n
E( S
n
)
.
V (S
n
)
',.,I(
es decir una "ersi#n normali%ada de S
n
E(S
n
) que fue lo que estudiamos en $D34 *
$134.
,.00
#eore$a de ,-$ie Cenra* de ,indeberg.,ev&
14
2ea x
n
% n 1 una secuencia de "ariables aleatorias extrada de cualquier f.d.p.
con media finita j * "arian%a finita c
2
* si

x
n
=
1
n

x
i
entonces
.n (

x
n
j)-
d
(| 0, c
2

',.,?(
alternati"amente podemos escribir+
lim
n
)
n
(x )=lim
n
P( x
n
x)=

x
1
.2n
e
1
2
*
2
d* ',.:1(
Es importante notar que el teorema se aplica a "ariables aleatorias de cualquier
funci#n de distribuci#n * que s#lo se aplica a S
n
cuando la media existe * si la "arian%a
es finita.
Prueba: &samos la funci#n caracterstica. 2ea
x
i
(t )=E|e
itx
la funci#n caracterstica
de
i
, una "ariable aleatoria que se distribu*e con media cero y varianza finita.
Entonces queremos encontrar la funci#n caracterstica de S
n
/ .n que es
(t )=
|
(
t
.
n
)

n
. &se la expansi#n
x
i
/ .n
(t )=1+
(it )
.n
j
(t )
2
2! n
c
2
+o(1/ n) *
recuerde que j=0 para obtener
|
(
t
.n
)

=1
c
2
t
2
2n
+o(
1
n
) . 7plicando
logaritmo se obtiene log
Xi /.n
(t )=n log
(
1
t
2
2 ! n
c
2
+o(1/ n)
)
. )ero si
n - se puede aproximar log(1+z )-z por lo tanto se deduce que
log
Xi /.n
(t )=
(
t
2
2 !
c
2
+o (1/ n)
)
. 1inalmente tomando lmite cuando
n - obtenemos lim
n-
log
X
i
/.n
(t )=
t
2
c
2
2
. )or ello
lim
n-

n
(t )=e
c
2
t
2
2 es decir la distribuci#n de la suma normali%ada es
asint#ticamente normal. Es decir
x
i
-
d
((0, c
2
)
.
1: $indeberg E. R. KEine neue 8erleitung des Exponentialgeset%es in der RahrschienlichSeitsrechnung.K
Mat(ematisc(e 4ametEi, 1@+011J00@ '1?00( * R. 1eller KPber den %entralen 3en%Qertsat% der
RahrscheinlichSeitsrechnung.K Mat(ematisc(e 4ametEi, :G+@01J@@? '1?,@(
,.0,
4ote que cuando normali%amos -
n
por n obtu"imos con"ergencia en
probabilidad en cambio cuando normali%amos por
.n obtu"imos con"ergencia en
distribuci#n. $a ra%#n es que la "arian%a de -
n
crece a
.n por lo que si normali%amos
por n sta se "a a cero cuando n - .
#eore$a de ,-$ie Cenra* de ,indeberg.Fe**er con disinas varian/as
15
Este teorema menos restricti"o que el anterior * se5ala+ 2ea x
n
% n 1 una
secuencia de "ariables aleatorias extrada de un con!unto de funciones de distribuci#n
)
n
, n 1 cada una de ellas con media finita j
i
* "arian%a finita c
i
2
. $as siguientes
relaciones son ciertas+
7. lim
n
max
1' i ' n
(
c
i
c
n
)
=0 donde

c=
.

i =1
n
c
i
2
A. lim
n
F
n
( 3)=lim
n
P(4
n
' 3)=

3
1
.2n
e
1
2
u
2
du
si * solo si+
lim
n
(
1

c
n
2

i=1
n

xj
i
c c
i
( xj
i
)
2
dF
i
( x)
)
=0 ',.:0(
7unque parece difcil la interpretaci#n del teorema es intuiti"a. $a relaci#n 'A(
se5ala que la distribuci#n lmite es una normal. $a relaci#n '7( se5ala simplemente que
ning-n c
i
2
domina a c
n
2
* se deri"a de la ecuaci#n ',.:1(.
)odemos escribir el parntesis del lmite en ',.:0( como+
1
c
n
2

i=1
n

xj
i c c
i
( xj
i
)
2
dF
i
( x)c
2

i=1
n
Pr (xj
i
)>c ,
i

c
2
max
1' i ' n
Pr (xj
i
c

c
i
)
',.:,(
1@ 7. $*apouno" '1?G1( sugiri# el siguiente teorema que por ser ms restricti"o fue superado por el
teorema de $indebergJ1eller. -ea X
n
% n 1 una secuencia de variables aleatorias independientes con
E( X
i
)=j y V (X
i
)=c
i
\ i y E(X
i
2
+6) , 6>0 . -e de$ine
+
n
=
.

i
c
i
2
, entonces si
lim
n
1
+
n
6+2

i=1
n
E(X
i
j)
2+6
= 0 , se cumple que lim
n
)
n
( $ )=

1
.2n
e
1
2
*
2
d* . 4ote que se
requiere que los momentos de orden superior sean finitos.
,.0:
es decir que ninguna de las "ariables aleatorias domine la secuencia de sumas o sea
que cada
( x
i
j
i
)
c
i
es suficientemente peque5o en relaci#n con la suma | S
n
E( S
n
)/

c
n

cuando n . 7s el L9$ se refiere a los efectos sobre la distribuci#n de una suma de
"ariables aleatorias que indi"idualmente no tienen efecto alguno sobre el
comportamiento de la suma.
&na manera ms simple de escribir el resultado anterior es+
.n(

x
n
j
n
)-
d
5 | 0, c
2

',.::(
Es decir sumas de "ariables aleatorias tienden a distribuirse como normales
independientemente de las funciones de probabilidades que las generaron. 9asi todos
los estimadores estn basados de una u otra forma en sumas de "ariables aleatorias.
#eore$a de ,-$ie Cenra* de ,indeberg.,ev& 'u*ivariado
2i x
1
, x
2
,., x
n
es una muestra de "ectores aleatorios extrada de una funci#n de
distribuci#n multi"ariada con medias finitas j * matri% de "arian%as * co"arian%as
finita * positi"a definida 6 entonces
.n(

x
n
j)-
d
5 | 0,6
',.:@(
#eore$a de ,-$ie Cenra* de ,indeberg.Fe**er $u*ivariado
2ea x
1
, x
2
,., x
n
una muestra aleatoria extrada de un con!unto de "ectores
aleatorios tales que E| x
i
=j
i
V | x
i
=6 * los terceros momentos son finitos. 2ea

j
n
=1/ n

j
i
* 6
n
=1/ n

6
i
. 2i lim
n
6
n
=6 * lim
n
(n6
n
)
1
6
i
=0 entonces+
.n(

x
n

j
n
) -
d
5 | 0,

6
',.:/(
$os teoremas anteriores 6que se pueden extender para con!untos de funciones
usando Eacobianos6 pueden ser sinteti%ados como+
$a le* dbil de grandes n-meros $D34 se refiere a
(S
n
/ n) -
%
%
.
$a le* fuerte de grandes n-meros $134 se refiere a
(S
n
/ n) -
a!s!
%
.
El teorema del lmite central se refiere a (S
n
/ n) -
d
5
(
% , Var ( S
n
)/ n
)
.
,.0@
Resulta difcil intuir lo que se5alan estos teoremas de con"ergencia a una
distribuci#n normal. En particular por cuanto en el anlisis se me%clan dos conceptos.
)or un lado el tama5o de muestra. )or otro lado el n-mero de "eces que se repite el
experimento. &na manera fcil de "er el rol de cada elemento se presenta en la 1igura
,.,. El experimento consiste en generar una muestra de 3 datos de una distribuci#n
uniforme definida en el inter"alo WG1X * luego computar la media muestral '. El
experimento se repite en condiciones idnticas llamadas rplicas.
En los paneles superiores se presentan los resultados del experimento para @G
rplicas en tanto que en los paneles inferiores se presentan los resultados para 1.GGG
rplicas. En los paneles de la i%quierda se hace el experimento con un tama5o de
muestra 1GG en tanto que en los de la derecha el tama5o de muestra es 1GGG. 9omo
resulta e"idente la distribuci#n de la media muestral se aproxima a una normal cuando
el eperimento se replica un nGmero &rande de veces, independiente del tama#o de muestra.
Figura 3.3
Tamao de Muestra 100, Rplicas = 50 Tamao de Muestra 1000, Rplica = 50
Tamao de Muestra 100, Rplicas = 1000 Tamao de Muestra 1000, Rplicas = 1000
,.0/
3.11 Distribucin asinttica
1recuentemente "amos a usar el concepto de distribuci#n asint#tica es decir
aquella distribuci#n que se usa para aproximar la "erdadera distribuci#n muestral de
alguna "ariable aleatoria. Lomemos un estimador

0 de 0 la distribuci#n asint#tica de

0 se obtiene de+
.n(

00) -
d
5 | 0, V
',.:D(
implica

0-
d
5 | 0, V / n
',.@1(
es decir

0 se distribu*e asint#ticamente normal con media 0 * matri% de co"arian%a


asint#tica 1/ nV '"er 1igura ,.:(.
Figura 3.4
Distribucin asinttica
Distribucin !acta
,.0D
3.12 Estimacin asintticamente eficiente 0m12imo 'erosmil3
1%
Va hemos "isto el concepto de la funci#n de "erosimilitud. 7hora la usaremos
para deri"ar un estimador crucial en econometra * adems para entender lo que hace
cada tipo de test. En trminos genricos la funci#n de "erosimilitud de una muestra de
"ariables aleatorias i.i.d. se puede escribir como+
(0| x
i
)=

i=1
n
f ( x
i
,0) ',.:I(
4ote que escribimos (0 x) para designar que la funci#n se constru*e a partir
de las reali%aciones de una muestra * que es condicional a sta.
$o que hace el estimador es buscar aquel 0 que hace mxima la funci#n de
"erosimilitud es decir la probabilidad que los datos "engan de la distribuci#n $'.(.
Existen "arias formas de maximi%ar (0 x) pero casi siempre se utili%a una
transformaci#n que maximi%a log (0 x)
log (0| x)=

i =1
n
log f ( x
i
, 0) ',.:?(
*a que es ms simple. El procedimiento es legtimo porque la funci#n logaritmo es una
transformaci#n mon#tona.
7nalticamente el estimador de mxima "erosimilitud ser aquel 0 que cumpla+
(0| x)
0
=0 ',.@G(
9uando la funci#n de "erosimilitud es analticamente diferenciable se puede
obtener una expresi#n cerrada para ',.@G( pero ello no es siempre posible. )or e!emplo
considere f (0 x)=1/0 con 0' x' 0 . 9uando la ecuaci#n ',.@G( no tiene forma
cerrada es necesario resol"er el problema usando clculo numrico como se describe en
el captulo /.
1/ 7unque la noci#n de funci#n de "erosimilitud es mu* antigua el mtodo de estimar parmetros
maximi%ando la funci#n de "erosimilitud fue desarrollada * populari%ada en el artculo de E. 4e*man *
E. 2. )earson K;n the use and .nterpretation of 9ertain Lest 9riteria for )urposes of 2tatistical .nference.
)art .K '.iometriEa 0G 7 1D@J0:G 1?0I(.
,.0I
4o obstante cuatro condiciones de regularidad resultan necesarias para que el
estimador sea "lido+
El con!unto &=x : f ( x , 0) 0 no depende de 0 .
)ara todo 0O las deri"adas

i
f ( x
i
,0)
0
i
existen 'iY10,(.
0' E
|
)og( x
i
; 0)
0

2
' .

i
log ( x
i
; 0)
0
i

' 7
i
( x) 0 donde

7
i
( x) dx i =1,2
*

7
i
( x)dx8 i >2
* ` no es funci#n de 0 .
De estos supuestos se deri"an algunos resultados de gran utilidad. )rimero note
que la funci#n de "erosimilitud es una densidad por lo que se cumple+

( x
1
,., x
n
; 0) dx
1
.dx
2
=1 ',.@1(
simplificando la notaci#n pero sin prdida de generalidad denotamos la ecuaci#n ',.:D(
por

( x
i
; 0) dx
i
=1 . Deri"ando esta ecuaci#n con respecto a 0 obtenemos+

( x
i
; 0) dx
i
=0 ',.@0(
$as condiciones de regularidad aseguran que se cumple la condici#n de
diferenciaci#n ba!o el signo de la integral
1D
es decir

( x
i
; 0)
0
dx
i
=0 ',.@,(
1D Este resultado se deri"a del siguiente teorema de $eibni% para el caso en que los lmites de integraci#n
no dependen de 0 * por lo tanto los segundos dos trminos son cero+


,(0)
-(0)
) (x ; 0)dx
0
=

,(0)
- (0)
) (x ; 0)
0
+) (- (0))
-(0)
0
) (, (0))
,(0)
0
,.0?
multiplicando * di"idiendo por ( x
i
; 0) tenemos+

( x
i
; 0)
0
( x
i
; 0)
( x
i
; 0)
dx
i
=0 ',.@:(
pero
f ( x)
x
1
f ( x)
=
log f ( x)
x
. Entonces+

log ( x
i
; 0)
0
( x
i
; 0) dx
i
=0 ',.@@(
lo que implica E
|
log ( x
1
,., x
n
; 0)
0

=0 .
&n segundo resultado -til se obtiene al deri"ar ',.@@( con respecto a 0 +

log ( x
i
; 0)
0
( x
i
; 0) dx
i
=0 ',.@/(
usando el teorema de $eibni%

2
log ( x
i
; 0)
09 0
( x
i
;0)dx
i
+

log ( x
i
; 0)
0
( x
i
; 0)
0
dx
i
=0 ',.@D(
es decir

2
log ( x
i
; 0)
09 0
( x
i
; 0)dx
i
+

log ( x
i
; 0)
0
log ( x
i
; 0)
0
( x
i
; 0)dx
i
=0 ',.@I(
por lo que obtenemos+
E
|

2
log ( x
#
; 0)
09 0

+Var
|
log ( x
i
; 0)
0

=0
',.@?(
de donde se desprende
V
|
log ( x
i
; 0)
0

=E
|

2
log ( x
#
; 0)
09 0

',./G(
El trmino de la derecha de la ecuaci#n ',./G( es llamado n-mero informacional
de 1isher.
,.,G
&n tercer resultado importante se deri"a de suponer la existencia de un
estadstico t( x) * ocupar la ecuaci#n ',.@1( tal que

t( x) ( x
#
; 0) dx=E(t( x)) ',./1(
Diferenciando la ecuaci#n ',./1( con respecto a 0 tenemos+

t( x)
( x
#
; 0)
0
dx=
E(t( x))
0
',./0(
multiplicando * di"idiendo por ( x , 0) * recordando la deri"ada del logaritmo se
tiene

t( x)
log ( x ; 0)
0
( x ; 0)dx=E
|
t( x)
log ( x , 0)
0

=
E(t( x))
0
',./,(
4ote que por definici#n Co1 ( x
1,
x
2
)=E ( x
1
x
2
)E( x
1
) E( x
2
) . 9onsidere
adems que
( x
i
; 0)
0
=0 . Entonces+
Co1
(
log ( x ; 0)
0
,t( x)
)
=
E(t( x))
0
',./:(
7plicamos ahora la desigualdad 9auch*J2chQart%+
Co1 ( x
1
, x
2
)
|
V ( x
1
) V ( x
2
)

* obtenemos+

E (t( x))
0

'
|
V ( t( x)) V
(
log ( x , 0)
0
)

',./@(
pero V
(
log ( x , 0)
0
)
es el n-mero informacional. $uego+
|
E(t( x))
0

2
' V (t( x)) I (0) ',.//(
,.,1
finalmente+
V (t( x))
| E(t( x))/ 0
2
I
n
(0)
',./D(
Es decir cualquier estadstico de la muestra tendr una "arian%a ma*or o igual a
la expresi#n del lado derecho que es conocida como el lmite de 9ramerJRao.
9orolario+
Var
0
(t( x))
1
I
n
(0)
.
En conclusi#n asint#ticamente este estimador tiene cuatro propiedades que lo
hacen formidable+
1. 9onsistencia+
1I
%)im

0
MV
=0
0. 4ormalidad asint#tica+

0
MV
-
d
5| 0,| I (0)
1

donde I (0)=E
|

2
log
09 0

.
,. Eficiencia 7sint#tica+

0
MV
es asint#ticamente eficiente * alcan%a 9ramerJ
Rao.
:. .n"arian%a+ si =g(0) entonces g(

0
MV
) es el estimador
mximo "erosmil de c.
Este estimador se puede extender al caso que las "ariables aleatorias no son
idnticamente distribuidas de manera directa excepto que n I (0) / I
n
(0) .
1I El concepto de consistencia fue desarrollado por R. 7. 1isher en K;n the Cathematical 1oundations of
Lheoretical 2tatisticsK 'H(il. 3rans. R. -oc. 1?00(.
,.,0
3.13 /est de 4iptesis
1-
2upongamos que existe una "ariable aleatoria definida en el espacio de
probabilidades '2 )'.( ( * consideremos el modelo estadstico asociado+
1= f ( x; 0) , 0O
x=x
1
, x
2
,., x
n

El test de hip#tesis consiste en decidir si una con!etura sobre 0 del tipo


0O
0
O es congruente con la's( reali%aci#n'es( de la muestra . Dicha con!etura 6que
en"uel"e un pred!uicio6 es llamada hip#tesis nula
0G
* se denota usualmente por
:
0
:0O
0
.
)ara refutar o no refutar la con!etura a partir de una reali%aci#n de la muestra
necesitamos un criterio 9 tal que si xC entonces no se recha%a la hip#tesis nula * si
x . se recha%a. El test de hip#tesis es de manera ms precisa un estadstico e'x(+ B
\ . 9on alg-n grado de incertidumbre podremos recha%ar o no la presunci#n que
nuestro pre!uicio sea correcto.
El procedimiento nos pide tener una hip#tesis nula (/
0
) * una hip#tesis
alternati"a
01
(/
1
) las que en general deben ser mutuamente exclu*entes. 9omo se
discute ms adelante es posible construir tests en que /
0
* /
1
no estn anidadas
es decir no agotan el con!unto O
0
. $a hip#tesis nula puede ser simple si es
unidimensional o compuesta si no lo es.
1? El testeo de hip#tesis es tan "ie!o como el estudio de probabilidades. 2in embargo el trmino test de
hip#tesis es relati"amente moderno * no es consensual. El libro de R. 7. 1isher -tatistical Met(ods $or
Researc( DorEers de 1?0@ parece ser el primero en usar un test de hip#tesis aunque ba!o el nombre de
test de significancia. El trmino test de hip#tesis fue acu5ado por E. 4e*man * E. 2. )earson en su
artculo K;n the use and .nterpretation of 9ertain Lest 9riteria for )urposes of 2tatistical .nference. )art
.K '.iometriEa 0G 7 1D@J0:G 1?0I(.
0G 8ip#tesis nula aparece en el libro de 1?,@ de 1isher Lhe Design of Experiments donde se5ala+ KIDJe may
speaE o$ t(is (ypot(esis as t(e Knull (ypot(esis,K and it s(ould be noted t(at t(e null (ypot(esis is never proved or
establis(ed, but is possibly disproved, in t(e course o$ eperimentation.K 'p. 1?(. En el lengua!e de 4e*man *
)earson la hip#tesis nula corresponde a la hip#tesis probada que ellos denotaban por /
0
. 4e*man
reclam# con !usticia que el trmino hip#tesis nula es "ago * que Kthe original term fh*pothesis testedf
seems more descripti"eK '*irst ,ourse in Hrobability and -tatistics 1?@G p. 0@?(.
01 El trmino hip#tesis alternati"a se populari%# a ra% del traba!o de 4e*man * )earsongs K;n the )roblem
of the Cost Efficient Lests of 2tatistical 8*pothesesK 'H(ilosop(ical 3ransactions o$ t(e Royal -ociety o$
)ondon. 2eries 7 0,1 '1?,,( pp. 0I?J,,D(. En ese artculo tambin se definen trminos tales como
hip#tesis simple * compuesta regi#n crtica error tipo . * tama5o del test.
,.,,
4ote que puesto de esta forma el test recha%a o no recha%a /
0
pero no permite
aceptar la "alide% de una con!etura.
00
7dems se recha%a o no se recha%a dado un
cierto ni"el de probabilidad o confian%a. [ale decir cualquier con!etura puede ser
recha%ada basta con hacer el inter"alo de confian%a arbitrariamente grande o
equi"alentemente haciendo C
0
arbitrariamente peque5o.
9omo la base del testeo es la reali%aci#n particular de la muestra de "ariables
aleatorias es posible cometer errores+
Lipo .+ Pr ( xC
0
; 0O)=o Recha%ar /
0
cuando es "erdadera
Lipo ..+ Pr ( xC
0
; 0O)= 4o recha%ar /
0
cuando es falsa
En principio nos gustara hacer que o=0 lo que no es posible con n finito.
4ote que la distinta naturale%a de los errores lle"a asociado dos distintos conceptos
-tiles+
Lama5o del Lest+ es la probabilidad de cometer error tipo . que usualmente
llamamos h. Lama5o es equi"alente a ni"el de significancia.
)oder del Lest+ es la probabilidad de que el test correctamente rechace /
0

cuando es falsa es decir 1Ji.
7lgunas definiciones -tiles asociadas a los tests son+
&n test ser ms potente que otro si tiene ms poder que otro para todo tama5o.
&n test ser insesgado si su poder es ma*or o igual que su tama5o para todo 0 .
&n test ser consistente si su poder tiende a 1 cuando n .
00 4e*man * )earson '1?0I( hablan de aceptar * recha%ar hip#tesis. 1isher nunca us# el trmino recha%o
pero no tena ob!eci#n a su uso sin embargo se opona "ehementemente a aceptar una hip#tesis.
,.,:
3.1 /res tests de 4iptesis asintticamente e5ui'alentes
8asta el momento hemos estudiado la funci#n de "erosimilitud * el estimador de
mxima "erosimilitud. Lambin hemos discutido la estructura de los tests de hip#tesis.
7 continuaci#n describimos tres tests que son asint#ticamente equi"alentes 6aunque
numricamente pueden diferir6 que son ampliamente usados en aplicaciones prcticas.
3est de Ra'ones de Lerosimilitud
7l maximi%ar la funci#n de "erosimilitud obtenemos

0
MV
*
max
. 2i el 0
;

hipottico es estadsticamente igual a

0
MV
entonces recalcular la funci#n de
"erosimilitud con 0
;
debiera producir un "alor similar al computado usando

0
MV
. )or
ello el test estudia la distancia entre log (0
;
| x) * log (

0
MV
| x) , para la cual se
conoce su distribuci#n asint#tica+
2| log (0
;
| x)log (

0
MV
| x) -
d
X
2
(m)
',./I(
donde m es el n-mero de parmetros restringidos al imponer la hip#tesis nula. &n
incon"eniente de este test es que exige computar dos "eces la funci#n de "erosimilitud
cosa que es paulatinamente menos gra"e dada la creciente capacidad computacional.
3est de Dald
%3
7 diferencia del caso anterior el test de Rald se enfoca directamente en la
distancia entre el parmetro estimado

0 * el pre!uicio 0
;
ba!o la premisa que dicha
distancia no debiese ser estadsticamente significati"a si el pre!uicio es correcto. 4ote
que este es el test t al cuadrado. Entonces+
(

00
;
)9

1
(

00
;
) X
2
( m)
',./?(
Multiplicador de )a&ran&e
Este test 6llamado a "eces e$$icient scores6 parte de la base que cuando se obtiene
el estimador mximo "erosmil de 0 la primera deri"ada es cero. 2i la primera
0, Lests of 2tatistical 8*potheses 9oncerning 2e"eral )arameters Rhen the 4umber of ;bser"ations .s
$arge 3ransactions o$ t(e 5merican Mat(ematical -ociety @: '1?:,( :0/J:I0.
,.,@
deri"ada e"aluada en 0
;
no difiere estadsticamente de cero entonces la hip#tesis nula
no es falsa.
M=
(

n(0)
0

0=0
;
)
9
|
I (0
;
)

1
(

n(0)
0

0=0
;
)
X
2
( m) ',.DG(
&n descripci#n grfica de estos tres tipos de tests se presenta en la 1igura ,.@
Figura 3.5
3.1! /ests de 4iptesis no anidadas
En ocasiones sucede que el problema de inters no produce hip#tesis anidadas.
9onsidere que existen dos modelos compitiendo por explicar el mismo con!unto de
obser"aciones del fen#meno 'y7+

!od"lo 1# $=x +c
!od"lo 2# $=z +j
',.D1(
"n "

"n "
#

$%

#
"n "(&
'(&
"n "(&(

<a)d
agrange
;a(ones
Verosimi)i#ud
,.,/
En este caso se requiere hacer un test de la forma+
:
0
: !od"lo 1 $i"n "s%"cificado
:
1
: !od"lo 2 $i"n "s%"cificado
',.D0(
Resulta e"idente que las hip#tesis nula * alternati"a no estn bien especificadas
'o anidadas( en el sentido que ellas no son mutuamente exclu*entes. 2e dice que el
modelo 1 * el modelo 0 son $amilias separadas dado que para cualquier "alor de i el
primero no puede ser arbitrariamente aproximado por el segundo mediante un proceso
lmite. 7nlogamente para cualquier M, el modelo 0 no puede ser aproximado
arbitrariamente por el modelo 1. $a "erificaci#n de las hip#tesis anteriores por lo tanto
no puede ser lle"ada a cabo mediante la teora de 4e*manJ)earson debido a que sta
requiere que los espacios paramtricos asociados de ambos modelos sean iguales
Da"idson * Cc`innon '1?I1( proponen el siguiente test.
0:
2ea el modelo+
$=(x +c)(1o)+(z +j)o
=x (1o)+z o+o dond" o=(1o)c+oj
',.D,(
$a idea del test es que si el Codelo 0 est bien especificado o=1 . En caso contrario el
Codelo 1 est bien especificado * o=0 . Da"idson * Cc`innon probaron que el
estadstico que permite "erificar la restricci#n anterior se distribu*e asint#ticamente
normal si /
0
es cierta. El test puede ser extendido de manera anloga para modelos no
lineales.
4ote sin embargo que si los modelos 1 * 0 comparten algunos regresores el
modelo propuesto en la ecuaciones ',.D,( no est identificado es decir el parmetro o
no puede ser obtenido de manera independiente de los otros parmetros * por lo tanto
no se puede hacer el test.
&na manera de solucionar el problema anterior es reali%ar una regresi#n auxiliar
para obtener un estimador Jpor e!emplo el de mxima "erosimilitud o el de mnimos
cuadradosJ * rehacer el test propuesto como+
$ =x (1o)+z o+o
=x 0+$ o+o
',.D:(
donde
$=z (z 0 z )
1
z 0 $ .
0: El origen de la idea de hip#tesis no anidadas se remonta al a5o 1?/0 con el traba!o desarrollado por D.
R. 9ox 1urther Results on the Lest of 2eparate of 1amilies of 8*potheses Nournal o$ t(e Royal -tatistical
-ociety . 0:+:G/J:0: '1?/0( pero fue extendido por Da"idson R. * E. 3. CacSinnon 2e"eral Lest of
Codel 2pecification in the )resence of 7lternati"e 8*potheses Econometrica :?+DI1JD?, '1?I1(.
,.,D
9omo se "e el modelo de la ecuaci#n ',.D:( anida ambas hip#tesis de una manera
un tanto artificial. El test es llamado N+test. En muestras peque5as la estimaci#n por
mnimos cuadrados ordinarios no es adecuada *a que E( c) /0 de forma que
obtendramos estimaciones inconsistentes del estimador de o . 4o obstante en muestra
grandes %)im( c)=0 .
4ote que si el primer modelo es el correcto o tiende a cero * el test de la
hip#tesis nula :
0
: o=0 se distribu*e asint#ticamente normal estndar. )or el
contrario si el segundo modelo es el correcto el estimador o con"erge en probabilidad
a 1 * su des"iaci#n estndar tiende a cero por lo que el test t tiende a infinito. 7s el test
siempre recha%a la hip#tesis nula cuando sta es falsa porque el estadstico
e"entualmente exceder cualquier crtico con probabilidad uno.
E"identemente se puede re"ertir el procedimiento * plantear el test in"erso
haciendo+
$ =x o+z (1o)+o
= x o+z 0+o
',.D@(
Lpicamente se reali%an los tests ',.D:( * ',.D@(. )or ello existen cuatro resultados
posible.
2e recha%a /
0
en ',.D:(
2e recha%a /
0
en ',.D@(
2e recha%a /
0
en ',.D:( * en ',.D@(
4o se recha%a /
0
en ',.D:( * en ',.D@(
El EJtest se aplica cuando los modelos son lineales. 2i los modelos son no lineales
entonces se usa un test similar llamado )Jtest. 7dems se ha supuesto que la "ariable
dependiente ha sido transformada de la misma manera en ambos modelos+ Cc`innon
Rhite * Da"idson '1?I,( extienden el test para el caso en que las transformaciones
difieren entre modelos. $a e"idencia de ConteJ9arlo se5ala que estos tests tienden a
sobreJrecha%ar un modelo correctamente especificado.
3.1% Criterios informacionales
4ote que podemos reJinterpretar el test de Da"idson * Cc`innon como un
problema de selecci#n de modelos. Es decir como un criterio que gue la selecci#n de
modelos. Existen sin embargo "arios tipos de criterios. El criterio de ma*or
popularidad es el R
0
a!ustado es decir una funci#n del coeficiente de correlaci#n
m-ltiple. El criterio es elegir aquel model con ma*or R
0
a!ustado o equi"alentemente
con la menor "arian%a residual. 8. Lheil '1?@D( prueba que en promedio se reali%a la
,.,I
selecci#n correcta siempre que '1( alguno de los modelos contendientes sea el
"erdadero modelo * '0( las "ariables explicati"as sean no estocsticas 'i.e. fi!as en
muestras repetidas(. 7mbas condiciones son difciles de cumplir.
0@
&sualmente utili%amos criterios de in$ormaci"n para seleccionar modelos
escogiendo aquel modelo (M
1
, M
2
,, M
2
) que tenga un menor "alor numrico. $os
criterios de informaci#n tienen la forma
,
n
( 2)=2 ln (
n
( 2))/ n + 2 ( n)/ n ',.D/(
donde
n
(2 ) es la funci#n de "erosimilitud estimada usando 2 parmetros para una
muestra de tama5o n . $os diferentes criterios ocupan una distinta funci#n de
penali%aci#n por el hecho que se use un ma*or n-mero de parmetros+
El criterio de 7SaiSe es (n)=2
0/
El criterio de 2chQart% (n)=2 log(n)
El criterio de 8annanJauinn es (n)=2 log(log(n))
4ote que la penali%aci#n se "uel"e progresi"amente ms estricta.
&na pregunta pertinente es cules son las propiedades de estos criterios cuando
los modelos estn mal especificados. ;b"iamente si se est comparando modelos habr
algunos de ellos que esten mal especificados. En tal caso 2=2
0
donde 2
0
es el n-mero
correcto de parmetros. 8a* entonces dos casos+ modelos subparametri%ados 'es decir
mal especificados( * sobreparametri%ados 'es decir bien especificados pero con exceso
de regresores(.
,aso en que el modelo est subparametri'ado 22
0
)ara estudiar la consistencia de los criterios estudiamos su comportamiento
cuando la muestra se "uel"e infinita es decir %)im
n-
(
,
n
( 2)/ n,
n
( 2
0
)/ n
) . Resulta
e"idente que si el modelo est subparametri%ado+
%)im
n-
1
n
log
(

n
( 2)
)
%)im
n-
1
n
log
(

n
(2
0
)
) ',.DD(
0@ Lheil 8. K2pecification Errors and the Estimation of Economic Relations.K RevieO o$ Pnternational
-tatistical Pnstitute, 0@+:1J@1 '1?@D(
0/ El criterio de 7SaiSe se deri"a como un estimador de la distancia en informaci#n `ullbacSJ$eibler
8( M)=E (log f ( 3 | x)=log f ( 3| x , M)) entre la "erdadera densidad * el modelo. 7SaiSe 8. '1?D,(+
.nformation theor* and an extension of the maximum liSelihood principle. .n A. )etroc and 1. 9saSe
eds., -econd Pnternational -ymposium on Pn$ormation 3(eory.
,.,?
7dems es directo demostrar que lim
n-
(n)/ n=0 en cualquiera de los
criterios.
0D
Entonces+
lim
n-
P
|
,
n
( 2
0
)
n
>
,
n
( 2)
n

=lim
n-
P
|
2 log
(

n
( 2
0
)
)
+2
0
(n)
n
>
2 log
(

n
(2 )
)
+2 ( n)
n

=lim
n -
P
|
log
(

n
( 2
0
)
)
log
(

n
( 2 )
)
n

0)5( 2
0
2 )( n)
n

=0
',.DI(
lo que indica que los tres criterios son consistentes.
,aso en que que el modelo est sobreparametri'ado 2>2
0
En este caso la prueba anterior de consistencia no es "lida porque ambos
modelos estn bien especificados 'las funciones de "erosimilitud tienen el mismo
mximo(. 9onsidere sin embargo el siguiente test de ra%ones de "erosimilitud+
2
|
log(
n
(2 ))log(
n
(2
0
))

-
d
X
22
0
-X
2 2
0
2
',.D?(
reempla%amos la definici#n del criterio de 7SaiSe para obtener+
n
|
,
n
( 2
0
),
n
(2 )

=2
|
log(
n
( 2))log(
n
(2
0
))

2(22
0
)-
d
X
22
0
2
2(22
0
)
',.IG(
por lo tanto
lim
n-
P| ,
n
(2
0
)>,
n
( 2)=P| X
22
0
>2( 22
0
)>0
',.I1(
7s el criterio de 7SaiSe "a a sobreJestimar asint#ticamente el n-mero correcto
de parmetros.
En los casos de 8annanJauinn * 2chQar% lim
n-
( n)= lo que indica que
para ambos
%)im
n-
2| log(
n
(2
0
))log(
n
( 2))
( n)
=0 ',.I0(
0D De hecho cualquier funcion ( n) que cre%ca mas lento que n sir"e.
,.:G
por lo que
%)im
n-
n(,
n
(2
0
),
n
( 2))
(n)
=%)im
n-
2|log (
n
( 2
0
))log( ,
n
(2 ))
(n)
+2
0
21
',.I,(
as
lim
n-
P| ,
n
( 2
0
)>,
n
( 2)=0 ',.I:(
esto a su "e% implica que lim
n-
P| 2>2
0
=0 o lim
n-
P| 2=2
0
=1 por lo que
ambos criterios son consistentes.
,.:1
6p*ndice 6& E7ercicios
1. 2uponga que
.n(0j) con"erge en distribuci#n a una normal estndar. <7 qu
distribuci#n con"erge 0 = < %)im0=j = 2i la muestra crece hasta tener el tama5o de la
poblaci#n <cual es la distribuci#n de 0 =
0. 2uponga que 0 es multi"ariado * que
.n(0j) con"erge en distribuci#n a
5 (0, >) . 2uponga que &d. est en realidad interesado en una transformaci#n continua
del estimador f (0)=log(0) . <7 qu distribuci#n con"erge f (0) =
,. 2uponga que tiene dos parmetros estimados independientemente que son
insesgados (
1
*
2
) con sus respecti"as "arian%as (j
1
*j
2
) . <au combinaci#n lineal
de ambos parmetros 0=F (
1
,
2
) es el estimador insesgado de "arian%a mnima de
0 =
:. Explique en qu consisten * cules son las diferencias entre el teorema de
$inbergJ$e"* * el de $indbergJ1eller para estimadores multi"ariados. Refirase a los
supuestos * las restricciones impuestas sobre los momentos de la distribuci#n.
@. 9uando un estimador con"ergencia en probabilidad necesariamente debe
con"erger en distribuci#n. 9omente.
/. Demuestre que si
x
n
-
m
x x
n
-
%
x
* que si
x
n
-
%
x x
n
-
d
x
.
D. )ara el Leorema 9entral del $mite una condici#n indispensable es que ninguna
"ariable aleatoria de la secuencia que se est considerando domine a toda la secuencia
de "ariables aleatorias. 9omente.
I. <au es el poder de un test= <au es el tama5o de un test= <9undo un test es
ms poderoso que otro= * <cundo es consistente=
?. Explique porqu se habla que la funci#n de "erosimilitud es una densidad *
describa a qu corresponde el estimador de mxima "erosimilitud. <Es el estimador de
mxima "erosimilitud es mucho ms preciso que cualquier otro estimador lineal=
1G. 2ea una muestra de n obser"aciones de 3
n
<)ara cuales de las siguientes
distribuciones es posible deri"ar analticamente el estimador de mxima "erosimilitud=
Encuentre el estimador de mxima "erosimilitud demuestre que ste es un mximo *
obtenga la "arian%a asint#tica.
f ( 3)=
e
\
\
3
\!
f ( 3)=o 3
1
e
o 3

3>0 o, >0
,.:0
10. &sted tiene dos secuencias+ x
n
e 3
n
definidas en el soporte | ,+ .
9onsidere las siguientes afirmaciones+
7 9uando n x
n
con"erge en probabilidad a la "ariable aleatoria >
que se distribu*e F
(
(!) .
A 9uando n x
n
3
n
con"erge en probabilidad a cero.
9 x
n
con"erge en distribuci#n a F
(
(!) .
D 3
n
con"erge en distribuci#n a F
(
(!) .
9omente si las siguientes afirmaciones son "erdaderas o falsas. 2i son
"erdaderas demuestre. 2i son falsas de un contrae!emplo.
1. '7( 'A(
0. '9( '7(
,. '9( j 'D( 'A(
:. '7( j 'A( 'D(
1,. 9uando se hace un muestreo usando una distribuci#n normal 5 (0, c
2
)
frecuentemente se usa el siguiente estimador insesgado de la "arian%a
c
2
=

i=1
n
( x
i
E( x))
2
n1
.
'a( Demuestre que la "arian%a de este estimador es Var | c
2
=
2c
+
n1
.
'b( 9onsidere el siguiente estimador alternati"o+

(
2
=
1
n

i=1
n
( x
i
)
2
.
'c( Demuestre que el estimador

(
2
es sesgado pero tiene menor "arian%a que c
2
.
'7*uda+ exprese

(
2
en funci#n de c
2
.
1@. El estimador de mxima "erosimilitud es usualmente deri"ado a partir de una
muestra de "ariables '"ectores( aleatorias i.i.d. Aa!o estas condiciones el estimador posee
cuatro caractersticas+
'a( .dentifique esas cuatro caractersticas * explique su importancia.
'b( 2uponga que las "ariables aleatorias de la muestra no se distribu*en
idnticamente pero s independientemente. )lantee la funci#n de "erosimilitud *
,.:,
obtenga un estimador mximo "erosmil en este caso. <9ules de las cuatro
caractersticas se mantienen=
'c( 2uponga ahora que la muestra no se distribu*e independientemente ni
idnticamente. <9ules de las cuatro caractersticas se mantienen=
1/. 2e desea estudiar el poder del test t

00
.Var (

0)
para el siguiente caso. 2uponga
que el proceso generador de los datos es 3
i
=0+c
i
donde c
i
-5 (0,.i ) .
'a( ;btenga un estimador insesgado de &.
'b( .dentifique el problema analtico del test t en este caso.
'c( 9onstru*a un programa de 3auss que le permita determinar el poder del test. El
programa debe ser flexible en 'i( n-mero de replicaciones 'ii( tama5o de
muestra 'iii( tama5o del test 'ni"el de significancia(
Captulo 4
Modelo Clsico de Regresin Lineal
En las secciones anteriores hemos definido el modelo estadstico como aquel que
incluye:
un modelo probabilstico, 1= f ( x; 0) , 0O
un modelo muestral, x=( X
1,
X
2,
... X
n
)
de modo tal que al caracterizar el mecanismo generador de los datos (MGD), el
problema consiste en sustituir la ignorancia sobre la funcin de probabilidad por la
ignorancia respecto de los par!metros de la funcin de densidad f () que se escoge
para describir el fenmeno de inter"s#
En general, los datos recolectables no corresponden de manera precisa con la
nocin de la muestra obser$ada de $ariables aleatorias independientes que est! implcita
en el uso del modelo muestral por $arias razones# %rimero, porque no necesariamente
las muestras tienen las caractersticas que se requieren para hacer la inferencia# %or
e&emplo, datos agrupados 'que son muy comunes' corresponden tpicamente al
resultados de un muestreo estratificado# En series de tiempo no puede pensarse en que
los datos correspondan a una muestra aleatoria simple porque hay dependencia
temporal# (egundo, porque en muchos casos e)isten par!metros incidentales que
complican la inferencia# %or e&emplo, cuando hay heterogeneidad en el tiempo o espacio
y se debe incluir par!metros adicionales para capturar esa dimensin (p#e#, datos
nominales en presencia de inflacin)
*ormalmente, se postula la e)istencia de un modelo adicional que da origen a los
datos estadsticos (MGE) que apro)ima, a $eces de manera gruesa, el MGD que di
origen a los datos# +a e)istencia de este modelo suplementario permite incluir no slo la
informacin de la muestra, sino otra que sea a,priori sobre el fenmeno#
E)igiremos que para una $ariable aleatoria de inter"s y definida en
(S , , P(.)) el modelo MGE quede definido por
y
i
=j
i
+c
i
(-#.)
donde j
i
=E( y
i
| ) y es cualquier /,!lgebra que cumpla # Definido de esta
manera, llamaremos parte sistemtica a j
i
y parte asistemtica a c
i
, donde se cumple que
ambas partes son ortogonales entre s, j
i
c
i
# 0nalticamente es importante que ambas
partes sean ortogonales, porque de otro modo in$alidara la eleccin de # 1ote que al
definir el problema de este modo, el concepto de 2error3 es mucho m!s amplio que el
que se le da en la interpretacin cl!sica como el resultado de error de medicin o en
$ariables#
-#4
4.01 Lgica del modelo de regresin
1
El modelo de regresin lineal ser! nuestra principal herramienta en este curso,
aunque no la 5nica# 6na definicin apropiada de regresin econom"trica es: Regresin es
una relacin funcional entre dos o ms variables correlacionadas que se obtiene de los datos y se
usa para predecir una dada la(s) otra(s).
2
y
i
= f ( x
1
i
, x
2
i
, ... , x
k
i
; )+c
i
(-#4)
+o que estudiaremos es una t"cnica que nos permite seleccionar los par!metros
() que relacionan los condicionantes o 2regresores3 ( x) con la $ariable de inter"s
( y) # E)isten otras herramientas para parametrizar la ecuacin (-#4), algunas de amplia
utilizacin en economa, que nosostros no $amos a estudiar en este curso por razones de
tiempo# %or e&emplo, los m"todos 7ayesianos, no param"tricos, o semi no,param"tricos#
Estudiaremos $arias dimensiones del modelo de regresin lineal, incluyendo
problemas de especificacin, problemas de estimacin de par!metros, testeo de hiptesis
sobre los par!metros, y uso del modelo estimado para hacer predicciones condicionales#
El modelo cl!sico de regresin lineal se basa en seis supuestos que $amos a
re$isar a fondo antes de deri$ar estimadores y distribuciones#
.# *orma funcional lineal
4# 8ango completo de los regresores
9# Media condicional de los residuos cero
-# 8esiduos esf"ricos
:# 8egresores no estoc!sticos
;# 8esiduos normales#
<omo $eremos a lo largo de este captulo, los primeros tres supuestos nos
permiten obtener los estimadores de los par!metros, en tanto que los segundos tres
supuestos nos permiten hacer inferencias, tests y proyecciones#
4.02 Anlisis de los supuestos del modelo de regresin lineal
. El primo de <harles Dar=in, *rancis Galton fue el primero en desarrollar y utilizar regresiones en el
sentido moderno para describir de manera suscinta los resultados de sus estudios sobre herencia, en el
que descubri que las distintas generaciones tienden a parecerse m!s a sus ancestros le&anos que a sus
padres (2>ypical +a=s of ?eredity3, Nature, .: (.@AA))# Galton llam a la regresin reversin, lo que
sugiere de me&or forma sus resultados# (u modelo fue e)tendido y me&orado por Barl %earson y G# 6dny
Cule, sobre la base de la distribucin normal multi$ariada# 8#0# *ischer reformul el modelo de
regresin sobre la base del traba&o de Gauss que se refiere al m"todo de m"todo de mnimos cuadrados#
4 We!"e#!%&'"(%e)*+,,e-&."e/&0"&+'.12, Merriam,Debster %ublishers, (priengfield, M0# %ag E44#
-#9
Modelo lineal
6n modelo es lineal si podemos escribir la relacin entre x e y como:
y
i
=o+ x
i
+c
i
(-#9)
donde y son par!metros constantes# (i el modelo analtico no es lineal, hay que
linealizarlo (si es posible)# %or e&emplo:
Y
i
=AK
i
o
L
i

log Y
i
=logA+olog K
i
+log L
i
(-#-)
1ote, sin embargo, que el modelo debe ser lineal en los par!metros, no en las
$ariables# %or e&emplo, los siguientes modelos no lineales en las $ariables son lineales en
los par!metros y pueden ser estimados mediante transformaciones simples de las
$ariables#
y
i
=o+
1
x
i
+c
i
y
i
=o+log x
i
+c
i
(-#:)
De esta manera, podemos escribir el modelo general como:
y
i
=x
i
+c
i
(-#;)
donde y es un $ector con la $ariable de inter"s, x es una matriz con las $ariables que
describen el fenmeno y c es un $ector de perturbaciones aleatorias que denota la
distancia entre MGD y MGE# Escribimos la ecuacin (-#;) de manera e)plcita:
|
y
1
y
2

y
n

=
|
x
1
1
x
1
2
x
1
j
x
2
1
x
2
2
x
2
j

x
n
1
x
n
2
x
n
j |

+
|
c
1
c
2

c
n

(-#A)
%ara considerar la posibilidad que las $ariables aleatorias tengan media distinta
de cero, incluimos un $ector de . en la primera columna#
-#-
|
y
1
y
2

y
n

=
|
1 x
1
1
x
1
2
x
1
j
1 x
2
1
x
2
2
x
2
j

1 x
n
1
x
n
2
x
n
j|

+
|
c
1
c
2

c
n

(-#@)
Regresores de rango completo
El supuesto necesario es que el rango de x sea completo, j( x)=k # Este
supuesto es tambi"n llamado condicin de identificacin, ya que:
y
i
=
1
x
i
1
+
2
x
i
2
+
3
x
i
3
+c
i
x
i
3
=o+ x
i
2
++
i

y
i
=
1
x
i
1
+
2
x
i
2
+
3
| o+x
i
2
++
i
+c
i
y
i
=
3
o+
1
x
i
1
+|
2
+
3
x
i
2
+
3
+
i
+c
i
(-#E)
es decir, aunque es posible obtener un estimador de
2
+
3
no es posible identificar
por separado los par!metros
2
y
3
# E$identemente las $ariables econmicas suelen
tener bastante correlacin entre s, por lo que este problema se presenta con frecuencia
en el traba&o emprico# M!s adelante, cuando se discutan problemas de
multicolinealidad, se abordar! formalmente este tipo de fenmeno, su deteccin y su
e$entual correccin#
8esulta e$idente que rango completo requiere que j( x )=n>j( x)=k # 1o
obstante, puede haber correlacin imperfecta entre los regresores, lo que dificulta pero
no impide la estimacin de un modelo de regresin lineal y su uso para hacer
proyecciones (este problema lo $ol$eremos a estudiar en el <aptulo :)#
Media condicional de los errores cero
El supuesto de media cero de los errores es condicional en x # Es decir,
E| c
i
| x=0 # +a intuicin se relaciona directamente con la descripcin del MGE
discutido m!s arriba# Del supuesto anterior se deri$an $arios elementos que son
importantes para entender qu" hace y no hace el modelo de regresin lineal#
El supuesto no es E| c
i
| x
i
=0 #
-#:
(i E|c
i
| x=0 entonces E| c=0 # %ara probarlo, use la definicin de densidad
marginal#
+a presencia de la constante entre los regresores asegura que E| c| x=0 #
(i E| c| x=0 , entonces el modelo de regresin es una media condicional# (i, por
el contrario, E| c
i
| x 0 , la regresin no es una media condicional, como se $e
en la siguiente deri$acin#
E| y| x=E| o+ x+c | x
=o+ E| x| x+E|c | x
=o+ x
(-#.F)
(e cumple que cov| x
i
,c
i
=0 #
Errores esfricos
3
%ara estudiar este supuesto es con$eniente descomponerlo en dos partes#
(a) Var | c
i
| x=c
2
es constante y, en particular, no depende de x # 0 esto se le llama
3omocedasticidad#
-
+a funcin ced!stica es la que describe la incertidumbre asociada a los
shocGs o perturbaciones, c # ?omocedasticidad seHala que dicha incertidumbre no
depende de haber obser$ado una realizacin particular de x #
(b) Cov (c
i
,c
j
| x)=0 # 0 esto se le llama ausencia de correlacin entre errores# (eHala
que obser$ar una determinada perturbacin o error no contiene informacin respecto
del posible tamaHo de otra perturbacin#
+a matriz de co$arianzas condicional de los errores es:
E| cc' | x=
|
E |c
1
c
1
| x E|c
1
c
2
| x E| c
1
c
n
| x
E| c
2
c
1
| x E |c
2
c
2
| x E|c
2
c
n
| x

E| c
n
c
1
| x E |c
n
c
2
| x ... E|c
n
c
n
| x

=
|
c
2
0 0
0 c
2
0

0 0 c
2
(-#..)
9 I+iGe other occult techniques of di$ination, the statistical method has a pri$ate &argon deliberately
contri$ed to obscure its methods from non,practitioners#I , G# J# 0shley
- +os t"rminos hetero y homoced!stico fueron acuHados por Barl %earson en .EF: (IJn the general theory
of sGe= correlation and non,linear regression,I 4rapers5 6ompany Res. 7em. 8iometric 9eries)# El t"rmino
se deri$a del griego s:edastos , que significa 2capaz de ser repartido de manera irregular3#
-#;
De manera sint"tica podemos escribir E| cc' | x=c
2
# 0plicando la
descomposicin de $arianza se puede deri$ar la siguiente identidad:
V | c=E
x
| V | c| x +V
x
| E| c| x (-#.4)
es decir, la incertidumbre de la prediccin hecha sobre la base de un modelo
econom"trico V
x
| E| c| x es menor que la incertidumbre de los datos V | c #
Regresores no estocsticos
Este supuesto seHala que la 5nica fuente de incertidumbre en el modelo
estadstico est! en la $ariable que se modela, y # M!s precisamente, en los par!metros
que describen la distribucin f ( y , 0) condicional en x #
Jtra manera intuiti$a de entender este supuesto es obser$ar que no se est!
haciendo un modelo de los regresores# En ese sentido, los regresores son $ariables
2controlables3 por el cientfico# %or ello, usualmente se dice que 2los regresores son fi&os
en muestras repetidas3, queriendo decir que si el cientfico quisiera repetir el
e)perimento 'sacar otra muestra, en nuestro caso' la 5nica fuente de incertidumbre
sera el resultado del e)perimento, pero no la $ariacin de los condicionantes# (i los
regresores son controlables, entonces los supuestos anteriores son incondicionales#
Este supuesto no es demasiado costoso, como se deducir! al estudiar las
distribuciones asintticas de los estimadores m!s adelante#
Errores normales
Esto quiere decir que los errores, condicionales en ;, se distribuyen con
distribucin normal# En particular,
c
i
| x ! | 0,c
c
2
(-#.9)
K%or qu" 2normales3L +a manera de entender esto es que el modelo no pretende
ser una descripcin .FFM fiel del fenmeno, sino slo una apro)imacin con$eniente#
%or ello, hay un 2error3# (i las causas de este error no son sistem!ticas, una normal es
una buena descripcin# (i son sistem!ticas, el modelo est! mal especificado, pues
debera incluir dichas sistematicidades#
-#A
4.03 Representacin grfica de la regresin lineal
6na manera simple de entender la relacin entre la muestra, los supuestos y la
regresin lineal se encuentra en las siguientes tres figuras# %ara que resulte f!cil de
entender se ha reducido el problema a un modelo uni$ariado y una muestra de dos
obser$aciones, pero el principio es general y el mismo para cualquier tipo de modelo# En
la *igura -#. se presenta una muestra de dos obser$aciones (los pares Ny
<
, ;
<
O y Ny
2
, ;
2
O)#
Figura 4.1
Las obseraciones
%ero recordemos que, respecto de y , el problema de obser$ar determinados
$alores es esencialmente estoc!stico y, m!s especficamente, que hemos supuesto que las
perturbaciones aleatorias siguen una distribucin normal (supuesto ;)# %or otro lado,
estamos suponiendo que los condicionantes x son determinsticos (supuesto :)# +a
*igura -#4 describe el rol que &uegan ambos supuestos#
Figura 4.!
La estocasticidad
P(u)
x1
x
2
y
1
y
2
P(u)
x
1
x2
y
1
y
2
-#@
1te $arios elementos importantes# %rimero, la 2forma3 de la distribucin en
t"rminos de dispersin es id"ntica para cualquier obser$acin de la $ariable aleatoria x
(supuesto -)# (egundo, las obser$aciones de y no tienen por qu" coincidir con el $alor
esperado de y condicional en ;, basta con que est"n en el rango de la distribucin#
>ercero, no hay incertidumbre respecto de cada obser$acin de ;#
*inalmente, la regresin lineal describe la media condicional de y dado x , lo
que gr!ficamente se $e como una recta (supuesto .) que pasa por cada E| y
i
| x , como
se $er en la *igura -#9#
Figura 4.3
La regresi"n
4.04 eri!acin del estimador de mnimos cuadrados
"
En t"rminos generales la idea subyacente en el m"todo de mnimos cuadrados es
e)tremadamente simple y consiste en tratar de apro)imar la cur$a de regresin
E| y
i
x usando las obser$aciones contenidas en la muestra cometiendo el menor error
posible# Es usual referirse a:
Modelo $erdadero (poblacional) y
i
=x
i
+c
i
Modelo muestral y
i
=

x
i
+ c
i
+a idea del m"todo de mnimos cuadrados es buscar el

que minimiza el error


cometido# (i el procedimiento est! bien,

con$erger! a # 1o tiene sentido minimizar


: El t"rmino M"todo de <uadrados Mnimos fue acuHado por 0drien Marie +egendre (.A:4,.@99),
presentado en el ap"ndice de su libro Nouvelles m=t3ods pour la determination des orbite des com=tes (.@F9)#
6n tratamiento m!s completo del m"todo apareci posteriormente en el libro de Gauss >3eoria 7otus
6orporum 6oelestium in 9ectionibus 6onicis 9olem ?mbientium de .@FE# +a disputa por la paternidad del
m"todo surgi porque Gauss afirm que $ena us!ndolo desde .AE:#
P(u)
X
1
X
2
y
1
y
2
y
i
=x
i
E y
1
|x
1
E y
2
|x
2
-#E
un error particular, por lo que es con$eniente usar la suma de errores# <omo hay puntos
por arriba y aba&o de la recta poblacional, entonces es necesario minimizar la suma de
errores al cuadrado#
Estimador de m#nimos cuadrados
Definimos la suma de residuos al cuadrado de un modelo lineal 'para alg5n
0
'
como:

i=1
n
c
i |
0
2
=

i=1
n
( y
i

0
' x
i
)
2
=c
|
0
' c
|
0
(-#.-)
note que hemos usado el supuesto .# En adelante omitimos el subndice i sal$o que sea
confuso# El ob&eti$o es minimizar la ecuacin (-#.-) escogiendo adecuadamente , es
decir:
"in

0
S (
0
)=c
0
' c
0
=( y
0
' x) ' ( y
0
' x)
=y ' y
0
' x ' yy' x
0
+
0
' x' x
0
(-#.:)
1ote que se ha usado el supuesto (9)# <omo sabemos de c!lculo, minimizar la
ecuacin (-#.:) requiere hacer que su deri$ada sea igual a cero:
S(
0
)

0
=2 x' y+2 x' x
0
=0 (-#.;)
+a ecuacin (-#.;) 'que en realidad es un sistema de ecuaciones' es llamada
ecuacin normal# >omando la segunda deri$ada:

2
S (
0
)

0
'
=2 x' x (-#.A)
por lo tanto cualquiera sea el $alor de , si x ' x es positi$a definida el problema es
una minimizacin#
(i x es de rango completo (supuesto 4), su in$ersa e)iste y se puede obtener el
estimador de mnimos cuadrados (ordinarios)#

=( x ' x)
1
x' y
(-#.@)
-#.F
1ote que slo hemos usado los primeros tres supuestos, pero no los segundos
tres# Es decir, es posible obtener un estimador del par!metro a5n si no se cumplen estos
5ltimos, porque ellos se refieren a la distribucin del estimador#
$ropiedades interesantes de la soluci"n
De la ecuacin (-#.;) obtenemos 0=x' x

x' y=x ' ( x

y)=x' c # (i la
matriz de regresores contiene una columna de unos se deduce
.# cada columna de x es ortogonal a los residuos#
4# la suma de los residuos es cero#
9# la regresin pasa por la media#
-# la prediccin de y hecha sobre la base de fi&ar ;
@
es insesgada,
y =x
p

Pamos a usar repetidamente la siguiente matriz idempotente y sim"trica:


#=( x( x' x)
1
x ' ) (-#.E)
la que aplicada a y produce 2los residuos de una regresin de y en ;3, es decir:
#y=( x( x ' x)
1
x' ) y=yx( x ' x)
1
x ' y=yx

= c
(-#4F)
Regresi"n particionada
(upongamos que la regresin tiene dos grupos de $ariables, x
1
y x
2
# Entonces,
las ecuaciones normales son:
|
x
1
' x
1
x
1
' x
2
x
2
' x
1
x
2
' x
2
|

=
|
x
1
' y
x
2
' y

(-#4.)
de lo cual obtenemos:
-#..

1
=( x
1
' x
1
)
1
x
1
' y( x
1
' x
1
)
1
x
1
' x
2

2
(-#44)
De la ecuacin (-#44) se desprenden $arios resultados importantes:
(.) (i ( x
1
' x
2
)=0 , es decir si x
1
y x
2
son ortogonales, los estimadores pueden ser
obtenidos de regresiones independientes#
(4) (i x
1
y x
2
no son ortogonales, la omisin de x
1
y

x
2
lle$ar! a obtener
estimadores sesgados#
6sando las ecuaciones (-#4.) y (-#44) y definiendo 7
<
como los residuos de la
regresin hecha slo con ;
<
obtenemos:
x
2
' x
1
( x
1
' x
1
)
1
x
1
' yx
2
' x
1
( x
1
' x
1
)
1
x
1
' x
2

2
+x
2
' x
2

2
=x
2
' y
x
2
' | x
1
( x
1
' x
1
)
1
x
1
' x
2

2
=x
2
' | x
1
( x
1
' x
1
)
1
x
1
' y
( x
2
' #
1
x
2
)
2
=( x
2
' #
1
y)
(-#49)
Este es otro resultado importante, llamado el >eorema de *risch,Daugh
;
: el
estimador

2
describe la contribucin marginal de x
2
para e)plicar las $ariaciones de
y , es decir neta de la contribucin de x
1
#
%ondad de a&uste
'
El ob&eti$o del an!lisis de regresin es dar cuenta (e)plicar) de las $ariaciones de
y # Es decir, la $ariacin total de y A

i
( y
i

y)
2
#
(ea #
0
=|
1
n
ii ' # 0plicada a y computa des$iaciones con respecto a

y #
Entonces, la suma de cuadrados totales se puede escribir como y #
0
y # 0s:
y' #
0
y=

' x' #
0
x

+ c' #
0
' #
0
c=

' x' #
0
x

+ c' c (-#4-)
el lado izquierdo de la ecuacin (-#4-) corresponde a la suma total de cuadrados (96>)
en tanto que el primer t"rmino de lado derecho es la suma de cuadrados 2e)plicados3
; *risch, 8# and Daugh, *#, .E99, 2%artial time regressions as compared =ith indi$idual trends3,
Bconometrica, -:, E9E,:9#
A El t"rmino bondad de aCuste pro$iene de un artculo de Barl %earson donde ya se e)presan dudas respecto
de su utilidad: I>he Qpercentage errorQ in ordinate is, of course, only a rough test of the goodness of fit,
but R ha$e used it in default of a better#I 2<ontributions to the Mathematical >heory of E$olution# RR#
(Ge= Pariation in ?omogeneous Material3, @3ilosop3ical >ransactions of t3e Royal 9ociety of Dondon (.@E:)
(eries 0, .@;, 9-9,-.-
-#.4
por la regresin (96B)# El 5ltimo t"rmino corresponde a la suma de residuos al cuadrado
(96R)# %or ello, se define la bondad de a&uste como:
$
2
=
SCE
SC%
=1
SC$
SC%
=1
c' c
y' #
0
y
(-#4:)
El problema de R
2
es que si se aHaden $ariables a la regresin, "ste no puede
reducirse# %or ello, se necesita una medida de a&uste que penalice el e)ceso de
regresores# El R
2
a&ustado es dicha medida:

$
2
=1
( c ' c)/(nk)
( y ' #
0
y)/ (n1)
(-#4;)
4.0" #ropiedades del estimador de mnimos cuadrados en muestra
finita
+as propiedades del estimador de mnimos cuadrados deben ser estudiadas
tanto en muestra pequeHa (finita) como grande (infinita) para entender a cabalidad el
papel de los supuestos del modelo y su aplicabilidad en circunstancias pr!cticas#
0dicionalmente, estudiaremos tanto el caso en que los regresores son estoc!sticos como
determinsticos# Esto nos da cuatro casos de inter"s#
En esta parte estudiaremos las propiedades del estimador de mnimos cuadrados
en muestra finita, de&ando el caso de muestra grande para la seccin -#F@# El estimador
de mnimos cuadrados de puede ser escrito como:

=( x' x)
1
x ' y
=( x' x)
1
x ' | x +c
= ( x' x)
1
x ' x +( x' x)
1
x ' c
= +( x' x)
1
x ' c
(-#4A)
(i los regresores son no estoc!sticos, entonces ( x x)
1
x es una constante# 0s,
E|

= # El estimador es insesgado, independientemente de la distribucin de los


residuos#
+a matriz de $arianzas y co$arianzas de

se puede obtener usando la ecuacin


(-#4A) directamente:
-#.9
V |

=E|(

E|

)(

E |

) '
=E| ( x' x)
1
x ' c c' x( x' x)
1

=( x' x)
1
x ' E|c c' x( x ' x)
1
=c
2
( x' x)
1
(-#4@)
+a ecuacin (-#4@) seHala que la $arianza (incertidumbre con respecto) del
estimador pro$iene tanto de la estocasticidad del problema 'medido por la $arianza de
los errores' como de la $ariabilidad de los regresores# 0 mayor $arianza de los residuos
'es decir la parte no e)plicadaS mayor es la imprecisin del estimador# 0 menor
$arianza de los regresores, mayor es la imprecisin del estimador#
6na $ez obtenida la $arianza del estimador resulta directo demostrar que "sta es,
adem!s, mnima# +a demostracin es llamada teorema de Gauss,MarGo$# El
procedimiento consiste en comparar la $arianza del estimador de mnimos cuadrados
con la de un estimador ri$al#
(upongamos que e)iste otro estimador insesgado que es cualquier combinacin
lineal de las obser$aciones de la $ariable de inter"s:

=cy
# <omo este estimador ri$al
es insesgado, se debe cumplir
E|

=E| cy=
# Entonces:
E| cy= E| cx +cc= cx= (-#4E)
es decir, cualquier combinacin lineal es $!lida (lo que le da generalidad al teorema)#
Jbtenemos ahora la $arianza del ri$al:
V |

=c
2
cc '
(-#9F)
Definimos la 2distancia3 entre ambos estimadores como
&y=

#
1aturalmente se cumple que &=c( x x)
1
x # Despe&amos c y lo introducimos en la
ecuacin (-#9F) para obtener:
V |

=c
2
cc '
=c
2
| &+( x' x)
1
x ' | &+( x ' x)
1
x' '
=c
2
( x' x)
1
+c
2
&&'
(-#9.)
-#.-
ya que &x=0 y cx= # Entonces,
V |

=V |

+&&'
# (i & 0 , la $arianza del ri$al
es mayor y, por lo tanto, el estimador de mnimos cuadrados es de mnima $arianza#
0s, cada estimador

k
es insesgado y de $arianza mnima#
Peamos ahora el caso en que los regresores son estoc!sticos, es decir, x no es fi&o
entre muestras# El truco para obtener las propiedades del estimador es primero obtener
las propiedades condicionales en x y luego las propiedades no condicionales#
Jbtengamos el estimador de mnimos cuadrados condicional en x usando la
ecuacin (-#4A):
E|

| x=+( x ' x)
1
x' E|c | x= (-#94)
esta es la esperanza condicional# 6samos la ley de e)pectati$as iteradas para obtener la
esperanza incondicional del estimador:
E|

=E
x
| E|

| x =+E
x
| ( x' x)
1
x' E| c| x= (-#99)
este resultado no depende de supuestos sobre la distribucin de x sino slo del
supuesto 9 (no correlacin entre regresores y errores)#
<omputamos, tambi"n, la $arianza incondicional# (abemos que la $arianza
condicional es V | | x=c
2
( x x)
1
# %or lo tanto,
V |

=E
x
| V |

| x+V
x
| E|

| x
=E
x
| V |

| x
=E
x
| c
2
( x ' x)
1

(-#9-)
<omo resulta e$idente, la $arianza del estimador depende de la realizacin de la
muestra# %ero, para una realizacin particular de la muestra, el estimador de mnimos
cuadrados es el me&or estimador lineal insesgado (ME+R)# +uego la conclusin principal
de Gauss,MarGo$ no se altera#
<aractericemos ahora la distribucin del estimador de mnimos cuadrados#
Debido a que hemos supuesto que los errores se distribuyen normales, entonces:

| x-! | , c
2
( x' x)
1
(-#9:)
esta es una distribucin normal multi$ariada# Es decir, cada

k
se distribuye normal#
-#.:
Este resultado pro$iene del supuesto ;# (in "ste, no podramos hacer inferencia
alguna en este conte)to# <uando los regresores no son estoc!sticos, "sa es e)actamente la
distribucin del estimador# <uando los regresores son estoc!sticos, esa es la distribucin
condicional del estimador#
<omo se ha supuesto que la distribucin de los residuos es normal, la densidad
con&unta queda descrita por la siguiente funcin de $erosimilitud:
]
i
f ( x
i
; 0)=
]
i
| 2nc
2

1/2
'
c
i
2
/ 2c
2
=(2nc
2
)
n
2
'
|c' c/ 2c
2

log L( , c
2
; x
i
)=
n
2
log(2nc
2
)
1
2c
2
( y
i
x
i
) ' ( y
i
x
i
)
(-#9;)
Es e$idente que ma)imizar la funcin de $erosimilitud en este caso es
equi$alente a minimizar el segundo t"rmino que, a su $ez, es una funcin de la suma de
residuos al cuadrado# Entonces, el estimador de mnimos cuadrados es el de m!)ima
$erosimilitud y, por consiguiente, es ME+R#
Estimador de la arian(a de los errores) c
2
%ara calcular la $arianza del estimador de mnimos cuadrados de los par!metros
de la ecuacin (-#4@) requiere conocer c
2
# Ello no es usual# 6n estimador natural usara
los residuos muestrales:
c
2
=
1
n

i=1
n
c
i
2
(-#9A)
Este no es el estimador adecuado, sin embargo# <onsideremos:
c=#y=#( x +c)=# c (-#9@)
0s, la suma de residuos al cuadrado es c' c=c' # c , cuyo $alor esperado es
E| c' c| x=E|c ' # c| x # Debido a que c' c y c' # c son matrices cuadradas, obtener
el $alor esperado anterior es equi$alente a la esperanza de su traza# %ero,
E| (r ( c' c)| x=E| (r (c' # c)| x=E|(r ( # c' c) | x (-#9E)
-#.;
como M es una funcin de x para un x dado, entonces
E| (r (# c ' c)| x=(r (#E|c ' c| x)
=(r ( # c
2
)
=c
2
(r ( #)
=c
2
(r (
n
x( x' x)
1
x ' )
=c
2
| (r (
n
)(r ( x( x' x)
1
x' )
=c
2
| nk
(-#-F)
%or ello, el estimador insesgado de la $arianza de los errores es:
c
2
=
1
nk

i=1
n
c
i
2
(-#-.)
En el 0p"ndice 7 se presenta un procedimiento en Gauss que hace estimaciones
por mnimos cuadrados ordinarios, computando los estimadores y los estadgrafos
asociados que hemos descrito en estas secciones#
4.0$ %ests de &iptesis en el modelo multi!ariado
(ea y
i
=x
i

+ c
i
el modelo estimado# 7uscamos un m"todo de hacer cualquier
tipo de hiptesis e inferencia sobre el con&unto de par!metros estimados# 6na manera
general de hacer tests para hiptesis lineales es e)presar dichas hiptesis de la siguiente
manera:
$

=) (-#-4)
donde R es una matriz de orden jxk y q es un $ector de orden jx1 (pre&uicios)# El
truco consiste en escoger de manera inteligente las matrices R y q#
En t"rminos generales, escribiremos:
-#.A
r
1,1

1
+r
1,2

2
++r
1,k

k
=)
1
r
2,1

1
+r
2,2

2
++r
2, k

k
=)
2

r
j ,1

1
+r
j ,2

2
++r
j , k

k
=)
j
(-#-9)
donde los r son los elementos de R# 1ote que hay : par!metros y C ecuaciones (CE:)#
6saremos la estructura de la ecuacin (-#-9) para deri$ar los distintos tipos de tests y,
posteriormente, sus distribuciones#
*est de una +ip"tesis simple
(upongamos que queremos testear

j
=2 # 6samos:
R=|0,0, , 1, 0, , 0
q=2
(-#--)
de esa forma, R escoge el par!metro CF"simo#
*est de una +ip"tesis de igualdad de parmetros
(upongamos que queremos testear

j
=

k
# Es decir,

k
=0 # Escogemos:
R=|0,0 ,,1,1,,0
q=0
(-#-:)
*est de arias +ip"tesis sobre parmetros
(upongamos que queremos testear si las siguientes hiptesis se cumplen

j
=1
y

k
=4 # Escogemos:
R=
|
0,0,, 1,0, 0
0,0,, 0,1, 0

q =
|
1
4

(-#-;)
1ote que ahora hay dos filas en q (CT4)#
*est de arias +ip"tesis sobre arios parmetros
-#.@
(upongamos que queremos testear si las siguientes hiptesis se cumplen

j
=1

i
y

k
=n # Escogemos:
R=
|
0,0,, 1,1,0, 0
0,0,, 0,0,1,0

q =
|
1
n

(-#-A)
1ote que tambi"n hay dos filas en q (CT4)#
Ca sabemos cmo escribir cualquier grupo de hiptesis lineales en t"rminos de
$

=) # K<mo hacemos un test estadsticoL
+a intuicin es que si n*+ , entonces sera f!cil comparar directamente $

=)
%ero, n es finito# %or ello, a5n si R

q en t"rminos num"ricos, estadsticamente
podran ser iguales#
?agamos el cl!sico test para la hiptesis nula H
0
: R

q =0 :
R

q
.
Var (R

q )
(-#-@)
+a intuicin del test es directa# (i la distancia R

q es 2grande3 entonces
R

q y se rechaza Go# En la ecuacin (-#-@) hay dos cosas que no conocemos: (.)
Var (R

q) y (4) la distribucin del test#
Estudiamos primero la $arianza# 0plicando las propiedades de este operador al
test:
Var (R

q)=Var (R

)
=R Var (

)R '
=Rc
2
(x ' x)
1
R '
=c
2
R(x ' x)
1
R '
(-#-E)
-#.E
Estudiemos ahora la distribucin del test en la ecuacin (-#-@)# 1ote que 8 y q
son constantes# %or ello, el numerador es una funcin de los errores normales (

es una
combinacin lineal de errores) y por lo tanto es N(0, c
2
R (x ' x)
1
R ' ) # %ero, estamos
di$idiendo por c
2
R (x ' x)
1
R ' , es decir, la distribucin es 1(F,.)#
<omo usualmente la $arianza de los errores es desconocida, usamos el estimador
de "sta y, por lo tanto, estamos di$idiendo por algo que es estoc!stico# %areciera que
obtener la distribucin es algo directo# El problema es que queremos la distribucin de la
razn y no la distribucin del numerador y del denominador por separado# E)cepto que
"stos sean 2independientes3#
1ote que

es una combinacin lineal de c del tipo Lc # Ello, porque

c
=(x ' x)
1
x '
c
c
#
1ote que c
2
es una combinacin lineal de c del tipo xAx # Ello, porque
c
i
' c
i
=c
i
' Mc
i
#
%ara que ambos t"rminos sean independientes, la combinacin lineal de ellos
debe ser ortogonal# Es decir, LA=0 # Es decir, (x ' x)
1
x ' M=0 , que ob$iamente se
cumple#
0s, debido a que

k
se distribuye normal, el test de la hiptesis nula de un
5nico par!metro es directamente:
z
k
=

k
.
c
2
S
kk
N ( 0,1) (-#:F)
<uando la $arianza de los residuos es desconocida demostraremos que tenemos
una normal est!ndar di$idida por una UV a&ustada por grados de libertad# 6samos el
estimador de la $arianza de la ecuacin (-#-.)# Entonces, di$idimos la ecuacin (-#:F) por
la raz del estimador para obtener:
t
k
=
(

k
)/
.
c
2
S
kk
.
(nk)

c
2
/ c
2
/(nk)
=
(

k
)
.
S
kk

c
2
t
( nk) (-#:.)
0s, el reemplazo de la $erdadera $arianza por su estimador produce una
distribucin t# +a demostracin es la siguiente# <onocemos la distribucin de
-#4F
(

k
)/
.
c
2
S
kk
pero queremos (

k
)/
.
c
2
S
kk
# +uego tenemos que multiplicar y
di$idir por
.
c
2
# 8eacomodando los t"rminos queda:
(

k
)/ (
.
c
2
.
S
kk
)
.

c
2
/
.
c
2
(-#:4)
De acuerdo a la ecuacin (-#:F), el numerador es normal est!ndar# El
denominador es 2algo3#
c
2
=
c' c
(nk)
(nk) c
2
= c' c=c' Mc (-#:9)
0hora, di$idimos por c
2
con$enientemente
(nk)
c
2
c
2
=
c' M c
c
2

|
c
c

' M
|
c
c

(-#:-)
1ote que c se distribuye normal con media cero, por lo que c/c es 1(F,.) y la
ecuacin (-#:-) es el 2cuadrado3 de una normal est!ndar, por lo que se distribuye UV# +os
grados de libertad son el rango de M que es (nF:)# 0s es que tenemos una 1(F,.)
di$idido por una UV# (i queremos el test t debemos a&ustar el denominador por los
grados de libertad#
<uando se trata de una hiptesis comple&a, usamos directamente el test de Dald
de la siguiente forma:
| R

q ' (c
2
R (x ' x)
1
R ' )
1
| R

q X
( J )
2
(-#::)
la distribucin es m!s bien ob$ia# Jbtener los grados de libertad del test (H) se de&a de
e&ercicio#
1ue$amente, tenemos el problema que c
2
es desconocida# (e usa el estimador
de la ecuacin (-#-.) por lo que se obtiene el siguiente test que tiene la distribucin de
*ischer#
| R

q ' (R ( x ' x )
1
R ' )
1
| R

q / J
c' c/(nk)
F ( J , nk)
(-#:;)
-#4.
+a intuicin es de nue$o directa# (i R

q es 2grande3 entonces R

q y se
rechaza Go#
4.0' %ests de &iptesis ( modelo restringido
Jtra manera de pensar un test de hiptesis es en t"rminos de 2restricciones
impuestas3# (upongamos que en $ez de hacer el test, imponemos directamente la
hiptesis nula y hacemos la regresin# ?abr!n dos resultados posibles: (.) la restriccin
que hemos impuesto si afecta la estimacin, cambiando los par!metros estimados y (4)
la restriccin que hemos impuesto no afecta la estimacin#
KDnde se refle&ara m!s f!cilmente el efectoL Jb$iamente en los par!metros que
no hemos restringido, pero sera dificil de e$aluar# M!s f!cil de e$aluar es el efecto sobre
la suma de residuos al cuadrado, c' c # (i ponemos una restriccin y afectamos la
estimacin, tendremos que estar cometiendo 2m!s errores3 que sin dicha restriccin,
porque la estimacin sin restriccin es la ptima (min c' c) # %or otro lado, si ponemos
una restriccin y no afectamos la estimacin, entonces la restriccin ya se cumpla y no
estaremos cometiendo 2m!s errores3 que sin dicha restriccin#
(i llamamos c
*
' c
*
a los errores de la regresin con la restriccin impuesta,
entonces:
c' c= c
*
' c
*
seHala que la estimacin con y sin restricciones son iguales#
c' c c
*
' c
*
seHala que la estimacin con y sin restricciones son distintas#
KWu" son c' c y c
*
' c
*
L
c= yx

c
*
= yx

*
(-#:A)
%or lo tanto:
c
*
= c+x

x

*
= cx(

) (-#:@)
de lo que se desprende
c
*
' c
*
= c' c c' x (

)(

) ' x ' c+(

) ' x ' x (

)
= c' c+(

)' x ' x(

)
(-#:E)
-#44
(i queremos entender la ecuacin anterior tenemos que estudiar (

*
) # %ara
ello, $amos a pensar de nue$o en el problema de optimizacin# Pamos a buscar
*
tal
que sea ptimo ba&o ,
0
# Es decir,
min ( y x

)' ( y x

) sj!t" a H
0
: R

=q (-#;F)
formamos el +agrangeano,
=( y x

)' ( yx

)2\(R

q) (-#;.)
deri$ando, obtenemos

=2x' y +2x' x

2R' \=0

\
=2(R

q )=0
(-#;4)
de la primera ecuacin normal obtenemos

*
# %remultiplicamos por R (x ' x)
1
y
obtenemos:
2R(x ' x)
1
x ' y +2R( x ' x )
1
x ' x

*
2R( x ' x )
1
R ' \=0 (-#;9)
1ote que el primer t"rmino es 2R

y el segundo es 2R

*
# Entonces,
\=| R( x ' x )
1
R '
1
( R

*
q )
(-#;-)
De $uelta en la ecuacin (-#;4) despe&amos:

*
=

+( x ' x )
1
R ' | R ( x ' x )
1
R '
1
( R

q )
(-#;:)
pero
*
=R q # 6sando la ecuacin (-#;4) en la ecuacin (-#:@), obtenemos
c
*
' c
*
= c' c+(

) ' x ' x (

)
= c' c+(R

q )' x ' x ( R

q)
(-#;;)
-#49
pero esto ya lo conocemos# 0s,
c
*
' c
*
c' c=(R

q )' x ' x (R

q ) (-#;A)
%or ello, el test * que usamos para e$aluar hiptesis comple&as puede ser escrito
como:
| c
*
' c
*
c ' c / J
c' c/ (nk)
F
|
J
nk

(-#;@)
+a ecuacin (-#;@) tiene una interpretacin de gran importancia para la manera
como entendemos el an!lisis cuantitati$o en economa# ?emos demostrado que hacer un
test respecto de uno o m!s par!metros es e)actamente equi$alente a hacer una
comparacin de dos modelos, uno restringido y uno sin restringir# (i las restricciones
son $!lidas, el modelo restringido es una me&or descripcin del fenmeno, en el sentido
que es m!s eficiente en la descripcin de "ste#
1ote que di$idiendo el denominador y numerador por

i=1
n
( y
i

y)
2
obtenemos:
| $
2
$
2*
/ -
(1$
2
)/ (nk)
.
|
-
nk

(-#;E)
lo que no es de e)traHar por cuanto e)iste una relacin directa entre estimadores de
par!metros y bondad de a&uste# 8ecuerde que el estimador minimiza la (8< y la bondad
de a&uste se define como $
2
=1
S$C
SC%
#
4.0) #ropiedades del estimador de mnimos cuadrados en muestra
grande
0hora $amos a obtener las propiedades asintticas de los estimadores mnimos
cuadrados# ?ay dos razones para ello: primero, saber cu!ndo las propiedades de
muestra finita no se aplican y, segundo, poder obtener las propiedades de estimadores
no con$encionales#
-#4-
Pamos a suponer que lim
n *+
1
n
x ' x=/ 0o1. 2'f.
<uando x es no estoc!stico el supuesto es ob$io#
<uando x es estoc!stico, el supuesto se $a a referir al tipo de muestra
($ol$eremos a esto m!s adelante)#
El estimador de mnimos cuadrados puede ser escrito como:

=+
|
1
n
x ' x

1
|
1
n
x' c

(-#AF)
>omando plim y suponiendo que /
1
e)iste:
p#im

=+$
1
p#im
|
1
n
x ' c

(-#A.)
%ara encontrar plim del segundo t"rmino, definimos una $ariable au)iliar I:
1
n
x ' c=
1
n

i
x
i
c
i
=
1
n

i
%
i
=

% (-#A4)
>omemos &|

%=
1
n

i
&| %
i
=
1
n

i
x
i
&| c
i
=0 #
>omemos V |

% =&|

%

% ' =
1
n
x ' &| cc' x
1
n
=
c
2
n
x ' x
n
#
0s, lim
n'(
V|

% =0$=0
%or lo tanto,

% con$erge medio cuadr!ticamente a cero, p#im

%=0 ,
p#im1/ n (x ' c)=0 , y p#im

= # Es decir, el estimador de mnimos cuadrados es
consistente#
El supuesto p#im1/ n x x=$ es, en realidad, demasiado restricti$o# +as
siguientes condiciones 'llamadas condiciones de Grenander' son menos restricti$as
pero suficientes#
-#4:
.# %ara cada columna de x , lim
n'(
x
k
' x
k
=+ (no degenera a una secuencia de
ceros o cada obser$acin aHade informacin 5til para la estimacin de los
par!metros)
4# lim
n '(
x
ik
2
x
k
' x
k
=0 (ninguna obser$acin domina la $arianza promedio y, por lo
tanto, no hay dominancia de un $alor e)tremo)#
9# +a matriz x es de rango completo#
,istribuci"n del estimador cuando los regresores son no estocsticos
?emos $isto que

e)iste si se cumplen las condiciones de Grenander pero


Kcmo se distribuye el estimadorL >omemos de nue$o la ecuacin (-#AF), la que
podemos re,escribir como:
.n(

)=
|
1
n
x' x

1
|
1
. n
x ' c

(-#A9)
8ecordemos nuestros rudimentos de teora asinttica de las clases anteriores: el
lado izquierdo es conocido (>eorema de +mite <entral)# Estudiamos el lado derecho#
<omo la in$ersa es una funcin continua de W, lim
n *+
|
x' x
n

1
=/
1
#
Estudiar la distribucin lmite de la ecuacin (-#A9) es equi$alente a estudiar la
distribucin lmite de ( 1/.n x c ), es decir:
1
.n
x' c=.n(

3E(

3))
(-#A-)
pero ya sabemos que E|

3=0 , slo interesa la distribucin lmite de


.n 3
#
%ero de la ecuacin (-#A4) sabemos que

3 es el promedio de n $ectores
aleatorios del tipo x
i
c
i
con media cero y $arianza:
V | x
i
c
i
=c
2
x
i
' x
i
=c
2
/
i
(-#A:)
-#4;
por lo que
V | .n

% =c
2

$=c
2
1
n
| $
1
+.+$
n

=c
2
1
n

i
x
i
' x
i
=c
2
(
x ' x
n
)
(-#A;)
en el lmite de muestra grande se obtiene lim
n'(
c
2
$
n
=c
2
$ (de nue$o, no hay
dominancia)#
*inalmente, podemos usar el >eorema de +indeberg,*eller para obtener:
1
.n
x ' c -
)
N | 0, c
2
$ (-#AA)
naturalmente,
$
1
1
.n
x ' c -
)
N | 0, $
1
(c
2
$) $
1
(-#A@)
Entonces,
.n (

) -
)
N | 0, $
1
(c
2
$) $
1

(-#AE)
*inalmente,

-
)
N
|
,
c
2
n
$
1

(-#@F)
El resultado es m!s importante de lo que se $e a simple $ista# 1ote que no se 3a
supuesto ninguna distribucin para los residuos y aJn asK el estimador es asintticamente
normal# Esto es consecuencia del teorema central del lmite y del supuesto que se
cumplen las condiciones de Grenander#
-#4A
El estimador de la arian(a de los errores
+a ecuacin (-#AE) depende de c
2
que es tpicamente desconocido# 1ecesitamos
el estimador asinttico de la $arianza de los residuos (EP0)# +a contrapartida asinttica
del estimador de c
2
se obtiene de:
c
2
=
1
nk
c' Mc
=
1
nk
| c' cc' x ( x ' x )
1
x ' c
=
n
nk
|
c' c
n

(
c' x
n
)(
( x ' x )
1
n
)(
x ' c
n
)
(-#@.)
Jb$iamente,
cuando n*+ el primer t"rmino tiende a .#
El segundo t"rmino del par"ntesis con$erge a cero#
El primer t"rmino es el promedio de c
2.
(i la $arianza de este promedio es finita
(es decir, el cuarto momento de c es finito), entonces la ecuacin (-#@.) con$erge
a c
2
#
%or ello, p#im c
2
(
x ' x
n
)
1
=c
2
$
1
#
,istribuci"n de los tests de +ip"tesis.
<uando los errores no se distribuyen normal, los tests t, L y UV no se pueden
aplicar directamente#
*est t# 0sintticamente se tiene que distribuir normal (ob$io)#
*est F# El test para la hiptesis R

q=0 es
F=
( c
*
' c
*
c' c)/ J
c ' c/(nk)
=
(R

q )' | R c
2
(x ' x)
1
R '
1
(R

q )
J
(-#@4)
-#4@
%ero,

=+(x ' x)
1
x ' c # %or lo tanto,
F=
c' x ( x ' x )
1
R ' | R (x ' x)
1
R '
1
R (x ' x)
1
x ' c/ J
c' M c/ (nk)
(-#@9)
(ea L=x ( x ' x )
1
R ' | R(x ' x)
1
R '
1
R(x ' x)
1
x ' , entonces la ecuacin (-#@9)
es:
F=
c' Lc/ J
c' Mc/ (nk)
=
( c/ c) ' L ( c/ c) / J
| c' M c/(nk)/ c
2
(-#@-)
+a ecuacin (-#@-) no tiene distribucin conocida# %ero HL si la tiene:
JF =
( c/ c) ' L ( c/c)
| c' Mc/ (nk) /c
2
-
)
X
2
(tr ( L)=J ) (-#@:)
+a razn es que el denominador con$erge a ., en tanto que el numerador es 'otra
$ez' una forma cuadr!tica# +a traza de + 'que se obtiene f!cilmente' depende de $x
que es de rango X#
,istribuci"n l#mite del test de -ald
(i
.n (

) -
)
N| 0, c
2
$
1

y H
0
* R

q=0 es cierta, entonces:
+=(R

q )' | R c
2
(x ' x)
1
R '
1
(R

q )=JF -
)
X
( J )
2
(-#@;)
,istribuci"n del estimador de m#nimos cuadrados cuando los regresores son
estocsticos
8eemplazamos el supuesto que x es no,estoc!stico por | x
i
, c
i
secuencias de
$ariables aleatorias i#i#d#, con ,"- ( x
i
, c
i
)=0 y donde x tiene matriz de co$arianzas
positi$a definida y cuartos momentos finitos de c # Gr!ficamente, el modelo de
regresin corresponde a la *igura -#:#
-#4E
Figura 4..
Regresi"n con regresores estocsticos
El supuesto cla$e para obtener la distribucin asinttica de los estimadores es
p#im
1
n
x ' x=$ (-#@A)
y la no co$arianza entre x y c # 1ue$amente, la distribucin asinttica ser! 1ormal
(ecuacin -#@F) y si los cuartos momentos de c son finitos, c
2
es un estimador
consistente de c
2
y la $arianza asinttica estimada de los par!metros queda dada por la
ecuacin (-#@.)#
<uando hay correlacin entre x y c los resultados anteriores no son $!lidos y
se debe usar $ariables instrumentales (lo $eremos en la seccin :)#
,istribuci"n del test t con regresores estocsticos
KWu" sucede cuando los regresores son estoc!sticosL 0cabamos de obtener la
distribucin condicional del test t en x (t |x ) # Deberamos integrar por x para obtener
la distribucin marginal del test t (es decir, la distribucin no condicional en x )#
t
k
|x=
(

k
)
.
(x ' x)
kk
1
c
2
(-#@@)
El estimador

es normal condicional en x # (u distribucin marginal no tiene


por qu" ser normal porque depende de x # <uando x es estoc!stico, el denominador no
tiene por qu" ser la raz de una UV a&ustada por (nF:) grados de libertad# 1o obstante, el
test sigue siendo 2t3 a pesar de que x contenga $ariables estoc!sticas y determinsticas#
Ello, porque f (( | x) 'la integracin para obtener la marginal' no es funcin de x #
P(u)
X
1
X2
y1
y
2
y
i
=x
i
E y
1
| x
1
E y2| x2
-#9F
4.0* %ransformaciones de estimadores+ el m,todo elta
*recuentemente, tenemos inter"s en usar funciones de los estimadores, f (

) #
<alcular las distribuciones asintticas podra ser una pesadilla, e)cepto que:
.=
f (

'
(-#@E)
es decir, 6 es una matriz de tamaHo jxk # 6sando el teorema de (lutzGy
p#im f (

)=f ( ) obtenemos:
p#im .=
f ()

=I (-#EF)
y podemos obtener la transformacin del estimador:
f (

) ' N
|
f () , I
(
c
2
n
$
1
)
I'

(-#E.)
con &VA f (

)=. c
2
( x ' x )
1
. ' #
4.10 #rediccin
)
6na $ez parametrizado un modelo resulta natural preguntarse por las
propiedades de las proyecciones hechas con "ste# ?ay dos alternati$as de proyecciones:
dentro y fuera de la muestra# 0 las segundas se les llama usualmente, predicciones# El
$alor efecti$o para la obser$acin 2o3 del modelo es y
0
=x
0
+c
0
, en tanto que el $alor
proyectado es
y=

x
p
# 1ote que la proyeccin es lineal, insesgada, y de mnima
$arianza# %or ello el error de prediccin es simplemente:
!
f
= y
0
y=x
0
(

)+c
0
(-#E4)
lo que pone de manifiesto las tres fuentes de error de una proyeccin#
@ I>hose =ho ha$e Gno=ledge, donQt predict# >hose =ho predict, donQt ha$e Gno=ledge#I +ao >zu#
-#9.
+a estocasticidad de los regresores#
+a distancia que hay entre el par!metro y su estimador, a5n si &|

= #
+a presencia del error aleatorio#
8esulta con$eniente computar la $arianza del error de pronstico y deducir la
e)presin:
Var |c
f
=Var | x
0
(

)+c
0

=c
c
2
+Var | x
0
(

)
=c
c
2
|1+
1
n
+

j =2
k

/=2
k
(x
j
0
x
j
)( x
/
0
x
/
)( x ' M
0
x)
j/

(-#E9)
de donde se desprende que la incertidumbre de la proyeccin depende de (.) la
presencia de shocGs aleatorios, c
2
, (4) el tamaHo muestral, n, y (9) la distancia entre la
proyeccin de los regresores y su media, x

x #
Medidas de calidad de la predicci"n
+a principal medida de calidad de una regresin debiese ser con respecto del
e)perimento que se est! haciendo# 1o obstante, se usan frecuentemente medidas
resumidas basadas en los errores de prediccin dentro de la muestra# El m!s popular es
el error cuadr!tico medio (E<M) que se define como:
&.M=
.
1
n
0

( y
i
y
i
)
2
(-#E-)
el que es una $ariacin es el error absoluto medio (E0M)
&AM=
1
n
0
y
i
y
i
(-#E:)
El problema del E<M y E0M es que dependen de la unidad de medida de las
$ariables# %or ello, >heil propone el siguiente estadstico normalizado:
0=
.
1
n
0

( y
i
y
i
)
2
/
1
n
0

y
i
2
(-#E;)
-#94
El error cuadr!tico medio puede ser descompuesto en tres componentes que
resultan interesantes:
1
n
0

( y
i
y
i
)
2
=

(
y
i
n
0

y )
2
+( s
y
s
y
)
2
+2(1r ) s
y
s
y
(-#EA)
donde s
y
, s
y
y r son las des$iaciones est!ndares de cada $ariable aleatoria y la
correlacin entre prediccin y $alor $erdadero# De esta descomposicin se pueden
obtener tres proporciones:

(
y
i
n
0

y
)
2
1
n
0

( y
i
y
i
)
2
Esta es una medida de sesgo, porque nos dice que tan le&os est! la
media de la prediccin de la $erdadera media de la $ariable
(s
y
s
y
)
2
1
n
0

( y
i
y
i
)
2
Esta es una medida de $ariacin, porque indica qu" tan le&os est!
la $ariacin de la prediccin respecto de la $erdadera $ariabilidad
de la $ariable#
2(1r )s
y
s
y
1
n
0

( y
i
y
i
)
2
Esta es una medida de co$ariacin residual que refle&a los
componentes no sistem!ticos que separan la prediccin del
$erdadero $alor de la $ariable#
6na me&or prediccin es aquella donde el sesgo sistem!tico y la impresicin de
las prediccines son menores#
E
4.11 M,todo generali-ado de momentos
+a estimacin por mnimos cuadrados no es la 5nica forma de parametrizar un
modelo# 6na alternati$a interesante es el llamado m"todo general de momentos (MGM),
el que e)plota dos elementos: las propiedades de con$ergencia de los estadgrafos que se
pueden construir a partir de una muestra y el hecho que los $alores lmites de dichos
E 2%rediction is $ery difficult, especially about the future3# MarG >=ain#
-#99
estadgrafos dependen de los par!metros que caracterizan la distribucin de
probabilidades del fenmeno# %or e&emplo, si tenemos una muestra de una distribucin
I , sabemos que la esperanza y $arianza est!n relacionadas a los par!metros de la
distribucin ( 0 , )) de la siguiente manera:
&
|
x
t
=
p
q
&
|
(x
t
&| x
t
)
2

=
p
q
2
(-#E@)
entonces las condiciones sobre los momentos seran una funcin de tipo &| f ( x , 0)=0 ,
es decir,
&
|
x
t

p
q
=0
&
|
( x
t
&| x
t
)
2

p
q
2
=0
(-#EE)
as, buscaramos p
*
y q
*
tal que se cumplan las condiciones de la ecuacin (-#EE)
usando la informacin de la muestra#
%ara el modelo cl!sico de regresin lineal podemos deri$ar condiciones similares#
Dado el modelo b!sico (ecuacin -#;) e imponiendo la condicin de ortogonalidad entre
regresor y residuo &| x , c=0 tenemos:
&| y
i
|x =&| x
i
+c
i
|x =x
i
+&| c
i
|x =x
i
(-#.FF)
6sando la ley de e)pectati$as iteradas
.F
tenemos:
&
|
x
i
c
i
=&
x |
&| x
i
c
i
|x
i

=&
x |
x
i
&|c
i
|x
i

=0 (-#.F.)
entonces, las condiciones son:
&
|
x
i
( y
i
x
i

*
)

=0 (-#.F4)
1aturalmente, cuando el modelo es multi$ariado, habr! l ecuaciones en la
ecuacin (-#.F4) que deben ser optimizadas para recuperar los par!metros# (i el n5mero
de ecuaciones linealmente independientes en la ecuacin (-#.F4) es igual o mayor a los
.F Esta ley no parece ser de f!cil comprensin para algunos polticos# Dan Wuayle, $icepresidente de
Estados 6nidos, seHal: >3e future Iill be better tomorroI.
-#9-
par!metros que se quiere estimar el problema tiene solucin (el 5ltimo caso se llama
sobreidentificado)#
6na manera alternati$a de entender este tema de la sobreidentificacin es
considerar el modelo de regresin:
y
i
=x
i
1

1
+x
i
2

2
+c
i
&| x
i
, c
i
=0
(-#.F9)
donde j( x
1
)=k , j( x
2
)=r y # =k+r # (uponga ahora que se le informa que
2
=0 #
K<mo estimara
1
L 6na alternati$a es usar el estimador mnimos cuadrados en el
modelo restringido y
i
=x
i
1

1
+c
i
# %ero ello sera ineficiente, pues no hace uso de toda la
informacin# 1ote que hay l restricciones en la ecuacin (-#.F9) y solo habra k
restricciones en el modelo restringido# (i se usa toda la informacin habra # k=r
restricciones sobre los momentos adicionales que son de utilidadY estas se llaman
restricciones de sobreidentificacin (overidentifying restrictions)#
Generalicemos la estructura y notacin del e&emplo anterior# (ea 1 ( y , z , x , )
una funcin de dimensin # 21 de un $ector de par!metros de dimensin k 21 con
# 3k tal que:
&
|
1 ( y , z , x ,
0
)

=0 (-#.F-)
+a restriccin # 3k seHala que M corresponde a un con&unto de $ariables m!s
amplio que el con&unto x , pudiendo incluir componentes o funciones de este 5ltimo# En
econometra a la ecuacin (-#.F-) se le llama modelo de condiciones de momentos, en
tanto que en estadstica se le llama ecuacin de estimacin#
1ote que se ha impuesto muy poca estructura sobre las inno$aciones c
i
, al
menos en comparacin con el m"todo de mnimos cuadrados o el de m!)ima
$erosimilitud# 1o obstante, no hemos discutido dos elementos: (.) cmo se obtienen los
par!metros y (4) cu!les son las propiedades asintticas de este estimador#
Estimaci"n de parmetros por mtodo de momentos
(uponga que el modelo est! e)actamente identificado, es decir hay tantos
par!metros desconocidos (l) en la ecuacin (-#.F-) como ecuaciones disponibles, :# El
problema radica en que desconocemos EZ#[# %ero contamos con una muestra de la cual
podemos deri$ar el estimador muestral de la condicin de ortogonalidad,
&| f ( x , 0)=0 :
-#9:
f
n
( )=
1
n

i =1
n
f (x
i
, ) (-#.F:)
En el caso de la regresin lineal obtenemos:
1
N

i =1
N
|
x
i
( y
i
x
i

*
)

=0 (-#.F;)
de donde se desprende:

*
=
(

i =1
N
x
i
' x
i
)
1

i =1
N
(
x
i
' y
i
)
(-#.FA)
es decir, el estimador de mnimos cuadrados es un estimador de momentos#
El estimador del m"todo de momentos se aplica cuando hay m!s condiciones
para los momentos que par!metros por estimar, es decir, cuando el sistema est!
sobreidentificado# En tal caso, en general no habr! un
*
que haga f
n
( )=0 , pero se
puede buscar aquel que haga que f
n
( ) est" arbitrariamente cerca de F, es decir
aquel que minimiza la ecuacin (-#.F-)# <onsideremos la contraparte muestral de la
ecuacin (-#.FA):

1
n
()=
1
n

i =1
n
z
i
( y
i
x
i
)=
1
n

i =1
n
( z ' yz ' x )
(-#.F@)
%ara una matriz arbitraria +
n
>0 definimos:
J
n
()=n

1
n
( ) ' +
n
1
n
( ) (-#.FE)
esta es una medida de 2distancia3 del $ector

1
n
() # +o que hace el estimador MGM es
minimizar la ecuacin (-#.FE)# Definimos:

4MM
=ar1min

J
n
() (-#..F)
<onsidere la deri$ada de la ecuacin (-#..F) tal que:
-#9;
0=
J
n
()

=2


1
n
()' +
n
1
n
()

=2
1
n
z ' x +
n
1
n
x ' ( y z )
(-#...)
de donde se desprende:
2z' x +
n
x ' y=2 z ' x +
n
x ' z (-#..4)
y por lo tanto:

4MM
=(z ' x +
n
x ' z )
1
z ' x +
n
x ' y (-#..9)
1ote que el estimador MGM depende de +
n
pero slo como factor de escala, es
decir, si usamos ,+
n
para , >0 , el estimador no cambia#
*eor#a asint"tica para el estimador de mtodo de momentos
11
%ara desarrollar la teora asinttica aplicable en este conte)to, tenemos que hacer
los siguientes supuestos:
.# +os momentos poblacionales 1
n
()=&
|
f ( x
i
, )

e)isten
.4
y son finitos para
todo 0 y para todo i. 0dem!s, e)iste un 5nico
*
que hace 1
n
(
*
)=0 #
4# f (x
i
, ) obedece la ley d"bil de los grandes n5meros# Es decir,
f
n
( x
i
, )1
n
()-
p
0 \ O
9# E)iste una secuencia de matrices no,estoc!sticas

+
n
tales que
+
n
+
n
-
p
0.
Estos supuestos permiten demostrar que el estimador MGM es (d"bilmente)
consistente# En t"rminos esquem!ticos, la prueba de consistencia del estimador consiste
en usar los supuestos 4 y 9 para deducir que e)iste una secuencia no aleatoria

$
n
()=1
n
()'

+
n
1
n
() tal que
.. 6na demostracin formal de estos supuestos est! desarrollada en +# M!ty!s, NeneraliMed 7et3ods of
7oments, <ambridge 6ni$ersity %ress, .EEE#
.4 +a e)istencia de los momentos poblacionales requiere de supuestos m!s primiti$os sobre la naturaleza
del proceso estoc!stico de x # Este tema se discute in e;tenso en el curso de >eora Econom"trica RRR#
-#9A
$
n
() $
n
()-
p
0
(-#..-)
con$erge uniformemente para todo O# 0dem!s, se usa el supuesto . para demostrar
que

$
n
=0 si y slo si =
*
# Entonces, se deduce que si

=ar1min$
n
( ) , si

*
=ar1min $
n
() , y
$
n
() $
n
()-
p
0
entonces necesariamente

-
p

#
+a deri$acin de la normalidad asinttica del estimador MGM requiere algunos
supuestos adicionales:
.# f (x
i
, ) debe ser continuamente diferenciable con respecto a O#
4# %ara toda secuencia donde se cumple que

-
p

, se cumple que
F
n
(

) F
n
-
p
0
9# f (x
i
, 0) satisface el teorema del lmite central, es decir,
V
n

.n f
n
(
0
) -
)
N(0, 5 )
donde V
n
=n Var
(
f
n
(
0
)
)
#
<on estos seis supuestos es posible demostrar que el estimador MGM tiene
distribucin asinttica normal:
|
F
n
(

n
)' +
n

V
n
+
n
F
n
(

n
)

|
F
n
(

n
)' +
n
F
n
(

n
)
.n (

*
)-
)
N(0, 5 )
(-#..:)
+a matriz de ponderacin +
n
ptima es aquella que minimiza la $arianza del
estimador MGM# +amentablemente, "sta no es usualmente conocida# %or ello, dada
cualquier matriz de ponderacin, el estimador MGM es consistente, pero no
necesariamente eficiente# 6na alternati$a en el modelo lineal sera fi&ar +
n
=5 # 6na
alternati$a me&or 'recuerde M<G' es usar +
n
=( x 6 x )
1
# Dada dicha matriz como
estimador de primer paso es posible computar los residuos del modelo como:
c
i
= y
i
z
i

y las ecuaciones de momentos: 1
i
=x
i
c
i
=1 (%
i
, z
i

) # <omputemos

1
n
=

1
n
(

)=
1
n

i =1
n
1
i
y 1
n
*
= 1
i

1
n
(-#..;)
Entonces se define:
+
n
=
(
1
n

i =1
n
1
i
*
1
i
*
)
1
=
(
1
n

i =1
n
1
i
1
i
'

1
n
1
n
'
)
1
(-#..A)
-#9@
en probabilidad esta matriz +
n
con$erge a +
n
=
(
&| 1
i
1
i

)
1
que es la matriz
eficiente# %or ello, el estimador MGM ser! asintticamente eficiente#
.9
?ay una alternati$a al estimador MGM de dos etapas que hemos desarrollado
que posiblemente tiene me&ores propiedades estadsticas# <onsidere que la matriz de
ponderadores sea una funcin de tal que el estimador MGM sea aquel que minimiza
el criterio:
J
n
( )=n

1
n
()'
(
1
n

i =1
n
1
i
*
() 1
i
*
()'
)
+
n
1
n
() (-#..@)
donde 1
i
*
()=1
i
()

1
n
() # El que minimiza la ecuacin (-#..@) es llamado
estimador MGM de actualizacin contnua
.-
#
*est de restricciones de sobreidentificaci"n
+os modelos que est!n sobreidentificados tiene la facilidad de pro$eer espacio
para testear las restricciones impuestas sobre la estructura del modelo# 1ote que

1
n
-
p
&| 1
i

y que, por lo tanto,


1
n
puede ser usado para hacer un test sobre si
&| 1
i
=0 #
1ote que J
n
()=n

1
n
( ) ' +
n
1
n
( ) es una forma cuadr!tica en
1
n
por lo que es
un test natural de H
0
* &| 1
i
=0 # (i el modelo est! correctamente especificado y si la
matriz +
n
es asintticamente eficiente:
J ( )
)
'
X
( # k)
2
(-#..E)
este es llamado el test de (argan,?ansen# +os grados de libertad del test corresponden al
n5mero de restricciones impuestas en la sobreidentificacin#
*ests de +ip"tesis
.9 En ocasiones se usa el estimador alternati$o +
n
=
(
1
n

i =1
n
1
i
1
i
'
)
1
# El problema es que este estimador de
momentos no centrados no garantiza que &| x 6 7=0 , lo que produce un estimador sesgado y reduce el
poder de los tests# Perifique que tipo de estimador usa su programa econom"trico#
.- Per ?ansen, +#%#, ?eaton, X# and Caron, 0# (.EE;), 2*inite (ample %roperties of (ome 0lternati$e GMM
Estimators,3 Hournal of 8usiness and Bconomic 9tatistics, .-:4;4,4@F#
-#9E
<omo se puede $er el test anterior testea la estructura completa del modelo# %ara
hacer tests de hiptesis ocupamos directamente la lgica de testear un modelo
restringido $ersus uno que no lo est!# El procedimiento es directo:
(upongamos que hay un con&unto de hiptesis sobre los par!metros
H
0
* 8 ( )=0
(upongamos que +
n
est! dada, el criterio del estimador MGM no restringido es
es J
n
(

)=n

1
n
( ) +
n

1
n
() # %or otro lado, el criterio del estimador MGM
restringido es es J
n
(

|8( )=0)=n

1
n
( ) +
n
1
n
() #
Entonces el test de distancia es 9=J (

)J (

) # (i se usa la misma matriz +


n

para ambos J ( ) entonces el test se distribuye asintticamente 45 (r) #
6n punto importante de hacer notar que 8 () no tiene por qu" ser lineal, lo que
es una $enta&a desde el punto de $ista de la fle)ibilidad del an!lisis# %or otro lado, si las
hiptesis fuesen lineales, el test de restricciones de identificacin corresponde al test de
Dald#
-#-F
Ap,ndice A+ ./ercicios
.# Bn una regresin lineal las variables del lado derec3o son independientesO las columnas
de la matriM x son independientes y los errores se distribuyen independientementes#I En
la frase anterior se us la palabra IindependienteI en tres distintos sentidos#
E)plique cada uno de los usos de ella y discuta que papel &uegan dichos
conceptos en la teoria cl!sica de estimacin de modelos lineales#
4# En el modelo lineal y =x +j , un elemento central del an!lisis econom"trico
cl!sico es que el estimador de

es independiente de los residuos, j #


Demuestre#
9# K<mo se entiende el supuesto de rango completo si x contiene slo una
$ariableL
-# KWu" restriccin debe cumplir la matriz de momentos de los regresores para que
sea posible obtener estimadores mnimos cuadrados con propiedades est!ndares
si x es determinsticoL KWu" pasa cuando se le$anta el supuesto que los
regresores son no,estoc!sticosL
:# (uponga que tiene una muestra de n datos de N y
n
, x
n
O# Deri$e el estimador de
mnimos cuadrados de la regresin de y
n
en x
n:
(uponga ahora que a la
muestra se le aHade un dato# Demuestre que el nue$o estimador del par!metro
es:

n+1
=

n
+
1
1+x
s
' (x
n
' x
n
)
1
x
s
( x
n
' x
n
)
1
x
s
'
|
y
s
x
n
'

s
1ote que el 5ltimo t"rmino es es , es decir el residuo de la prediccin de ys
usando los coeficientes obtenidos con la muestra x
n
#
;# (i nos fi&amos en la frmula de la $arianza estimada del estimador de mnimos
cuadrados, resulta ob$io que mientras m!s obser$aciones tengamos "sta se
reduce y m!s preciso es el estimador (demuestre)# %or ello, es con$eniente tener
m!s datos# (i eso es as, Kpara qu" buscar m!s datosL K1o bastara con poner los
mismos datos dos $ecesL <on ello tendramos 2n datos, en $ez de n# (considere
x no estoc!stico)#
A# <onsidere el caso de la regresin y=x +c y el de la regresin 2in$ersa3,
x = y +c
*
Kba&o qu" condiciones es posible recuperar el estimador de a
partir del estimador de \L 1o ol$ide referirse a la des$iacin est!ndar del
estimador#
@# Demuestre que el estimador de mnimos cuadrados ordinarios es de $arianza
mnima#
-#-.
E# KEn qu" caso los coeficientes de una regresin de P en x
1
y x
2
son id"nticos a
los de dos regresiones independientes, una de P en x
1
y otra de P en x
2
L K%or
qu"L Kes necesario poner una constante en cada una de estas 5ltimas dos
regresiones o basta ponerla en una solaL
.F# (u &efe &unt datos de precios y $entas de $ino de los 5ltimos 4: aHos en <hile y
concluy: 2cada $ez que subo el precio .FM las $entas caen :M, por lo que la
elasticidad es ,F#:I# E)plquele 'con delicadeza pero con absoluto detalle' por
qu" su estimacin es inconsistente#
..# <onsidere la funcin de produccin con elasticidad de sustitucion constante
(<E():
;
i , t
=
|
6<
i , t
j
+(16) L
i , t
j

+
j
!
i , t
j
Donde los subindices i y t, son firmas y tiempo respecti$amente, C es el
producto, B es el capital, y + es el traba&o, y donde los par!metros \, ], ^, y j se
denominan par!metros de eficiencia, distribucin, rendimientos de escala, y
sustitucin, respecti$amente# <omo la funcin <E( no es lineal en los par!metros
no pueden estimarse por mnimos cuadrados ordinarios# Demuestre que la
funcin puede linealizarse utilizando la t"cnica de >aylor de la siguiente manera:
Ln;
i , t
=
i
+
1
Ln<
i , t
+
2
LnL
i , t
+
3
|
ln
<
i , t
L
i , t

2
+j
i , t
y encuentre las e)presiones de equi$alencia entre los estimadores y los
par!metros de la ecuacin#
.4# Demuestre que en una muestra finita, el estimador de la $arianza de los residuos
c
2
=(nk)
1

c
i
2
se distribuye UV#
.9# Demuestre que en una muestra infinita se requiere que los cuartos momentos de
la distribucin de los residuos sean finitos para que el estimador asinttico e)ista#
.-# Demuestre que testear un con&unto de restricciones lineales es equi$alente a
hacer un test tipo L entre una ecuacin restringida y una que no lo est!#
.:# (uponga que el $erdadero modelo es y =x+ (no tiene constante) pero que
6d# us uno de esos soft=ares de econometra de segunda clase y tu$o que
estimar su modelo con la constante# K+a omisin de esta $ariable causa sesgoL
<ompare la $arianza del estimador de del modelo $erdadero con la del
estimado#
.;# <onsidere el siguiente modelo y
i
=o+x
i
+c
i
f (c
i
)=(1/ \)!
(c
i
/\)
c
i
>0 #
1ote que los errores tienen la caracterstica que siempre son positi$os#
-#-4
(a) calcule la &| c #
(b) demuestre que el estimador de mnimos cuadrados de la pendiente es
consistente pero el del intercepto es inconsistente#
.A# Demuestre que R
2
puede ser negati$o#
.@# Demuestre que el R
2
a&ustado (
R
2
) se puede escribir en funcin de R
2
como:

R
2
=1
n1
nk
( 1R
2
)
.E# %ruebe que R
2
no puede reducirse si se aHade una $ariable en la regresin# D"
la intuicin#
4F# (uponga que una regresin lineal es adecuada y el modelo est! bien especificado#
K>iene el R
2
computado alguna distribucinL
4.# <onsidere la regresin de y en B $ariables (incluida la constante) representadas
por X # <onsidere un con&unto de regresores alternati$os ==>? , donde % es
una matriz no singular# 0s, cada columna es una mezcla de algunas columnas
de X # %ruebe que los $ectores de residuos de la regresin de y en X y de y en Q
son id"nticos# KWu" importancia tiene esto respecto de la posibilidad de cambiar
el a&uste de una regresin mediante la transformacin de los datosL
44# El problema de un productor es cmo predecir la demanda de su producto de
e)portacin (yuca)# 6d hace un modelo econom"trico tipo x
t
=
0
+
1
;
t
*

2
?x
t

(log demanda yuca, log ingreso e)terno y log precio yuca, respecti$amente)# 6d
estima los par!metros por mnimos cuadrados# (u &efe no cree en la econometra
y tiene sus propias elasticidades, , calculadas al o&o# %ruebe que la diferencia
entre su R
2
y el R
2
de su &efe, es proporcional a: (o) AB (o) donde _ T
NC,%)O y N o , O los $ectores de par!metros#
49# <onsidere el siguiente modelo y
(
=' x
(
+c
(
, con x =| , , z y donde c es una
constante y z un con&unto de $ariables# (uponga que la $arianza de c es
constante, c
2
# Encuentre la $arianza de la prediccin fuera de muestra de y#
Demuestre que "sta se reduce cuando aumenta el tamaHo de muestra y mientras
m!s cerca estamos de &| x #
4-# K<u!les son las fuentes de incertidumbre en una prediccin ( y ) hecha con un
modelo lineal del tipo y =x + L <alcule analticamente la V ( y ) #
4:# Demuestre que testear un con&unto de restricciones lineales del tipo R =q es
equi$alente a hacer un test tipo * entre una ecuacin restringida y una que no lo
est!#
-#-9
4;# (uponga que 6d es un monopolista con costo marginal T .F# Encuentre un
inter$alo de confianza al E:M para el producto que hace que su beneficio
esperado m!)imo# 6d tiene la siguiente informacin# (use una demanda lineal)#
W 9 9 A ; .F .: .; .9 E .: E .: .4 .@ 4.
% .@ .; .A .4 .: .: - .9 .. ; @ .F A A A
4A# (uponga que tiene una muestra de n datos de N y
n
, x
n
O# (uponga ahora que a la
muestra se le aHade un dato# Demuestre que el estimador de mnimos cuadrados
de la regresin usando nR< datos es proporcional al residuo de la prediccin de y
basada en los coeficientes obtenidos con la muestra de n datos#
4@# %ara una muestra de datos del periodo |1, t , considere el siguiente modelo
y
(
= x
(
+c
(
donde c
(
=jc
( 1
++
(
y +
(
es ruido blanco Gaussiano#
.# <ompute el error de prediccin de y
t+n
y su inter$alo de confianza del EFM#
4# Demuestre que el inter$alo de confianza con$erge en distribucin#
4E# Demuestre que si

es el estimador MR<J, &|

'

=' +c
2

k=1
<
1
\
k
, donde 6
es uno de los $alores propios de x ' x #
9F# <onsidere el modelo y
i
=
1
x
i
+c
i
, que no incluye la constante, y donde el error
cumple las condiciones Gauss,MarGo$#
R# Deri$e el estimador de mnimos cuadrados ordinarios de
1
y ll!melo

1
#
KEs este estimador insesgadoL Demuestre que es de $arianza mnima#
RR# <onsidere el modelo y
i
=
0
+
1
x
i
+c
i
, donde el error cumple las
condiciones Gauss,MarGo$# Demuestre que, para este modelo, el estimador

1
es sesgado# Kes posible determinar la direccin del sesgoL# 1aturalmente,
si `
F
TF no hay sesgo, pero Kes la $arianza del estimador

1
mayor o menor
que la $arianza del estimador mnimos cuadrados de
1
L Demuestre que si
&| x
i
=0 , el estimador

1
es insesgado#
-#--
Ap,ndice A+ Alge0ra de Matrices ( 1auss
Jperaciones elementales ($er programa de Gauss asociado)
.# 9uma de matrices# (ean ?STa
iC
U y 8STb
iC
U dos matrices de orden mVn. +a suma de
matrices corresponde a la matriz 6STc
iC
U cuyos elementos genericos son c
iC
Sa
iC
Rb
iC
#
E&emplo:
A=
|
1 2 3
4 5 6
7 8 9

y 7=
|
0 1 1
1 0 1
0 1 0

entonces A+7=C=
|
1 3 4
5 5 7
7 9 9

#
1ote que 0 y 7 son conformables para la suma#
1ote que la suma es conmutati$a (0a7T7a0) y asociati$a (0a(7a<)T(0a7)a<)#
2. 7ultiplicacin por escalar. (ea W un escalar, entonces W? STWa
iC
U. E&emplo, si W es 4#
\ A=
|
2 4 6
8 10 12
14 16 18

9# 7ultiplicacin de matrices# El producto de las matrices 0 y 7 debe ser conformable


respecto de la multiplicacin, es decir, el numero de filas de 7 debe ser igual al
n5mero de columnas de 0# +os elementos de <T0b7 corresponden a:
c
ij
=

j
a
ij
8
jk
C=
|
1(0)+2(1)+3(0) 1(1)+2(0)+3(1) 1(1)+2(1)+3(0)
4(0)+5(1)+6(0) 4(1)+5(0)+6(1) 4(1)+5(1)+6(0)
7(0)+8(1)+9(0) 7(1)+8(0)+9(1) 7(1)+8(1)+9(0)

=
|
2 4 3
5 10 9
8 16 15

+a multiplicacin de matrices en general no es conmutati$a#


-#-:
7A=
|
9 9 12
3 0 3
4 11 9

-# >ransposicin# +a transpuesta de la matriz ?STa


iC
U de orden mVn es una matriz
?5STa
Ci
U que tiene por filas las columnas de ? y por columnas las filas de ?.
A' =
|
1 4 7
2 5 8
3 6 9

+as reglas b!sicas de la transposicin son:


.# +a transpuesta de 0Q es 0#
4# (i 6S?R8 entonces 65 S ?5 R 85
9# (i < T 07 then <QT7Q0Q#
:# Xnversin. (i ?STa
iC
U de orden nVn, entonces su in$ersa, si e)iste, es una matriz
definida de manera 5nica ?
F<
de orden nVn que satisface la condicion ??
F<
SXO
donde R es la matriz identidad (tiene . en la diagonal y F fuera de la diagional)#
7
1
=
|
1 1 1
0 0 1
1 0 1

+a in$ersa e)iste slo si el determinante de la matri) no es cero#


+as reglas b!sicas de la in$ersion son:
.# +a in$ersa de ?
F<
es ?.
4# +a in$ersa de la transpuesta es la transpuesta de la in$ersa, (?5)
F<
S(?
F<
)5.
9# Rf 6S?8, then 6
F<
S8
F<
?
F<
#
;# Yperaciones elementales# +as siguientes operaciones elementales se usan para,
entre otros fines, para obtener in$ersas:
-#-;
.# Multiplicacin de una fila por un escalar, c#
|
\ 0 0
0 1 0
0 0 1
|
1 2 3
4 5 6
7 8 9

=
|
1\ 2\ 3\
4 5 6
7 8 9

4# 8esta de una fila por otra#
|
1 0 0
1 1 0
0 0 1
|
1 2 3
4 5 6
7 8 9

=
|
1 2 3
3 3 3
7 8 9

9# Rntercambio de filas
|
0 1 0
1 0 0
0 0 1
|
1 2 3
4 5 6
7 8 9

=
|
4 5 6
1 2 3
7 8 9

%ara obtener una in$ersa se usa una secuencia de estas operaciones elementales#
<onsideremos el caso de una matriz de 4)4:
9=
|
2 5
4 3

computamos
|
1/ 2 0
0 1
|
2 5
4 3

=
|
1 2.5
4 3

computamos
|
1 0
4 1
|
1 2.5
4 3

=
|
1 2.5
0 3

computamos
|
1 0
0 1/ 3
|
1 2.5
0 3

=
|
1 2.5
0 1

computamos
|
1 2.5
0 1
|
1 2.5
0 1

=
|
1 0
0 1

Captulo 5
Violacin de los Supuestos del Modelo de Regresin Lineal
En esta seccin estudiamos problemas derivados de la violacin de los seis
supuestos sobre los cuales se desarroll el modelo de regresin lineal en el captulo
anterior. La lgica
1
de operar es la siguiente: en primer lugar estudiamos el efecto de la
violacin sobre los estimadores mnimos cuadrados y los diferentes tipos de tests. En
segundo lugar, propondremos, si es posible, alguna una solucin, examinando el
contexto en el que dicha solucin es vlida.
La pregunta ms natural que aparece es !cmo sabemos que se ha violado un
supuesto" La respuesta no es simple porque hay muchas consecuencias de violar un
supuesto y, adems, porque muchas veces se pueden violar varios supuestos
simultneamente. #unque no hay reglas al respecto, algunos fenmenos que delatan la
violacin de alg$n supuesto son:
Los errores que no tienen la caracterstica de ser ruido blanco que se les exige
para representar la parte asistemtica del fenmeno en cuestin. Este es el
indicador ms importante de la violacin de alg$n supuesto aunque, debe
reconocerse, es difcil de evaluar a$n con los me%ores tests estadsticos.
&
Los parmetros estimados tienen caractersticas que no son congruentes con los
pre'%uicios que se tenan antes de hacer el experimento, en t(rminos que
presentan signos opuestos a los esperados, ba%a significancia estadstica, o son
poco robustos ante peque)os cambios en las condiciones de estimacin.
Existen problemas con los estadsticos asociados a la regresin, como son *+, tests
de correlacin residual, o la comparacin entre el error estndar de la variable de
inter(s , c
y
, el de la regresin, c
y
.
-a%a capacidad predictiva del modelo estimado o sesgo sistemtico en la
prediccin.
1 .Lgica es el arte de pensar y ra/onar en estricta concordancia con las limitaciones e
incapacidades de la incomprensin humana0 #mbrose -ierce, Diccionario del Diablo.
& 1sualmente en estadstica es ms fcil demostrar que algo no es lo que se supona que afirmar
que s lo es.
2.&
5.01 Problemas de Especiicacin !" Regresores !nadecuados
Es frecuente que al modelar el econometrista tenga varias alternativas de
variables que puede incluir o excluir del modelo. En principio, la teora debiera sugerir
una especificacin completa y las hiptesis que se va a estudiar. 3ero a veces las teoras
no son muy .finas0 y hay espacio para probar distintas especificaciones.
En ese contexto, hay dos tipos de variables 4pertinentes e irrelevantes5 y dos
situaciones 4incluidas y excluidas5. 6os combinaciones son obvias7
8
pertinente incluida e
irrelevante excluida. Las otras dos son ms interesantes de estudiar.
Omisin de variable pertinente
1n problema econom(trico com$n en los modelos econmicos es la omisin de
variables que pueden ser potencialmente importantes 4tpicamente por mala
especificacin analtica o por limitaciones de los datos5. 9upongamos que el modelo
y =x +j es particionado en dos grupos de variables:
y =x
1

1
+x
2

2
+j 42.15
9upongamos ahora que la estimacin excluye x
2
. Entonces:

1
=(x
1
' x
1
)
1
x
1
' y
=( x
1
' x
1
)
1
x
1
' | x
1

1
+x
2

2
+j
=
1
+( x
1
' x
1
)
1
x
1
' x
2

2
+(x
1
' x
1
)
1
x
1
' j
42.&5
esta expresin ya la hemos visto con anterioridad, de donde derivamos este importante
resultado:
E|

1
=E|
1
+( x
1
' x
1
)
1
x
1
' x
2

2
+(x
1
' x
1
)
1
x
1
' j
=
1
+E| (x
1
' x
1
)
1
x
1
' x
2

42.85
Entonces,
8 :;bvious: is the most dangerous <ord in mathematics 4Eric =emple -ell, Mathematical Circles
Squared, -oston, 1>?&5.
2.8
E|

1
=
1
si x
1
' x
2
=0

1
si x
1
' x
2
0
42.@5
3or lo tanto, la omisin de variables pertinentes no correlacionadas con aquellas
que quedan en el modelo no sesga el estimador de los coeficientes. 3ero la omisin de
variables pertinentes correlacionadas con aquellas que quedan en el modelo sesga los
estimadores. El sesgo es de direccin y tama)o desconocidos, porque no conocemos
2
.
3ero hay un segundo efecto. Estudiemos la varian/a del estimador usando la
inversa de matrices particionadas. La varian/a del verdadero estimador, es decir
incluyendo x
2
, es
V |

1
=c
2
|(x
1
' x
1
)x
1
' x
2
(x
2
' x
2
)
1
x
2
' x
1

1
42.25
en tanto que la varian/a del estimador en el modelo que excluye x
2
es
V |

1
=c
2
(x
1
' x
1
)
1
42.A5
3or lo tanto, en el segundo caso el estimador de
1
es sesgado pero de menor
varian/a. 9in embargo, consideremos el caso ms com$n en el que resulta necesario usar
el estimador de c
2
, c
2
=(c' c)/(nk
1
) , donde c son los residuos del modelo
estimado excluyendo x
2
4no los del modelo completo, j 5. 3ero podemos expresar c
en funcin de j usando la matri/ M
1
:

c=M
1
y
=M
1
(x
1

1
+x
2

2
+j)
=M
1
x
2

2
+M
1
j
42.?5
donde nuevamente M
1
=I (x
1
x
1
)
1
x
1
, es decir, produce .los residuos de una
regresin de loBqueBhayaBaBla derecha de x
1
0. 3or lo tanto, en los residuos muestrales
estn los verdaderos residuos ms el efecto de la correlacin de x
1
y x
2
ponderado
por
2
.
!Cmo afecta esto al estimador de la varian/a de los residuos" =omando la
ecuacin 42.?5, multiplicando por su traspuesta y tomando el valor esperado se obtiene
la siguiente expresin:
E| c' c=
2
' x
2
' M
1
x
2

2
+E| j' M
1
j 42.D5
2.@
Entonces,
E| c' c=
2
' x
2
' M
1
x
2

2
+c
2
tr ( M
1
)
=
2
' x
2
' M
1
x
2

2
+c
2
(nk
1
)
42.>5
El primer t(rmino del lado derecho de 42.>5 es noBnegativo, ya que es una forma
cuadrtica. El segundo es el estimador de la varian/a de los residuos para el modelo que
excluye x
2
. 3or ello, la varian/a estimada de los residuos ,obtenida como la suma de
los residuos al cuadrado a%ustada por grados de libertad, estar sesgada. Es interesante
notar que a$n si x
1
x
2
=0 y los estimadores de los parmetros no estn sesgados, el
estimador de la varian/a de los residuos ,y por consiguiente los tests t, si lo est.
Adicin de variable irrelevante
Euevamente, debemos contestar las clsicas preguntas: !Es el estimador de
insesgado" !9e ha afectado la varian/a del estimador de " !9e ha afectado c
2
" !Cul
es el impacto sobre los tests" 9e de%a de tarea encontrar las respuestas, que son bastante
obvias.
Una conclusin errnea, popular y peligrosa
Como hemos visto, en t(rminos de la calidad de los estimadores resulta
preferible incluir variables irrelevantes a excluir variables pertinentes. Ello sugerira que
la me%or estrategia de modelacin econom(trica es poner .de todo0 al lado derecho de la
regresin, mientras alcancen los grados de libertad. #s, si bien los estimadores tendran
problemas de eficiencia, no habra problemas de sesgo. Estos $ltimos son, naturalmente,
ms graves.
Existen problemas graves con esta estrategia. El modelo de regresin ha sido
derivado ba%o la premisa que (ste describe un experimento aleatorio en un espacio de
probabilidad asociado a un con%unto de posibles eventos de inter(s. En tal caso, el dise)o
del experimento debe ser hecho exBante y debe producir tanto el con%unto de hiptesis
que se desea estudiar como la especificacin funcional particular que se debe usar.
Cuando se incluyen variables aleatorias con el fin de maximi/ar alg$n criterio
4usualmente bondad de a%uste5 el primer problema que se presenta es que, en rigor, no
puede compararse el parmetro de inter(s entre modelos. Considere los dos modelos
planteados en la ecuacin 42.1F5:
2.2
(a) y
i
=
0
+
1
x
i
+c
(b) y
i
=
0
+
1
x
i
+
2
w
i
+c
42.1F5
evidentemente, el parmetro
1
de la ecuacin 4a5 se refiere a un experimento cuyo
espacio de eventos es distinto del que se considera implcitamente en la ecuacin 4b5, lo
que impide la comparacin entre modelos. ;tra manera de ver este mismo problema es
considerar que la modelacin econom(trica equivale a estudiar la distribucin
condicional F ( y |x ) , la que puede ser muy distinta de F ( y |x , w)
En segundo lugar, cuando se usa la muestra de variables aleatorias para sugerir
una especi!icacin no puede usarse esa misma muestra para "in#validar dicha
especificacin.
@
En el primer caso, se est usando la informacin para descubrir
regularidades de inter(s 4usualmente mal llamadas, hechos estili$ados5 y motivar la
modelacin y el anlisis econmico de alg$n fenmeno. En el segundo caso, se est
usando un con%unto de variables aleatorias para discutir la valide/ de una proposicin
econmica hecha con independencia de la reali/acin 4muestra5 de dichas variables
aleatorias. 9i bien ambos casos son vlidos por separado, en con%unto ellos no
constituyen una base adecuada de modelacin econom(trica.
Grecuentemente los investigadores olvidan este hecho elemental y se engar/an en
una verdadera carrera de caballos con distintos modelos econom(tricos, ponderando sus
virtudes y defectos por medio de una batera de tests.
!Cmo sabemos, entonces, si un modelo est bien especificado" 9lo la teora
econmica nos puede sugerir una especificacin. 1na ve/ obtenida una muestra acorde
al testeo que se desea hacer, hay dos alternativas: si la teora es congruente con los datos,
nos quedamos con (sta como una representacin adecuada de datos caracteri/ados por
algunas regularidades empricas. 9i la teora no es congruente con los datos, cambie de
teora.
Existe la tentacin a poner cosas del lado derecho, slo para encontrarse despu(s
que no hay como %ustificar en serio la inclusin de dichas variables. Hay, sin embargo,
dos ob%eciones comunes a la idea que un investigador debe limitarse a la disciplina que
le impone su teora econmica:
1. Si el test t de estas variables adicionales es mayor que % &por qu' no incluirlas(
El resultado es el peor. La 4o las5 variable4s5 parece4n5 ser importante4s5 desde un
punto de vista estadstico para describir la media condicional de y, pero no tenemos idea
por qu( o qu( papel desempe)an desde el punto de vista analtico. Lo mismo se aplica a
%ustificar por bondad de a%uste: no olvide que el *+ es una funcin del test t. 9i se a)ade
una variable cuyo test t es mayor que &, el *+ de la regresin sube.
@ Esta es una discusin bastante profunda e, inevitablemente, impopular. Ier 6.J. Kayo, )rror
and the *ro+th o! ),perimental -no+ledge, =he 1niversity of Chicago 3ress, Chicago, Ll. 1>>A.
2.A
&. &.or qu' no usar las / variables disponibles y hacemos una competencia 0todos1contra1
todos2 seleccionando aquellas que ma,imi$an 34 con tests t signi!icativos al, digamos, 567(
Esta t(cnica, llamada step+ise regression, busca aquella combinacin lineal de los
componentes de , que maximi/a la bondad de a%uste, *+. Esto tiene bastantes problemas.
En primer lugar, la seleccin es mecnica con independencia de las restricciones que
impone la teora. En segundo lugar, es difcil comparar entre modelos 4!cmo se
distribuye el test de distancia entre dos o ms *+"5. En tercer lugar, esto es data mining.
El problema de data mining
2
, en realidad, excede el de la b$squeda interesada de
las variables que se debe incluir en el modelo. =ambi(n debe incluirse la reespecificacin
de los modelos 4porque tambi(n equivale a cambiar los supuestos sobre los cuales se
deriv el modelo originalmente5, la b$squeda de muestras convenientes 4por e%emplo, el
periodo de tiempo .preciso05 e, incluso, el uso de tests estadsticos favorables 4que
usualmente son aquellos que no tienen poder para probar la hiptesis nula de inter(s5.
A
*ecientemente el tema de data mining ha recibido un soporte analtico ms
slido y su uso se ha populari/ado en reas distintas a la economa donde el inter(s por
relacionar evidencia emprica con modelos de comportamiento no es importante. 3or
e%emplo, en el uso de datos grficos para el reconocimiento de patrones sistemticos
4caras a partir de fotos5. Hirsh 4&FFD5 hace un recuento de los avances y desafos en este
tipo de modelacin.
?
5.0# Problemas de Especiicacin !!" Cambio de R$gimen
1na forma interesante de violar el supuesto que el modelo sea lineal es el caso en
el que hay cambio de r(gimen 4un caso frecuente en series de tiempo5.
D
Cambio de
r(gimen es una expresin un tanto vaga que se utili/a para denotar que el fenmeno de
inter(s tiene un comportamiento caractersticamente diferente en diversos periodos de
tiempo. En dichos segmentos, la media condicional y sus determinantes pueden diferir
de manera apreciable.
2 .=he art of fishing over alternative models has been partially automated <ith step<ise
regression programs. Mhile such advances have made it easier to find high *+s and
.significant0 t coefficients, it is by no means obvious that reductions in the costs of data
mining have been matched by a proportional increase in our Nno<ledge of ho< the economy
actually <orNs.0 Lovell, K. C. 41>D85, .6ata Kining,0 8he 3evie+ o! )conomics and Statistics, A2,
1B1&.
A Ier #. 9panos 41>>>5 .*evisiting data mining: OhuntingP <ith or <ithout a license0, mimeo,
6epartment of Economics, Iirginia 3olytechnic Lnstitute and 9tate 1niversity.
? H. Hirsh .6ata mining research: current status and future opportunities0, Statistical Analysis
and Data Mining, 1:1F@B1FD.
D # este tipo de modelo se le denomina incorrectamente .cambio estructural0. El nombre ms
adecuado es cambio de r(gimen, por cuanto nada garanti/a que sea produ/ca un cambio en el
mecanismo generador de los datos, sino que el modelo debe ser estimado reconociendo su
naturale/a dual.
2.?
1n e%emplo com$n queda descrito en la siguiente figura. En una serie que crece
con tendencia positiva de &.2Q se han incorporado distintos tipos de quiebres para ver el
efecto. En el panel # se presenta una muestra de ?2 datos de la serie original. En el panel
- se muestra la misma serie pero con un quiebre en la constante ubicado en el segundo y
cuarto cuartos de los datos. El quiebre es de tama)o @FQ del nivel. En el panel C se
presenta la serie con un quiebre que lleva la tendencia a B&.2Q en los mismos intervalos.
En tanto que en el panel 6 se presenta la serie su%eta a ambos quiebres.
Figura 5.1
Cambio de rgimen
M'todo de Cho+
En el caso de cambio de r(gimen, un modelo del tipo y =x +c es inadecuado.
9upongamos que el cambio de r(gimen slo afecta el intercepto de la regresin, Cho<
>

sugiere usar es una especificacin del tipo:
y
i
=x
i
+o+c
i
i | 1, N |N , N
y
i
=x
i
++c
i
i |N , N | N , N
42.115
> J. C. Cho< 41>AF5 :=ests of Equality -et<een 9ets of Coefficients in =<o Linear *egressions:.
)conometrica &D485:2>1,AF2.
2.D
9in embargo, es preferible anidar ambos modelos en una sola especificacin
usando variables ficticias 4mudas o dummies
1F
5, que toman valores F y 1 dependiendo del
r(gimen. El modelo anidado es:
y
i
=x
i
+o+D
i
+c
i
42.1&5
donde
D
i
=1 i | 1, N | N , N
D
i
=0 en el resto
.
#s, cuando la variable muda 6 es 1, el intercepto es o+= , en tanto que si es
F (ste es o .
11
Es decir, interpretamos como la diferencia de interceptos.
9upongamos ahora que el cambio de r(gimen es tanto en el intercepto como en
los otros coeficientes de la regresin. 9e debera usar es una especificacin del tipo:
y
i
=x
i
+o+c
i
i | 1, N |N , N
y
i
=x
i
0++c
i
i | N , N |N , N
42.185
Conviene, nuevamente, anidar ambos modelos en una sola especificacin usando
variables ficticias. El modelo anidado es:
y
i
=x
i |
+tD
i
+o+D
i
+c
i
42.1@5
#s, cuando 6 toma valor 1, el intercepto es o+= y la pendiente es
+t=0 . Cuando 6RF, obtenemos los parmetros o y .
&Cmo descubrimos si hay cambio de r'gimen(
Existen dos t(cnicas de amplia difusin para descubrir la existencia de regmenes
distintos en una muestra: las t(cnicas recursivas y el test *E9E=. Como vamos a
descubrir, estas t(cnicas no se)alan slo la presencia de cambio de r(gimen sino adems
de otros problemas de especificacin.
1F El t(rmino variable muda 4del ingl(s dummy5 fue introducido aparentemente en 1>2& por H. 9.
HouthaNNer en :=he Econometrics of Gamily -udgets: 9ournal o! the 3oyal Statistical Society #,
112:1B&D.
11 ;tro uso frecuente de variables mudas es para controlar problemas de estacionalidad, es
decir, la tendencia a observar cambios en la variable de inter(s debido a fenmenos que no
interesa modelar 4clima, efem(rides, etc.5. En tal caso, el modelo es del tipo
y
i
=x
i
+o+
1
D
1
+
2
D
2
+
3
D
3
+c
i
, donde las variables D
1
, D
2
y D
3
toman valor 1 para
primer, segundo y tercer trimestre, respectivamente, y F en cualquier otro caso.
2.>
El test *E9E= 43egression speci!ication error test5 fue propuesto por *amsey 41>A>5
1&

y consiste en reali/ar una regresin auxiliar al modelo de inter(s. 9ea el modelo
y
t
=x
t
+j
t
, supongamos que j se distribuye N(0, cI ) , y consideremos la siguiente
regresin auxiliar:
y
t
=o
0
+o
1
x
t
+o
2
z
t
++
t
42.125
donde z
t
= y
t
2
, y
t
3
,. y y
t
son los valores predichos del modelo original.
18
9i el
modelo original estaba bien especificado, entonces los coeficientes de las variables
auxiliares no debiesen ser estadsticamente significativos. En caso contrario, el estimador
de es inconsistente. 3or ello la hiptesis nula del test es H
0
: o
2
=0 y H
1
: o
2
0 .
3ara hacer el test en la prctica, se puede hacer un test : o de ra/ones de
verosimilitud. Eote que se puede extender el test de *amsey en dos direcciones.
3rimero, para incluir otras variables en la matri/ de variables auxiliares. En este caso, el
test no slo se)alara la presencia de error de especificacin sino, adems, de variables
omitidas. 9egundo, en modelos de series de tiempo es posible incluir re/agos de la
variable del lado i/quierdo, y
tk
, de modo que el test ahora se)alara la presencia de
error de especificacin sino, adems, de correlacin residual.
La t(cnicas recursivas se aplican de modo natural a problemas de series de
tiempo y consisten en estimar el modelo incrementando de modo paulatino 4recursivo5
el tama)o de muestra. Consideremos el modelo y
t
=x
t
+j
t
y la siguiente regresin
auxiliar:
y
t
=
t 1
x
t
+c
t
42.1A5
donde
t
es el estimador del parmetro obtenido mediante una regresin hecha con una
muestra de datos y
i
, x
i

i =k+1
i =t 1
. La t(cnica consiste en hacer un con%unto de regresiones
auxiliares incrementando el tama)o de muestra desde i =k+1 hasta T , donde / es el
rango de ,. Eote que k+1 es la primera regresin que es posible hacer.
1& S. *amsey, S. -. 41>A>5. :=ests for 9pecification Errors in Classical Linear Least 9quares
*egression #nalysis,: 9ournal o! the 3oyal Statistical Society, 9eries -, 81:82FB8?1. 1n traba%o
posterior demuestra que el test *E9E= es lo suficientemente poderoso para descubrir
problemas de especificacin a$n cuando los criterios tradicionales 4*+, correlacin residual, y
tests de significancia5 sean cumplidos satisfactoriamente 4*amsey, S. -. and #. #lexander
41>D@5. :=he Econometric #pproach to -usinessBCycle #nalysis *econsidered,: 9ournal o!
Macroeconomics, A:8@?B82A.5
18 La lgica de incluir potencias es directa. 9uponga que el modelo es logartmico 4p.e., y =x

z
6
5. 1na expansin de =aylor para lineali/arlo exigira t(rminos de segundo orden al menos. 9u
omisin ,como sucede en el modelo original, implica que el residuo tiene precisamente esa
estructura.
2.1F
Existen dos posibles variables aleatorias de inter(s que se obtienen del con%unto
de regresiones auxiliares: los estimadores recursivos y los residuos recursivos. 3ara
ambos hay distintos tests.
8ests de residuos recursivos. Hay dos tests clsicos de residuos recursivos: C191K y
C191KBT. Consideremos primero la varian/a predicha del error de prediccin de
42.1A5:
c
c
t
2
=c
2
.
1+x
t
'
(
x
t1
' x
t 1)
1
x
t
42.1?5
y ahora computamos recursivamente la variable aleatoria +
t
tal que
w
r
=
c
r
.
1+x
r
'
(
x
r 1
' x
r 1)
1
x
r
42.1D5
El test C191K computa
r
=
1
c

r =k+1
r =t
w
r
donde c es la varian/a estimada de
w
r
. -a%o la hiptesis nula
r
tiene media cero y su varian/a es aproximadamente igual
a la suma de los residuos normali/ados 4es decir, una variable aleatoria i.i.d.
estandari/ada5. 3or ello el intervalo de confian/a se obtiene de las rectas
| k , a !(Tk)

y | k ,3a !(Tk)

y se fi%a a para niveles de significancia de >2Q o


>>Q. 1n e%emplo se ve en la Gigura 2.&.
Figura 5.2
Test CUSUM
El test C191KBT, por otro lado, utili/a una variacin del test anterior pues
estudia el estadgrafo:
-30
-20
-10
0
10
20
30
80 82 84 86 88 90 92 94 96 98
CUSUM 5% Signif icance
2.11
"
r
=

r =k+1
r =t
w
r
2

r =k+1
r =T
w
r
2
42.1>5
donde la diferencia entre el numerador y denominador est en la extensin de las sumas
4t vs.85. -a%o la hiptesis nula, la esperan/a del estimador es 4aproximadamente5
E| "
r
=(t k)/ (T k) y su varian/a es una funcin comple%a de 4t1/5 para la cual
existen tablas 4ver Gigura 2.85.
1n problema de los tests C191K es que su poder ,es decir, la habilidad para
recha/ar la alternativa cuando (sta es falsaU no es montono. En particular, (ste puede
depender del tama)o del quiebre, haciendo que su poder se vaya a cero si el quiebre es
suficientemente grande. La ra/n es que la varian/a de los errores se computa sin
considerar que hay un quiebre. #dems, es posible que el poder tampoco sea montono
cuando hay ms de un quiebre en los datos.
1@
Figura 5.3
Test CUSUM-Q
Ginalmente, la estimacin recursiva del modelo produce para cada iteracin un
valor del estimador de los parmetros ,con su respectiva desviacin estndar, que se
puede utili/ar como medida visual de la inestabilidad de una regresin y de la presencia
de cambios de r(gimen. Como se ve en la Gigura 2.@.
1@ Ier 3. 3erron 4&FF?5 .6ealing <ith 9tructural -reaNs0, .algrave ;andboo/ o! )conometrics, <ol
=: )conometric 8heory, =.C. Kills and V. 3atterson 4eds5
-0.2
0.0
0.2
0.4
0.6
0.8
1.0
1.2
80 82 84 86 88 90 92 94 96 98
CUSUM of Squares 5% Significance
2.1&
Figura 5.4
Estimacin recursi!a de "os estimadores de "os #ar$metros
8est de .rediccin "One Step Ahead :orecast )rror 8est#
9i uno considera la ecuacin 42.1A5 notar que los residuos recursivos
corresponden al error de prediccin un periodo fuera de muestra. Es posible, entonces,
testear si la distancia entre la prediccin y el valor verdadero est dentro de un intervalo
de confian/a definido 4p.e., >2Q5. 1na descripcin grfica de este test es presentada en la
siguiente figura. 9e observan en a/ul los residuos recursivos, con su desviacin estndar
4escala derecha5. En la escala i/quierda se identifican aquellos errores que estn entre
2Q, 1FQ y 12Q fuera de rango
Figura 5.5
%rediccin un #aso ade"ante
.00
.05
.10
.15
-.4
-.2
.0
.2
.4
80 82 84 86 88 90 92 94 96 98
Probabii!a! Un-Paso "!ean#e $esi!uos $ecursi%os
2.18
8ests para quiebres m>ltiple
Hemos visto qu( hacer cuando se desconoce la ubicacin del quiebre y cmo
puede ayudarnos los tests recursivos. ;tra preocupacin legtima es determinar si existe
uno o ms quiebres y su ubicacin. La literatura sobre quiebres sucesivos es
relativamente reciente y tiene relacin con modelos de parmetros cambiantes 4en el
sentido que los parmetros van cambiando en el tiempo y
t
=
t
x
t
+c
t
5 y'o con
problemas de no estacionariedad 4es decir, cuando la media u otros momentos de la
distribucin con%unta de los datos cambian con cada nueva observacin5.
*ecientemente, #ndre<s, Lee and 3loberger 41>>A5 estudian una clase de test
ptimos para el caso en que haya un quiebre pero que en el caso de m$ltiples quiebres
son poco prcticos pues exigen computar todas las posibles particiones de una muestra
de tama)o = en l segmentos o quiebres.
12
-ai 3erron 4&FF85
1A
sugieren usar un proceso
secuencial. En primer lugar, se computa el valor del mximo test de Mald para un
cambio estructural, suponiendo que slo existe un quiebre. Luego se toma la subB
particin ms grande de los datos y se vuelve a reali/ar el test de Mald para un $nico
cambio estructural. El procedimiento se repite mientras sea necesario, su%eto al tama)o
mnimo que puede tener un segmento 4usualmente /?=5. Eaturalmente, la distribucin
de este test secuencial no es estndar pues las hiptesis est anidadas 4es decir, el
segundo test de Mald depende de haber hecho bien la inferencia del primer test de
cambio estructural, el tercero de los dos primeros, etc.5, por lo que -ai y 3erron proveen
tablas de valores crticos ad1hoc
5.0% Problemas de Especiicacin !!!" &atos errneos
El anlisis emprico frecuentemente se enfrenta a problemas con los datos en dos
dimensiones: datos perdidos y variables cercanas. Eaturalmente, es posible que estos
problemas sucedan simultneamente, pero para efectos pedaggicos los vamos a
estudiar por separado.
Datos .erdidos
9upongamos que el modelo es del tipo y
i
=o+x
i
+c
i
. ;bviamente, pueden
haber datos perdidos en la variable de inter(s, y, o en los regresores, ,. Ello puede
suceder por varias ra/ones. En primer lugar, porque no existen los datos para alg$n
determinado perodo de tiempo o segmento de la muestra. Lo ms com$n es que esto
suceda porque los encargados de estadsticas no levantan los datos de base o porque las
muestras se han perdido. 9egundo, porque los datos existen pero estn en distinta
12 Ier #ndre<s, 6.M.V., Lee, L., 3loberger, M. .;ptimal change point tests for normal linear
regression0. 9ournal o! )conometrics ?F: >B8D, 1>>A.
1A -ai, S. and 3. 3erron .Critical values for multiple structural change tests0. )conometrics 9ournal,
A:?&B?D, &FF8.
2.1@
frecuencia a la necesaria para hacer el anlisis emprico 4p.e., datos mensuales versus
trimestrales5.
La literatura sobre datos perdidos es extensa pero puede sinteti/arse en las
siguientes conclusiones. 3rimero, si los datos se han perdido de manera aleatoria, los
estimadores de mnimos cuadrados sern consistentes pero ms ineficientes que en el
caso que la muestra estuviese completa. La ra/n es, obviamente, que la muestra con
datos perdidos contiene menos informacin. 9egundo, si los datos no se han perdido de
forma aleatoria pero slo afectan a las variables de lado i/quierdo, entonces no hay
sesgo y slo hay problemas de eficiencia. Este caso es llamado sesgo de seleccin e,geno.
=ercero, si los datos no se han perdido de forma aleatoria pero slo afectan a las
variables de lado derecho, entonces hay sesgo de seleccin endgeno. En este caso, hay
correlacin entre regresor y residuo ,por cuanto las observaciones disponibles estn
limitadas de forma no aleatoriaU e, inevitablemente, hay sesgo en el estimador de
mnimos cuadrados.
1?
La existencia de datos perdidos suele llevar a los econometristas despistados a
intentar .soluciones0 que, como se discute a continuacin, no son efectivas. 3ara discutir
estos m(todos podemos particionar la matri/ de datos de acuerdo al Cuadro 2.1:
Cuadro 5.1
%rob"emas de dis#onibi"idad de datos
6atos existen y
#
x
#
6atos
perdidos
B x
-
6atos
perdidos
y
C
B
Eote que siempre podemos estimar el estimador en el subcon%unto #. El
punto es ver cmo usar los datos restantes. Estudiaremos primero el caso #W-, es decir
cuando faltan algunas observaciones de la variable condicionada 4o de lado i/quierdo5.
3osteriormente, veremos el caso #WC, es decir cuando faltan algunas observaciones de
los regresores.
1? La solucin a este tipo de sesgo de seleccin ms popular es el estimador en dos etapas de
HecNman. Xste consiste en hacer una regresin inicial tipo probit para dar cuenta de los
determinantes de la seleccin de la muestra y, en una segunda etapa, se estima el modelo
original tomando en cuenta los resultados del modelo probit. Ier S. HecNman, :9ample
9election -ias as a 9pecification Error,: )conometrica, @?415: 128BA, 1>?>.
2.12
Datos perdidos en la variable condicionada. 1na sugerencia frecuente es utili/ar alg$n
m(todo para hacer una prediccin de y
#
y usar posteriormente el modelo econom(trico
completo para estimar

, es decir usando | y
$
+ y
#
, x
$
+x
#
. El quid del asunto radica
en cmo predecir y
#
. Hay dos alternativas populares:
#lternativa popular 1. *ellene los datos faltantes con la media de y
$
. Es
fcil demostrar que como resultado se produce sesgo en los parmetros.
#lternativa popular &. Estime en el subgrupo #, prediga y
#
usando
dicho estimador, y luego estime el modelo completo. Es directo demostrar que el
procedimiento es in$til.
Datos perdidos entre los condicionantes. Euevamente la sugerencia popular es hacer una
prediccin de y
%
y usar el modelo completo para estimar

, es decir usando
| y
$
+ y
%
, x
$
+ x
%
. !Cmo predecir x
%
"
#lternativa popular 1. *ellene los datos faltantes con la media de x
$
.
6emuestre que este procedimiento es equivalente a eliminar los datos del
segmento C.
#lternativa popular &. Haga una regresin de , en y en el subgrupo #,
estime un parmetro Y y prediga x
%
usando dicho estimador. Luego estime el
modelo completo. 6emuestre que este procedimiento viola el espritu del anlisis
econom(trico.
1D
Kedina y Jalvn 4&FF?5
1>
revisan nuevos procedimientos ,desarrollados durante
las $ltimas d(cadasU que tienen me%ores propiedades estadsticas que las opciones
tradicionales, tales como la eliminacin de datos, el pareo de observaciones, el m(todo
de medias y el hot1dec/. Ellos concluyen que los algoritmos de imputacin de datos se
pueden aplicar, pero que imputar informacin no debe entenderse como un fin en s
mismo. 9us implicaciones en el anlisis secundario de datos deben evaluarse con
cautela, y este traba%o concluye que no existe el m(todo de imputacin ideal.
1D 9i usted encuentra deprimente las conclusiones de esta seccin considere la c(lebre opinin de
Charles -abbage 41DA>5 )rrors using inadequate data are much less than those using no data at all.
1> Gernando Kedina y Karco Jalvn, .Lmputacin de datos: teora y prctica0, 9erie Estudios
Estadsticos y 3rospectivos Eo 2@, CE3#L.
2.1A
<ariables cercanas "pro,ies#
1na variable proxy es un sustituto cercano 4es decir, imperfecto5 de la verdadera
variable que no es observable o no est disponible. 1sualmente el uso de variables
cercanas puede ser entendido como la presencia de .variables medidas con error0.
3uede haber proxies de la variable de inter(s o de los regresores, pero el efecto sobre el
estimador de mnimos cuadrados ordinarios de los parmetros no es igual. *ecordemos
que el estimador mnimos cuadrados se derivan de:

=+(x ' x)
1
x ' c 42.&F5
y del supuesto &o' | x , c=0 . 3odemos reescribir la ecuacin anterior como:

=
|
x ' x
n

1
|
x ' c
n

42.&15
Hasta el momento se ha cumplido que (li)|

=*
xx
c
xc
, pero la matri/ de
covarian/as se desvanece cuando nZ[. Ieamos ahora qu( sucede cuando se usan
variables cercanas.
.ro,y para la variable de inter's: 9ea el modelo que nos gustara estimar y *=x +c . 3ero
slo disponemos de y *= y+j , donde j es un shocN aleatorio, con media cero y
varian/a c
j
2
. Entonces el modelo estimable es y=x ++,=x +- , donde +=cj .
Ete que \ es una variable aleatoria con media cero y cuya covarian/a con ,
tambi(n es cero. Luego se satisfacen todos los supuestos del modelo clsico y no hay
problemas de sesgo en los estimadores de mnimos cuadrados. ;bviamente, la varian/a
del estimador de los residuos est sesgada BBsiendo ms grandeU porque incluye tanto
la varian/a de c como la de j . 9in embargo, ese sesgo no es posible corregirlo sin
conocer c
j
2
.
.ro,y de los regresores: 9ea el modelo que nos gustara estimar y =x+c . 3ero slo
disponemos de x =x+j , donde j es un shocN aleatorio con media cero y varian/a
c
j
2
. #hora el modelo es y=x +cj=x +o donde o=cj . El problema
radica en que hay correlacin entre regresor y residuo porque
&o' | x , o=&o' | x+j , cj=c
j
2
. El estimador de mnimos cuadrados es:
2.1?

=
1/n

i =1
n
x
i
y
i
1/ n

i =1
n
x
i
2
42.&&5
veamos el plim:
(li)

=
(li)1/n

i =1
n
( x
i
*
+j)( x
i
*
+c)
(li) 1/ n

i =1
n
( x
i
*
+j)
2
42.&85
y como ,@, c , y j son independientes entre s, se obtiene:
(li)

=
*
*
*
*
+c
j
2
42.&@5
con **=(li) 1/ n x *' x * .
3odemos reescribir 42.&@5 como:
(li)

=

1+
c
j
2
*
*
42.&25
por lo tanto, si hay incertidumbre 4 c
j
2
0 5, el estimador de mnimos cuadrados
ordinarios del parmetro es inconsistente y sesgado hacia cero. # mayor error de
medida, ms fuerte este e!ecto de atenuacin.
2.1D
Datos in!luyentes y e,tremos "outliers#
En el anlisis emprico es usual encontrar valores tanto para la variable de inter(s
como sus determinantes que .no parecen formar parte del experimento en cuestin0
4tambi(n llamados outliers5.
&F
9e entiende por .datos influyentes0 aquellos que de ser incluidos o excluidos de
la muestra producen grandes variaciones en la estimacin, sea en los estimadores de los
parmetros o en los estadsticos asociados 4p.e., bondad de a%uste5. La influencia de
estas observaciones se debe tanto a la naturale/a del estimador de mnimos cuadrados
como al tama)o de la muestra usada para obtener el estimador. En primer lugar, el
estimador de mnimos cuadrados se obtiene al minimi/ar la suma de residuos al
cuadrado, por lo que las observaciones ms ale%adas del promedio de los datos reciben
ms valoracin. Eso puede hacer que el estimador sea sensible a valores extremos. En
segundo lugar, el tama)o de muestra determina el impacto de valores extremos, pues
este problema ser ms agudo mientras ms peque)a sea la muestra. ;bviamente, en
una muestra grande el efecto de un valor extremo es contrapesado por ms
observaciones y, por lo tanto, tiene menos efectos sobre el estimador.
En la literatura se distingue entre valores extremos 4outliers5 y valores
influyentes. Ialores extremos se refieren usualmente a valores de y que se desvan
mucho de la media condicional en ,. Ialores influyentes se refieren a valores de , que se
desvan de la media muestral y que, por lo tanto influyen mucho en la estimacin. En la
figura 2.A se presentan ambos tipos de valores para el caso del modelo ms simple,
y
i
=o+x
i
+c
i
.
Figura 5.&
'a"ores in("u)entes ) e*tremos
&F Esta es la definicin clsica de outlier de Ha<Nins, 6. 41>DF5. Adenti!ication o! Outliers. Chapman
and Hall, London.
y
x
2.1>
Grecuentemente los valores extremos e influyentes se producen por errores al
ingresar los datos de la muestra: por e%emplo, es com$n que sucedan porque se
invirtieron dgitos 4AF1 en ve/ de 1FA5 o porque una coma est mal puesta 41&,2 en ve/
de 1,&25. Es por ello que lo primero que se debe hacer es revisar los datos
cuidadosamente.
Existe un centenar de algoritmos de deteccin de valores influyentes que se
basan en seleccionar distribuciones conocidas para los datos 4normal, exponencial, etc.5
y en definir un intervalo de confian/a para determinar si un dato es un valor extremo o
no lo es 4p.e., >FQ o >2Q5.
&1

1na manera de detectar valores extremos es estudiar los residuos: si el valor
predicho se desva del efectivo de manera notoria se puede tratar de un valor extremo.
Eo obstante, esta no es una manera que garantice la deteccin. La ra/n es que el
residuo se mide con respecto a la recta de regresin la que podra variar si se incluye o
excluye el valor extremo. 1sualmente se estudian los residuos estandari/ados ,es decir,
los residuos divididos por su desviacin estndarU de modo de normali/ar su tama)o.
;tra forma es estudiar la .incidencia0 de cada dato en el estimador. *ecordemos
que en el estimador de mnimos cuadrados cada observacin de y es ponderada por
H=x (x ' x )
1
x ' . 9i se estudia la diagonal de H, es decir los valores de h
ii,
es
relativamente directo ver la influencia de cada observacin en la estimacin. Ialores con
mucha incidencia suelen se)alar la presencia de valores influyentes o extremos. #dems
esto pone de manifiesto el hecho que valores ms ale%ados de la media de los regresores
tiende a darles ms influencia.
Cuando la muestra es peque)a, tanto la media como la desviacin estndar
muestrales pueden ser distorsionadas por la misma presencia de valores influyentes. Es
por ello que en ese caso se usan tests de deteccin de datos influyentes basados en la
mediana y su desviacin estadstica, porque (stas no son sensibles a los valores
extremos. El ms conocido de estos tests para muestra peque)a es el de 6ixon 41>2F5
&&

que se basa en suponer que los datos se distribuyen normales. El test consiste en ordenar
los datos de menor a mayor y computar el siguiente estadgrafo para cada observacin
(
x
(n) ) :
TN7=
x
( n)
x
( n1)
x
( n)
x
( 1)
42.&A5
El valor de 8BC computado se compara con los valores crticos particulares para
tama)os de muestras que van desde 8 observaciones en adelante.
&8
9i el valor obtenido
&1 1n tratamiento comprensivo del tema se encuentra en Outliers in Statistical Data, I. -arnett
and =. Le<is, 1>>@, 8rd edition, Sohn Miley ] 9ons, Chichester.
&& 6ixon, M.S. 41>2F5: .#nalysis of extreme values0, Annals o! Mathematical Statistics, &14@5:@DD,
2FA.
&8 9. Ierma y #. Tuiro/B*ui/, .Critical values for six 6ixon tests for outliers in normal samples
2.&F
es mayor que el valor de tablas se recha/a la hiptesis nula que la observacin nB(sima
no es un valor extremo. El estadgrafo 8BC reconoce que en una muestra peque)a
resulta mucho ms difcil determinar si una observacin es un valor extremo porque no
hay suficiente informacin.
5.0' Problemas de Especiicacin !V" Colinealidad
El problema de colinealidad 4tambi(n llamado multicolinealidad5 consiste en que
los regresores no son independientes entre s. Cuando se impuso el supuesto de
identificacin, es decir que (x . x )
1
fuese positiva definida, no se elimin el problema
que los regresores est(n correlacionados imperfectamente.
&@
Consideremos el siguiente
modelo:
y
i
=o+
1
x
i
1
+
2
x
i
2
+
3
x
i
3
+j
i
42.&?5
pero supongamos que los regresores estn correlacionados de acuerdo a la siguiente
relacin:
x
i
3
=0
1
x
i
1
+0
2
x
i
2
++
i
42.&D5
Lntroduciendo 42.&D5 en 42.&?5 resulta obvio que:
y
i
=o+(
1
+0
1

3
) x
i
1
+(
2
+0
2

3
) x
i
2
+j
t
+
3
+
i
42.&>5
Hay dos interpretaciones interesantes de la ecuacin anterior. 3rimero, se puede
estimar (
/
+0
/
) pero no podemos .identificar0
/
. 9egundo, el efecto .marginal0 de
,
/
sobre y tiene dos componentes: uno directo 4
/
5 y otro que se filtra indirectamente a
trav(s de ,
D
4 0
k
+
/
5. Eote, adems, que la varian/a del error 4 j+
3
+ 5 tiene una
estructura particular.
El efecto que tiene la colinealidad sobre el estimador mnimos cuadrados es algo
sorprendente. =omando el estimador
up to si/es 1FF, and applications in science and engineering0 3evista Me,icana de Ciencias
*eolgicas, &84&5:188B1A1, &FFA.
&@ ;tra ra/n para que (x . x )
1
no exista es que el rango de , sea mayor que el rango de ,E.
2.&1
E|

=E|( x ' x )
1
x ' y
=E| ( x ' x )
1
x
i
' ( x +j)
=+E|( x ' x )
1
x ' j
42.8F5
3or lo tanto, en tanto la matri/ de momentos de los regresores exista, el
estimador sigue siendo insesgado. Ello porque independientemente de si los regresores
son estocsticos o no, la correlacin entre regresor y error en valor esperado es cero lo
que implica que E|

= .
9i los parmetros no son sesgados, !dnde est el efecto de la colinealidad"
6ebido a que el problema es que &o' ( x
1,
x
2
)0 , entonces tiene que afectar la matri/ de
momentos de los regresores, x ' x . Ieamos cmo la afecta con algunos e%emplos
prcticos. *ecordemos que la inversa de x ' x es su ad%unta dividida por el
determinante, es decir:
o=
|
a
11
a
12
a
21
a
22

entonces o
1
=
1
a
11
a
22
a
12
a
21
|
a
22
a
12
a
21
a
11

42.815
9upongamos
o=
|
1 0
0 1

=o
1
=
1
1
|
1 0
0 1

42.8&5
y ahora consideremos casos donde la covarian/a entre las variables no es cero:
o=
|
1 0.6
0.6 1

=o
1
=
1
0.64
|
1 0.6
0.6 1

42.885
o=
|
1 0.9
0.9 1

=o
1
=
1
0.19
|
1 0.9
0.9 1

42.8@5
*esulta evidente cmo se va reduciendo el determinante de la inversa. Entonces,
dado que V (

)=c
2
( x
i
' x
i
)
1
, la presencia de colinealidad se traduce en varian/as de
los estimadores de los parmetros cada ve/ ms grandes. En el lmite la varian/a tiende
a infinito.
2.&&
Esto es congruente con lo que obtuvimos en 42.&>5. Cuando la colinealidad es
per!ecta no es posible distinguir entre el efecto directo e indirecto. Es decir, no podemos
precisar el valor de los parmetros 4varian/a infinita5.
En la realidad, la colinealidad perfecta no existe 4salvo por error5. 3ero tampoco
existe, usualmente, la ausencia de colinealidad 4piense en el papel de las expectativas y
cmo (stas correlacionan muchas variables econmicas5. 3or ello, siempre habr alg$n
grado de colinealidad.
;tro sntoma de la colinealidad es que los estimadores de los parmetros se
vuelven inestables 4poco robustos5. La inestabilidad se produce porque la estimacin
punto de los parmetros ba%o alta colinealidad depende de la conformacin de la
muestra. 9i sacamos un4os5 dato4s5 de la muestra, la estimacin de los parmetros suele
cambiar fuertemente.
&Como detectamos la presencia de colinealidad(
3odramos estudiar la correlacin de los regresores antes de estimar el modelo.
Esta prctica es esencial en cualquier modelacin econom(trica, pues aparte de detectar
posibles problemas de colinealidad nos ayuda a descubrir errores en los datos. 1n
problema prctico, no obstante, es que no es muy claro cundo hay alta colinealidad
entre dos o ms variables. Eaturalmente una correlacin de >>Q es alta y una de 2Q es
ba%a, pero para una correlacin de 2?Q no es clara la conclusin.
;tra alternativa es investigar si los estimadores de los parmetros son inestables.
9i bien esto es correcto, existen otros problemas ,que veremos ms adelante, que
tambi(n producen inestabilidad. 3or ello, este test no es conclusivo.
1na tercera alternativa frecuente es que, si bien los parmetros no son
significativos por la alta varian/a, como un todo la regresin es satisfactoria. Ello se
traducira en el caso . 0
2
alto pero

no significativos0. Hay que reconocer, sin


embargo, que no es una regla muy firme, porque una variable irrelevante en un modelo
satisfactorio tendra el mismo sntoma.
&Fu' solucin tiene la colinealidad(
En estricto rigor, no existe ninguna solucin. La colinealidad no es un problema.
Es una caracterstica de las variables aleatorias utili/adas en el modelo. Es decir, una
caracterstica del problema econmico.
2.&8
En ocasiones, la teora econmica permite imponer restricciones que evitan el
problema de colinealidad. 3or e%emplo, considere el siguiente modelo translog para el
3L-, que denominamos G:
log Y=o
1
log( KF)+o
2
log (KH)+o
3
(log ( KF))
1/ 2
2
+o
4
( log( KH))
1/2
2
+o
5
log ( KF) log( KH)+j
donde VG es el capital fsico y VH es el capital humano. 1sted sospecha que hay
colinealidad entre ambos tipos de capital. 9i es vlido imponer la restriccin de retornos
constantes de escala 4 o
1
=1o
2
y o
3
=o
4
=o
5
=1 5 entonces es posible reducir el
problema de colinealidad. Esto, sin embargo, no es lo usual.
Eo obstante, algunos textos tradicionales suelen presentar pseudo soluciones
empricas al problema de colinealidad que vale la pena estudiar para 4a5 descubrir su
inaplicabilidad y 4b5 porque existen otros usos para estas t(cnicas que se utili/an a
menudo.
1. E"imine a"guna !ariab"e para la que haya evidencia de colinealidad con otras. En
el modelo y
i
=o+
1
x
i
1
+
2
x
i
2
+
3
x
i
3
+j
i
entonces se podra eliminar, digamos,
x
3
. El resultado es:
y
i
=o+
1
x
i
1
+
2
x
i
2
+
3
x
i
3
+j
i
=o+
1
x
i
1
+
2
x
i
2
+j
i
42.825
;bviamente, el problema de colinealidad se reduce.
&2
9in embargo, tenemos un
problema grave. #hora &o' ( x
1
, j) y &o' ( x
2
, j) no son cero. 3or ello, los
estimadores estn sesgados, no se conoce el tama)o o la direccin del sesgo, y las
varian/as de los estimadores pueden estar sobreBestimadas.
&. E" mtodo de +ridge,. Esta t(cnica se basa en la observacin que los parmetros
son difciles de identificar porque las varian/as de los parmetros son
relativamente peque)as en comparacin con las covarian/as. Las varian/as estn
en la diagonal de c
2
( x . x)
1
. 3or ello, este estimador sugiere sumarle .algo0 a
dicha diagonal, de modo que los parmetros sean identificables. El estimador de
.ridge0 es:

0D
=
|
x
i
' x
i
+rD

1
x
i
' y
i
42.8A5
donde r es un escalar peque)o 4p.e., F.F15 y 6 una matri/ diagonal.
;bviamente, ahora las varian/as de los parmetros estimados van a ser menores.
&2 !por qu( slo se reduce y no se elimina"
2.&@
Var (

0D
)=c
2
|
x
i
' x
i
+rD

1
42.8?5
3ero este .beneficio0 se obtiene a costa de:
E|

0D
=E
(|
x
i
' x
i
+rD

1
x
i
' y
i )
=E
(
| x
i
' x
i
+rD
1
x
i
' x
i

42.8D5
Hemos vuelto a obtener dos resultados importantes: 4a5 modelos con variables
pertinentes omitidas producen parmetros sesgados, y 4b5 es posible tener
estimadores sesgados ms eficientes que un estimador insesgado.
8. Mtodo de com#onentes #rinci#a"es. ;tra propuesta de solucin de
colinealidad consiste en extraer de la matri/ (x ' x) los componentes principales
de (sta. 9i el problema de las , es que no hay independencia lineal, !por qu( no
seleccionamos aquellos , que son .ms independientes0" #s, me%orara la
estimacin del modelo, pues el subcon%unto de , seleccionado representara bien
a todas las variables del modelo. La pregunta es equivalente a !cul combinacin
lineal de las , es la que tiene el me%or a%uste a todas las ," Esa ser la me%or
.representante0.
9ea la combinacin lineal z
1
=x a
1
. Entonces, z
1
' z
1
=a
1
' x ' x a
1
. -uscamos a
1

tal que maximicemos z
1
' z
1
4pi(nselo como matri/ de informacin5. ;bviamente, si no
restringimos a
1
es posible que |z
1
z
1
1 . 3or ello, optimi/amos restringiendo a que
a
1
a
1
=1 4a esto se le llama normali/ar5. 1sando la t(cnica de Lagrange:
)ax
a
1
=a
1
' x ' x a
1
\
1
(a
1
' a
1
1) 42.8>5
derivando obtenemos la siguiente condicin de primer orden:
c
ca
1
=2x ' xa
1
2 \
1
a
1
=0 42.@F5
es decir:
x ' x a
1
\
1
a
1
=0 42.@15
2.&2
por lo tanto, a
1
es un vector caracterstico. *ecuerde, a
1
es el vector caracterstico
asociado a ^
1
la ra/ caracterstica. !Cul vector caracterstico" #quel asociado a la ra/
caracterstica ms grande de x ' x .
#s, hemos escogido el primer componente principal. #hora, escogemos el
segundo, a
2
. 3ara ello optimi/amos su%eto a a
1
ya encontrado y a que a
1
sea ortogonal
a a
2
4 a
1
' a
2
=0 5
)ax
a
2
=a
2
' x ' x a
2
\
2
(a
2
' a
2
1)j(a
1
' a
2
) 42.@&5
#s, obtenemos la siguiente condicin de primer orden del problema restringido
c
ca
2
=2x ' xa
2
2\
2
a
2
ja
1
=0 42.@85
entonces, premultiplicamos por a
1
'
2 a
1
' x ' x a
2
2 \
2
a
1
' a
2
ja
1
' a
1
=0 42.@@5
pero a
1
' a
2
=0 y a
1
' a
1
=1 . 3or ello, j=0 . 9e deduce entonces que x ' x a
2
=\
2
a
2
, es
decir a
2
es el segundo vector caracterstico 4correspondiente a la segunda ra/
caracterstica, \
2
5.
3odemos hacer esto / veces, obteniendo a
k
soluciones. 9i lo hici(ramos / veces,
obtendramos una representacin exactamente equivalente a la matri/ original x ' x .
Suntamos los resultados en la matri/ $=| a
1
, a
2
, ... , a
k
que describe los ponderadores
de los .componentes principales0 de x ' x , tal que 2=x$ son los H componentes
principales. Eote que:
2' 2=$' x ' x$=A=
|
\
1
0 0
0 \
2
0

0 \
k

42.@25
#dems, si el rango de , es r k habr kr valores propios iguales a cero.
&A
&A 9e puede usar los valores propios como test del grado de colinealidad. 9i el estadgrafo toma
un valor grande, ello indica la presencia de un nivel grave de colinealidad. 46.#. -elsley,
.6emeaning conditioning diagnostics through centering 4<ith discussion50, 8he American
Statistician, 8D:?8B>8.
2.&A
Ginalmente, el estimador de componentes principales ser:

&(
=| 2' 2
1
2 ' y 42.@A5
pero 2' y =$' x ' y=$' x ' | x+c=$' x ' x=$' x ' x . Entonces, se desprende
que

&(
=$
1
de donde se deduce que:
el estimador de componentes principales es una combinacin lineal de los
verdaderos parmetros.
que el estimador de componentes principales es sesgado.
la varian/a del estimador

&(
es menor que la de

)&o
.
Habitualmente, se calculan los componentes sobre variables originales
estandari/adas, es decir, variables con media F y varian/a 1. Esto equivale a tomar los
componentes principales, no de la matri/ de covarian/as sino de la matri/ de
correlaciones 4en las variables estandari/adas coinciden las covarian/as y las
correlaciones5. #s, los componentes son autovectores de la matri/ de correlaciones y son
distintos de los de la matri/ de covarian/as. 9i se act$a as, se da igual importancia a
todas las variables originales. En la matri/ de correlaciones todos los elementos de la
diagonal son iguales a 1. 9i las variables originales estn tipificadas, esto implica que su
matri/ de covarian/as es igual a la de correlaciones, con lo que la variabilidad total 4la
tra/a5 es igual al n$mero total de variables que hay en la muestra. La suma total de
todos los autovalores es p y la proporcin de varian/a recogida por el autovector %
B(simo 4componente5 es ^%'p
El uso del estimador tiene serios problemas. 3rimero, los estimadores son
sensibles a la escala de los datos. 3or ello se recomienda estandari/ar las variables 41'_+5,
pero esto afecta los resultados 4cambia A5. En realidad, todos los tests para detectar la
colinealidad sufren la debilidad de ser sensibles a transformaciones lineales de los datos
4origen y escala5.
&?
9egundo, la seleccin de los componentes principales se hace en
funcin de , y no de y, lo que sera preferible. =ercero, la interpretacin de los
parmetros es muy difcil, pues no sern los coeficientes asociados a las variables sino
aqu(llos asociados a una combinacin lineal de las variables.
Eote que nuevamente encontramos que 415 modelos con variables pertinentes
omitidas producen parmetros sesgados, y 4&5 es posible tener estimadores sesgados
ms eficientes que un estimador insesgado.
&? Kaddala 41>??5 propone otras .soluciones0 para colinealidad. Entre ellas 4a5 usar informacin
aBpriori, 4b5 transformar las variables 4logs o ra/ones5 y 4c5 usar ms datos. Estudiar y evaluar
si (stas son $tiles o no. J.9. Kaddala 41>??5 )conometrics KcJra<BHill editors.
2.&?
5.05 Modelos de Varian(a )o Constante
Esta es una familia con dos ramas principales de modelos: heterocedasticidad y
correlacin de residuos. Estudiaremos en primer lugar el tema de heterocedasticidad y
luego el de correlacin de residuos 4el contexto ms usual es series de tiempo, pero
existe una incipiente literatura en correlacin espacial5.
Es com$n, sobre todo en muestras de corte transversal, que los datos tengan
heterocedasticidad, es decir, que los residuos 4innovaciones5 provengan de
distribuciones con distintas varian/as. 3or otro lado, en modelos de series de tiempo es
com$n observar correlacin residual, es decir que la observacin de un residuo en un
determinado instante de tiempo contenga informacin $til para predecir el error en otro
instante de tiempo. Eaturalmente, en alg$n caso particular se puede enfrentar
simultneamente la presencia de heterocedasticidad y correlacin residual. 6esde un
punto de vista pedaggico conviene tratar ambos problemas por separado.
En el caso en que la varian/a de los errores no sea residual, el modelo general se
escribe de la siguiente manera:
y
i
=x
i
+c
i
E| c
i
=0
E| c
i
c
i
' =c
2
D
42.@?5
donde ` es una matri/ definida positiva.
;bviamente, cuando `RL, volvemos al caso de mnimos cuadrados ordinarios.
3or ello, el modelo descrito en 42.@?5 es llamado modelo de regresin generali$ado.
Jrficamente, el problema de heterocedasticidad se ve de la siguiente manera:
Figura 5.-
Cuando estudiamos heterocedasticidad suponemos que la matri/ de covarian/as
de los errores es del tipo:
2.&D
c
2
D=
|
c
1
2
0 0 0
0 c
2
2
0 0

0 0 0 c
n
2

42.@D5
en cambio cuando hablamos slo de correlacin residual nos referimos a:
c
2
D=
|
1 j
1
j
2
j
n1
j
1
1 j
1
j
n2

j
n1
j
n2
j
1
1

42.@>5
donde los j
i
son correlaciones 4es decir, covarian/as divididas por varian/as5. Eote que
en 42.@D5 las covarian/as son cero, en tanto que en 42.@>5 las varian/as son constantes.
Euevamente, estas separacin es slo para efectos pedaggicos, pues en la prctica no es
infrecuente encontrar ambos problemas.
5.0* +eterocedasticidad
!Cual es el efecto de la heterocedasticidad sobre un estimador mnimos
cuadrados" *ecordemos que el estimador mnimos cuadrados se puede escribir como

=( x ' x )
1
x ' y =+(x ' x)
1
x ' c 42.2F5
y es el me%or estimador lineal insesgado, distribuy(ndose asintticamente normal. Ks
a$n, si el residuo es normal, el estimador es eficiente.
.ropiedades de muestra pequeIa
=omando esperan/a en 42.2F5 obtenemos E|

=E
x
| E|

| x= , es decir el
estimador sigue siendo insesgado. Esto es ra/onable porque el problema de
2.&>
heterocedasticidad se refiere al segundo momento 4varian/as5 y no a la media de los
errores.
=omemos la varian/a del estimador para el caso que , es no estocstico:
Var |

|x =E|(

)(

)' |x
=E|(x ' x)
1
x ' cc' x ( x ' x )
1
|x
=(x ' x)
1
x ' E| cc' x (x ' x)
1
=(x ' x)
1
x ' | c
2
D x (x ' x)
1
42.215
lo que podemos escribir como:
Var |

|x =
c
2
n
(
1
n
x ' x
)
1
(
1
n
x ' Dx
)(
1
n
x ' x
)
1
42.2&5
9i , es estocstico, la varian/a no condicional es E
x
|Var (

|x) .
9i c se distribuye Eormal, entonces

N| , c
2
( x ' x )
1
(x ' Dx )(x ' x)
1
.
Entonces, lo $nico que cambia es la varian/a del estimador que ahora no es
c
2
( x ' x )
1
, por lo que las inferencias basadas en esta $ltima estn sesgadas. 3or otro
lado, el estimador de _+ no tiene por qu( haber retenido sus propiedades. 1sualmente,
no podemos saber si c
2
( x ' x )
1
es mayor o menor que 42.2&5, por lo que los test t o :
resultan inadecuados.
.ropiedades de muestra grande
*etomemos la ecuacin 42.2&5. *esulta evidente que:
si los regresores se comportan bien, los t(rminos 1/n x ' x convergern a T.
el t(rmino _+'n converge a F.
el t(rmino 1/n x ' Dx no tiene por qu( converger.
9e puede demostrar que si los regresores cumplen las condiciones de Jrenander,
1/n x ' Dx converge. Ello sucede en casos de heterocedasticidad pero no
necesariamente cuando hay correlacin de residuos. En este $ltimo caso, el estimador es
inconsistente.
2.8F
Ginalmente, el estimador es asintticamente normal porque las mismas
condiciones de Jrenander que impusimos para que
.n (

)=
|
1
n
x ' x

1
|
1
.n
x ' c

42.285
se distribuya asintticamente normal, se cumplen a$n si hay heterocedasticidad.
=ambi(n, se aplica el teorema de lmite central.
La varian/a asinttica del estimador ser:
V3$3

=
c
2
n
*
1
(li)
(
1
n
x ' Dx
)
*
1
42.2@5
En resumen, la heterocedasticidad no afecta la estimacin punto de los
parmetros porque (stos no dependen de la varian/a de la distribucin. 3ero,
obviamente afecta la varian/a del estimador.
*ecordemos que:
Var |

|x =( x ' x )
1
x ' | c
2
D x ( x ' x )
1
42.225
Cuando hay homocedasticidad, E| c
i
c
i
' =c
2
I , por lo que el problema se
reduce a tener un estimador de c
2
. 3or el contrario, el problema que presenta la
existencia de heterocedasticidad en un experimento es exactamente nuestra ignorancia
respecto de la estructura de (sta, es decir, respecto de E| c
i
c
i
' . Iamos a reali/ar un
truco que es estndar en la literatura econom(trica: derivamos el estimador ptimo y sus
propiedades ba%o el supuesto que conocemos E| c
i
c
i
' y luego estudiamos qu( sucede
si esta $ltima suposicin no es correcta. El primer estimador es llamado el estimador
eficiente, en tanto que el segundo es llamado estimador posible.
)stimacin e!iciente
9i tuvi(semos E| c
i
c
i
' podramos resolver el problema. 3ensemos que, en ese
caso, podramos usar directamente el estimador de la varian/a:
Var (

45"
)=( x ' x )
1
x ' E|cc ' x ( x ' x )
1
42.2A5
2.81
-asados en la idea que una matri/ positiva y definida puede ser factori/ada,
vamos a hacer una factori/acin conveniente. =omemos una matri/ 84nan5 y
premultipliquemos el modelo, tal que
Ty
i
=Tx
i
+T c
i
42.2?5
9e sigue cumpliendo que E| T c=0 , por lo que podemos obtener:
E| T c c' T ' =c
2
T ' DT 42.2D5
#hora, si T ' DT=I habramos solucionado el problema de heterocedasticidad,
pues podemos estimar el modelo 42.2?5 por mnimos cuadrados ordinarios ya que los
errores seran homocedsticos y recuperar los estimadores de los parmetros del modelo
original. Tueremos, entonces, encontrar = tal que D
1
=T ' T para ponderar el modelo.
El estimador de mnimos cuadrados ponderados ,tambi(n llamado estimador de
#itNen
&D
, sera:

65"
=( x
i
' T ' T x
i
)
1
x
i
' T ' T y
i
(ero T ' T=D
1
=(x
i
' D
1
x
i
)
1
x
i
' D
1
y
i
42.2>5
Ete que este estimador es ms general de lo que parece. Ciertamente, cualquier
forma de heterocedasticidad puede ser acomodada en el estimador, provisto que la
matri/ de covarian/a de los errores sea diagonal del tipo c
2
D. Euevamente, note que
el estimador de mnimos cuadrados ordinarios es un caso particular de mnimos
cuadrados generali/ados, aquel donde =RL.
)stimacin .osible
!Tu( sucede cuando D es desconocida" En algunas ocasiones, un reducido
n$mero de parmetros, J, es capa/ de describir el patrn de heterocedasticidad. 3or
e%emplo, c
i
2
=c
2
7 (z
i
8 0) entonces, podramos usar

D=D(

0)
, es decir, el estimador de
D basado en el estimador de J.
Esto parece lgico: si (li)

0=0 entonces

D1D
. En realidad, no es siempre
as. 9ea

F65"
=( x
i
'

D
1
x
i
)
1
x
i
'

D
1
y
i
el estimador de mnimos cuadrados
&D #. #itNen 41>825, .;n least squares and linear combinations of observations0, .roceedings o!
the 3oyal Statistical Society, 22:@&B@D.
2.8&
generali/ados posible. !Cundo son asintticamente equivalentes

F65"
y

65"
" Las
condiciones son:
(li)
|
1
n
x '

D
1
x
1
n
x ' D
1
x

=0
(li)
|
1
.
n
x '

D
1
c
1
.
n
x ' D
1
c

=0
42.AF5
La primera condicin dice que si la matri/ de momentos ponderados converge a
una matri/ positiva definida, la matri/ de momentos ponderados posibles debe
converger a la misma matri/. Esto, en realidad, es un supuesto.
La segunda condicin dice que si los regresores transformados estn bien
comportados, la suma 4y por consiguiente el estimador5 se distribuir asintticamente
igual a la verdadera suma y estimador 4no necesariamente, pero tpicamente, normal5.
Lo interesante es que no se necesita que el estimador de J sea eficiente, basta con
que sea consistente para que el estimador de mnimos cuadrados generali/ados posible
sea eficiente. 3ara demostrar esto basta con plantear el estimador mximoBverosmil de
los parmetros del modelo generali/ado y demostrar que es equivalente al de mnimos
cuadrados generali/ados posible, por lo que no hay ganancia de eficiencia al usar

D
o
D.
8ests de ;eterocedasticidad
1na buena ra/n para estudiar tests de heterocedasticidad es, naturalmente, la
deteccin del problema y su eventual correccin. 1na ra/n ms sutil, sin embargo, es
que cada tipo de test nos ense)a de manera simple y valiosa una forma particular que
puede tomar la heterocedasticidad y, por lo tanto, nos prepara para anticipar en cules
contextos una u otra forma de heterocedasticidad puede estar presente.
= 8ests en muestras repetidas
Este es el test ms simple de heterocedasticidad y se aplica cuando se tienen
varias muestras repetidas de un mismo experimento. 1n e%emplo en el cual este test es
aplicable es cuando se tienen datos agrupados 4p.e., ciudades5: en cada cada ubicacin
habr ni observaciones de distribuciones con varian/as potencialmente diferentes.
La lgica de operacin es la siguiente:
Estime el modelo y
i
=x
i
+c
i
y compute c
i
2
para cada muestra iR1, ..., m.
Estime el modelo y
i
=x
i
+c
i
y compute c
*
2
con todos los datos.
2.88
El test es directo sobre la hiptesis nula que la varian/a de los grupos no difiere
de aquella de la muestra completa, a%ustando por tama)os relativos
Ho)o&e9asti&i9a9 :H
0
: (n)) ln c
*
2

/ =1
)
(n
/
1) ln c
i
2
=0
Hetero&e9asti&i9a9 :H
1
: (n)) ln c
*
2

/ =1
)
(n
/
1) ln c
i
2
0
42.A15
El test es, directamente, un test de ra/ones de verosimilitud
2
|
(n)) ln c
*
2

/ =1
)
(n
/
1) ln c
i
2

X
2
()1) 42.A&5
6ebido a que los estimadores de las varian/as por muestra y totales son formas
cuadrticas de errores normali/ados, el test se distribuye b+4mB15. Los grados de libertad
se derivan del n$mero de varian/as libres 4m5 menos la restriccin de una $nica varian/a
com$n.
% 8est de Kreusch y .agan
%5
Este test se aplica cuando no hay muestras repetidas y, por lo tanto, no es posible
disponer de varias reali/aciones de la variable aleatoria c
2
. 1na ve/ estimado el
modelo y
i
=o+x
i
+c
i
, lo que se hace es:
Computar ;
i
= c
i
2
/ c
2
Hacer una regresin entre g
i
y las variables que quiera, incluyendo ,, y computar
la suma de cuadrados explicados, 9CE.
El test consiste en estudiar la suma de cuadrados explicados, 9CE. 9i una
regresin puede .explicar0 la proxy de heterocedasticidad, entonces hay
heterocedasticidad. #lternativamente, si hay homocedasticidad, solo la constante
debiese ser estadsticamente significativa. 3or ello,
H
0
: Ho)o&e9asti&i9a9 :"%E=0
H
1
: Hetero&e9asti&i9a9 :"%E0
42.A@5
&> -reusch, = and #. 3agan 41>?>5, .# simple test of heterosNedasticity and random coefficient
variation0, )conometrica @?:1&D?,1&>@.
2.8@
6ebido a que los estimadores de las varian/as por muestra y totales son formas
cuadrticas de errores normali/ados, c9CE se distribuye b+4pB15 ba%o la hiptesis nula.
Los grados de libertad se derivan del rango de regresores, p, en la segunda regresin.
L 8est de *old!eld y Fuandt
LM
Este test aprovecha informacin extraBmuestral para estudiar problemas de
heterocedasticidad. 9i creemos que la variable ,
/
es la causante de heterocedasticidad, el
procedimiento es:
;rdene la muestra de mayor a menor segun ,
/
.
*emueva c datos del centro de la muestra.
Haga la regresin del modelo y
i
=o+x
i
+c
i
en cada grupo y compute la suma
de cuadrados residuales, 9*C.
El test consiste en estudiar la diferencia entre las 9*C. 9i (stas son iguales,
significa que no hay heterocedasticidad. 3or ello,
H
0
: Ho)o&e9asti&i9a9 :"0%
1
="0%
2
H
1
: Hetero&e9asti&i9a9 :"0%
1
"0%
2
42.A25
Como estamos comparando dos sumas de residuos normales al cuadrado y hay
el mismo n$mero de regresores y datos en cada subBgrupo, entonces el test es
"%0
1
"%0
2
F
|
(n& )/ 2k
(n& )/ 2k

.
N 8est de Ohite
L=
El test de Mhite utili/a una lgica similar a la del test de -reusch y 3agan en el
sentido de hacer una regresin entre la proxy de la varian/a de los errores y el grupo de
regresores de la regresin original, ,, pero lo extiende para incluir sus cuadrados y
productos cru/ados. Es decir,
Computar c
i
= y
i
o

x
i
Hacer una regresin entre c
i
2
y las variables x
i
, x
i
2
y los productos cru/ados
x
i
x
/
.
Es decir,
8F 9. K. Joldfeld and *. E. Tuandt 41>A25, .9ome tests for homosNedasticity0, 9ournal o! the
American Statistical Association, AF:28>,2@?.
81 Mhite, H. 41>DF5, .# HeteroscedasticityBConsistent Covariance Katrix Estimator and a 6irect
=est for Heteroscedasticity0. )conometrica, @D:D1?BD8D.
2.82
c
i
2
=x
i
+x
i
2
+x
i
x
/
' ++
i
42.AA5
La hiptesis nula es que en un caso de homocedasticidad ninguno de los
coeficientes, mas all de la constante, debe ser significativo. El test preferido de Mhite es
un multiplicador de Lagrange hecho sobre la hiptesis nula que ninguna variable
debiese ser significativa si el modelo es homocedstico. #unque la distribucin de
muestra finita es desconocida, es posible demostrar que n3
%
se distribuye
asintticamente b
&
4p5, donde p es el n$mero de estimadores excepto la constante. ;tra
alternativa es hacer un test G estndar de variables omitidas.
Eote que este test es bastante general pues no se necesita hacer supuesto alguno
sobre la forma de la heterocedasticidad que afecta potencialmente a los datos. 9in
embargo, el test es potente solo asintticamente lo que significa que tiene poca potencia
en muestras peque)as. #dicionalmente, el uso de muchos t(rminos cru/ados hace difcil
el recha/o de la hiptesis nula y exacerba el problema de pocos grados de libertad.
Matrices de Covarian$as 3obustas
Hay muchsimos tests de heterocedasticidad. 3ero !realmente necesitamos estos
tests" !necesitamos entender qu( es lo que causa la heterocedasticidad"
Ierdaderamente, no. Lo que queremos es c
2
D para poder hacer mnimos
cuadrados generali/ados.
En realidad, no. Lo que queremos es c
2

D, un estimador de c
2
D.
=ampoco, lo que queremos es un estimador de c=
c
2
x ' Dx
n
En realidad, lo que queremos no es todo c sino slo su diagonal.
Mhite 41>DF5 demuestra que un buen estimador de 2=
c
2
x ' Dx
n
es
"
0
=
1
n

c
i
2
x
i
' x
i
. 3or ello, la .matri/ de correccin de la varian/a de los parmetros
para el caso de heterocedasticidad0 ,tambi(n llamada .matri/ de errores robustos0, es:
Var (

)=n ( x
i
' x
i
)
1
"
0
(x
i
' x
i
)
1
42.A?5
Eote que no es necesario conocer la forma de la heterocedasticidad, pues el estimador es
general.
2.8A
),tensin de Be+ey y Oest
Ee<ey y Mest 41>D?5 han extendido el estimador de Mhite para el caso en que la
matri/ ` no es diagonal. El estimador es:

*="
0
+
1
n

/ =1
<

i = / +1
n
/
< +1
c
t
c
t /
(x
t
' x
t /
+x
t /
' x
t
) 42.AD5
donde DP"9?=# es una correccin no param(trica por tama)o de muestra.
Modelos de heterocedasticidad condicional
Jeneralmente estamos interesados en modelar la media condicional de una
variable serie. Eo obstante, recientemente se ha hecho com$n modelar la varian/a de la
serie, pues ella puede refle%ar comportamientos que son caractersticos de algunos
problemas econmicos tales como los precios de activos, variables financieras, riesgo,
etc.
Los modelos de heterocedasticidad condicional son modelos donde la varian/a
de la serie no es constante, aunque sigue un proceso estacionario. 1n modelo tpico de
esta familia es el modelo #*CH
8&
:

y
t
=x
t
+c
t
c
t
=j
t
(o
0
+o
1
c
t 1
2
)
1/ 2
42.A>5
con j normal estndar. Como resulta obvio, E| c
t
|c
t 1
=0 y E| c
t
=0 . #s es que el
modelo sigue describiendo la media condicional de y
t
.
#hora, la varian/a condicional, V |c
t
|c
t 1
, es
V |c
t
|c
t 1
=E| c
t
2
|c
t 1

=E|j
t
2
| o
0
+o
1
c
t 1
2

=| o
0
+o
1
c
t1
2

42.?F5
3ero la varian/a no condicional, V |c
t
, es
8& Engle, *. G. 41>D&5. :#utoregressive Conditional HeterosNedasticity <ith Estimates of the
Iariance of 1.V. Lnflation,: )conometrica, 2F:>D?B1FFD.
2.8?
V |c
t
=E|V (c
t
|c
t1
)
=o
0
+o
1
E| c
t 1
2

=o
0
+o
1
V | c
t 1
2

42.?15
3ero si la varian/a es estacionaria, en el sentido que no cambia en el tiempo,
entonces V |c
t
=V | c
t 1
, por lo que la ecuacin 42.?15 implica
V |c
t
=
o
0
1o
1
42.?&5
!Cmo se ve un proceso de este tipo" Jrficamente:
Figura 5..
%roceso /0C1 ) su !arian2a
Es decir, la serie presenta segmentos de comportamiento dismil. El proceso
alterna entre periodos de gran inestabilidad, donde shocNs grandes son seguidos de
shocNs grandes, y otros de relativa estabilidad, donde shocNs peque)os siguen a shocNs
peque)os.
*esulta natural preguntarse qu( modelo econmico puede producir este tipo de
comportamiento. 1n e%emplo tpico son las guerras de precios en mercados donde hay
colusin. Kientras la disciplina del cartel se mantiene hay slo peque)as desviaciones
2.8D
del precio, en cambio cuando se rompe el cartel hay grandes fluctuaciones de precios en
la medida que todos los productores compiten por una mayor participacin del
mercado.
El modelo #*CH puede ser extendido para incorporar t(rminos tipo media
mvil en la varian/a predicha. En ese caso se llama J#*CH 4por generali/ado5
88
y se
modela:
y
t
=x
t
+c
t
c
t
2
=o
0
+o
1
c
t1
2
+o
2
c
t 1
2
42.?85
=ambi(n se puede extender para incluir regresores, z
t
en la varian/a, de modo
que el modelo queda:

y
t
=x
t
+c
t
c
t
2
=o
0
+o
1
c
t1
2
+o
2
c
t 1
2
+o
3
z
t
42.?@5
Ginalmente, algunos modelos incluyen la varian/a condicional en el modelo de la
media condicional. Esto da origen a un modelo #*CHBK que es ampliamente usado en
finan/as.
8@
y
t
=x
t
+0c
t
2
+c
t
c
t
2
=o
0
+o
1
c
t1
2
+o
2
c
t 1
2
42.?25
!Cmo sabemos que el modelo es del tipo J#*CH" 1na manera simple es
estimar el modelo de la media condicional, luego obtener los residuos, computar los
residuos al cuadrado 4estimador de la varian/a5 y computar la funcin de
autocorrelacin. 9i (sta no muere s$bito en tR1, hay heterocedasticidad condicional.
Es posible, adems, hacer tests de especificacin para saber si el modelo correcto
es J#*CH4p,q5 o J#*CH4F,q5. El problema est en que ese tipo de test no permite
discernir entre esa hiptesis y esta hiptesis: J#*CH4F,q5 vs J#*CH 4F,pWq5.
!Cmo estimamos un modelo J#*CH" El proceso de estimacin es bastante no
lineal. Lo que se hace es iterar en la funcin de verosimilitud hasta que (sta alcance un
mximo. Ello supone que los errores son normales.
88 -ollerslev, =im 41>DA5. :Jenerali/ed #utoregressive Conditional HeterosNedasticity,: 9ournal
o! )conometrics, 81:8F?B8&?.
8@ Engle, *obert G., 6avid K. Lilien, and *ussell 3. *obins 41>D?5. :Estimating =ime Iarying *isN
3remia in the =erm 9tructure: =he #*CHBK Kodel,: )conometrica, 22:8>1B@F?.
2.8>
log 5=
1
2
log (2n)
1
2
log (c
t
2
)
1
2
( y
t
x
t
)
2
c
t
2
42.?A5
6onde
c
t
2
=& +o( y
t 1
x
t 1
)
2
+c
t 1
2
42.??5
5.0, Correlacin de residuos
9upongamos ahora que que E| c
i
, c
/
0 . En tal caso, la matri/ de covarian/a de
residuos es:
|
c
11
c
12
c
1n
c
21
c
22
c
2n

c
n=
c
n>
c
nn

42.?D5
#$n si consideramos el problema de residuos son homocedsticos
|
c
2
c
12
... c
1n
c
21
c
2
c
2n

c
n=
c
n>
c
2

42.?>5
y sim(trica, es decir, c
i/
=c
/i
resulta imposible de estimar 42.?>5 con una muestra finita.
Hay ms incgnitas que grados de libertad. 1sualmente:
9i la forma de c
i/
no es parametri/able, es decir no tiene una estructura, no es
estimable.
9i la forma de c
i/
es parametri/able, es decir tiene una estructura 4simple5, es
estimable.
9i es estimable, los parmetros estimados por mnimos cuadrados del modelo
y
t
=x
t
+c
t
siguen siendo insesgados, excepto si las variables de lado derecho
2.@F
contienen un re/ago de la variable endgena. La demostracin del primer caso
es:

=( x
t
' x
t
)
1
x
t
' y
t
(ero y
t
=x
t
+c
t

=( x
t
' x
t
)
1
x
t
' | x
t
+c
t
=+(x
t
' x
t
)
1
x
t
' c
t
42.DF5
y por lo tanto, E|

= .
9upongamos que y
t
=x
t
+c
t
y c
t
=jc
t1
++
t
donde +
t
es ruido blanco.
Entonces,
V |

=
c
2

x
t
2
+
2 c
2

x
t
2
|
j

x
t
x
t 1

x
t
2
+j
2
x
t
x
t 2

x
t
2
+...+j
N1
x
1
x
N

x
t
2

42.D15
por lo tanto, V |

=V |

45"
slo si ?=0 , es decir cuando no hay correlacin.
La varian/a del estimador ba%o autocorrelacin podr ser mayor o menor que la
de mnimos cuadrados dependiendo del valor de j . 9i j es positivo, se sobreestima la
varian/a. 9i j es negativo, no es claro el sesgo.
La solucin al problema es, naturalmente, usar mnimos cuadrados
generali/ados, pero esto slo es posible si conocemos `. Lo que se hace, usualmente, es
hacer tests estadsticos para determinar el tipo de correlacin de los residuos, dentro de
modelos relativamente simples en t(rminos del n$mero de parmetros.
&Cmo sabemos si hay correlacin residual(
1n test bastante com$n es el de 6urbin y Matson
82
, para el caso de errores con
correlacin de orden 1. Es decir, c
t
=j c
t 1
++
t
4correlacin de orden & es
c
t
=j
1
c
t 1
+j
2
c
t 2
++
t
5. El test es:
9 =

i =2
T
(c
t
c
t 1
)
2

i =1
T
c
t
2
42.D&5
82 6urbin, S. and Matson, J.9., :=esting for 9erial Correlation in Least 9quares *egression L:,
Kiometri/a, Iol. 8?, 1>2F, pp. @F>B@&D.
2.@1
La lgica es que:
si hay correlacin positiva, c
t
ser .cercano0 a c
t1
y, por lo tanto, d ser
cercano a cero.
si hay correlacin negativa c
t
ser .le%ano0 a c
t1
y, por lo tanto, d ser distinto
de cero.
6esarrollemos el cuadrado del numerador de la ecuacin 42.D&5.

i =2
T
(c
t
c
t 1
)
2
=

i =2
T
|c
t
2
+c
t 1
2
2c
t
c
t 1
42.D85
9umando y restando convenientemente:

i =2
T
(c
t
c
t 1
)
2
=

i =1
T
c
t
2
c
1
2
+

i =1
T
c
t 1
2
c
T
2

i =2
T
2c
t
c
t 1
42.D@5
de vuelta en 42.D&5
9 =

i =1
T
c
t
2
c
1
2
+

i =1
T
c
t1
2
c
T
2

i =2
T
2c
t
c
t 1

i =1
T
c
t
2
42.D25
es decir,
9 =1
c
1
2

i =1
T
c
t
2
+

i =1
T
c
t 1
2

i =1
T
c
t
2

c
T
2

i =1
T
c
t
2

i =2
T
2 c
t
c
t 1

i =1
T
c
t
2
42.DA5
Eotemos que:
9i = es ra/onablemente grande, el segundo y cuarto t(rminos sern cercanos a
cero.
Lgualmente, el tercer t(rmino ser cercano a 1.
El $ltimo t(rmino es interesante, porque es
2.@&
&o' (c
t
, c
t1
)
'ar (c
t 1
)
42.D?5
es decir, es el estimador natural de mnimos cuadrados de j . En resumen, podemos
escribir 9 @2(1j) .
Iolvamos al test de 6urbin y Matson. 9i 9 @2(1j) , entonces tenemos los
siguientes casos:
9i no hay correlacin d R &.
9i hay correlacin positiva, j>0 , d es menor que &. En el lmite, d es F cuando
j es 1.
9i hay correlacin negativa, j0 , d es mayor que &. En el lmite, d es @ cuando
j es B1.
por lo tanto, d estar entre F y @.
La aplicacin del test no es tan simple, porque hay tres casos que estudiar. En
este caso habr dos .tests0 son:
H
0
: No hay autocorrelacin
H
1
: ay autocorrelacin !o"iti#a
H
0
: No hay autocorrelacin
H
1
: ay autocorrelacin negati#a
Como se ve, la hiptesis nula es siempre la misma pero la hiptesis alternativa es
comple%a. ;tro problema es que usamos los residuos del mnimos cuadrados como
estimadores de los residuos verdaderos, es decir, (stos dependen de ,. 3or ello, la
distribucin del test no es estndar y tiene distintos lmites superiores e inferiores.
9i hacemos un test de correlacin positiva al >2Q, entonces 415 si d est por
encima del limite superior no puedo recha/ar la H
0
que no hay autocorrelacin y 4&5 si
d est por deba%o del lmite inferior tengo correlacin positiva.
2.@8
Figura 5.3
9i hacemos un test de correlacin negativa al >2Q, entonces 415 si d est por
deba%o de @Blimite superior no puedo recha/ar la H
0
que no hay autocorrelacin y 4&5 si
d est por deba%o del lmite inferior tengo correlacin positiva.
Figura 5.14
El test completo de 6urbin y Matson para autocorrelacin es:
Figura 5.11
2 LI LS
Inconcluso
Positiva
No hay o negativa
2
4-LI 4-LS
Inconcluso
Positiva o no hay
Negativa
2 4-LI 4-LS
Inconcluso
Negativa
LS
LI
Positiva
No hay correlacin
Inconcluso
2.@@
El test de 6urbin y Matson no se puede aplicar cuando hay variables del lado
i/quierdo re/agada al lado derecho. En ese caso se usa el test h de 6urbin 41>?F5.
8A
Este
estimador consiste en computar
A=r
.
n
1n c

2
42.DD5
donde r es el coeficiente de correlacin del primer re/ago, n es el tama)o de muestra y
c

2
es la varian/a del estimador del re/ago de la variable endgena. El estadgrafo h se
distribuye normal estndar.
Soluciones al problema de correlacin de primer orden.
Iolvamos al modelo original.
y
t
=x
t
+c
t
c
t
=jc
t 1
++
t
42.D>5
3odemos multiplicar el modelo original por j , re/agarlo un periodo y restarlo
del original para obtener:
y
t
j y
t 1
=x
t
jx
t 1
+c
t
jc
t 1
42.>F5
es decir:
y
t
=j y
t 1
+| x
t
j x
t 1
++
t
42.>15
Eote que ahora no hay problema con los errores.
9i conoci(ramos j , podramos transformar los datos y estimar con mnimos
cuadrados. En realidad esto equivale a hacer mnimos cuadrados generali/ados.
!Lo conocemos" Eo. 3ero tenemos una aproximacin, d. ;btenemos d haciendo
una regresin en los residuos originales de mnimos cuadrados y luego usamos
j=1

9 / 2 .
8A 6urbin, S. .=esting for serial correlation in least squares <hen some of the regressors are
lagged dependent variables0 )conometrica, 8D: @1FB@&1.
2.@2
Hay una estrategia estadsticamente me%or 4CochraneB;rcutt5.
8?
1. Estimar el modelo original por mnimos cuadrados y obtener los residuos.
&. Hacer una regresin entre residuos y su re/ago, obteniendo j
1
8. =ransformar el modelo usando j
1
4es decir, y
t
j
1
y
t 1
, etc5.
@. Lr a 1 y volver a hacer el e%ercicio hasta que el j conver%a.
1n problema del m(todo de CochraneB;rcutt es que nada garanti/a que la
distribucin del estimador j conver%a a un ptimo global y, de hecho, podra ser el caso
en que haya ms de una moda en dicha distribucin. Es por ello que se sugiere usar una
estrategia de b$squeda sobre la base de una .grilla0 que verifique todos los valores de
j y satisfaga alg$n criterio de ptimo 4p.e., me%or a%uste5. En tal caso, un m(todo
sencillo es el de Hildreth y Lu
8D
que consiste en estimar el modelo transformado con j
R1, F.>>, F.>D, ... F ,... BF.>>, B1 y se escoge el estimador minimi/ando la suma de residuos
al cuadrado.
5.0- Variables instrumentales
El $ltimo supuesto que no hemos levantado es la ausencia de correlacin entre
los regresores y el error, es decir, E| x , c=0 . En numerosas ocasiones no es posible
estar seguros que ello se cumple, en particular cuando se usan datos macroeconmicos.
El problema ocurre, en primer lugar, cuando hay variables omitidas que estn
correlacionadas con aquellas que se usan para modelar. 3or e%emplo, cuando se estudia
el rendimiento escolar y se omite la educacin de los padres como determinante,
entonces la estimacin entrega resultados sesgados porque algunas variables
independientes 4p.e., ingresos familiares5 estn tpicamente relacionadas con la variable
omitida. 1n segundo caso se produce cuando hay problemas de endogeneidad en
alguna variable del lado derecho: este .sesgo de simultaneidad0 lo estudiaremos ms
adelante. 1na tercera causa de violacin de este supuesto es cuando las variables
independientes estn medidas con error. En tal caso, como vimos en la seccin &, cada
ve/ que se observa , no se observa la verdadera variable sino una medicin con ruido el
cual estando correlacionado con , queda incluido en el error. 1na cuarta causa de
correlacin entre regresor y residuo se da cuando hay sesgo de seleccin, es decir
cuando la conformacin de la muestra no es independiente del dise)o del experimento.
Es decir, cuando aquellos que ms se benefician del tratamiento son aquellos que ms
participan del mismo.
8? Cochrane, 6. and J.H. ;rcutt, 1>@>, #pplication of least squares regression to relationships
containing autocorrelated error terms, 9ournal o! the American Statistical Association, @@: 8&BA1.
8D Hildreth, C. and S.d. Lu, 1>AF, 6emand relations <ith autocorrelated disturbances, 8echnical
bulletin &?A, 6ept. of agricultural economics 4Kichigan 9tate 1niversity, East Lansing, KL5.
2.@A
!Tu( sucede con el estimador de mnimos cuadrados si E| x , c 0 " Einguno
de los resultados que obtuvimos sobre las propiedades del estimador de mnimos
cuadrados se mantienen. En particular, sabemos que va a haber sesgo, usualmente de
tama)o y direccin desconocidas. #dems, las varian/as de los estimadores estn
distorsionadas 4tpicamente, subestimadas5.
1na solucin sera usar una o ms variables que, estando correlacionadas con los
regresores, no est( relacionadas con el error. En ese caso, vamos a usar dicho con%unto de
variables auxiliares como un instrumento de ,. En t(rminos sencillos, buscamos un
con%unto $ tal que la correlacin entre $ y , sea alta pero que la correlacin entre $ y c
sea ba%a. 1sualmente esto resulta ms fcil de decir que de hacer.
8>
En primer lugar vamos a demostrar que el estimador mnimos cuadrados ba%o la
hiptesis que los residuos estn correlacionados con , en el modelo de inter(s es
inconsistente. Como existe correlacin entre regresor y residuo:
E| c| x=j
i
42.>&5
9upongamos que E| j=0 . Este supuesto es irrelevante si la ecuacin incluye
una constante. La correlacin entre regresor y residuo puede ser escrita como:
%o' | x
i
, c
i
=%o' | x
i
, c
i
| x=%o' | x
i
, j
i
= 42.>85
#plicamos el =eorema de Vinchine y obtenemos (li)
1
n
x ' c= . 9i esto es cierto,
entonces
E|

=+( x ' x )
1
x ' j
42.>@5
y por ello el =eorema de JaussBKarNov no se sostiene. 6e hecho, el estimador es,
adems, inconsistente porque
(li)

=+ (li)( x ' x)
1
(li) x ' j=+*
1

42.>@5
8> #unque la mayor parte de los textos se)alan que el estimador de variables instrumentales fue
desarrollado en el contexto de modelos de ecuaciones simultneas, el primer traba%o que
desarrolla este m(todo es el de 9e<all Mright 41>&D5 en un ap(ndice del libro de su padre 3.J.
Mright 8he 8ari!! on Animal and <egetable Oil. El t(rmino .variable instrumental0 fue acu)ado
por ;lav *eiersol 41>@1, .Confidence #nalysis by Keans of Lag Koments and ;ther Kethods
of Confluence #nalysis0, )conometrica, >:1B&@5. *eiersol colabor tambi(n con el desarrollo del
esperanto 4;. *eiersol and *. C. Karble: # comparison bet<een <ord formation in Esperanto
and English, )sperantologio, Iolumo L, Eumero 1, pp. 1BDF, #egusto 1>@>5
2.@?
6erivemos ahora el estimador de variables instrumentales,
IV
. En particular
notemos que la varian/a no condicional de c es
Var |c
i
=Var
|
c|x
i
+E| c
i
|x
i

=c
2
+ 42.>25
Los supuestos necesarios para derivar el estimador
IV
son:
| x
i
, z
i
, c
i
son secuencias iid de variables aleatorias
E
|
x
i/
2

=*
xx
y constante
E
|
z
i/
2

=*
zz
y constante
E
|
x
i/
, z
i/
=*
xz
y constante
E
|
c
i/
|z
i/
=0
#s lo que se obtiene es:
(li)
1
n
2 ' 2=*
zz
(li)
1
n
2' B=*
zx
(li)
1
n
2' c=0 42.>A5
Las condiciones 42.>A5 definen el con%unto de instrumentos admisibles. 9ea
entonces el modelo y
i
=x
i
+c
i
y supongamos que tenemos un con%unto de variables $.
Entonces preBmultipliquemos el modelo por $ :
z
i
' y
i
=z
i
' x
i
+z
i
' c
i
42.>?5
#plicando el plim tenemos
(li)
(
1
n
z
i
' y
i
)
= (li)
(
1
n
z
i
' x
i
)
+(li)
(
1
n
z
i
' c
i
)
42.>D5
pero el $ltimo t(rmino es cero. Entonces
2.@D
(li)
(
1
n
z
i
' x
i
)
1
(li)
(
1
n
z
i
' y
i
)
=

42.>>5
Eote que para que 42.>>5 tenga sentido, z . x tiene que ser una matri/
conformable. 3or ello, debe haber N variables en la matri/ /. En este caso, estimador de
variables instrumentales es

IV
=(z
i
' x
i
)
1
z
i
' y
i
42.1FF5
Eote que este estimador es consistente. Es decir, sus propiedades son asintticas.
3or ello, el tama)o de muestra es una consideracin importante al momento de usar
variables instrumentales. Eote que en el caso especial que j
i
=0 , entonces YRF y
obtenemos el estimador de cuadrados mnimos. Es decir, el estimador de variables
instrumentales es ms general que el de cuadrados mnimos. ;tra manera de pensarlo es
que en el caso que no haya correlacin entre regresor y residuo, el me%or instrumento de
, ser el mismo , y el estimador de variables instrumentales es el estimador clsico
mnimos cuadrados.
La distribucin del estimador de variables instrumentales se obtiene de manera
anloga al caso de mnimos cuadrados ordinarios. Es decir,
.
n
(

IV

)
=
|
1
n
z ' x

1
|
1
.n
z ' c

42.1F15
-asado en el anlisis que hicimos para el caso de ausencia de correlacin entre
regresores y residuos, el $ltimo t(rmino cumple
1
.n
z ' c
9
1
N
|
0, c
2
*
zz 42.1F&5
por lo que:
(
1
n
z ' x
)(
1
.n
x ' c
)
9
1
N | 0, *
xz
1
(c
2
*
zz
) *
zx
1
42.1F85
El estimador de la varian/a de los residuos es, naturalmente,
2.@>
c
2
=
1
n

i =1
n
(
y
i
x
i
'

i'
)
2
42.1F@5
!Tu( sucede si la matri/ tiene un rango mayor a /" Eaturalmente, z ' x no es
cuadrada y no tiene inversa. 9in embargo, consideremos el siguiente algoritmo:
a5 Hacer una regresin de , en $ 4para todo ,5.
b5 Hacer una prediccin de , basada en $ llamada x .
c5 Hacer una regresin de y en x .
Eote que el estimador derivado en la etapa a5 no tiene problemas de consistencia
y que la proyeccin derivada en b5 es una representacin ptima de , y que, adems, por
el hecho de ser una prediccin es ortogonal a c .
Entonces, el estimador del modelo estimado usando la prediccin sera:

IV
=( x ' x)
1
x ' y 42.1F25
Este es un procedimiento de mnimos cuadrados en dos etapas 4&9L95.
@F
Es muy
com$n en la literatura emprica. 3ero es posible estimar todo el modelo en un slo paso.
6ebido a que
x =z (z ' z )
1
z ' x , entonces

IV
=(x ' z (z ' z )
1
z ' x )
1
x ' z (z ' z )
1
z ' y 42.1FA5
Tuedan los detalles ,que se los de%o a ustedes, de obtener la varian/a del
estimador de variables instrumentales y, lo que es ms difcil, el estimador de la
varian/a de los residuos. 1n punto que no es menor es el de la dimensionalidad de las
matrices en 42.1FA5. 3ara que la estimacin sea posible es necesario que el n$mero de
instrumentos sea al menos igual al n$mero de variables que se est instrumentando.
Hay algunos econometristas que se)alan que el estimador natural de la
econometra clsica es el de variables instrumentales. Knimos cuadrados sera una caso
particular en el que el me%or instrumento de , es la misma variable. Como mnimos
cuadrados es tambi(n un caso particular de mnimos cuadrados generali/ados, entonces
el estimador mnimos cuadrados generali/ados con variables instrumentales 4JL9BLI5
debiera ser el ms general de todos los estimadores lineales.
@1
@F El m(todo de mnimos cuadrados en dos etapas fue desarrollado en 1>2? por *.L. -asmann
4.# generali/ed classical method of linear estimation of coefficients in a structural system of
stochastic equations0. Annals o! Mathematical Statistics &F:@ABA85 y populari/ado por H. =heil en
su clsico libro )conomic :orecasts and .olicy, Eorth Holland, #msterdam, 1>2D.
@1 1n tratamiento completo de este estimador se encuentra en el libro de *. -o<den y 6.
=urNington, Anstrumental <ariables, Cambridge 1niversity 3ress, 1>D@.
2.2F
Condiciones de valide$ de los instrumentos
1na pregunta muy importante en la aplicacin de m(todos de variables
instrumentales es !cmo saber si los instrumentos son adecuados" En principio, le
hemos exigido dos caractersticas a las variables para que sean instrumentos adecuados:
415 que est(n correlacionados con la4s5 variable4s5 que tiene el problema de correlacin
con el error, y 4&5 que no est(n correlacionados con el residuo. La primera condicin es
que el instrumento sea pertinente, en tanto que la segunda exige que sea exgeno.
Cuando el n$mero de instrumentos es igual al n$mero de variables que se quiere
instrumentar, las condiciones antes expuestas son directas y el estimador de variables
instrumentales est exento de complicaciones. Cuando hay un mayor n$mero de
instrumentos, la primera condicin se vuelve menos clara. 9i uno considera el estimador
de variables instrumentales como un estimador de dos etapas, entonces contar con un
n$mero muy grande de posibles instrumentos en una muestra finita puede ser costoso
en t(rminos de grados de libertad. 9i el modelo es, adems, multivariado el problema
del n$mero y tipo de instrumentos es parte fundamental del anlisis de modelos de
ecuaciones simultneas.
!Tu( sucede si algunos de los instrumentos, en realidad, estn correlacionados
con el error" Entonces, el estimador es inconsistente. 3ero si hay al menos tantos
instrumentos vlidos como variables que necesitan ser instrumentadas, el estimador
sigue siendo consistente. Entonces !cmo podemos hacer un test de valide/ del supuesto
que hay suficientes instrumentos vlidos" En principio, se podran obtener los residuos
de la estimacin de variables instrumentales y luego hacer una regresin de (stos en los
instrumentos. 9i el *+ de esta segunda regresin es cero, entonces los instrumentos no
estn correlacionados con el residuo. El problema es que si el *+ es significativo,
entonces algunos o todos los instrumentos son invlidos, pero no sabemos cules.
El siguiente procedimiento, llamado test de MuBHausman
@&
, es frecuentemente
usado para estudiar la ortogonalidad entre instrumento y residuo. El modelo es de la
forma y =x +z
2
+j , donde z
2
es una matri/ de regresores fi%os entre muestras 4por
esta ra/n z
2
es ortogonal al residuo j 5. 9uponga que existe un con%unto de variables
z
1
y que podemos definir z =z
1
z
2
como la matri/ de instrumentos de ,. Entonces el
estimador de variables instrumentales en dos etapas se puede escribir como:

2$%$
=(C ' D
z
C )
1
C ' D
z
y donde D
z
=z (z ' z )
1
z ' 42.1F?5
@& Este test fue propuesto por K. 6. Mu 4.#lternative =ests of Lndependence -et<een 9tochastic
*egressors and 6isturbances0, )conometrica, @F:?88B?2F, 1>?85 y corresponde al caso particular
del test de S. Hausman 4.9pecification =ests in Econometrics0, )conometrica, @A:1&21B1&?1,
1>?D5. #. EaNamura y K. EaNamura prueban la equivalencia de ambos tests 4.;n the
relationships among several specification tests presented by 6urbin, Mu and Hausman0,
)conometrica, @>:12D8B12DD, 1>D15.
2.21
6e esta manera, los estimadores de mnimos cuadrados y variables
instrumentales son:

45"
=
|
x ' (I D
z
2
) x

1
|
x ' (I D
z
2
) y

IV
=
|
x ' ( D
z
D
z
2
) x

1
|
x ' ( D
z
D
z
2
) y

42.1FD5
donde D
z
=z (z ' z )
1
z ' y D
z
2
=z
2
(z
2
' z
2
)
1
z
2
' .
Mu 41>?85 demuestra que la diferencia de los dos estimadores se distribuye:

45"

IV
N(0, c
2
D) 42.1F>5
donde D=
|
x ' (D
z
D
z
2
)

|
x ' (I D
z
2
)

1
(os39e73 , por lo que el siguiente test
adecuado es:
T
3
=
(

45"

IV
)' D
1
(

45"

IV
)
c
2
X
(6)
2
42.11F5
donde c
2
=
( yx

IV
) ' (I D
z
)( y x

IV
)
n6E
2
, JRrango4,5 y V
&
Rrango de z
2
.
9i no se recha/a la hiptesis nula significa que ambos estimadores son iguales:
sabiendo que el estimador de mnimos cuadrados ordinarios es sesgado, se concluye que
los instrumentos no pueden ser ortogonales al error.
!Tu( sucede si los instrumentos no estn fuertemente relacionados con las
variables que se quiere instrumentar" Este problema es llamado instrumentos d(biles.
Existe una creciente literatura al respecto con diferentes enfoques. Hall, *udebusch y
Milcox 41>>A5
@8
estudian la mnima correlacin cannica entre instrumentos y regresores.
9hea 41>>?5 desarrolla un test de *+ basado en el uso de regresores adicionales.
@@
El
traba%o de 9tocN y dogo 4&FF&5
@2
es superior a (stos en el sentido que proponen una
definicin formal y un test de la debilidad de los instrumentos que , adems, nos ayuda
a entender el problema. 9i el modelo es de la forma y=C +j y su forma reducida es
@8 Hall, #., J.6. *udebusch and 6. Milcox 41>>A5: .Sudging Lnstrument *elevance in
Lnstrumental Iariables Estimation,0 Anternational )conomic 3evie+ 8?:&D8B&>D.
@@ 9hea, S. 41>>?5: .Lnstrument *elevance in Kultivariate Linear Kodels: # 9imple Keasure,0
3evie+ o! )conomics and Statistics ?>:8@D,82&.
@2 S. 9tocN y K. dogo .=esting for <eaN instruments in linear LI regressions0, E-E* =echnical
3apers &D@, &FF&.
2.2&
del tipo C=z H++ , donde $ es la matri/ de instrumentos, entonces el estimador de
variables instrumentales en dos etapas se puede escribir como:

2$%$
=(C ' D
z
C )
1
C ' D
z
42.1115
*othenberg 41>D@5
@A
demuestra que este estimador puede ser escrito como:
j(

2$%$
)=
(
c
jj
c
++
)

F
+"
+j
/ j
1+(2
+
/j)+( "
++
/ j
2
)
42.11&5
donde
F
=H' z j/ (c
jj
H' z ' z H)

,
+
=H' z +/(c
++
H' z ' z H)

, "
++
=+' D
z
+/c
++
,
y "
+j
=V ' D
z
j/(c
jj
c
++
)

.
El parmetro j
2
=H' z ' z H/c
++
es el .coeficiente de atenuacin0 y es otra
versin del que estudiamos en la ecuacin 42.&25. Eote que si los instrumentos son fi%os y
los residuos normales, entonces
j
y
+
se distribuyen como normales estndares y
"
+j
y "
++
son elementos de una matri/ con distribucin de Mishart. #s, las
distribuciones de estos cuatro elementos no dependen del tama)o de muestra. 6e hecho,
en la ecuacin 42.11&5 el tama)o de muestra solo entra a trav(s de Q. Ks a$n, Q cumple
exactamente el rol que .T cumple en la derivacin del estimador de mnimos
cuadrados.
La importancia de esta descomposicin radica en que si los instrumentos son
d(biles, j
2
ser muy peque)o y la inferencia basada en 42.11&5 estar sesgada 4el
estimador puede estar sesgado y los errores estndares estarn potencialmente mal
computados5. Habr, entonces, dos preguntas prcticas que se derivan de esta
observacin: !cun peque)o tiene que ser j
2
para que los instrumentos sean d(biles" y,
si H 4y por tanto j 5 son desconocidos, !como se hace en la prctica para saber si j
2
es
suficientemente peque)o como para se)alar que los instrumentos son d(biles"
*especto de la definicin de instrumento d(bil, 9tocN y dogo presentan dos
alternativas: 415 un grupo de instrumentos es d(bil si el sesgo del estimador de variables
instrumentales, relativo a aquel del estimador de mnimos cuadrados, es mayor que un
cierto punto de referencia, b 4bR1FQ, 12Q, etc.5 y 4&5 un grupo de instrumentos es d(bil si
el test de Mald convencional tiene un tama)o que excede alg$n punto de referencia r 4r
R1FQ, 12Q, etc.5
@A =.S. *othemberg 41>D@5: .#pproximating the 6istributions of Econometric Estimators and =est
9tatistics0 Ch. 12 in ;andboo/ o! )conometrics, Iol. LL, ed. by f. Jriliches and K.6. Lntriligator.
#msterdam: Eorth Holland, DD1,>82.
2.28
6ada estas definiciones de debilidad, el test propuesto es una variacin del test
de Cragg y 6onald 41>>85.
@?
*etomemos la matri/ M
B
=I B( B ' B)
1
B ' para escribir
el estimador de mnimos cuadrados como

45"
=
(
( M
0
C )' ( M
0
C )
)
1
(
( M
0
C )' ( M
0
y)
)
,
en tanto que el estimador de clase k es:

(k)=
|
( M
B
C )' ( I kM
2
' )( M
B
C)

1
|
( M
B
C )' (I kM
2
' )( M
B
y )

1
42.1185
El test de Mald asociado a la hiptesis nula H
0
: =
0
es:
(k)=
|

(k)
0

'
|
( M
B
C) ' (I kM
2
' ) M
B
C
|

(k)
0

n c
jj
(k)
42.11@5
donde c
FF
=
( M
B
F (

k))' ( M
B
F (

k))
TE
1
n
y F (

k)= y C

(k) .
El test de 9tocN y dogo se hace sobre el mnimo valor propio de la matri/ J= 4
;
)in
=)ine'al (6
T
) 5, que es una matri/ anloga al test G de la primera etapa de &9L9:
6
T
=( c
VV

' ( M
B
C )' D
2
' ( M
B
C ) c
VV

)/ E
2
donde c
VV
=(( M
B
C )' M
2
C )/ (TE
1
E
2
) .
La distribucin del test no es estndar, pero los autores proveen las tablas con los
valores crticos.
@? Cragg, S.J. and 9.J. 6onald 41>>85: .=esting Ldentifiability and 9pecification in Lnstrumental
Iariable Kodels,0 )conometric 8heory, >: &&&,&@F.
2.2@
.p$ndice ." E/ercicios
1. Considere la funcin de produccin con elasticidad de sustitucin constante
4CE95:
C
i , t
=
|
(16) E
i , t
j
+6 H
i , t
j

+
j
e
i , t
j
6onde los subndices i y t, son firmas y tiempo respectivamente, G es el
producto, - es el capital, y ; es el empleo calificado y donde los parmetros
, 6 , + y j se denominan parmetros de eficiencia, distribucin, rendimientos de
escala, y sustitucin, respectivamente. Como la funcin CE9 no es lineal en los
parmetros no pueden estimarse por KC;. 6emuestre que la funcin puede lineali/arse
utili/ando la t(cnica de =aylor de la siguiente manera:
lnC
i , t
=
i
+
1
5nE
i , t
+
2
5nH
i , t
+
3
|
5nE
i , t
H
i , t

2
+j
i , t
y encuentre las expresiones de equivalencia entre los estimadores y los parmetros de
la segunda ecuacin.
&. 1sted traba%a en la Ii)a 6on =imoteo. 9u %efe 4el conocido don =imoteo5 le pidi
computar la elasticidad acide/Btemperatura del vino syrah. 1sted tom datos por hora
de ambas variables durante varias semanas y estim usando un modelo de mnimos
cuadrados ordinarios que (sta era BF.D& y el *+ era F.D@. #l presentar los resultados, don
=imoteo not que la medicin de temperatura estaba en escala Garenheit y la acide/ en
la escala de Jousset, pero el quera la temperatura en grados celsius y la acide/ en la
escala 3H. !Cul es la nueva elasticidad" !Cul es el nuevo a%uste de la regresin" La
regla de conversin de Garenheit a Celsius es %=5/ 9(F 32) y la regla de conversin
de Jousset a 3H es 6=n1.' DH .
8. 6espu(s de crecer sostenidamente entre 1>D2 y 1>>>, la economa entr en un
ciclo recesivo entre &FFF y &FF8. El ministro de Hacienda desea saber si ha habido un
quiebre estructural en la siguiente ecuacin que describe el crecimiento de la economa:
ADI#
t
=o
0
+o
1
In'
t 1
DI#
t 1
+o
2
AD%F
t 1
+o
3
%H
t 1
+c
t
donde g es la primera diferencia, Lnv es la formacin bruta de capital fi%o, 3C es el precio
del principal bien de exportacin, y CH es el stocN de capital humano. !Cmo hace usted
un test de Cho< de cambio de r(gimen"
2.22
@. 9uponga que 1d. sospecha que hay cambio estructural en su muestra de n
observaciones a partir del instante 8. !Tu( hara 1d. si desea testear esta hiptesis
usando un test de Cho< y su modelo tiene k>nT variables"
2. 9uponga que 1d. cree que hay cambio estructural en su modelo, pero no sabe
dnde se produce. 6escriba con precisin el test de C191K. 3lantee el modelo como si
el quiebre fuese en la tendencia y capturable con una dummy. ;btenga el estimador de
los parmetros del modelo con quiebre y comprelo con el del modelo que excluye un
quiebre.
A. En un traba%o reciente se anali/an los determinantes de la migracin en funcin
de costos de transporte y atractivo relativo entre las regiones de origen y destino. El
traba%o postula que en el periodo 1>D?B>&, la fuer/a con que migraron las personas no
habra decrecido de manera significativa con respecto al periodo 1>??BD&. 3ara ello, se
comparan los resultados de dos regresiones de mnimos cuadrados del siguiente tipo
usando tests de Cho<. Haga dos crticas fundamentales al procedimiento.
ln
M
i/
M
i
=o
0
+o
1
D
i
+o
2
D
/
+o
3
D+o
4
D
2
+o
5
(
i

/
)+o
6
(A
i
A
/
)+o
6
G
i
+o
(
G
/
6onde K es migracin, 3 es poblacin, 6 es distancia, M son los salarios, g es la
primera diferencia y 1 desempleo. Los subndices i y D se refieren a cada regin y si
estan %untos se refiere .de i a D0.
?. 9uponga que el parmetro arbitrario en el estimador tipo .ridge0 es r. 6emuestre
que el sesgo del estimador ba%o colinealidad crece mientras menor es r.
D. 6emuestre que el *+ de una estimacin usando el estimador de ridge podra ser
mayor a 1.
>. La presencia de multicolinealidad hace que el estimador de mnimos cuadrados
no sea KELL 4-L1E5.
1F. 9uponga que dos variables, y , x , son observadas con error de medicin, es
decir, para t =1, T
y
t
=

y
t
+c
t
y
x
t
=

x
t
+c
t
x
donde las innovaciones se distribuyen i.i.d. 9uponga que el modelo de regresin lineal
es el adecuado para las variables no observables:
y
t
=
0
+
1
x
t
+c
t
2.2A
!-a%o qu( condiciones el estimador de de la regresin basada en hx,yi es
inconsistente"
11. #l revisar los datos de un estudio de demanda H
i
9
=7 ( (
i
, y
i
8 0)+j 1d.
descubre el siguiente fraude: el autor rellen las observaciones faltantes. 3ruebe que el
estimador de la elasticidad precio est sesgado. 3ruebe que el estimador de la elasticidad
ingreso 4donde no faltan datos5 tambi(n lo est.
1&. 6emuestre que el estimador de mnimos cuadrados generali/ados es consistente.
18. Comente: *esulta innecesario preocuparse por los problemas de
heterocedasticidad si existe la matri/ de Mhite 41>>F5. 6escriba en lneas generales la
extensin de Ee<ey y Mest 41>D?5.
1@. #$n si se violan los supuestos de homocedasticidad en el modelo clsico de
regresin lineal, los estimadores convergen en probabilidad a normal estndares porque
los residuos se distribuyen asintticamente normal debido a la ley de los grandes
n$meros noBestocsticos de KarNovB*ao.
12. #l estimar los determinantes de la distribucin del ingreso en Juyana 49i5 se
encontr que (sta depende de la educacin de los padres 4Ei5, el stocN de rique/a de la
familia 4Mi5, el consumo de drogas de los padres4ji5, el tama)o de la familia 4Li5 y una
dummy para los padres o madres solteras. 3ero adems se descubri que los errores
estaban .ordenados0, de modo tal que para las familias ms numerosas los residuos
parecan ser ms grandes 4 I
i
2
=I
2
A | 5
i
2
, 2
i
5, donde f es una variable desconocida
ortogonal a L. 3lantee formalmente una estrategia de estimacin del modelo usando el
estimador de mnimos cuadrados generali/ados 4o%o, f no es observable as es que
plantee primero el estimador JL9 suponiendo que f es conocido y luego intente
resolver el problema de que no conoce f. Eo use la matri/ de Mhite.
1A. 9uponga que en un modelo tipo y=x +c se sabe que hay heterocedasticidad
provocada por el uso de variables nominales. 6emuestre que en el modelo de mnimos
cuadrados ponderados que utili/a datos reales, el *+ est mal definido y la .constante0
es variable !Cmo se recuperan los parmetros de inter(s 4 5 del modelo estimado"
1?. Es preferible, en ocasiones, usar mnimos cuadrados en ve/ de variables
instrumentales aunque el estimador de mnimos cuadrados no sea consistente y el de
variables instrumentales s lo sea.
1D. Considere el siguiente modelo y
t
=' x
t
+c
t
, donde alg$n componente de , es
no observable. 3lantee un estimador de variables instrumentales vlido. !-a%o qu(
condiciones este estimador es asintticamente consistente" 3ruebe las condiciones.
1>. El siguiente problema demuestra la necesidad de usar variables instrumentales.
Considere el siguiente modelo:
2.2?
&
t
=o+ y
t
+c
t
c
t
1 N(0, c
2
)
y
t
=&
t
+i
t
donde i es exgena, c es ruido blanco 4con media cero y varian/a _+5 y
li)
t 1
1
T

t
i
t
i =c
i
2
. 3ruebe que el estimador de mnimos cuadrados de es

=+
c
2
(1/ )
(c
2
+c
i
2
)/ (1)
2
y que, por lo tanto, hay que usar un instrumento para y
t
.
&F. El test de 6urbinBMatson de autocorrelacin no se puede aplicar si los errores
son heterocedsticos.
&1. 9uponga que su modelo es el siguiente, donde los residuos estn
correlacionados:
C
t
=6C
t 1
+F
t
F
t
=c
t
+oc
t 1
c 1N( 0, c
c
2
I )
6emuestre que el estimador mnimos cuadrados de k, es inconsistente.
&&. 6emuestre que el siguiente estadgrafo es aproximadamente equivalente a la
correlacin de primer orden de los residuos del siguiente modelo: y
t
=x
t
+j
t
1=1
1
2

i =2
T
( y
t 1
x
t 1
y
t
x
t
)
2

i =1
T
( y
t 1
x
t 1
)
2
&8. 9uponga que su modelo es:
C
t
=6C
t 1
+j
t
|6|>0
F
t
=c
t
+oc
t1
c1 N(0, c
c
2
I )
6emuestre que si se estima

6=

C
t
C
t 1
/

C
t 1
2
, entonces
(li)

6=6+
(16)
1+26
con
=
o
1+o
2
2.2D
&@. En un traba%o reciente 49patial Lnequality, Jro<th, and Kigration in Chile, *.
9oto y #. =orche, &FF@5 se anali/an los determinantes de la migracin de poblacin entre
regiones en funcin de costos de transporte y atractivo relativo entre el origen y el
destino. Los datos de migracin provienen de los censos de 1>D& y 1>>& donde se
pregunta !dnde viva usted hace 2 a)os" El modelo planteado es:
ln
M
i/
M
i
=o
0
+o
1
D
i
+o
2
D
/
+o
3
D+o
4
D
2
+o
5
(
i

/
)+o
6
G
i
+o
(
G
/
donde K es migracin, 3 es poblacin, 6 es distancia, M son los salarios reales, y 1 el
desempleo. Los subndices i y % se refieren a cada regin y si estn %untos se refiere .de i
a %0. Este modelo no es panel.
Compute el sesgo de los estimadores de l
1
y l
&
si las poblaciones estn medidas
con un error que se distribuye con media cero y varian/a m+.
!9on inconsistentes los coeficientes l
8
a l
?
" 3ru(belo usando matrices
particionadas.
&2. Cuando #lvaro estudi el consumo de marihuana en una poblacin de
Concepcin, obtuvo el siguiente modelo estimado usando mnimos cuadrados:
%
t
=0.92%
t 1
+F
t
(0.19)
donde C es el consumo y el valor entre par(ntesis es la desviacin estndar del
estimador. Varol observ, sin embargo, que los residuos seguan el siguiente modelo:
F
t
=c
t
+0.16j
t1
(0.02)
Compute el sesgo del estimador.
&A. 6emuestre que cuando se computa el estimador de mnimos cuadrados
generali/ados posibles de los parmetros del siguiente modelo, no se necesita que el
estimador de n sea eficiente y basta con que sea consistente.
4a5
&
i
=10.5'+0.'' y
i
+c
i
(3.4') (0.2()
c
c
i
2
=z
i
0
&?. 9uponga que su modelo es y =x+c , donde y es el salario por hora y , son
caractersticas del individuo. 9uponga ahora que por ley no se puede pagar menos que
el salario mnimo,

y . !Cmo afecta esta restriccin al estimador de o" #nalice


consistencia y eficiencia.
2.2>
&D. 9uponga un modelo econom(trico lineal dado por y=x+c para el cual la
estructura del error tiene las siguientes propiedades: c
t
=
.
A
t
+
t
donde h
t
es una variable
no correlacionada e independiente de ,
t
Considere adems que +
t
=j+
t 1
+j
t
, con
j1 y m ruido blanco.
4a5 Calcule la varian/a y funcin de autocovarian/a de +
t
.
4b5 9uponga que usted dispone de datos sobre h
t
. !Cul es el estimador ms eficiente
de *" 6escriba detalladamente los pasos necesarios para calcularlo.
4c5 9uponga ahora que no dispone de datos sobre h
t
. !Cmo podra estimar
eficientemente el parmetro" Explique detalladamente los pasos necesarios para
calcularlo.
&>. Considere el siguiente modelo lineal y=x +c . 9ea

el estimador de mnimos
cuadrados ordinarios y sea c=yx

el residuo del modelo. 9ea

el estimador de
variables instrumentales para alg$n instrumento H y sea el residuo de variables
instrumentales c=yz

. 9i el instrumento es verdaderamente exgeno, !tendr el
modelo estimado con variables instrumentales un me%or a%uste que el de mnimos
cuadrados ordinarios 4menor 9*C5, al menos en muestra grande"
8F. Considere el modelo y=x +c . 9uponga que hay heterocedasticidad derivada
del uso de variables nominales 4tanto , como y5. 9uponga que el modelo estimado
usando datos reales o deflactados no tiene heterocedasticidad. 6emuestre que el valor
esperado del estimador de mnimos cuadrados de R es el mismo en ambos modelos.
6emuestre que, a pesar de lo anterior, el *
&
no es el mismo en ambas ecuaciones.
81. 9ea el modelo lineal de la forma y
i
=z
i
+j
i
con E| j| z=0 . 9uponga que
c
2
=E|j
2
| z es conocido. 6emuestre que el estimador de mnimos cuadrados
generali/ados de o es un estimador de variables instrumentales para alg$n x
i
4es decir,
encuentre la expresin para que dicho x
i
cumpla lo deseado5
Captulo 6
Modelos no lineales
El rea de los modelos no lineales es muy extensa y, posiblemente, es aquella que
se ha desarrollado con mayor inters en los ltimos aos, como resultado del veloz
desarrollo de la computacin. La ran mayor!a de los modelos no lineales se resuelven
por medio de mtodos de clculo numrico "es decir, usando aloritmos de
aproximacin a la solucin# debido a que no existen $ormas cerradas que permitan
derivar expresiones matriciales simples para obtener los estimadores. En la primera
parte de este cap!tulo desarrollamos el instrumental necesario para entender los
mtodos de optimizacin no lineal que se usan para la estimacin de modelos no
lineales. En la seunda parte se discute los mtodos y estimadores no lineales.
6.01 Elementos de clculo numrico
Existe un ran nmero de tcnicas de optimizacin no lineal que resultan de ran
utilidad para solucionar modelos no lineales, arupadas ba%o el nombre de clculo
numrico. &aturalmente, las tcnicas no lineales no son de inters per'se en este curso
(
,
sino en la medida que nos sirven para entender cmo operan y cmo se hace la
estimacin no lineal.
Generacin de nmeros aleatorios
)na parte importante de los mtodos de optimizacin se basan en el uso de
nmeros aleatorios. &aturalmente, es imposible enerar nmeros verdaderamente
aleatorios* cualquier aloritmo que se use para producir numeros puramente aleatorios
es replicable y, por tanto, sus resultados no son estrictamente aleatorios.
+
&o obstante, hay aloritmos tiles para nuestros propsitos. En eneral stos son
del tipo,
(. - un nmero de partida .del relo%/, llamado semilla, S .
+. 0ctualize la semilla, S
j
=S
j1
A , 0 1 cte.
2. 3rans$orme semilla, x
j
=S
j
B , 4 1 cte.
5. 6uarde x
j
y vaya a .+/
( )n tratamiento exhaustivo se encuentra en Numerical Methods in Economics, 7. 8udd .+999/ :;3 <ress.
+ Anyone who considers arithmetic methods of producing random digits is, of course, in a state of sin. 8ohn von
&euman
6.2
El t!pico aloritmo de los proramas de computacin se basa en,
-ados <, =, > y la semilla S
j
.
?ompute S
j+1
=Mod ( RS
j
, P)
x
j+1
=S
j+1
/ Q
donde la $uncin Mod produce el entero de >@AB<.
La rutina anterior produce valores entre 9 y ( para nmeros >,=,< relativamente
randes .e%, +,(5C,5D2,E5C/. Fbviamente, esta no es exactamente una muestra aleatoria.
-ada las constantes y la semilla inicial, es replicable. <ero el aloritmo puede ser
su$icientemente comple%o como para que el problema de replicabilidad sea m!nimo y,
por lo tanto, que se %usti$ique su uso. Ain embaro, es inevitable que el enerador en
aln punto producir un ciclo y comenzar a repetir los Gnmeros aleatoriosH.
2
Muestreo estadstico
0 pesar de que la rutina anterior produce numeros no exactamente aleatorios, es
una alternativa til para hacer muestras de variables aleatorias derivadas de una
distribucin uni$orme I9,(J. <ero se expande para cualquier uni$orme, multiplicando los
l!mites de manera adecuada.
La venta%a de tener una secuencia Z de nmeros de una uni$orme I9,(J es que
sta se puede reinterpretar como una secuencia de valores de la acumulada de otra
distribucin. ?onociendo la $uncin de la acumulada F (.) , tenemos una secuencia de
valores aleatorios derivados de la distribucin,
x =F
1
(Z) .E.(/
<or e%emplo, hay aproximaciones conocidas para el caso de la normal estndar
.0bramovitz y Ateun, (KC(/,
F
1

c
0
+c
1
T + c
2
T
2
1 +d
1
T +d
2
T
2
+d
3
T
3
.E.+/
)na vez que se tiene una normal estndar, es trivial construir una LM, una N u
otras distribuciones de uso comn.
2 8ohn von &eumann suiri el siuiente aloritmo. Aupona que desea una secuencia de nmeros
aleatorios de 5 d!itos. .(/ Eli%a cualquier nmero de 5 d!itos "por e%emplo, E+2O. .+/ 3ome su cuadrado
.2D,DCO,++O/. .2/ Extraia los cuatro d!itos interiores de ese cuadrado .i.e., DCO+/. .5/ )se ahora este
seundo nmero para iterar .ir a (/.
6.3
Muestreo de Gis
Auponamos que existe una densidad con%unta que queremos modelar
f (x , y
1
, y
2
, ... , y
k
) . Ai estamos interesados por aln momento del problema,
debiesemos calcular expresiones como,
f (x )=

y
1

y
2
...

y
k
f (x , y
1
, y
2
, ... , y
k
) dy
1
dy
2
... dy
k
.E.2/
El problema puede ser demasiado comple%o de resolver directamente. La
alternativa es construir una aproximacin indirecta de la densidad marinal f (x ) .
La idea es aprovechar las densidades condicionales para construir la marinal.
Auponamos que la densidad es bivariada, f (x , y) y que se conoce f (x | y) y
f ( y |x) .a partir de la muestra/. El aloritmo de 6ibbs consiste en,
-ado un y
0
, enere un x
1
a partir de f (x | y) .
-ado x
1
, enere y
1
a partir de f ( y |x) .
-ado un y
1
, enere un x
2
a partir de f (x | y) , etc.
Estudios de Montecarlo
!
)na tcnica $recuentemente usada en econometr!a para obtener la distribucin
emp!rica de los parmetros o de un test es la simulacin de :ontecarlo. )sualmente lo
que se hace es estudiar cmo cambia un resultado si se alteran las condiciones del
problema, t!picamente cuando se puede controlar bien dichas condiciones. <or e%emplo,
si tenemos dudas de la calidad de un estimador debido a que la muestra no es muy
rande y conocemos cmo se enera ste, podemos hacer el experimento arti$icial de ver
cmo cambian los resultados al variar el tamao de muestra.
"ootstrapping
#
Nrecuentemente no es posible tener una buena idea de las propiedades de un
estimador y, en particular, sobre su comportamiento en la muestra. )na solucin es
5 Este mtodo $ue suerido por 8ohn von &euman y AtanislaP :. )lam en un traba%o no publicado .G3he
Friin o$ the :ontecarlo :ethodH/. )lam seal que el mtodo se le ocurri %uando solitario mientras
estaba en$ermo en (K5E. El nombre :onte ?arlo se le puso porque ste era el mtodo usado para hacer
simulaciones de $isin nuclear en el proyecto de la bomba atmica cuyo nombre clave era <royecto
:ontecarlo.
O El trmino bootstrap $ue acuado por 4radley E$ron .G4ootstrap methods, another looQ at the %acQQni$eH,
Annals of $tatistics, C,('+E, (KCK/. El trmino se deriva de una historia del libro del silo (D GLas
0venturas del 4aron :unchausenH, de >udolph Erich >aspe, en las que el protaonista hab!a ca!do al
$ondo de un pro$undo pozo, del cual no hab!a escapatoria, de no ser por la proverbial idea del 4arn de
salir Gtirando $uertemente de los cordones de sus botas .bootstraps/H.
6.4
hacer bootstrappin. Auponamos que de un experimiento .modelo/ obtuvimos el
estimador

0
n
con una muestra de tamao n.
Es posible hacer una muestra con m observaciones y lueo estimar de nuevo

0(1)
m
. -e hecho, es posible enerar una secuencia de laro 3 de estos estimadores

0( B)
m

T
1
sobre la cual obtener la media, varianza, etc.
La media de

0
n
ser!a
1
T

B=1
T

0(B)
m
.
%&lculo de deri'adas
En muchos casos es necesario calcular derivadas de aluna $uncin. 3!picamente,
como ya hemos visto, cuando se computan estimadores utulizando la $uncin de
verosimilitud. En pocos casos se conoce la derivada anal!tica de la $uncin de
verosimilitud .e%, <oisson/ y se puede computar directamente. ?uando no se conoce
anal!ticamente, hay que buscar una aproximacin. La ms natural es,
F ( x)
x

F ( x+c)F ( xc)
2c
.E.5/
o, ms eneralmente,
F ( x)
x
i

F ( x
1,
x
2
, ... , x
i
+c , ... )F (x
1,
x
2
, ... , x
i
c , ...)
2c
.E.O/
Fbviamente, el clculo de las derivadas .por e%emplo, para obtener x tal que la
derivada sea cero/ puede ser tedioso y laro. 0dems, la eleccin de R no es trivial. Ai se
escoe un valor muy rande, el aloritmo puede hacer muchas iteraciones antes de
converer al resultado. Ai, por el contrario, el valor eleido es muy chico, la estimacin
estar su%eta a mayor imprecisin. Ninalmente, si se usa esta aproximacin, habr error
por de$inicin. Ai se hacen muchos clculos sobre ella, el error acumulado puede ser
sustancial.
6.5
6.02 Optimizacin no lineal
?uando la $uncin es lineal o las derivadas tienen $orma cerrada, la optimizacin
se hace anal!ticamente .Larane/. Ai la $uncin no es lineal y sus derivadas no tienen
solucin anal!tica, tendremos que aproximar la condicin de ptimo .es decir, que las
primeras derivadas sean iuales a cero/ con aln mtodo numrico.
Grid search (s)ueda tipo cuadrcula*
La alternativa ms simple es hacer un barrido por los posibles valores de los
parmetros de modo de obtener el ptimo. Esto se puede hacer cuando el nmero de
parmetros es pequeo .( o +/, pues de otro modo es demasiado costoso. 0dems, se
necesita saber el rano de valores que puede tomar el parmetro y qu tan $ina es la
estimacin .Scunto hay que incrementar el parmetroT/.
Algoritmos iterati'os
Los aloritmos iterativos se basan en la siuiente lica,
U -ar un parmetro inicial arbitrario, 0
0
.
U Ai 0
0
no es el ptimo, actualizar el parmetro sen,
0
j
=0
j 1
+\
j 1
A
j 1
.E.E/
donde V es un GpasoH .ScuntoT/ y W un vector de direccin .Spara dndeT/.
El problema es que V y W cambian en cada iteracin, por lo que se necesita una
manera de determinarlos. -eterminar la direccin es $cil. La matriz de derivadas
parciales .g/ de la $uncin .N/ que se quiere optimizar da una respuesta inmediata.
-eterminar el paso es ms comple%o. En principio se debiera buscar V tal que,
F (0
j
+\
j
A
j
)
\
j
=g (0
j
+\
j
A
j
) ' A
j
=0 .E.C/
pero esto raramente se hace porque es ine$iciente y costoso en tiempo. Fptimizar el paso
implica que en cada iteracin hay que hacer dos movimientos. <or lo eneral se usa V $i%o
en los mtodos que estudiamos a continuacin.
6.6
Figura 6.1
M+todos de gradiente
Los mtodos de radiente descomponen el vector de direccin en dos
componentes,
A
j
=W
j
g
j
.E.D/
donde , es una matriz de$inida positiva, g es el radiente .matriz de primeras
derivadas/ de la $uncin que se optimiza, y j se re$iere a la iteracin j'sima.
&aturalmente, , opera como una matriz de ponderadores de las radientes.
S-e dnde viene la descomposicin de la ecuacin .E.D/T ?onsidere la expansin
de 3aylor de la $uncin N,
F (0
j
+\
j
A
j
)=F (0
j
)+\
j
g (0
j
) A
j
.E.K/
es decir,
F (0
j
+\
j
A
j
)F (0
j
)=\
jg
(0
j
)A
j
.E.(9/
por lo tanto
F (0
j
+\
j
A
j
)F (0
j
)\
j
g (0
j
)' W
j
g (0
j
) .E.((/
el lado derecho es positivo si V es pequeo y g no es cero. Entonces, una iteracin
adicional siempre aumenta la $uncin N.

j+1
F
1
F
2
6.7
M+todo $teepest Ascent
Este mtodo es poco sutil pero e$ectivo. 4sicamente consiste en escoer W=I y
A=g . Es decir, pondere por ( la in$ormacin de las radientes y a%uste los coe$icientes
equivalentemente.
Es un mtodo muy rpido y tiene vector de direccin ptimo conocido,
\
j
=
g ' g
g ' Hg
donde H=

2
F (0)
00'
.E.(+/
El mtodo no est exento de problemas. <rimero, hay que computar seundas
derivadas, lo que sabemos puede ser comple%o y tedioso. Aeundo, si X no es neativa
de$inida, el mtodo divere. 3ercero, el mtodo convere muy lento, pues tiende a
Gpasarse de laroH, como en la Niura E.(.
M+todo de Newton
?omo todo ptimo de &ePton, ste se basa en la idea es que en dicho ptimo, las
derivadas de N son cero. Ae puede hacer una expansin de 3aylor alrededor de cero,
F(0)
0
=g (0
0
)+H
0
(00
0
)=0 .E.(2/
resolviendo para Y y eneralizando,
0
j +1
=0
j
+H
j
1
g
j
.E.(5/
entonces la recomendacin es
W=H
1
A=H
1
g
\=1
.E.(O/
El mtodo convere rpido cerca del ptimo. Ai la $uncin es cuadrtica convere
en ( paso, porque la derivada es lineal. Es probablemente el me%or aloritmo si el
problema es cncavo. <ero tiene dos problemas, .(/ le%os del mximo con $unciones no
muy Gbien comportadasH puede diverer, y .+/ tambin puede diverer si la matriz - no
es neativa de$inida.
6.8
.uadratic -ill %liming
/
Este mtodo en$renta el seundo problema del mtodo de &ePton. Ai - no es
neativa de$inida, entonces se recomienda usar H =HoI , con o rande e 0 la
matriz identidad. Esta trans$ormacin aseura que - sea neativa en la siuiente
iteracin.
Metodos tipo %uasi Newton
La idea de este tipo de mtodos es evitar el clculo de la seunda derivada. La
base de anlisis consiste en reconocer que al actualizar la matriz de ponderaciones en
cada iteracin W
j +1
=W
j
+E es siempre positiva si E es positiva. :s an si partimos
de W
0
=I .
-avidon, Nletcher y <oPell .(KOD/
C
suieren utilizar el siuiente aloritmo de
mtrica variable,
W
j +1
=W
j
+
A
j
A
j
'
A
j
'
j
+
W
j

j
' W
j
'

j
' W
j

j
.E.(E/
donde 6
j
=\
j
A
j
y
j
=g (0
j
)g (0
j 1
) . Entonces lo que se propone es aproximar la
inversa de la seunda derivada H
1
por el cambio ponderado en la primera derivada,

j
=g (0
j
)g (0
j 1
) . <or ello, el mtodo va acumulando los errores cometidos en la
aproximacin de la inversa de las seundas derivadas,
W
j +1
=W
j
+aa ' +bb ' =W
j
+| a b | a b ' .E.(C/
debido a que la matriz 1a 2 es de rano + se le llama actualizacin de seundo rano.
4royden et al. .(KC9/
D
suieren usar una actualizacin de tercer rano, que es ms
e$iciente, pues le aade un trmino del tipo dd ' , donde,
d
j
=
1
A'
j

j
A
j

1
'
j
W
j

j
W
j

j
.E.(D/
E 6old$eld, A.:.* =uandt, >.E.* and 3rotter, X.N. .(KEE/, Z:aximisation by =uadratic Xill'?limbinZ,
Econometrica, 25, O5('OO(.
C [. ?. -avidon, 0E? >esearch and -evelopment >ept. 0&L OK99 .>ev./ (KOK. Nletcher, >. and <oPell,
:.8.-. .(KE2/, Z0 >apidly ?onverent -escent :ethod $or :inimizationZ, %omput34., E, (E2'(ED.
D ?. 6. 4royden, 43 0nst3 Mat3 Appl. E,+++'+2(, (KC9. >. Nletcher, %omp3 4., (2,2(C'2++, (KC9. -. 6old$arb Mat3
%omp. +5, +2'+E, (KC9. -. N. Ahanno, Mat3 %omp. +5,E5C'EOE, (KC9.
6.9
6.03 Estimacin de mnimos cuadrados no lineales
La de$inicin de un modelo no lineal se har por la tcnica de estimacin y no
por la naturaleza del modelo. Auponamos la existencia de un modelo enrico del
siuiente tipo,
y
i
=h ( x
i
; )+c
i
.E.(K/
Ai se mantiene la nocin de minimizacin de la suma de residuos al cuadrado y
se aplica al modelo anterior, la estrateia ser!a buscar un estimador

tal que minimice


la suma, A,
S=

i
c
i
2
=

i
(
y
i
h( x
i
; )
)
2
.E.+9/
&ote que si el error se distribuye normal, entonces

corresponde al estimador
de mxima verosimilitud. 0s!, el estimador de mxima verosimilitud es un estimador
adecuado para parametrizar modelos no lineales, reteniendo las propiedades y
limitaciones que ya estudiamos en los cap!tulos anteriores. &o obstante, es posible
derivar un estimador de m!nimos cuadrados "en este caso m!nimos cuadrados no
lineales" que opera de manera anloa al estimador de m!nimos cuadrados ordinarios.
-e la ecuacin .E.+9/ es posible obtener,
S

=2

i
|
y
i
h ( x
i
; )

h (x
i
; )

.E.+(/
?omo es evidente, si la $uncin h(3* es lineal, entonces la ecuacin .E.+(/ no
di$iere de las ecuaciones normales derivadas en el cap!tulo 5. ?uando el modelo es no
lineal, la ecuacin .E.+(/ no es de $orma cerrada y debiese ser resuelta por los mtodos
numricos que ya estudiamos. &o obstante, considere una expansin de 3aylor
alrededor de
0
de tal modo que el modelo quede aproximado por,
h (x
i
; ) h ( x
i
;
0
)+

k=1
K
h (x
i
;
0
)

k
0
(
k

k
0
)
.E.++/
Este con%unto de ecuaciones es llamado modelo de reresin eneralizado y
puede ser convenientemente reescrito como,
h (x
i
; )
(
h ( x
i
;
0
)

k=1
K
h (x
i
;
0
)

k
0

k
0)
+

k=1
K
h (x
i
;
0
)

k
0

k
.E.+2/
6.10
Llamando x
0
a la derivada de la $uncin h, tenemos
h (x
i
; )
(
h( x
i
;
0
)x
0

k
0
)
+x
0

k
.E.+5/
lo que en trminos matriciales se puede sintetizar como,
h (x
i
; ) h
0
x
0

k
0
+x
0

k
.E.+O/
&ote que una vez escoido
0
los dos trminos al interior del parntesis son
constantes, por lo que pueden pasar al lado izquierdo pues son expresiones conocidas.
y
0
=h (x
i
; )h
0
+x
0

k
0
x
0

k
.E.+E/
0adindole el trmino de error, se obtiene $inalmente
y
0
=x
0

k
+c .E.+C/
0s!, dado un valor de
0
es posible estimar
k
directamente por m!nimos
cuadrados. 0 di$erencia de su contraparte lineal, el estimador de m!nimos cuadrados no
lineales no ocupa directamente las variables sino una trans$ormacin de ellas y de la
$uncin oriinal, estimndose el modelo sobre las derivadas de la misma. <or ello, en
este caso se traba%a con pseudo'estimadores.
5ropiedades del Estimador Mnimos %uadrados no 6ineales
El estimador de m!nimos cuadrados lineales aplicado a las primeras derivadas de
la $uncin no lineal puede proveer una estimacin de los parmetros del modelo. <or
razones de e$iciencia, la estimacin se hace, en realidad, de manera iterativa, de modo de
minimizar el error que se comete en la aproximacin. Lo que nos preocupa es si este
estimador es consistente yBo e$iciente. 0l iual que en el caso del estimador de m!nimos
cuadrados del modelo lineal, slo si los residuos son normales podemos estar seuros
que es e$iciente. En otros casos, tenemos que hacer alunos supuestos.
En el caso lineal, supusimos que los reresores cumpl!an
1
n
( x ' x ) Q 0hora
haremos el mismo supuesto para los pseudo'reresores construidos sen .E.+E/,
!"im
1
n
x
0
' x
0
=!"im
1
n

i =1
n
|
h (x
i
;
0
)

k
0
|
h ( x
i
;
0
)

k
0

'
=Q
0
.E.+D/
6.11
<ara que el estimador
#$S
sea consistente tiene que cumplirse que
!"im
1
n
x
0
c=0 . Ninalmente, el estimador ser asintticamente normal cuando,
1
.n

i =1
n
x
i
c
i
#(0, c
2
Q
0
) .E.+K/
El estimador de la varianza de los residuos puede ser encontrado usando,
K
c
2
=
1
n

i =1
n
| y
i
h (x
i
; )
2
.E.29/
%mputo del estimador de mnimos cuadrados no lineales
La estimacin de
#$S
se hace de manera iterativa, lo que exie determinar el
aloritmo de actualizacin y el criterio de $in de bsqueda.
&ote que para estimar .E.+C/ se requiere haber $i%ado la derivada de la $uncin '
x
0
' para lo cual se tuvo que haber usado aln
0
. )na vez computado
#$S
por
primera vez, se puede usar ste para construir | y
0
x
0
y volver a estimar
#$S

repitindose el ciclo hasta que se cumpla el criterio de $in de bsqueda.
&o existe una rela para escoer los parmetros iniciales, pero su eleccin puede
a$ectar bastante el resultado. El problema de escoer mal los parmetros iniciales es que
los aloritmos suelen diverer o pueden tomar un nmero muy rande de iteraciones
antes de converer. 0lunos autores pre$ieren usar parmetros derivados
aleatoriamente de aluna distribucin. Ftros autores usan los parmetros obtenidos de
una reresin lineal del mismo problema que se est estudiando. Ninalmente, es posible
usar los parmetros de otros estudios.
>especto del criterio de $in de bsqueda hay varias alternativas. Es posible usar
el cambio en la $uncin de verosimilitud de la estimacin, si sta no cambia en aln
monto $i%o en la iteracin .p.e., (9'O/, no sia buscando. :uchas veces, los cambios en la
$uncin de verosimilitud continan, cuando los parmetros slo cambian en el quinto o
sexto decimal. -esde un punto de vista econmico, la precisin en el quinto decimal de
una elasticidad es irrelevante, por lo que un criterio de $in de bsqueda usado es detener
las iteraciones cuando los parmetros cambian en el tercer o cuarto decimal.
K &ote que el estad!ra$o >M no est acotado entre 9 y (.
6.12
6.04 Estimacin de aria!les instrumentales no lineales
El estimador de variables instrumentales descrito en los cap!tulos anteriores
tambin puede ser aplicado al caso no lineal si existen sospechas que pudiese existir
correlacin entre reresores y residuos. El problema en el caso no lineal es que la
correlacin reresor'residuo se traspasa a los pseudo'reresores x
0
. Entonces,
suponamos que tenemos un con%unto de variables 7 tal que,
!"im
1
n
% ' x
0
=Q
%x
0
!"im
1
n
% ' c=0 .E.2(/
0plicando la misma lica del estimador de m!nimos cuadrados no'lineales
tenemos que el modelo linealizado es,
y
0
x
0
+c .E.2+/
premultiplicamos por % y tomamos plim,
!"im
(
1
n
% ' y
0
)
!"im
(
1
n
% ' x
0

)
.E.22/
Auponamos, aunque esto no es crucial, que el rano de 7 es el mismo de x,
entonces el estimador de variables instrumentales en este caso parecer!a ser
directamente

#I&
=(% ' x
0
)
1
% ' y
0
.E.25/
El problema con el estimador .E.25/ es que el vector de parmetros \ aparece a
ambos lados de la ecuacin. )na alternativa es buscar un punto $i%o, es decir, un vector \
que satis$aa dicha ecuacin. )n aloritmo posible "pero no e$iciente" ser!a darle
0
,
computar los pseudo'reresores, estimar
1
, computar los pseudo'reresores, etc.
)na solucin eneral al problema "que adems elimina la restriccin de rano de
7" es,
min

S ()=
(
| y h (x
i
; )' %
)
(% ' % )
1
(
| y h (x
i
; ) ' %
)
=c()' % (% ' % )
1
c()' %
.E.2O/
cuyas derivadas son,
()

=x
0
' % (% ' % )
1
% ' c()=0 .E.2O/
6.13
Este es un problema de optimizacin no'lineal que ya hemos estudiado. Ai los
pseudo'reresores se comportan razonablemente, el aloritmo debiese producir una
estimacin del parmetro e$icientemente .-avidson y :c7innon, (KK2/.
(9
6.0" #o linealidad de la aria!le dependiente
Auponamos ahora que la no linealidad tambin envuelve a la variable
dependiente, es decir,
g ( y
i
; 0)=h (x
i
; )+c
i
.E.2E/
La estimacin de los parmetros puede hacerse por dos mtodos, m!nimos
cuadrados y mxima verosimilitud. Este ltimo es ms e$iciente. Ai los residuos se
distribuyen normales, entonces la densidad de cada observacin es,
f ( y
i
)=

c
i
y
i

| 2 nc
2

1 /2
'
| g ( y
i
, 0)h( x
i
; )
2
2 c
2
.E.2C/
donde

c
i
y
i

es el 8acobiano de la trans$ormacin, es decir,

c
i
y
i

=
g ( y
i
; 0)
y
i
=(
i
.E.2D/
<or ello, la $uncin de verosimilitud de la muestra es .en los/,
log $=
n
2
log 2n
n
2
log c
2
+

i =1
n
(
i
( y
i
; 0)
1
2

i =1
n
| g ( y
i
; 0)h (x
i
; )
2
.E.2K/
-ebe notarse que la presencia del trmino J
i
( y
i
; 0) hace que el estimador de
m!nimos cuadrados no lineales no sea equivalente al estimador de mxima
verosimilitud. <or lo tanto, es necesario usar este ltimo estimador. &o obstante, es
posible usar una aproximacin por iteracin cuando la dimensin de 8 es pequea .( o
+/. El aloritmo ser!a el siuiente,
(. Ni%ar 0
0
, computar g( y
i
; 0
0
) y estimar los parmetros usando el estimador de
m!nimos cuadrados no lineales y computar el valor de la $uncin de
verosimilitud.
(9 -avidson, >ussell and 8ames 6. :ac7innon .(KK2/. Estimation and 0nference in Econometrics, Fx$ord,
Fx$ord )niversity <ress.
6.14
+. 0ctualizar 0
1
=0
0
+A
i
, computar g( y
i
; 0
1
) y re'estimar los parmetros usando
el estimador de m!nimos cuadrados no lineales y computar el valor de la $uncin
de verosimilitud.
2. )sar las $unciones de verosimilitud computadas en .(/ y .+/ para determinar la
direccin de a%uste de los parmetros e iterar hasta que conver%a.
6.06 $nterpretacin de los parmetros de un modelo no lineal
La intepretacin de los parmetros no es $cil en el caso de los modelos no
lineales. ?onsideremos que en el modelo lineal los parmetros miden,
E| y
i
| x
i

x
i
=
i
.E.59/
por lo que, si las variables estn medidas en loar!tmos, se obtienen directamente las
elasticidades. En el modelo no lineal, sin embaro, los parmetros son,
E| y
i
| x
i

x
i
-
h( x
i
; )
x
i
1
g' ( y
i
)
.E.5(/
por lo que los parmetros no son las elasticidades. Estas ltimas se computan,
usualmente, en la media muestral. Es decir,
j
i
-
h( x
i
; )
x
i
1
g ' ( y
i
)
x
i
y
i
.E.5+/
6.0% &ests de 'iptesis
0 di$erencia de los modelos lineales, el testeo de hiptesis en el caso de los
modelos no'lineales requiere que las restricciones impuestas sean de sobreidenti$icacin.
Aea S (

)=

c
i
2
la suma de residuos al cuadrado del modelo sin restrinir y sea
S (

*
)=

c
*
i
2
su contraparte en el modelo restrinido.
Los siuientes tests son vlidos asintticamente,
6.15
e 3est N asinttico
| S(

*
)S(

)/ (
| S(

)/(nk)
-F | ( , nk
e 3est >azones de ]erosimilitud
2( log $(

*
)log $(

))-X
2
| ( , nk
e 3est de [ald | )(

)* &+E()(

)* )
-1
|)(

)* ' -X
2
| ( , nk
Captulo 7
Modelos con Datos de Panel
Los mtodos de panel data combinan observaciones de corte transversal con
observaciones de series de tiempo. Por el momento no vamos a imponer restricciones
para que la mezcla sea vlida, pero ms adelante vamos a discutir exactamente qu tipo
de observaciones de corte transversal se pueden mezclar con cul tipo de observaciones
de series de tiempo.
Cuando hablamos de observaciones de corte transversal nos referimos a
observaciones para una determinada cohorte y por lo tanto el tipo de pregunta que se
puede responder se refiere a hiptesis respecto de la heterogeneidad de los individuos
que componen dichas cohorte. Por e!emplo, "por qu, en alg#n instante del tiempo,
algunas personas con determinadas caracter$sticas traba!an y otras no lo hacen%
Cuando nos referimos a observaciones de series de tiempo nos referimos a que es
posible observar el comportamiento de un individuo repetidamente en el tiempo. Por
ello, el tipo de hiptesis que se puede enfrentar se refiere a la evolucin del
comportamiento de un individuo y sus determinantes. &n particular, y manteniendo la
simetr$a con el e!emplo anterior, "qu hace que un individuo traba!e en algunos periodos
y no lo haga en otros%
Como vemos, mientras las observaciones de corte trasversal son #tiles para
responder preguntas relacionadas con heterogeneidad, los de series de tiempo sirven
para estudiar la evolucin temporal. Las tcnicas de panel nos permiten responder
ambos tipos de preguntas 'y otras que no pueden ser respondidas por corte transversal
o series de tiempo' porque usan informacin sobre una cohorte donde hay individuos
heterogneos a los que se les observa repetidamente en el tiempo. &s decir observaremos
N individuos durante T periodos de tiempo.
&sto presenta varias venta!as con respecto a los modelos de corte transversal o
series de tiempo por separado. &ntre ellas(
)umento en grados de libertad( &sta es una razn bastante obvia( si observamos
una cohorte dos veces en el tiempo, las observaciones disponibles aumentan a *+
para el mismo n#mero de potenciales parmetros a estimar, ,. &sto permite
me!orar la precisin con la cul se estiman dichos parmetros y me!orar la
calidad de las predicciones hechas con el modelo.
Control de efectos fi!os individuales( -n problema comple!o de los mtodos de
corte transversal es que no pueden identificar la presencia de efectos fi!os
individuales. &stos efectos cambian entre individuos pero no para cada
individuo y, como no se observan, son absorbidos por el residuo. Cuando dichos
7.2
efectos individuales estn correlacionados con los regresores hay sesgo en el
estimador del parmetro.
Por e!emplo, suponga que se desea estudiar el rendimiento de alumnos de
educacin primaria ./end0 de una cohorte como una funcin de calidad establecimiento
.Cal0, las horas de estudio .1oras0 y la educacin de los padres .&P0. &l modelo estimado
es Rend
i
=o
0
+o
1
Cal
i
+o
2
Horas
i
+o
3
EP
i
+c
i
. &l verdadero modelo debe incluir la
inteligencia o habilidad natural del individuo .1ab0, pero sta no es observable. Por ello,
el residuo no es ruido blanco ya que incluye el efecto de la habilidad y tiene la forma
c
i
=o
4
Hab
i
+j
i
.
/ecuerde que si el modelo es y
i
=x
i
+c
i
, el estimador de m$nimos cuadrados
es

=( x ' x )
1
x ' y , reemplazando y
i
obtenemos(

=( x ' x )
1
x ' | x +c
=( x ' x )
1
x ' x +( x ' x )
1
x ' c
=+( x ' x )
1
x ' c
.2.30
&ntonces, el estimador de los parmetros del e!emplo es(
o
i
=o
i
+o
4
x
i
' Hab
i
.2.*0
)s$, si la habilidad est relacionada, por e!emplo, con las horas de estudio,
entonces habr sesgo en el estimador del parmetro. Lo mismo sucede si los colegios
seleccionan a los alumnos por habilidad.
4odelacin de efectos temporales sin sesgo de agregacin( Los modelos de series
de tiempo tienen frecuentemente el problema que se agrupan individuos
heterogneos como si ellos fuesen idnticos entre s$. 5in embargo, no siempre el
comportamiento del individuo promedio es representativo de un individuo
particular. Por e!emplo, cuando se estudia el consumo en un pa$s en las #ltimas
dos dcadas se agrupa a individuos que, por diferentes razones, tienen
comportamientos potencialmente muy diferentes. Los consumidores reaccionan
diferentes a cambios en ingresos corrientes en distintos periodos del ciclo de
vida6 los consumidores que estn 7restringidos de liquidez8 reaccionan distinto
de aquellos que pueden usar el mercado de capitales para suavizar variaciones
de ingreso y mantener el consumo estable.
1ay pocas desventa!as en el caso de los modelos de panel. &n primer lugar, a#n
hay pocas bases de datos 'sobre todo en )mrica Latina' y stas frecuentemente deben
ser 7limpiadas8 de numerosos errores. &n segundo lugar, los programas
computacionales para econometr$a de panel son a#n limitados y frecuentemente del tipo
ca!a negra .es decir, se desconoce exactamente qu procedimientos usa0. -n tercer
problema, que es propio de los modelos de panel, es llamado desgaste de la muestra
.sample attrition0 que proviene del hecho que algunos miembros de la cohorte van
desapareciendo a medida que pasa el tiempo. Por e!emplo, porque migran o
7.3
desaparecen .las personas mueren o las firmas salen del mercado0 o porque cambian las
condiciones que les hac$a participar de la cohorte .solteros0. 5i el desgaste es aleatorio el
#nico problema es que se pierde eficiencia en la estimacin. 5i el desgaste no es aleatorio
.p.e. cuando el desgaste es por muerte de los mayores de la muestra0, hay problemas de
sesgo de seleccin.
7.1 Modelo cannico de datos de panel
&l modelo cannico o genrico de datos de panel tiene la siguiente forma(
y
t
i
=o
t
i
+x
t
i
+c
t
i
.2.90
donde i=1, ... , N y t =1,... , T . La variable x
t
i
contiene todos los regresores del modelo,
es decir, incluye x
1t
i
, x
2t
i
,., x
k t
i
. La existencia de efectos individuales est recogida en
la constante que ahora est subindizada t para recoger efectos temporales y
supraindizada i para recoger efectos individuales.
Modelo con todos las observaciones juntas (pooled)
-na alternativa posible 'pero no ptima' es simplemente asumir que todos las
observaciones corresponden a un mismo individuo. &n ese caso, suponemos que no hay
efectos individuales, por lo que
y
t
i
=o+x
t
i
+c
t
i
.2.:0
y el estimador de m$nimos cuadrados es aplicable, es decir,

p
=( x
i
' x
i
)
1
x
i
' y
i
. La
principal venta!a de este modelo respecto de usar datos de corte transversal es que ahora
se dispone de NT observaciones en vez de N y eso me!ora la precisin del estimador
porque(
Var (

)=
c
c
2
x
i
' x
i
=
c
c
2

i =1
NT
(x
i

x)' (x
i

x )
.2.;0
7.4
Modelo de efectos fijos individuales
-na alternativa para modelar los efectos individuales es suponer que stos son
fi!os en el tiempo y slo se refieren a caracter$sticas del individuo. &s decir, el modelo
queda como(
y
t
i
=o
i
+x
t
i
+c
t
i
.2.<0
Como los efectos son fi!os podemos modelarlos con variables mudas y usar
m$nimos cuadrados ordinarios, es decir, pondremos una variable muda .dummy0 por
cada intercepto.
|
y
1
y
2

y
n

=
|
i 0 0
0 i 0

0 0 i

o+
|
x
1
x
2

x
n

+
|
c
1
c
2

c
n

.2.20
donde o y son vectores, es decir, contienen n y k parmetros respectivamente. 5i
llamamos D a la matriz de dummies, entonces el modelo se reduce a(
y
t
i
=Do+x
t
i
+c
t
i
.2.=0
>odos los resultados clsicos sobre tcnicas de estimacin de m$nimos
cuadrados, optimalidad del estimador, bondad de a!uste, y distribuciones de los
estimadores y los tests se mantienen. &ste estimador es llamado L5?@ por least squares
dummy variables.
+ote, adems, que es posible hacer un test formal de igualdad de efectos fi!os
usando simplemente el test de Aald para H
0
: o
i
=o
j
.
"Cul es la importancia de estimar usando efectos fi!os% Como se muestra en la
Bigura 3, el estimador pooled es sesgado cuando hay efectos individuales. Las
observaciones en este e!emplo estn ordenadas en dos grupos.
3
&l estimador pooled
intenta minimizar el error cuadrtico de ambos grupos simultneamente. +o obstante si
se modela cada grupo de la siguiente forma(
y
t
i
=o
1
+x
t
i
+c
t
i
si el individuo es tipo 1
y
t
i
=o
2
+x
t
i
+c
t
i
si el individuo es tipo 2
.2.C0
el estimador es insesgado.
3 +aturalmente, en la realidad es posible tener un gran n#mero de grupos.
7.5
Figura 7.1
La situacin podr$a ser mucho ms dramtica. Considere el siguiente fenmeno
estudiado por @ial y 5oto .*DD*0.
*
)lgunos estudios seEalan que el punta!e en las
pruebas de seleccin universitaria .P)) o P5-0 no es una buena prueba de seleccin
porque no hay una correlacin positiva entre punta!e de entrada y rendimiento posterior
en la universidad. La evidencia es que la correlacin en datos pooled es estad$sticamente
cero .si no es negativa0. Pero, la seleccin de alumnos por punta!e de entrada segmenta
las carreras .las carreras cierran las vacantes en puntos de corte que estn ordenados0(
cuando se hace un modelo de panel permitiendo que cada carrera tenga su propio
intercepto se obtiene una correlacin positiva invalidando la conclusin anterior.
* Fernardita @ial y /aimundo 5oto. 7"Predice la P)) el rendimiento o xito en la universidad%8,
Administracin y Economa, *:G*2, *DD*.
4odelo
Pooled
4odelo
&fecto Bi!o

2
y
x
7.6
Figura 7.2
El estimador intra!rupos
&xiste un problema evidente cuando la muestra es grande en la dimensin de
corte transversal .N0, porque es poco prctico poner un n#mero elevado de variables
mudas. 5i usted usa la C)5&+ podr$a enfrentarse con el problema de tener que poner
;.DDD dummies. -na alternativa interesante consiste en tomar el promedio en el tiempo
para un individuo de la ecuacin .2.<0(

y
i
=o
i
+

x
i
+

c
i
.2.3D0
y restarlo de la ecuacin .2.<0 para obtener(
y
t
i

y
i
=o
i
+x
t
i
+c
t
i
o
i

x
i

c
i
=
(
x
t
i

x
i
)
+c
t
i

c
i
.2.330
5i definimos las desviaciones con respecto a la media del individuo en el tiempo
como yH y xH, entonces(

=( x
t
*
' x
t
*
)
1
(x
t
*
' y
t
*
) .2.3*0
?ebido a que este estimador usa desviaciones con respecto a la media de cada
grupo, las variables han sido normalizadas para estudiar slo las desviaciones con
respecto a la media grupal, es decir, permite ver lo que sucede al interior del grupo. Por
ello le llamamos estimador intragrupal ."it#in !roups estimator0.
4odelo
Pooled
4odelo
&fecto Bi!o
/endimiento
Punta!e

2
7.7
Figura 7.3
&s decir, al tomar diferencias con respecto a la media en el tiempo de las
observaciones se elimina la constante y los efectos fi!os. +tese que la transformacin
retira la media de cada variable por grupo iGsimo, no con respecto a la media global de
las variables.
Para recuperar el efecto fi!o, se usa la ecuacin .2.3D0 porque el promedio de los
grupos cumple o
i
=

y
i

x
i

@amos a definir unas sumas de cuadrados que sern de gran utilidad. &n el caso
del estimador pooled o total .p0 usamos todas las observaciones(
S
xx
p
=

i =1
N

j =1
T
(x
t
i

x)' (x
t
i

x )
S
xy
p
=

i =1
N

j =1
T
(x
t
i

x )' ( y
t
i

y )
.2.390
donde

x es la media de x en todos los grupos y todos las observaciones. Computamos


el estimador como(

p
=
S
xy
p
S
xx
p
.2.3:0
&n el caso del estimador intragrupos (w ) usamos los datos en desviaciones con
respecto a la media en el tiempo de cada individuo,

x
i
(
Estimacin Intragrupal
y
x
7.8
S
xx
w
=

i =1
N

j =1
T
(x
t
i

x
i
)' ( x
t
i

x
i
)
S
xy
w
=

i =1
N

j =1
T
(x
t
i

x
i
) ' ( y
t
i

y
i
)
.2.3;0
y computamos el estimador como(

w
=
S
xy
w
S
xx
w
Pero notemos que S
xx
p
puede ser escrito como(
S
xx
p
=

i =1
N

j =1
T
(x
t
i

x)' (x
t
i

x )
=

i =1
N

j =1
T
(x
t
i

x
i
+

x
i

x )' ( x
t
i

x
i
+

x
i

x )
=

i =1
N

j =1
T
(( x
t
i

x
i
)+(

x
i

x )) ' ((x
t
i

x
i
)+(

x
i

x))
=

i =1
N

j =1
T
(x
t
i

x
i
)' ( x
t
i

x
i
)+

i =1
N

j =1
T
(

x
i

x) ' (

x
i

x )
=S
xx
w
+

i =1
N

j =1
T
(

x
i

x )' (

x
i

x)
.2.3<0
por lo tanto S
xx
w
=S
xx
p

i =1
N

j =1
T
(

x
i

x )' (

x
i

x) . 4s adelante estudiaremos la doble


suma. Por el momento apliquemos la ecuacin .2.;0 al modelo en .2.330 para obtener la
varianza del estimador intragrupos(
Var (

w
)=
c
c
i
2

i =1
N

i =1
T
(x
i

x
i
) ' (x
i

x
i
)
=
c
c
i
2
S
xx
p

i =1
N

i =1
T
(

x
i

x) ' (

x
i

x )
.2.320
entonces la varianza del estimador intragrupos es mayor que la del modelo pooled. Por
eso, el estimador intragrupos es insesgado pero ms ineficiente que el pooled.
-n problema de remover efectos fi!os del modelo usando diferencias con
respecto a la media grupal es que tambin se remueven todas aquellas variables que son
fi!as pero observables y que podr$an ser de inters. &n el e!emplo de la educacin
primaria, la educacin de los padres est fi!a en el tiempo .suponga que no se capacitan
en el periodo de estimacin0. &l modelo podr$a ser escrito de manera genrica como(
y
t
i
=o
i
+x
t
i
+6z
i
+c
t
i
.2.3=0
7.9
y, al usar el estimador intragrupos, se perder$an todos las variables $. >$picamente con
este mtodo se pierden variables tales como gnero, religin, raza, ubicacin geogrfica,
atributos fi!os, etc.
El modelo con efectos temporales fijos
Podemos extender el modelo anterior para incluir efectos fi!os que no se
relacionan con unidades sino con el tiempo. &s frecuente que estemos interesados en
alg#n fenmeno determin$stico que afecta todas las unidades en un determinado
instante de tiempo. Por e!emplo, cambios en el salario m$nimo 'una variable
determin$stica' afectan la participacin en el mercado laboral a travs de cambios en la
tasa de desempleo y, por lo tanto, los incentivos para entrar o salir del mercado laboral.
y
t
i
=o
i
+\
t
+x
t
i
+c
t
i
.2.3C0
Para modelar este tipo de fenmeno se puede usar una dummy temporal, es deir,
que tome valor uno para el tI3 y D en todo otro instante, otra dummy con valor uno en
tI* y D en todo otro instante, etc.
&l modelo de la ecuacin .2.3C0 con efectos fi!os individuales y temporales es
conocido como tJoGJay fixed effects model. 5e debe tener cuidado con poner >
dummies temporales y + dummies individuales porque produce colinealidad perfecta.
El estimador inter!rupos
/etomemos el modelo original
y
t
i
=o
i
+x
t
i
+c
t
i
.2.*D0
como sabemos de econometr$a bsica, el modelo economtrico es una descripcin de la
medias condicionales y por lo tanto la ecuacin .2.3C0 se cumple en las medias de cada
grupo, i . La figura : muestra, esquemticamente, el hecho que la regresin pasa por las
medias de cada grupo(
7.10
Figura 7.4
&ntonces si en el modelo tomamos media con respecto al grupo tenemos(
E
i
| y
t
i
=E
i
| o
i
+x
t
i
+c
t
i

y
i
=o
i
+

x
i
+c
i
.2.*30
y podemos computar el estimador de usando las siguientes sumas(
S
xx
b
=

i =1
N

j =1
T
(

x
i

x )(

x
i

x )'
S
xy
b
=

i =1
N

j =1
T
(

x
i

x )(

y
i

y)'
.2.**0
Consecuentemente el estimador es

b
=
S
xy
b
S
xx
b
.
&ste estimador es llamado intergrupos .bet"een !roups0 precisamente porque al
usar la media grupal elimina toda la variacin intragrupal. +ote que la suma de
cuadrados %
&&
en .2.**0 es exactamente el trmino que hab$amos de!ado sin identificar en
.2.3<0. &s decir, se cumple(
S
xx
p
=S
xx
w
+S
xx
b
.2.*90
y
x
E[y
1
]
E[y
2
]
E[x
2
] E[x
1
]
7.11
'elacin entre los estimadores totales( intra e inter!rupos
&s importante entender qu tipo de estimacin es la que realiza cada uno de los
estimadores que hemos derivado. 1emos escrito el modelo de efectos fi!os en tres
distintas formas(
(a ) y
t
i
=o
i
+x
t
i
+c
t
i
(b) y
t
i

y
i
=| x
t
i

x
i
+c
t
i

c
i
(c )

y
i
=o
i
+

x
i
+

c
i
.2.*:0
Kbviamente .a0 es el modelo pooled 6 .b0 es el modelo en desviaciones con
respecto a la media grupal ."it#in0, y .c0 es el modelo en las medias grupales .bet"een0.
/ecordemos que las sumas de cuadrados de cada especificacin son las que se muestran
en el Cuadro 2.3(
Cuadro 7.1
Comparacin de estimadores de datos de panel
&stimador %
&&
%
&y
Pooled

i =1
N

j =1
T
( x
t
i

x )( x
t
i

x )'

i =1
N

j =1
T
( x
t
i

x )( y
t
i

y ) '
Aithin

i =1
N

j =1
T
( x
t
i

x
i
)( x
t
i

x
i
)'

i =1
N

j =1
T
( x
t
i

x
i
)( y
t
i

y
i
) '
FetJeen

i =1
N

j =1
T
(

x
t
i

x )(

x
t
i

x)'

i =1
N

j =1
T
(

x
t
i

x )(

y
t
i

y ) '
Los tres estimadores son(

p
=| S
xx
p

1
S
xy
p

w
=| S
xx
w

1
S
xy
w

b
=| S
xx
b

1
S
xy
b
.2.*;0
+te que como S
xx
p
=S
xx
w
+S
xx
b
y S
xy
p
=S
xy
w
+S
xy
b
, podemos escribir el estimador
pooled como una combinacin de los otros dos estimadores(
7.12

p
=F
w

w
+| F
w

b
F
w
=
S
xx
w
S
xx
w
+S
xx
b
.2.*<0
&ste es un resultado muy importante( el estimador pooled es un promedio de
ponderado de los estimadores intra e intergrupos, cuya ponderacin depende de la
variacin de cada grupo. &llo implica(
5i no hay variacin intragrupal (F
w
=0) , slo hay variacin intergrupos
5i no hay variacin intergrupal (F
b
=0) , slo hay variacin intragrupos
Estimador de la varian$a de los errores
-n elemento prctico que no hemos resuelto es de dnde se obtiene el estimador
de la varianza de los errores. &n general, el estimador tradicional de econometr$a clsica
basado en los residuos es vlido, pero debe considerarse correctamente los grados de
libertad en este caso(
c
2
=

i =1
N

j =1
T
( y
t
i
o
i
x
t
i

)
2
NT N ! "
.2.*20
Modelo de efectos aleatorios
&n muchos casos existe una buena razn a priori para suponer que los efectos
son fi!os, es decir, sin hacer un test que nos permita diludicar si es que el supuesto es
aceptado por los datos. Cuando se observan a todos los componentes de un grupo o una
muestra exahustiva de los mismos, entonces el efecto individual estar exactamente
identificado o se le aproximar bastante bien. Por e!emplo, en un experimento con un
grupo de control es fcil saber si un individuo recibi o no recibi el tratamiento. &n tal
caso, es razonable suponer que las diferencias entre individuos son cambios
paramtricos.
5in embargo, cuando slo se cuenta con una muestra de individuos de un grupo,
la identificacin del efecto individual de ese grupo ser dependiente de la conformacin
de dicha muestra. &n tal caso es ms razonable considerar que el efecto individual es
slo una realizacin de una variable aleatoria, i.e., la conformacin de la muestra. &sto es
natural porque estamos tratando tanto con series de tiempo como porque la constante
refle!a el promedio de shoc,s aleatorios que dan vida al error. @amos a permitir que la
constante tenga un componente aleatorio( o
i
=o+j
i
. ?e ahi el nombre random effects.
7.13
y
t
i
=o+j
i
+x
t
i
+c
t
i
.2.*=0
donde L es una variable aleatoria. 5upondremos que la estructura de la parte estocstica
es(
E| c
t
i
=E|j
i
=0
E| c
t
i

2
=c
c
2
E| j
i

2
=c
j
2
E| c
t
i
j
i
=E| c
t
i
c
t
j
=E|j
i
j
j
=0
.2.*C0
La estructura en la ecuacin .2.*C0 es inocua excepto por el supuesto que
E| # $ % =0 , como veremos ms adelante.
Kbviamente, ambos 7errores8 .M y L0 se tratan como una entidad. &ntonces, para
un grupo 'la iGsima unidad' su matriz de covarianzas de los errores es(
D=
|
c
c
2
+c
j
2
c
j
2
... c
j
2
c
j
2
c
c
2
+c
j
2
... c
j
2

c
j
2
c
j
2
... c
c
2
+c
j
2
.2.9D0
Como los errores entre las unidades no estn correlacionados entre s$, la matriz
de covarianza de residuos de la muestra completa es(
V=
|
D 0 ... 0
0 D ... 0

0 0 ... D

.2.930
&ntonces, resulta natural tratar el problema como si fuese uno de
heterocedasticidad. +ecesitamos construir el estimador de m$nimos cuadrados
generalizados con esta estructura de estocasticidad. /ecordemos que la tcnica de
m$nimos cuadrados generalizados consiste en encontrar una transformacin del modelo
original tal que el modelo transformado sea homocedstico. &s decir, buscamos una
matriz de transformacin > tal que al aplicrsela al modelo haga que sea homocedstico(
Ty
i
=Tx
i
+T c
i
.2.9*0
donde E| T c=0 y E| T c c' T ' =c
2
T ' DT . Nmponiendo la restriccin que
T ' &T= , encontramos > y soluciomos el problema de heteocedasticidad. &n nuestro
caso, se puede demostrar anal$ticamente que basta con usar D
1/2
=
0
T
ii ' donde 0 es(
7.14
0=1
c
c
.
T c
j
2
+c
c
2
.2.990
y hacer la transformacin de las variables de acuerdo a
y
t
i
0

y
i
x
t
i
0

x
i
.2.9:0
&l resto del procedimiento es sencillo, encontrndose una expresin anloga a
.*;0 para el estimador pooled(

p
=F
* w

w
+| F
* w

b
F
* w
=
S
xx
w
S
xx
w
+
c
c
2
c
c
2
+T c
j
2
S
xx
b
.2.9;0
+otemos propiedades importantes del estimador de efectos aleatorios(
5i c
j
2
=0 'es decir si no hay efectos aleatorios' se obtiene el modelo pooled como
esperabamos por congruencia
5i >OP se obtiene el modelo de efectos fi!os. &sto es muy razonable( si la muestra
es enorme, entonces ser representativa de la poblacin.
Al!oritmo de estimacin del modelo de efectos aleatorios
&l problema de la solucin anterior es que Q no es conocida. &l siguiente
algoritmo permite obtener un estimador de Q sobre la base del estimador de las
varianzas de los shoc,s y del estimador de los parmetros de efectos fi!os.
3. Compute c
c
2
usando los residuos del estimador intragrupos usando L5?@.
*. Compute

c
c
2
+c
j
2
T
usando el residuo del estimador intragrupos. ?e aqu$ se
obtiene el estimador
c
j
despe!ando convenientemente. +tese que esto slo se
puede hacer porque se ha supuesto que ambos shoc,s estn no correlacionados.
9. Calcule

0=
c
c
.
c
c
2
+T c
j
2
:. Kbtenga y
t
i

y
i
y x
t
i

x
i
y haga la regresin
7.15
;. Compute los estimadores de efectos aleatorios

p
$

w
$

b
1ay, sin embargo, un segundo supuesto impl$cito que es necesario tomar en
cuenta. Cuando modelamos el efecto aleatorio como(
y
t
i
=o+j
i
+x
t
i
+c
t
i
.2.9<0
es indispensable que no exista correlacin entre el efecto aleatorio, Li, y los regresores,
x
t
i
, pues de otro modo el estimador de efectos aleatorios es inconsistente.
5i este supuesto se cumple, el estimador es consistente y, como usa el estimador
de Q, es eficiente asintticamente .es decir, en muestra grande0.
)aneles desbalanceados
&s com#n que en la prctica falten observaciones de alguna variable para
unidades u observaciones. &stos se llaman paneles desbalanceados o incompletos. &ste
no es un problema serio. +tese que en tanto hayan suficientes observaciones para
computar la media grupal o la media temporal, la prdida de observaciones no afecta a
los estimadores de panel por la simple razn que stos usan siempre la informacin
disponible.
La incompletitud de una base de datos de panel s$ afecta los estimadores de las
varianzas de los errores y, en particular, los tests de hiptesis porque, al contar los
grados de libertad, no se puede suponer que haya +> observaciones sino que un
n#mero menor. &n este sentido, el estimador de la varianza de los residuos de la
ecuacin .*<0 debe ser corregido.
7.2 Modelacin con datos de panel
/esulta natural preguntarse qu tipo de modelo se debe usar. Primero, si es
imprescindible usar un modelo con efectos .ya sea fi!os o aleatorios0 o si es posible usar
un modelo pooled. -na vez descartada la segunda alternativa, uno puede preguntarse si
es necesario usar un modelo de efectos fi!os o ste debe ser de efectos aleatorios. -na
manera de enfocar el problema es notar que cada tipo de modelo exige una distinta
relacin entre los regresores y el efecto fi!o y derivar del modelo anal$tico la disciplina
necesaria para el modelo emp$rico. &s decir, si el modelo econmico es capaz de
identificar exGante el tipo de efecto individual, entonces ya tenemos la especificacin
necesaria y se puede testear si sta describe adecuadamente los datos o no.
La mayor parte de las veces, sin embargo, los modelos tericos no son capaces de
identificar el tipo de efecto individual que se debe usar en el traba!o emp$rico. Para ello,
7.16
se han diseEado tests estad$sticos que ayudan en la especificacin. &n esta seccin
estudiamos los principales tests que nos permiten evaluar la aplicabilidad de los
distintos estimadores en modelos de panel.
"&fectos fi!os o aleatorios%
/esulta natural preguntarse cundo es preferible usar un modelo de efectos fi!os
o de efectos aleatorios. &s posible usar el test de 1ausman para inferir cul modelo usar.
La base del test es precisamente la restriccin del modelo de efectos aleatorios de que no
haya correlacin entre dichos efectos y los regresores.
/ecordemos que si no hay correlacinentre efectos individuales y regresores el
estimador RL5 es consistente y eficiente. Por otro lado, el estimador L5?@ es consistente
'pero ineficiente' tanto si hay correlacin como si no la hay. )s$, las hiptesis del test
son(
1o .si no hay correlacin0( KL5 y RL5 son consistentes, pero KL5 es ineficiente.
13 .si hay correlacin0( KL5 es consistente, pero RL5 es inconsistente.
&l test entonces estudia la diferencia entre los estimadores de efectos fi!os y
aleatorios usando |

RE

FE
un sencillo test de Aald. /ecuerde que el test de Aald en
forma genrica es(
(

)
2
c

2
.2.9=0
aplicado a la diferencia entre estimadores, el problema es encontrar la varianza de
|

RE

FE
.
Var |

RE

FE
=Var |

RE
+Var |

FE
2Cov|

FE
$

RE
.2.9C0
La contribucin de 1ausman es notar que un estimador eficiente es ortogonal a
7su diferencia con respecto a un estimador ineficiente8. /ecuerde que dos variables
correlacionadas comparten informacin y, por lo tanto, se puede usar una para predecir
'con menor incertidumbre' la otra. )s$, si el estimador L5?@ es eficiente no puede estar
correlacionado con su diferencia con otro estimador |

RE

FE
pues, de otro modo,
podr$amos usar esa informacin para construir un estimador a#n ms eficiente. Por ello,
0=Co' |

RE

FE
$

FE
=Co' |

FE
$

RE
Var |

FE
.2.:D0
)s$, Co' |

FE
$

RE
=Var |

FE

7.17
y por lo tanto Var |

RE

FE
=Var |

RE
Var |

FE
=

2 . &ntonces el test de 1ausman


es directamente(
|

FE

'

2
1
|

FE

X
2
( ") .2.:30
donde , es el n#mero de regresores en x
t
i
.
Tests de )oolability
?espus de haber estudiado si un modelo de efectos fi!os es preferible a un
modelo de efectos aleatorios, resulta natural preguntarse si un modelo pooled es
preferible a un modelo de efectos aleatorios. &l siguiente test 'llamado de Freusch y
Pagan' se emplea com#nmente .es un simple test de heterocedasticidad aplicado a datos
de panel0.
/ecordemos que el efecto aleatorio lo modelamos como o
i
=o+j
i
con E| j=0
. &ntonces, si no hay efectos aleatorios, es obvio que S ser constante. )s$, las hiptesis
del tests son(
H
0
: c
j
2
=0
H
1
: c
j
2
(0
&l test se aplica sobre los residuos del modelo pooled que denotamos por j
t
i
(
NT
2( N1)
|

i =1
N
(

i =1
T
j
t
i
)
2

i =1
N

i =1
T
j
t
i

2
1

X
(1)
2
.2.:*0
Tests de i!ualdad de efectos fijos
?espus de haber estudiado si un modelo de efectos fi!os es preferible a un
modelo de efectos aleatorios y si un modelo pooled es preferible a un modelo de efectos
aleatorios, resulta natural preguntarse si el modelo de efectos fi!os es preferible a un
modelo pooled. &l test es bastante sencillo(
H
0
: j
1
=j
2
=...=j
n
H
1
: j
1
(j
2
(... (j
n
&ste es un simple test de ChoJ, en el sentido que la H
0
seEala un modelo
restringido y la alternativa un modelo sin restringir. Computamos la suma de residuos
7.18
al cuadrado de cada uno y formamos el test B(
(SRCRSRC))/( N1)
SRC)/ T ( N1)"
F
(
N1
T ( N1)"
)
.2.:90
donde 5/C/ es la suma de residuos al cuadrado del modelo restringido y 5/C- es la
suma de residuos al cuadrado del modelo no restringido.
7.3 Modelos de panel dinmicos
&l modelo cannico o genrico de datos de panel dinmico tiene la siguiente
forma
y
t
i
=o
i
+x
t
i
+ y
t 1
i
+c
t
i
.2.::0
donde i =1, ... $ N y t =1, ... $ T . La variable x
t
i
contiene todos los regresores estticos del
modelo, es decir, incluye x
1t
i
$ x
2t
i
$ ... $ x
*t
i
e incorporamos y
t1
i
para capturar la dinmica
del fenmeno. 5eguimos suponiendo que el error Mit es homocedstico y no
correlacionado.
Consideremos que el error de .2.::0 puede ser escrito como +
t
i
=o
i
+c
t
i
(
y
t
i
=x
t
i
+ y
t 1
i
++
t
i
.2.:;0
La existencia de efectos dinmicos complica el anlisis porque produce
correlacin entre regresor y residuo( si y
t
i
depende de o
i
entonces y
t1
i
tambin est
correlacionado con o
i
. &n este caso, el estimador pooled es inconsistente.
Consideremos el estimador de efectos fi!os. La tcnica de tomar primeras
diferencias va a eliminar Si pero no va a ser una solucin viable en este caso porque(
y
t
i

y
i
=
|
x
t
i

x
i

+
|
y
t 1
i

y
t 1
i

++
t
i

+
i
=| x
t
i

x
i
+| y
t 1
i

y
t 1
i
+c
t
i
c
i
.2.:<0
pero

y
t1
i
=

t =2
T
y
t1
i
T1
est relacionado con +
t
i

+
i
porque, por construccin,

y
t1
i
est
correlacionado con

+
i
porque en este #ltimo se incluye +
t 1
i
.
&l estimador de efectos fi!os ser inconsistente. &l sesgo del estimador depender
del tamaEo de muestra. Cuando > tiende a P, el sesgo desaparecer. 5in embargo en este
7.19
contexto > moderadamente alto a#n producir un estimador sesgado. &studios con
datos artificiales seEala que con muestras de tamaEo >I9D, el estimador puede estar
sesgado en un *DT o ms.
&l estimador de efectos aleatorios tambin ser sesgado. /ecordemos que para
construir el estimador hay que cuasiGdiferenciar de la forma y
t
i
0

y
i
. )s$, nuevamente

y
t1
i
=
1
T1

t =2
T
y
t 1
i
estar relacionado con +
t
i
0

+
i
por construccin.
-na alternativa de solucin ser$a usar primeras diferencias y
t
i
y
t 1
i+
&l modelo
ser$a(
y
t
i
y
t 1
i
=o
i
+x
t
i
+ y
t1
i
+c
t
i
o
i
x
t 1
i
+ y
t 2
i
+c
t 1
i
=
|
x
t
i
x
t 1
i

+
|
y
t 1
i
y
t2
i

+c
t
i
c
t 1
i
.2.:20
lo que elimina el efecto fi!o. Pero va a haber correlacin entre regresor A y
t 1
y el
residuo. Para controlar esta problema la solucin ser$a usar variables instrumentales.
Estimador de Anderson y *siao (+,-+)
-sar A y
t 2
como un instrumento de A y
t 1
. +tese que como y
t2
e y
t3

suceden antes que c
t
y c
t1
entonces no hay correlacin entre instrumento y residuo.
)dems, hay covariacin obvia entre A y
t 2
y A y
t 1
. &n este caso, el estimador de
variables instrumentales .)nderson y 1siao, 3C=30 es consistente pero no
necesariamente eficiente. &ste #ltimo fenmeno se debe a que el estimador no hace uso
de la estructura caracter$stica de los residuos, c
t
i
c
t 1
i
.
Estimador de Arellano (+,-,)
&l problema de eficiencia se reduce notablemente si se usa y
t2
como un
instrumento de A y
t 1
, en vez de A y
t 2
. +tese que como y
t2
sucede antes que c
t

y c
t1
entonces no hay correlacin entre instrumento y residuo y, por otro lado, hay
covariacin entre y
t2
y A y
t 1
.
Estimador de Arellano y .ond (+,,+)
)rellano y Fond .3CC30 desarrollan el estimador de momentos en el contexto de
panel data. Consideremos el modelo dinmico ms simple y
t
i
=6 y
t 1
i
+j
t
i
. >omamos
primera diferencia(
7.20
A y
t
i
=6A y
t 1
i
+Aj
t
i
.2.:=0
y nos concentramos en definir la matriz de instrumentos , adecuados para estimar el
modelo(
Para tI9, que es el primer per$odo que podemos estimar, los instrumentos
disponibles y adecuados son( y
1
.
Para tI:, los instrumentos disponibles y adecuados son( y
1
e y
2
.
Para tI;, los instrumentos disponibles y adecuados son( y
1
, y
2
e y
3.

etc.
Por lo tanto la matriz de instrumentos , va creciendo con la muestra.
Premultipliquemos el modelo por ,- (
,' A y
t
i
=6, ' A y
t 1
i
+,' Aj
t
i
.2.;D0
>odo est KU, excepto que el residuo es ahora heterocedstico. ?e hecho, la
matriz de covarianza de Aj
t
i
es de la forma c
j
2
. . Por lo tanto, usamos m$nimos
cuadrados generalizados y obtenemos el estimador de )rellano y Fond consistente de
una etapa(

6=
|
A y
t 1
i
' ,( / ' ./ )
1
,' A y
t1

1
|
A y
t 1
i
' , (/ ' ./ )
1
, ' A y
t

.2.;30
&l estimador eficiente, sin embargo, que corresponde al caso en que +OP con >
fi!o en cuyo caso el estimador de AVRA es V
n
=

i =1
N
,' Aj
i
Aj
i
' , . &ntonces(

6=
|
A y
t 1
i
' , V
n
1
,' A y
t 1
1
|
A y
t 1
i
' ,V
n
1
,' A y
t
.2.;*0
7.4 Tests de races unitarias en panel
&sta es un rea reciente de tests y a#n son algo primitivos. -n primer test es el
de Fhargava, Branzini y +arendrathan .3C=*0 que desarrollan una variacin del test de
?urbinGAatson para panel y que puede ser usada para testear si el )/.30 tiene una ra$z
unitaria.
7.21
&l primer test de ra$ces unitarias propiemente es el de Levin y Lin .3CC*0.
Consideremos el modelo cannico(
y
t
i
=z
t
i
+j
i
y
t 1
i
++
t
i
.2.;90
&l test asume que +
t
i
es i.i.d. y que WiIW, es decir que el coeficiente de la variable
endgena rezagada es igual en todos los grupos. &sto es equivalente a suponer que la
dinmica es la misma en todos los grupos. La hiptesis nula es que existe una ra$z
unitaria(
H0 : j=1
H1: j1
?efinimos 2 (t $ s )=z
t

i =1
T
z
t
z
t

)
z
s
, +
t
i
=+
t
i

i =1
T
2 (t $ s )+
s
i
, y

y
t
i
= y
t
i

i =1
T
2 (t $ s) y
s
i
entonces Levin y Lin .3CC*0 encuentran la distribucin de(
. N T (j

1)=
1
. N

i =1
N
1
T

i =1
T

y
t 1
i
+
t
i
1
N

i =1
N
1
T
2

i =1
T
y
t 1
i
y
t 1
i
.2.;:0
y del estad$stico
t
j
=
(j

1)
.

i =1
N

i =1
T

y
t 1
i

y
t1
i
.
1
NT

i =1
N

i =1
T
j
t 1
i
j
t 1
i
.2.;;0
)l igual que en el caso de las series de tiempo univariadas .p.e., test de ?ic,eyG
Buller0, las distribuciones de .2*0 y .290 dependen de lo que contenga z .nada, constante,
un shoc, individual, o un shoc, individual y una tendencia lineal0. )s$(
7.22
Cuadro 7.2
z
t
i
j tW
D
. N T (j

1) N(0,2)
t
j
N(0,1)
3
. N T (j

1) N(0,2)
t
j
N(0,1)
Li
. N T (j

1)+3. N N(
0,51
5
) .1.25
t
j
+.1.875N N(0,1)
.Li, t0
. N | T (j

1)+7.5 N(
0,2895
112
)
.
488
277
(
t
j
+
.
3.75N
)
N(0,1)
+ota( significa 7convergencia dbil a8.
Las distribuciones son obtenidas siguiendo un proceso de convergencia
secuencial, es decir, primero se hace >OP y luego +OP . &sto es una debilidad si la
muestra no es grande en alguna dimensin.
1arris y >zavalis .3CCC0 derivan la distribucin cuando > es fi!o y +OP para los
siguientes casos(
Cuadro 7.3
z
t
i
j
D
. N T (j

1) N
(
0,2
T (T1)
)
Li
.
N T
(
j

1+
3
T+1
)
N
(
0,
3(17T
2
20T+17)
5(T1)(T+1)
3
)
.Li, t0
.
N T
(
j

1+
15
2(T+2)
)
N
(
0,
15(193T
2
728T+1147)
112(T+2)
3
(T2)
)
+ota( significa 7convergencia dbil a8.
KV Connell .3CC=0 demuestra que estos tests sufren prdida de poder y distorsin
de tamaEo cuando hay correlacin contempornea entre los Xi. &l problema aqu$ es
comple!o porque envuelve entender qu es y cmo opera la correlacin espacial.
7.23
Nm, Pesaran y 5hin .3CC20 proponen un test que .30 evita suponer que WiIW, y .*0
es menos comple!o de estudiar. &l test se basa en usar un promedio de los tests )?B
hechos para cada crossGsection de modo independiente(
+
t
i
=

j =1
p
i

ij
+
t j
i
+c
t
i
.2.;<0
sustituyendo en la ecuacin .230
y
t
i
=z
t
i
+j
i
y
t 1
i
+

j =1
p
i

ij
A y
t j
i
+c
t
i
.2.;20
La hiptesis nula es que cada Wi es una ra$z unitaria(
1D ( Wi I 3 para todos los i
13 ( Wi Y 3 para al menos un i
&l estad$stico de Nm, Pesaran, y 5hin, llamado t bar, es el promedio de los + tG
tests de la ecuacin .2;0(
t =
1
N

i =1
N
t
j
i
.2.;=0
La distribucin del estad$stico t bar no es fcil de computar porque depende del
valor promedio y la varianza det bar que son desconocidas. Nm, Pesaran, y 5hin
encuentran los valores por simulacin con datos artificiales. &n tal caso(
.
N
(
t
1
N

i =1
N
E| t
i
j
i
=1
)
.
1
N

i =1
N
V | t
i
j
i
=1
N(0,1) .2.;C0
La distribucin de este test se obtiene, nuevamente, siguiendo el proceso de
convergencia secuencial, es decir, primero se hace >OP y luego +OP, pero tiene la
restriccin adicional que +Z>OD . &sto es una debilidad si la muestra no es grande en
alguna dimensin o si + no es relativamente pequeEo.
4addala y Au .3CCC0 y Choi .*DD30 proponen hacer tests de ra$ces unitarias en
cada crossGsection y computar el valor p en cada caso. &l siguiente estad$stico(
7.24
P =2

i =1
N
ln p
i
34 (2N) .2.<D0
Las venta!as de este estimador son .30 no requiere un panel balanceado, .*0 los
largos de rezagos pueden diferir entre crossGsection, .90 no requiere WiIW. Las
desventa!as es que los valores p tienen que ser obtenidos por simulacin de 4ontecarlo
en cada caso.

Vous aimerez peut-être aussi