Vous êtes sur la page 1sur 308

NDICE

Parte I
PRESENTACIN.................................................................................................... ..............................4
1. LA ECONOMETRA: HISTORIA Y METODOLOGA.................................................................6
1.1. LOS ORGENES DE LA ECONOMETRIA............................................................................ 6
1.2. LOS MODELOS ECONOMTRICOS.................................................................................. 12
1.3. LA METODOLOGA ECONOMTRICA............................................................................ 14
2. EL MODELO LINEAL GENERAL.............................................................................................. 18
2.1. INTRODUCCIN.................................................................................................... ............18
2.2. REGRESIN LINEAL SIMPLE. EL MTODO DE LOS MNIMOS CUADRADOS
ORDINARIOS..................................................................................................... ............................18
2.3. REGRESIN LINEAL MLTIPLE...................................................................................... 25
2.4. PROPIEDADES ESTADISTICAS DEl ESTIMADOR MNIMO CUADRADO....................30
2.5. COEFICIENTES DE DETERMINACIN Y CORRELACIN PARCIAL............................31
2.5.1.
Coeficiente de determinacin......................................................................................... 31
2.5.2.
Coeficiente de correlacin parcial.................................................................................. 35
2.6. INFERENCIA ACERCA DE LOS ESTIMADORES.............................................................35
2.6.1.
Intervalos De Confianza................................................................................................ 36
2.6.2.
Contrastes de Hiptesis.................................................................................................. 39
2.7. TABLA DE ANALIS DE LA VARIANZA (ANOVA)..........................................................43
2.8. PREDICCIN EN EL MODELO DE REGRESIN..............................................................44
2.9. ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON EXCEL.......................46
2.10.
ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON R..........................54
2.11.
PROBLEMAS.................................................................................................... ...........59
3. EXTENSIONES AL MODELO DE REGRESIN LINEAL.........................................................62
3.1. INTRODUCCIN.................................................................................................... ............62
3.2. HETEROSCEDASTICIDAD................................................................................................ 65
3.2.1.
Test de Bartlett.................................................................................................... ..........65
3.2.2.
Contraste de Goldfeld-Quant.......................................................................................... 66
3.2.3.
Contraste de White.................................................................................................... ....69
3.3 AUTOCORRELACIN.................................................................................................... .........71
3.3.1. Contraste de Durbin-Watson................................................................................................ 71
3.3.1. Contraste de Breush-Godfrey............................................................................................... 75
3.4. DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD...............................................76
3.5. ERRORES DE ESPECIFICACIN.......................................................................................79
3.5.1.
Omisin de una variable relevante.................................................................................. 80
3.5.2.
Inclusin de una variable innecesaria............................................................................. 81
3.5.3.
Especificacin funcional incorrecta................................................................................ 82
3.5.4.
Contraste de errores de especificacin............................................................................83
3.6. MINIMOS CUADRADOS GENERALIZADOS...................................................................84
3.7. PROBLEMAS.................................................................................................... ..................91
4. MODELOS CON ERRORES EN LAS VARIABLES...................................................................95
4.1. INTRODUCCIN.................................................................................................... ............95
4.2. TIPOS DE ERRORES DE MEDIDA.....................................................................................96
4.2.1.
Errores de medida en la variable endgena.....................................................................96
4.2.2.
Errores de medida en la variable exgena....................................................................... 97
4.3. ESTIMACIN DE MODELOS CON ERRORES EN LAS VARIABLES............................100
4.4. APLICACIN PRCTICA................................................................................................. 102
4.5. PROBLEMAS.................................................................................................... ................104
5. MODELOS CON VARIABLES CUALITATIVAS.....................................................................107
5.1. MODELOS CON VARIABLES CUANTITATIVAS Y CUALITATIVAS COMO
REGRESORES..................................................................................................... .........................107
5.1.1.
Modelos ANOVA.................................................................................................... ....108
5.1.2.
Modelos ANCOVA.................................................................................................... .113

5.2. EL EMPLEO DE VARIABLES CUALITATIVAS PARA EL TRATAMIENTO DE LA


ESTACIONALIDAD.................................................................................................... .................122
5.3. APLICACIONES DE LAS VARIABLES CUALITATIVAS A LA REGRESIN POR
TRAMOS..................................................................................................... ..................................129
5.4. EL MODELO PROBABILSTICO LINEAL....................................................................... 130
5.5. EL MODELO LOGIT.................................................................................................... .....132
5.6. EL MODELO PROBIT.................................................................................................... ...137
5.7. PROBLEMAS.................................................................................................... ................142
6. MODELOS CON DATOS DE PANEL....................................................................................... 145
6.1. INTRODUCCIN.................................................................................................... ..........145
6.2. ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE PANEL......................146
6.3. VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS DE PANEL.................149
6.4. MODELO DE EFECTOS FIJOS......................................................................................... 151
6.5. MODELO DE EFECTOS ALEATORIOS........................................................................... 154
6.6. ELECCIN DE MODELO DE EFECTOS O EFECTOS ALEATORIOS............................156
6.7. PROBLEMAS.................................................................................................... ................163
7. MODELOS DE ECUACIONES SIMULTNEAS...................................................................... 165
7.1. INTRODUCCIN.................................................................................................... ..........165
7.2. FORMA ESTRUCTURAL Y REDUCIDA......................................................................... 167
7.3. DETECCIN DE LA SIMULTANEIDAD. PRUEBA DE HAUSMAN...............................172
7.4. IDENTIFICACIN DEL SISTEMA................................................................................... 177
7.4.1.
Condiciones de Orden y Rango en la Identificacin......................................................179
7.5. PROBLEMAS.................................................................................................... ................183
8. MTODOS DE ESTIMACIN DE MODELOS DE ECUACIONES SIMULTNEAS...............185
8.1. INTRODUCCIN.................................................................................................... ..........185
8.2. MNIMOS CUADRADOS INDIRECTOS (MCI)................................................................ 185
8.2.1.
Estimacin de curvas de oferta y demanda por MCI..................................................... 188
8.2.2.
Estimacin de Haavelmo de la propensin marginal al consumo por MCI.....................191
8.3. VARIABLES INSTRUMENTALES (VI)............................................................................ 194
8.3.1.
Estimacin una funcin keynesiana de consumo por VI................................................198
8.4. MNIMOS CUADRADOS EN DOS ETAPAS (MC2E).......................................................201
8.4.1.
Estimacin de un modelo de gastos e ingresos por MC2E............................................. 204
8.5. MODELOS RECURSIVOS................................................................................................ 210
8.5.1.
Estimacin de un Modelo Recursivo de Determinacin de Precios y Salarios................213
8.6. EJEMPLO PRCTICO: ESTIMACIN DE UN MODELO EXACTAMENTE
IDENTIFICADO POR MCI, VI Y MC2E....................................................................................... 216
8.7. PROBLEMAS.................................................................................................... ................223
9. MTODOS DE ESTIMACIN NO LINEALES......................................................................... 226
9.1. INTRODUCCIN.................................................................................................... ..........226
9.2. ESTIMACIN DE UN MODELO DE MODELOS NO LINEALES POR MINIMOS
CUADRADOS ORDINARIOS..................................................................................................... ..227
9.3. MNIMOS CUADRADOS NO LINEALES........................................................................ 229
9.3.1.
Algoritmo de Newton-Raphson.................................................................................... 231
9.4. EL ESTIMADOR DE MXIMA VEROSIMILITUD.......................................................... 234
9.5. APROXIMACIN LINEAL DE TAYLOR......................................................................... 236
9.6. PROBLEMAS.................................................................................................... ................240
10.
MTODOS DE ESTIMACIN NO PARAMTRICOS.......................................................... 242
10.1.
INTRODUCCIN.................................................................................................... ...242
10.2.
FUNCIN NUCLEO.................................................................................................. 244
10.3.
ESTIMADORES DE FUNCIN NUCLEO Y POLINOMIOS LOCALES...................249
10.4.
REGRESIN POR SPLINES...................................................................................... 259
10.5.
APROXIMACIN POR SERIES DE FOURIER.........................................................268
10.6.
PROBLEMAS.................................................................................................... .........274
ANEXO I. NOCIONES DE ALGEBRA MATRICIAL....................................................................... 277
ANEXO II. TABLAS ESTADSTICAS.............................................................................................. 293
BIBLIOGRAFA.................................................................................................... ...........................302

PRESENTACIN
En el ao 2004 el Departamento de Economa Aplicada y Estadstica de la Universidad
Nacional de Educacin a Distancia (UNED) encarg a los entonces profesores de la asignatura
econometra I de Administracin y Direccin de Empresas y Econmicas, elaborar un texto de
econometra que sirviera de bibliografa bsica para la misma, dicho texto que se public en
Ediciones Acadmicas bajo el ttulo de econometra, fue revisado y actualizado en 2007 y
editado de nuevo por Ediciones Acadmicas pero con un nuevo ttulo: Econometra Aplicada.
En lo que s, el manual sigue utilizndose como bibliografa en la UNED, ya que en septiembre
del 2006 deje de ser profesor de dicha asignatura. No obstante, durante el tiempo de docencia en
la UNED tambin participe en otros cursos de posgrado para los cuales tambin elabor
diferente material docente: Curso de Contabilidad Nacional y Tablas Input-Output y Curso de
Eficiencia y Productividad, dentro del Programa de Doctorado del Departamento de Economa
Aplicada y Estadstica, y Mster en Economa Aplicada y Programa Modular Economa
Aplicada.
La parte que redact de manual de Econometra y Econometra Aplicada se haba basado a su
vez en los apuntes de otro curso de estadstica y econometra para empleados pblicos que
impart junto a Mauricio Beltrn Pascual dentro de los programas de formacin de funcionarios
de la Junta de Castilla y Len. El curso se denominaba: Estadstica Aplicada a la
Administracin Pblica, y los materiales del curso acabaron editndose por la Junta de Castilla
y Len, sin ISBN, en una serie de Metodologas Estadsticas, bajo el ttulo: Apuntes de Anlisis
Estadstico Aplicados a la Administracin Pblica. La serie tuvo corta vida, ta solo dos
nmeros, y con el tiempo el curso pas a denominarse Aplicaciones Estadsticas en las Hojas de
Clculo, y Curso de Estadstica Descriptiva y Anlisis de Datos con la Hoja de Calculo Excel,
cuando se incluy en el ao 2007 en los programas de formacin del Centro de Estudios de la
Administracin Regional del Gobierno de Cantabria. En el 2011 se program el ltimo de
aquellos cursos, ya que en el 2012 pase a impartir la asignatura de Econometra dentro de la
licenciatura y grado de Administracin y Direccin de Empresas de la Universidad de Cantabria
y andaba escaso de tiempo.
Dado que haba reunido un amplio material de recursos docentes tanto de la asignatura de
econometra I UNED, los cursos de postgrado en los que participe, como en los cursos
impartidos para las administraciones pblicas, en 2007 abr un blog en wordpress:
Http://econometria.wordpress.com/ en el que reun una parte de aquellos documentos, que
posteriormente fui ampliando bien con el material de otros cursos que me fueron encargados
(Curso de Contabilidad Trimestral) y anlisis estadsticos propios basados en Series de Fourier.

Del blog, los recurso ms descargados fueros un curso de econometra bsica, y otro de
econometra avanzado, que ha sido sucesivamente actualizado con los anlisis estadsticos
basados en series de Fourier.
Dado que ha sido ya suficiente el tiempo que ha pasado desde la aparicin del primer manual de
econometra editado por ediciones acadmicas, me propuse actualizar este con los contenidos
que se difunden a travs del blog, ampliando los captulos ya publicados, redactando nuevos
captulos sobre econometra no parmetrica, cointegracin, regresin en dinmica de la
frecuencia y el uso de filtros desestacionalizadores, e incorporando junto a los ejemplos
desarrollados en Excel otros desarrollados en R, software que est ganando mucho terreno en la
docencia de la econometra. Entre dichos materiales se incluye la base terica de librera en R
descomponer que elabor para extraer tendencias y estacionalidades en series de tiempo en
base al periodograma de la serie temporal. Dado que uno de los contenidos de los cursos de
formacin para las Administraciones Pblicas era la elaboracin de nmeros ndices de precios
y cantidades, se ha incluido otro capitulo con estos contenidos, a pesar de que los nmeros
indices no es materia de las enseanzas de econometra. Al haber aumentado de forma notable
el indice de captulos, se ha dividido este en dos partes, en la primera se incluyen los captulos
ms generales sobre la tcnica economtrica y en una segunda parte los ms especficos
relativos a las series temporales.
Desde que cree el blog de econometra aplicada, he comprobado que la mayor parte de las
descargas proceden de Amrica Latina, supongo que estos materiales estn facilitando de alguna
u otra manera que los jvenes latinoamericanos puedan disponer de materiales de econometra
en Castellano para completar sus estudios. Este es en definitiva el objetivo ltimo de este
manual facilitar el estudio y la aplicacin de la econometra a la comunidad de hispana de la
manera ms abierta posible.

1.

LA ECONOMETRA: HISTORIA Y METODOLOGA

1.1.

LOS ORGENES DE LA ECONOMETRIA

La Econometra es una disciplina independiente de la Estadstica mediante la que se trata de


contrastar la validez emprica de la teora econmica mediante modelos matemticos y
estadsticos. Para lograr este objetivo se utiliza como instrumento bsico el modelo
economtrico, el cual trata de ser una representacin simplificada del mundo real mediante la
que es posible reproducir el comportamiento y las interrelaciones que se dan entre diversas
variables econmicas.

El trmino 'econometra' fue utilizado por primera vez por Pawel Ciompa en 1910, siendo
rescatado por Frisch en su artculo de 1936 titulado Note on term Econometrics; este autor,
socio fundador de la Econometric Society, le asigna el significado que atribuimos en la
actualidad a este trmino. Dicho significado queda recogido en el primer artculo de los
estatutos de la mencionada sociedad, y en el mismo se menciona la necesidad del progreso de la
teora econmica mediante la utilizacin del anlisis estadstico y matemtico.

En un sentido ms formal, se han propuesto a lo largo de la historia diferentes definiciones que


apuntan en la misma direccin e integran los mismos elementos (matemticas, estadstica y
datos econmicos). Samuelson, Koopmans y Stone (1954) definen la Econometra como el
anlisis cuantitativo de fenmenos econmicos actuales, basado en el desarrollo congruente de
teora y observaciones, y relacionado por mtodos apropiados de inferencia; Intriligator
(1978) seala que es la rama de la economa relacionada con la estimacin emprica de las
relaciones econmicas. Chow (1983) la define como el arte y ciencia de usar mtodos para
la medida de relaciones econmicas. Stewart y Wallis (1984) consideran que la Econometra
es aquella ciencia que se ocupa de la medicin de las relaciones entre las variables
econmicas y de la confrontacin de la teora con la evidencia emprica. Finalmente, Greene
(1993) seala que es el campo de la Economa que se refiere a sta como aplicacin de la
Estadstica Matemtica y los instrumentos de la Estadstica Inferencial a la medicin emprica
de las relaciones postuladas por la Teora Econmica.

Si bien el trmino econometra fue reconocido en 1936, se considera a Henry Moore (1914,
1917) el primer autor en efectuar una estimacin de relaciones econmicas de demanda a partir
de estadsticas econmicas. Las regresiones lineales de Moore crearon escuela y entre sus
seguidores cabe destacar a Henry Schultz, Holbrook Working y Paul Douglas, entre otros.
Working (1927) plante la estimacin de mercados en equilibrio, descubri en sus trabajos los
problemas asociados a los errores en las variables y plante inicialmente la importancia de las
expectativas. Schultz (1938) public un libro ntegramente dedicado a la teora y anlisis de la
demanda en Estados Unidos, demostrando una preocupacin permanente por la unin entre
teora y medida.

La otra rea de estudio con inters para los pioneros del anlisis estadstico econmico, la
constituan los ciclos econmicos. Si bien en los trabajos iniciales de Sir William Petty se
dejaba constancia de los ciclos, no ser hasta el siglo XIX cuando renacer la curiosidad por su
estudio. As, el fsico francs Clement Juglar (1819-1905) es el primero en utilizar las series
histricas para el estudio del ciclo en los negocios, descubriendo un ciclo para la inversin de 7
a 11 aos de duracin. A este trabajo le siguen los de Kitchin, Kuznets y Kondratieff,
identificando un ciclo de los inventarios de 3 a 5 aos, un ciclo de la construccin de 15 a 25
aos y un ciclo de actividades a largo de 45 a 60 aos.

En general estos estudios de los ciclos y los emprendidos posteriormente por Mitchell (1927) y
Burns y Mitchell (1947) en el National Bureau of Economic Research, fueron de tipo
morfolgico y descriptivo, por lo que las relaciones entre variables constituan un segundo
plano de inters. No servirn, por tanto, de ayuda para el empuje del anlisis economtrico ya
que sus objetivos y metodologa son diferentes.

Por el contrario, los trabajos de Wright (1915, 1928), Working (1927), Tinbergen (1930) y
Frisch (1933) sobre anlisis de la demanda, planteando el problema de la identificacin en las
relaciones estructurales entre variables econmicas, sientan las bases para el desarrollo
economtrico que culminara en la creacin de la Econometric Society en 1930, de la mano de
Fisher, Frisch y Roos. Dicha sociedad, junto con los trabajos de la Cowles Commission,
sentaran las bases de la Econometra actual.

La importancia asignada a la creacin de la Econometric Society se debe a la obtencin de una


agrupacin de economistas con preocupaciones de tipo cuantitativo, creando un instrumento de
expresin de los mismos mediante la revista Economtrica. En ese momento la Econometra
deja de ser una actividad dispersa, facilitndose el intercambio de informacin entre
investigadores, convirtindose as en un movimiento organizado con un medio para el

intercambio de ideas y resultados.

Una vez creada la Econometric Society era importante disponer de una institucin donde
localizar y centralizar las investigaciones sobre la nueva disciplina; ste ser el papel a
desempear por la Cowles Commission. La Cowles Commission for Research in Economics,
era una institucin sin fines lucrativos fundada por Alfred Cowles III, presidente de una
sociedad de inversores. Su objetivo era la aplicacin de las matemticas a la economa con el fin
de obtener buenas predicciones de las cotizaciones en Bolsa.

Sin embargo, no tardarn en aparecer las primeras crticas a los mtodos utilizados por los
primeros econmetras, As, podemos encontrar la del propio Keynes juzgando a la econometra
como prxima a la alquimia y sin resultados fiables al considerar el contexto econmico
difcilmente modelizable por relaciones matemticas, o la de Milton Friedman dudando del
mtodo de Tinbergen para seleccionar una teora econmica entre varias estimadas
empricamente. Asimismo, un alumno de Frisch, Trygve Haavelmo (1943,1944) demuestra la
inconsistencia de la estimacin por Mnimos Cuadrados Ordinarios (MCO) y la simultaneidad
en los sistemas macroeconmicos, poniendo de manifiesto la necesidad de cuestionar los
procedimientos basados en MCO. Haavelmo propone la introduccin del modelo probabilstico
para sustentar la base de la metodologa economtrica, modelo que ser adoptado inicialmente
por la Cowles Commission para realizar estimacin e inferencia.

En 1950 la Cowles Commission public la obra "Statistical Inference in Dynamic Economic


Models", obra elaborada por un equipo de prestigiosos investigadores del que formaron parte
Marschak, Tjalling, Koopmans, Hurwicz, Rubin, Klein y Anderson, que recoga todos los
trabajos y avances realizados en aos anteriores y establece las normas bsicas de la
investigacin economtrica.

Todo el conocimiento acumulado en los aos treinta y cuarenta conduce un espectacular


desarrollo de la Econometra durante los aos cincuenta; de entre los avances que se producen
en la poca cabe destacar los siguientes:

A mediados de los aos cincuenta aparece el mtodo de estimacin por Mnimos


Cuadrados en 2 Etapas (MC2E), desarrollado por Theil (1954, 1958) y Bassmann
(1957), el cual debido a su sencillez y facilidad de clculo gozar de una gran

aceptacin como mtodo de estimacin de modelos de ecuaciones simultneas frente a


los mtodos de Mxima Verosimilitud con Informacin Completa (MVIC), propuesto
por Koopmans (1950), y con Informacin Limitada (MVIL), propuesto por Anderson y
Rubin (1949); posteriormente, a finales de esta dcada, aparecer el mtodo de las
Variables Instrumentales (VI) propuesto por Sargan (1958).

Klein y Goldberger (1955) desarrollan y perfeccionan su trabajo anterior, dando lugar a


uno de los modelos ms populares entre los econmetras: el modelo Klein-Goldberger,
el cual incorpora novedades a las especificaciones de los modelos macroeconmicos
precedentes, determinando el consumo no solamente a travs de la renta, sino tambin a
travs de los efectos riqueza e impuestos, e incorporando por primera vez funciones de
produccin.

Otro acontecimiento de importancia capital en el desarrollo de la econometra y los


grandes modelos estructurales se produce en 1958, cuando los editores de Econometrica
promueven un Congreso bajo el ttulo de Estimacin de ecuaciones simultneas:
Alguna sentencia? y con el que se pretenda establecer un debate sobre el mtodo
propuesto por la Cowles Commission. Como era de esperar, en dicho Congreso hubo
diferentes posiciones, destacando las de Liu (1960), Hildreth (1960), Christ (1960) y
Klein (1960).

Sin embargo, el esplendor de que goz la Econometra en los aos cincuenta pronto se vera
eclipsado por la crisis que se produjo a comienzos de los aos setenta a causa de la elevacin de
los precios energticos, hecho que no pudo ser previsto por ningn modelo economtrico. Ello
afect directamente al pensamiento econmico general y al desarrollo posterior de la
Econometra.

Una de las primeras crticas que se lanz en contra de los modelos economtricos era que se
haban dejado de lado los planteamientos microeconmicos, por lo que los modelos
economtricos que slo utilizaban agregados macroeconmicos no podan representar de forma
consistente la conducta racional y optimizadora de los agentes econmicos. Esta crtica propici
la incorporacin de datos y relaciones microeconmicas, dando lugar a la rama conocida como
Microeconometra. Entre los principales desarrollos alcanzados en esta rea cabe destacar los
siguientes:

Por un lado, los Modelos con Variable Dependiente Cualitativa, en los que se considera
que la variable dependiente admite un conjunto acotado de valores discretos,

generalmente 0 1, mediante los que es posible representar cualidades de los


individuos. Entre los trabajos pioneros en este campo estn los de McFadden (1974,
1976) y Amemiya (1978), en los que se considera una aproximacin logstica en la
estimacin de estos modelos (modelo Logit), mientras que en Albright, Lerman y
Manski (1977) se estudia la aproximacin mediante una distribucin Normal (modelo
Probit).

Por otro lado, los Modelos de Datos de Panel en los que se incluye informacin de una
muestra de agentes econmicos (individuos, empresas, bancos, ciudades, pases, etc.)
durante un determinado perodo de tiempo, combinando as la dimensin temporal y la
dimensin estructural de los datos. Entre los trabajos ms notables de esta lnea, cabe
mencionar a Kuh (1959), Balestra y Nerlove (1966), Rosenberg (1973) y Swamy y
Mentha (1977).

Mencin aparte merece el espectacular desarrollo que se produce en esta dcada del anlisis
economtrico de series temporales, tanto de tipo multivariante como, especialmente,
univariante.

Los modelos univariantes de series temporales giran, de forma mayoritaria, en torno a la


metodologa desarrollada por Box y Jenkins (1970). Dichos autores proponen la construccin de
modelos sobre una variable temporal, tratndola como un mecanismo autnomo, cuya gran
ventaja es la mejora de las predicciones a corto plazo. La metodologa Box-Jenkins supone la
ruptura con la econometra clsica y con el pensamiento econmico en general al no existir una
relacin con la teora econmica, por lo que no pueden ser considerados como una alternativa a
los modelos estructurales multiecuacionales.

Sin embargo, la principal crtica realizada durante los aos setenta de los mtodos
economtricos se centra en la identificacin y estimacin de modelos multiecuacionales.
Partiendo del trabajo de Muth (1961), Lucas (1972, 1973), Sargent (1973) y Sargent y Wallace
(1975), abanderados de la escuela de las expectativas racionales, plantean la duda sobre la
permanencia a lo largo del tiempo de los parmetros estructurales incluidos en los modelos
macroeconmicos, ante cambios en la poltica econmica del gobierno. Es decir, no existe nada
que nos garantice que la estructura de las reglas de decisin de los agentes econmicos quedar
inalterada al modificar las reglas de poltica econmica; y dado que esta estructura es la que
representa el modelo, no hay razn para pensar que los parmetros del mismo sean fijos. Por
tanto, si no separamos los parmetros de las decisiones polticas de los de las relaciones
econmicas, los modelos que estimemos no podrn ser utilizados en la toma de decisiones.

La solucin adoptada para resolver este problema ha sido la inclusin del proceso de formacin
de las expectativas racionales en los modelos economtricos, asegurando la coexistencia entre
expectativas y simulaciones mediante la imposicin de restricciones paramtricas entre
ecuaciones.

Finalmente, otra crtica importante a la econometra clsica es la planteada por Sims (1980,
1982) a comienzos de los aos ochenta. La idea central de Sims es que no es necesaria la
existencia de una teora econmica a priori para establecer las restricciones que hagan posible
la identificacin de modelos estructurales, ya que no es necesario para la previsin y
simulacin. Sims propone una nueva clase de modelos como alternativa a los modelos de
ecuaciones simultneas, los Vectores Autorregresivos (VAR), en los que no es necesario
clasificar las variables en endgenas y exgenas.

Sin embargo, el desconocimiento que los modelos VAR conllevan sobre las relaciones de tipo
estructural (variables endgenas, exgenas, forma estructural) no permite realizar una
aproximacin a los efectos producidos por cambios en la poltica econmica, con lo que su
campo de aplicacin se limita a la simple previsin.

A finales de la dcada pasada. Granger y Newbold (1974) advirtieron sobre el peligro que
supone especificar relaciones espreas, es decir, relaciones no de causalidad sino de casualidad.
Sus estudios aumentaron el inters por la modelizacin dinmica y las propiedades a largo plazo
de los modelos economtricos. Su contribucin ha dado lugar a los conceptos de cointegracin
(Granger, 1981), el test de raiz unitaria (Dickey y Fuller, 1979) y los modelos de correccin de
error (Sargent, 1984).

En los ltimos aos, en paralelo al avance de las nuevas tecnologas de la informacin y al


desarrollo de las grandes bases de datos, asistimos a un nuevo cambio conceptual de la teora
economtrica, poniendose en cuestin los supuestos sobre la normalidad de la distribucin de
probabilidad de las variables sujetas al anlisis. Otros problemas que enfrentan los
investigadores hoy da son la existencia de datos imperfectos con poca correspondencia con las
variables definidas en los modelos econmicos y el poco entendimiento del verdadero
significado de algunas pruebas de hiptesis. En consecuencia, se estan produciendo desarrollos
tericos que permiten un mayor acercamiento a los procesos econmicos tal y como se
presentan y que no exigen el supuesto de normalidad de las variables bajo estudio (o del

trmino de error). Entre los avances tericos ms recientes que merecen ser mencionados se
encuentran el desarrollo de la econometra no paramtrica y la econometra de series de tiempo
no lineales.

1.2.

LOS MODELOS ECONOMTRICOS

El mtodo cientfico en las Ciencias Sociales se basa tanto en la deduccin como en el


conocimiento emprico. La deduccin es el proceso de razonamiento lgico que conduce a unas
conclusiones partiendo de unas premisas o informaciones iniciales. El conocimiento emprico
objetiva el conocimiento a travs de la experiencia, de los hechos y de la Historia.
El punto de partida del investigador es la realidad, los hechos econmicos tal y como se
producen en la sociedad. La lectura de esos datos y el conocimiento general de la realidad
sugerirn al investigador alguna hiptesis explicativa de las razones por las que los datos
ofrecen una determinada magnitud o evolucin. Esas hiptesis son las que permiten organizar
los datos y dan lugar a la formulacin de leyes, teoras y modelos.
Las leyes expresan las regularidades encontradas en las series de datos. Las teoras son una
forma de organizar las hipotticas leyes y facilitan la comprensin del funcionamiento de la
economa. Finalmente, los modelos son construcciones intelectuales basadas en las teoras que
permiten realizar estimaciones de los efectos que pueden derivarse de cambios en los datos
reales. Los modelos constituyen por tanto un puente entre la teora pura y el mundo real,
pudiendo contrastarse si una determinada teora es una buena representacin de los hechos que
trata de explicar o no.
En el caso de la ciencia econmica, los modelos estn basados generalmente en supuestos
simplificadores de la realidad y estn formados generalmente por ecuaciones matemticas que
relacionan distintas variables. Dichas variables pueden dividirse en variables exgenas, que son
aquellas cuyos valores deben ser tomados de la realidad; y variables endgenas, que son
aquellas cuyo valor es deducido al operar con las ecuaciones del modelo. Ambos tipos de
variables se relacionan mediante un conjunto de parmetros, los cuales deben ser estimados.
Los modelos permiten realizar predicciones econmicas susceptibles de ser contrastadas con la
realidad. Dichas predicciones son probabilsticas y no deterministas; es decir, que con los
modelos econmicos no es posible predecir con precisin cul ser, por ejemplo, el consumo
exacto que realizar un determinado individuo, pero s se puede prever el comportamiento de
grandes agregados de consumidores estableciendo unos mrgenes de error entre los que estar
comprendido, o lo que es lo mismo, estimando la probabilidad de que esa prediccin se cumpla.

Segn el objeto de anlisis, podemos distinguir diversos tipos de modelos econmicos:

Modelos Macroeconmicos, cuando los modelos representan la economa en su


totalidad; se trata de modelos en los que generalmente existe poco detalle sectorial con
los que se pretende cuantificar los resultados de las polticas macroeconmicas, como
puede ser un aumento del gasto pblico o de la imposicin directa. La mayora de los
economistas que realizan predicciones utilizan tales modelos.

Modelos Microeconmicos, los cuales analizan la situacin de una cierta industria,


mercado o institucin.

Asimismo, atendiendo al tipo de relaciones que se establecen entre las variables del modelo
podemos distinguir entre:

Modelos Deterministas, en los que las relaciones exactas entre las variables del modelo
son exactas. Se trata generalmente de modelos en los que se parte de una o varias
variables, denominadas inputs, a partir de las cuales se intenta conocer el
comportamiento

de

otras

variables,

denominadas

output,

mediante

diversas

transformaciones matemticas. Un ejemplo de este tipo de modelos son las tablas inputoutput de Leontief.

Modelos Estocsticos, en los que las relaciones entre las variables no son exactas, ya
que existe un componente de carcter aleatorio, denominado trmino de error o
perturbacin aleatoria, que forma parte de las ecuaciones del modelo. Dicho
componente aleatorio recoge todos aquellos aspectos que no quedan especificados en la
relacin causal establecida en el modelo tales como determinadas circunstancias
acontecidas de carcter impredecible (shocks) que influyen en la relacin estudiada y
los errores en la medicin, documentacin y computacin de las variables observables
que aproximan las variables tericas del modelo. En la literatura econmica, la mayor
parte de los modelos economtricos son de este tipo estocstico.

Segn el tipo de datos de las variables utilizadas en el modelo, podemos distinguir entre:

Modelos de Series Temporales, en los que se utilizan datos recogidos a lo largo de un


determinado periodo de tiempo: das, semanas, meses, trimestres o aos. Ejemplos de
este tipo de variables son las cotizaciones diarias de las acciones, el ndice de Precios al
Consumo, la Encuesta de Poblacin Activa, los datos anuales y trimestrales del
Producto Interior Bruto, etc.

Modelos de Series de Corte Transversal, en los que se utilizan datos referidos a


diferentes individuos en un mismo momento del tiempo. Ejemplos de datos
transversales seran los productos consumidos por diferentes familias en un
determinado ao, las ventas que realizan diversas empresas que forman una
determinada industria en un determinado trimestre, el paro registrado en los municipios
espaoles en un determinado semestre, etc.

Modelos de Datos de Panel, en los que se combinan datos de diversos individuos


recogidos a lo largo del tiempo.

Considerando la existencia o no de retardos de las variables incluidas en el modelo podemos


diferenciar entre:

Modelos Estticos, cuando las relaciones entre las variables del modelo tienen lugar en
el mismo instante del tiempo tanto para la variable endgena como para todas las
variables explicativas del modelo.

Modelos Dinmicos, cuando las relaciones entre las variables del modelo estn
referidas a diferentes momentos en el tiempo, de forma que un modelo dinmico se
construye con variables retardadas.

Finalmente, segn el nmero de variables endgenas que deseemos explicar podemos distinguir
entre:

Modelos Uniecuacionales, que constan de una nica variable endgena.

Modelos Multiecuacionales, que poseen varias variables endgenas, algunas de las


cuales pueden ser a su vez variables explicativas en otras ecuaciones.

1.3.

LA METODOLOGA ECONOMTRICA

En trminos generales, la metodologa economtrica tradicional considera los siguientes pasos


en lo referente a la elaboracin de modelos:
1. Planteamiento de la teora o hiptesis: generalmente se utiliza una construccin terica
de la Macroeconoma y/o Microeconoma, como por ejemplo la funcin keynesiana de
consumo, la curva de Phillips, la teora de la demanda del consumidor, etc.

2. Especificacin: el siguiente paso es establecer la relacin formal entre las variables a


que da lugar la teora. Dicha relacin se establece en forma matemtica funcional,
mediante una ecuacin o un sistema de ecuaciones. Las variables que reciben los
efectos son las variables endgenas, las cuales figuraran a la izquierda de las
igualdades, mientras que las que producen los efectos, son las denominadas variables
exgenas, las cuales aparecen en el lado derecho de las ecuaciones. Los efectos de cada
variable exgena se cuantifican a travs de una serie de parmetros que debemos
estimar. Asimismo, en cada ecuacin del modelo existir un trmino de error o
perturbacin que recoge los efectos aleatorios y que tendr unas propiedades
probabilsticas definidas.
Una vez establecida la relacin funcional matemtica, deberemos seleccionar datos de
los que dispongamos nos servirn para representar los valores de las variables tericas.
Por ejemplo, si incluimos en el modelo como variable terica la renta tendremos que
elegir los datos que utilizaremos para representar dicha variable de entre las encuestas
de que dispongamos: la renta familiar disponible, la renta interior, la renta nacional, etc.
En algunas ocasiones, puede ocurrir que no exista una variable estadstica que responda
a los requisitos que exijamos, por lo que deberemos considerar la existencia de un
posible error de observacin.
En definitiva, para la especificacin de un modelo completo habr que especificar
claramente lo siguiente:

variables endgenas tericas (y sus respectivos valores observados)

variables exgenas tericas (y sus respectivos valores observados)

perturbaciones aleatorias (no observables)

errores de observacin en las variables endgenas

errores de observacin en las variables exgenas.

3. Seleccin de datos: una vez hemos especificado el modelo procederemos a la obtencin


de un nmero de suficiente de datos que tengan las siguientes caractersticas:

Suficientes: como mnimo para poder realizar la estimacin, el nmero de


observaciones debe ser igual al nmero de parmetros que queremos
estimar; de lo contrario, la estimacin obtenida no resultar fiable.

Homogneos: los datos deben estar expresados de una forma homognea;


esto quiere decir que todos deben estar expresados en las mismas
magnitudes o valores y tienen que haber sido obtenidos por procedimientos
estadsticos semejantes. Asimismo, si fuera necesario, todas las variables
debern estar corregidas de la misma manera de determinados efectos que
se dan en las variables econmicas como la tendencia o la estacionalidad.

Actuales: la falta de actualidad en los datos es un problema grave, en


particular si el modelo que construimos tiene como finalidad predecir los
valores futuros o realizar simulaciones de poltica econmica.

4. Estimacin: se trata del procedimiento utilizado para obtener el valor de los parmetros
del modelo. Habitualmente la tcnica utilizada es el anlisis de regresin que incluye
diferentes tcnicas: Mnimos Cuadrados Ordinarios (MCO), Mnimos Cuadrados
Indirectos (MCI), Variables Instrumentales (VI), Mnimos Cuadrados en 2 Etapas
(MC2E), Mnimos Cuadrados Generalizados (MCG), etc.
Las tcnicas economtricas requieren realizar clculos a veces muy complejos, por ello
es de gran utilidad el auxiliarnos de herramientas como hojas de clculo (Excel, Lotus
123, etc.) y programas estadsticos y economtricos (EViews, SPSS, SAS, etc.)
5. Validacin: una vez que se han estimado los parmetros del modelo, habr que verificar
que los valores obtenidos concuerdan con los postulados de la teora que se ha utilizado
para la construccin del modelo.
La validacin del modelo se realiza mediante la tcnica estadstica de inferencia o
contraste de hiptesis, que consiste en analizar mediante pruebas estadsticas la bondad
del ajuste y la significatividad estadstica de los valores estimados, de tal forma que si el
modelo no ha dado los resultados esperados deber perfeccionarse mediante:

Un cambio en la forma matemtica funcional del modelo.

Incluyendo en el modelo alguna variable explicativa que haya sido omitida.

Reemplazando las observaciones utilizadas para representar las variables


endgenas y explicativas por otras que posean un menor error de observacin.

6. Utilizacin: una vez validado, el modelo economtrico puede ser utilizado para diversas
tareas tales como:

Anlisis estructural: cuantificar las relaciones que entre las variables endgenas
y exgenas.

Prediccin: dados unos valores de las variables explicativas, podemos obtener


mediante el modelo estimado el valor futuro que tomar la variable endgena.

Simulacin o evaluacin de polticas: efectos que tienen sobre la variable


endgena (variable objetivo) las diferentes estrategias que se planteen sobre las
variables explicativas (variables de control).

2.

EL MODELO LINEAL GENERAL

2.1.

INTRODUCCIN

La regresin lineal es la tcnica bsica del anlisis economtrico. Mediante dicha tcnica
tratamos de determinar relaciones de dependencia de tipo lineal entre una variable dependiente
o endgena, respecto de una o varias variables explicativas o exgenas. Gujarati (1975), define
el anlisis de regresin como el estudio de la dependencia de la variable dependiente, sobre una
o ms variables explicativas, con el objeto de estimar o predecir el valor promedio poblacional
de la primera en trminos de los valores conocidos o fijos (en medias muestrales repetidas) de
las ltimas.

En este capitulo abordaremos el estudio del caso de una nica ecuacin de tipo lineal con una
variable dependiente y una independiente, y la generalizacin del modelo al caso de mltiples
variables exgenas. Las extensiones del modelo lineal general se analizaran en captulos
siguientes.

2.2.

REGRESIN

LINEAL SIMPLE.

EL MTODO DE LOS

MNIMOS CUADRADOS ORDINARIOS.


Partimos de la existencia de una relacin lineal entre una variable endgena (Y) y k variables
exgenas (Xi):

Yi 0 1 X 1i 2 X 2i ... k X ki ei
Nuestro objetivo consiste en estimar los parmetros i de la ecuacin anterior a partir de los
datos muestrales de los que disponemos. Para ello utilizaremos el mtodo de los Mnimos
Cuadrados Ordinarios (MCO), pero antes de ver en que consiste este mtodo debemos plantear
ciertas hiptesis sobre el comportamiento de las variables que integran el modelo.

La variable et la denominamos trmino de perturbacin o error, y en ella recogemos todos


aquellos factores que pueden influir a la hora de explicar el comportamiento de la variable Y y
que, sin embargo, no estn reflejados en las variables explicativas, Xi. Estos factores deberan
ser poco importantes, ya que no debera existir ninguna variable explicativa relevante omitida
en el modelo de regresin. En caso contrario estaramos incurriendo en lo que se conoce como
un error de especificacin del modelo. El trmino de perturbacin tambin recogera los
posibles errores de medida de la variable dependiente, Y.

De lo anterior se desprende que, a la hora de estimar los parmetros del modelo, resultar de
vital importancia que dicho trmino de error no ejerza ninguna influencia determinante en la
explicacin del comportamiento de la variable dependiente. Por ello, si el modelo esta bien
especificado, cuando se aplica el mtodo de Mnimos Cuadrados Ordinarios, cabe realizar las
siguientes hiptesis de comportamiento sobre el trmino de error:

1. La esperanza matemtica de et es cero, tal que E(ei) = 0. Es decir, el comportamiento


del trmino de error no presenta un sesgo sistemtico en ninguna direccin determinada.
Por ejemplo, si estamos realizando un experimento en el cual tenemos que medir la
longitud de un determinado objeto, a veces al medir dicha longitud cometeremos un
error de medida por exceso y otras por defecto, pero en media los errores estarn
compensados.
2. La covarianza entre ei y ej es nula para i j tal que E(eiej) = 0. Ello quiere decir que el
error cometido en un momento determinado, i, no debe estar correlacionado con el error
cometido en otro momento del tiempo, j, o dicho de otro modo, los errores no ejercen
influencia unos sobre otros. En caso de existir este tipo de influencia o correlacin, nos
encontraramos ante el problema de la autocorrelacin en los residuos, el cual impide
realizar una estimacin por Mnimos Cuadrados vlida.

3. La matriz de varianzas y covarianzas del trmino de error debe ser escalar tal que
Var(e i) = 2I, i=1,,n, donde I es la matriz unidad. Dado que siempre que medimos
una variable, se produce un cierto error, resulta deseable que los errores que cometamos
en momentos diferentes del tiempo sean similares en cuanta. Esta condicin es lo que
se conoce como supuesto de homocedasticidad que, en caso de no verificarse, impedira
un uso correcto de la estimacin lineal por Mnimos Cuadrados.

Estas hiptesis implican que los errores siguen una distribucin Normal de media cero y
varianza constante por lo que, dado su carcter aleatorio, hace que los errores sean por
naturaleza impredecibles.

Asimismo, las variables incluidas en el modelo deben verificar que:

1. El comportamiento de la variable independiente Y se ajusta al modelo lineal durante


todo el periodo muestral, es decir, no se produce un cambio importante en la estructura
de comportamiento de Y a lo largo de la muestra considerada.

2. Las variables explicativas, Xi, son no estocsticas, es decir, son consideradas fijas en
muestreos repetidos.

3. El nmero de variables explicativas, k, siempre debe ser menor que el tamao muestral,
n. Es decir, siempre debemos disponer de ms observaciones que parmetros haya en el
modelo (coeficientes ).

Partiendo de la relacin lineal ms sencilla:

Yi 0 1 X 1i ei
Si suponemos que se verifican los supuestos anteriores, la estimacin mnimo cuadrtica de los
parmetros 0 y 1, dar como resultado grfico una recta que se ajuste lo mximo posible a la
nube de puntos definida por todos los pares de valores muestrales (Xi,Yi), tal y como se puede
apreciar en el Figura 2.1.

Fig. 2.1. Nube de puntos o grfico de dispersin con variables relacionadas linealmente

El trmino de error, ei, puede ser entendido, a la vista del grfico anterior, como la distancia
que existe entre el valor observado, Yi, y el correspondiente valor estimado, que sera la
imagen de Xi en el eje de ordenadas. El objetivo de la estimacin por Mnimos Cuadrados
Ordinarios es, precisamente, minimizar el sumatorio de todas esas distancias al cuadrado; es
decir 1:

i 1

i 1

i 1

ei2 (Yi Yi ) 2 (Yi 0 1 X i ) 2

Min

Derivando esta expresin respecto a los coeficientes 0 y 1 e igualando a cero obtenemos el


sistema de ecuaciones normales:

i 1

i 1

Yi n0 1 X i Y o 1 X
n

i 1

i 1

i 1

Yi X i 0 X i 1 X i2

Los parmetros y variables que llevan encima un smbolo de acento circunflejo (^) indican que
son estimadas por lo que no se corresponden con el valor real del parmetro sino con el calculado por
nosotros.

donde n representa el tamao muestral y X e Y representan las medias de dichas variables .


Resolviendo dicho sistema de ecuaciones obtenemos la solucin para los parmetros a y b:
n

X Yi Y

i 1

i 1

o Y 1 X

Ejemplo 2.1.
Supongamos que el director de una empresa piensa que la demanda de un producto que l
comercializa depende nicamente del precio de venta al pblico. Para estudiar la demanda de
este producto pretende estimar el siguiente modelo:

Yt 0 1 X t et

donde Yt es la cantidad vendida anualmente del bien Y en el ao t, y Xt es el precio medio al


cual se vendi el bien Y durante el ao t. Se dispone de los siguientes datos muestrales:

Ao

Yt

Xt

1988

10

19

1989

12

18

1990

13

16

1991

14

15

1992

15

15

1993

17

14

1994

20

14

1995

21

13

1996

22

12

1997

20

13

A partir de estos datos iniciales podemos calcular la siguiente tabla:

Yt

Xt

(Yt Y )

(Xt X )

(Yt Y )( X t X )

(X t X )2

(Yt Y ) 2

10

19

-6.4

4.1

-26.24

16.81

40.96

12

18

-4.4

3.1

-13.64

9.61

19.36

13

16

-3.4

1.1

-3.74

1.21

11.56

14

15

-2.4

0.1

-0.24

0.01

5.76

15

15

-1.4

0.1

-0.14

0.01

1.96

17

14

0.6

-0.9

-0.54

0.81

0.36

20

14

3.6

-0.9

-3.24

0.81

12.96

21

13

4.6

-1.9

-8.74

3.61

21.16

22

12

5.6

-2.9

-16.24

8.41

31.36

20

13

3.6

-1.9

-6.84

3.61

12.96

Total

164

149

-79.6

44.9

158.4

Media

16.4

14.9

Aplicando las formulas vistas anteriormente:


n

(X

X )(Yt Y )

t 1

(X

X )2

79.6
1.7728
44.9

i 1

0 Y 1 X 16.4 (1.772814.9) 42.82

de donde la ecuacin de la recta estimada ser: Yt 42.82 1.7728 X t et

Finalmente, sustituyendo en la expresin anterior los valores de Xt podemos obtener los valores
de Yt y el valor de los trminos de error et:

Yt

et Yt Yt

9.13140312

0.86859688

10.9042316

1.09576837

14.4498886

-1.44988864

16.2227171

-2.22271715

16.2227171

-1.22271715

17.9955457

-0.99554566

17.9955457

2.00445434

19.7683742

1.23162584

21.5412027

0.45879733

19.7683742

0.23162584

2.3.

REGRESIN LINEAL MLTIPLE

Pasamos a continuacin a generalizar el modelo anterior al caso de un modelo con varias


variables exgenas, de tal forma que se trata de determinar la relacin que existe entre la
variable endgena Y y variables exgenas: X1, X2., Xk. Dicho modelo se puede formular
matricialmente de la siguiente manera:

Y X e 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n

donde:
Y1

Y2
Y es el vector de observaciones de la variable endgena
...

Y
n
X 11 X 12

X 21 X 22
X
...
...

X
n1 X n 2

... X 1k

... X 2 k
X1 X 2 ... X k es la matriz de observaciones de las variables
... ...

... X nk

exgenas
1


2 es el vector de coeficientes que pretendemos estimar
...


K
e1

e2
e es el vector de trminos de error
...

e
n
Si en la expresin anterior se considerara que existe trmino independiente, 0, la matriz X
quedara como:

1 X 11
1 X
21
X
... ...

1 X n1

... X 1k
... X 2k
1 X1 X 3 ...
... ...

... X nk

X k

Y el modelo quedara as:

Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
Suponiendo que se verifican las hiptesis que veamos antes, el problema a resolver nuevamente
es la minimizacin de la suma de los cuadrados de los trminos de error tal que:
n

Min

2
i

Yi Yi

i 1

Y X
2

i 1

i 1

Desarrollando dicho cuadrado y derivando respecto a cada i obtenemos el siguiente sistema de


ecuaciones normales expresado en notacin matricial:

X ' X X ' Y
en donde basta con despejar premultiplicando ambos miembros por la inversa de la matriz
( X ' X ) para obtener la estimacin de los parmetros del modelo tal que:

( X ' X ) 1 X ' Y

donde:

n 2
X 1i
t 1
n
X 2i X 1i
X ' X
t 1

n .....
X X
ki 1i
t 1

1i

2
2i

...

.....

...

X 2i

...

t 1
n

t 1
n

X
t 1

ki

X 2i

...

X 1i X ki

t 1

X 2i X ki

t 1

.....
n
X ki2

t 1

X 1i Yi
t 1

X
Y

2
i
i

X `Y t 1

n ....
X Y
ki i
t 1

Si en el modelo existiera trmino independiente, 0, las matrices anteriores seran:

n
X 1i
X' X
t 1
n.....
X
ki
t 1

X 1i
t 1

2
1i

t 1

.....
n

ki

X 1i

t 1

Yi

ki
t 1

t 1

... X 1i X ki X `Y X 1i Yi
t 1

t 1

...
.....
....

n
n
2

X Y
...
X

ki

ki i
t 1

t 1

...

El resultado de multiplicar dichas matrices conduce a la obtencin de la estimacin de los


parmetros i del modelo:

n
1
X 1i

X ' X X 'Y
t 1

n.....
X
ki
t 1

X 1i

...

t 1

n
2
1i

...

.....

...

X
t 1
n

X
t 1

ki

X 1i ...

X ki

t 1

X 1i X ki

t 1

.....
n
X ki2

t 1

Yi
i 1
o
n


X 1iYi 1
i 1
...
n ....
X Y k
ki i
i 1

Cada uno de los coeficientes estimados, i , son una estimacin insesgada del verdadero
parmetro del modelo y representa la variacin que experimenta la variable dependiente Y
cuando una variable independiente Xi vara en una unidad y todas las dems permanecen
constantes (supuesto ceteris paribus). Dichos coeficientes poseen propiedades estadsticas muy
interesantes ya que. si se verifican los supuestos antes comentados, son insesgados, eficientes y
ptimos.

Ejemplo 2.2.
Un investigador estudia el empleo en el sector turstico en Espaa. Para ello dispone de
informacin relativa al empleo en los hoteles (Y), nmero de turistas medido en miles (X1), y la
estancia media de los turistas (X2) medida en das. Los datos disponibles son de corte transversal
y pertenecen a cada una de las 17 Comunidades Autnomas.

Provincias

Empleo
(miles)
28.4
3.6
2.4
25.9
27.2
2.0
6.2
2.8
23.5
13.4
2.2
6.3
10.7
2.0
1.1
3.2
0.7

Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabria
Castilla y Len
Castilla-La Mancha
Catalua
Comunidad Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
Pas Vasco
Rioja (La)

Nmero de viajeros
(miles)
11902.5
1848.0
1088.2
6716.0
4875.7
933.8
3647.6
1805.1
10771.7
5579.7
1000.7
3040.5
5748.9
882.5
557.7
1540.6
446.2

Estancia media
3.1
2.1
2.3
7.2
7.8
2.4
1.7
1.7
3.4
3.9
1.7
2.1
2.1
3.0
2.0
1.9
1.8

El modelo terico a estimar con la informacin disponible es el siguiente:

Yi = 0+1 X1i + 2 X2i + ei

Para proceder a estimar es modelo lo ms conveniente es calcular la matriz de productos


cruzados:

X1

Y
X1
X2

3193

17

en donde

1101921
426702792

17

Yi 2 3193 ,
i 1

17

X2

Yi X 1i 1101921 ,
i 1

17

X 1i X 2i 227645 y

i 1

i 1

2
2i

203

709
227645
203
17

Yi X 2i 709 ,
i 1

17

X
i 1

2
1i

426702792 ,

Teniendo presente que:

N 17
17

161.8

i 1
17

1i

62385.5

2i

50.3

i 1
17

X
i 1

del que se conocen los siguientes resultados:

62386
50
17

X ' X 62386 426702792 227645


50
227645
203

162
X ' Y 1101921
709

Vamos a estimar el modelo propuesto por Mnimos Cuadrados Ordinarios. Para ello, basta con
multiplicar las matrices tal que:

X ' X

0.00001
0.048 162 5.702
0.231

X ' Y 0.00001 0.00000001 0.000005 1101921 0.006


0.048
0.000005
0.022 709 2.679

Por lo que el modelo queda como sigue:

Y
i = -5.702+0.006 X1i + 2.679 X2i

donde 1 0.006 indica el efecto de las variaciones unitarias del nmero medio de turistas
sobre el empleo del sector, y 2 2.679 mide la variacin que se producira en empleo si la
estancia media aumentara en una unidad.

2.4.

PROPIEDADES ESTADISTICAS DEl ESTIMADOR MNIMO


CUADRADO.

El estimador ( X ' X ) X ' Y puede escribirse como:

( X ' X ) 1 X ' ( X e) ( X ' X ) 1 X ' e


Si se cumplen las hiptesis de comportamiento sobre el trmino error, la distribucin de

probabilidad del estimador MCO ser uno distribucin normal multivariante con vector de
medias y matriz de varianzas y covarianzas

2 ( X ' X ) 1

La esperanza matemtica del estimador MCO se demuestra a partir de:

E ( ) E ( X ' X ) 1 X ' e ( X ' X ) 1 X ' E (e) .


De la definicin de matriz de varianzas y covarianzas, se tiene que:

'
var( ) E E ( ) E ( )

Teniendo presente que

E( ) ( X ' X )

X ' e ( X ' X ) 1 X ' e

Entonces

var( ) E ( X ' X ) 1 X ' ee' X ( X ' X ) 1 ( X ' X ) 1 X ' E ee'X ( X ' X ) 1 2 ( X ' X ) 1
El estimador

del parmetro

verdadero valor del parmetro

es insesgado porque su esperanza matemtica coincide con el

E ( j ) j

Se dice que un estimador insesgado


varianza muestral de

es mas eficiente que otro estimador insesgado

es menor que la varianza muestral de

Markov demuestra que el estimador MCO


lineales e insesgados de

~
j

~
j

, si la

. El teorema de Gauss-

es el ms eficiente de la clase de estimadores

Segn el Teorema de Gauss-Markov, cualquier estimador lineal de puede expresarse como:

( X ' X ) 1 X ' D Y ( X ' X ) 1 X ' D X e DX ( X ' X ) 1 X ' e De


donde D es una matriz (kn) arbitraria, que establece la diferencia entre el estimador MCO y el
estimador alternativo.

La esperanza de dicho estimador es:

~
E DX
~
Si es insesgado, entonces DX 0 . En otras palabras el estimador alternativo slo ser

insesgado si la matriz de distancia es ortogonal a las variables explicativas.

A continuacin obtenemos la matriz de covarianzas de este estimador

~
~
~ ~
~
var( ) E E ( ) E ( )

'

Teniendo presente que :

~ E(~) DX ( X ' X )

X ' e De ( X ' X ) 1 X ' D e

entonces,

~
var( ) ( X ' X ) 1 X ' D E ee' D ' X ( X ' X ) 1 2 ( X ' X ) 1 D' D

y como D' D es una matriz semidefinida positiva, se demuestra que la var( ) var( ) con

independencia de la normalidad o no de las distribucin .

2.5.

COEFICIENTES DE DETERMINACIN Y CORRELACIN


PARCIAL

2.5.1. Coeficiente de determinacin


Una vez estimada la ecuacin de regresin lineal tiene inters determinar la exactitud del ajuste
realizado. Para ello hay que analizar la variacin que experimenta esta variable dependiente y,
dentro de esta variacin, se estudia qu parte est siendo explicada por el modelo de regresin y
qu parte es debida a los errores o residuos.

La forma de realizar dicho anlisis es a partir de la siguiente expresin:

SCT SCE SCR

donde:

SCT: es la Suma de Cuadrados Totales y representa una medida de la variacin de la


variable dependiente.

SCE es la Suma de Cuadrados Explicados por el modelo de regresin.

SCR es la Suma de Cuadrados de los Errores

Cuando el modelo tiene trmino independiente, cada una de estas sumas viene dada por:

SCT Y ' Y nY 2 Yi 2 nY 2
i 1

SCE ' X 'Y nY 2 Yi 2 nY 2


i 1

i 1

i 1

i 1

SCR ei2 Y ' Y ' X ' Y Yi 2 Yi 2 SCT SCE

A partir de las expresiones anteriores es posible obtener una medida estadstica acerca de la
bondad de ajuste del modelo mediante lo que se conoce como coeficiente de determinacin (R2).
que se define como:

R2 1

SCR
, 0 R2 1
SCT

y en el caso particular de modelo con trmino independiente. como:

R2

SCE
, 0 R2 1
SCT

Mediante este coeficiente es posible seleccionar el mejor modelo de entre varios que tengan el
mismo nmero de variables exgenas. ya que la capacidad explicativa de un modelo es mayor
cuanto ms elevado sea el valor que tome este coeficiente. Sin embargo. hay que tener cierto
cuidado a la hora de trabajar con modelos que presenten un R2 muy cercano a 1 pues, aunque
podra parecer que estamos ante el modelo perfecto, en realidad podra encubrir ciertos
problemas de ndole estadstica como la multicolinealidad que veremos en el captulo 3.

Por otra parte. el valor del coeficiente de determinacin aumenta con el nmero de variables
exgenas del modelo por lo que. si los modelos que se comparan tienen distinto nmero de
variables exgenas, no puede establecerse comparacin entre sus R2. En este caso debe
emplearse el coeficiente de determinacin corregido R 2 , el cual depura el incremento que
experimenta el coeficiente de determinacin cuando el nmero de variables exgenas es mayor.

La expresin analtica de la versin corregida es:

R 2 1

SCR n k
n 1
1
1 R2
SCT n 1
nk

cuyo valor tambin oscila entre 0 y 1

Ejemplo 2.3.
En el modelo del empleo en el sector hotelero los errores ei se calculan a partir de:

ei=Yi 5.702+0.002 X1i + 2.679 X2i

El error correspondiente a cada regin es:

ei
2.193
-0.003
-0.146
-1.108
2.195
-0.508
0.044
0.424
-1.325
-2.406
1.315
0.290
-0.687
-2.034
0.432
0.703
0.622

Andaluca
Aragn
Asturias
Baleares
Canarias
Cantabria
Castilla y Len
Castilla-La Mancha
Catalua
Comunidad Valenciana
Extremadura
Galicia
Madrid
Murcia
Navarra
Pas Vasco
Rioja (La)

Las expresiones SCT, SCE y SCR son:

17

SCT Y 'Y nY 2 Yi 2 17Y 2 1,654


i 1

17

SCE ' X 'Y nY 2 Yi 2 17Y 2 1, 627


i 1

SCR ei2 Y 'Y ' X ' Y SCT SCE 1, 654 1, 627 27


i 1

Con ellas calculamos el coeficiente de determinacin y el coeficiente de determinacin


corregido:

R2
R 2 1

1,627
0.984
1,654

27 17 3
0.982
1,654 17 1

El coeficiente de determinacin y el coeficiente de determinacin ajustado est cercano a uno lo


que constituye una prueba de que el ajuste realizado es aceptable. El modelo estara explicando
el 98% de la variacin del grado de ocupacin que se da en las Comunidades Autnomas.

2.5.2. Coeficiente de correlacin parcial


El coeficiente de correlacin parcial entre dos variables del modelo, Xi y Xj ( Xi e Y) describe la
relacin lineal existente entre dos variables sin tener en cuenta los efectos o influencias de una o
ms variables adicionales, con el objeto de identificar la existencia de posibles variables
interpuestas, o de detectar correlaciones neutralizadas por el efecto de estas variables.

As, supongamos el caso de un modelo lineal que incluye dos variables independientes (X1 y X2)
y una variable dependiente (Y). Si deseamos obtener el coeficiente de correlacin parcial entre Y
y X1, tomando como dados los efectos de X2 debemos seguir los siguientes pasos:

1. Realizamos una regresin de Y sobre X2 y obtenemos los residuos, que denominaremos


ei.

2. Del mismo modo, para suprimir el efecto de la variable X2 sobre X1, realizamos una
regresin de X1 sobre X2 y obtenemos los residuos de esta regresin, que
denominaremos ui.
3. Calculamos las varianzas residuales, Se2 y Su2, y la covarianza entre ambos, Seu.

4. El coeficiente de correlacin parcial entre Y y X1 es:

r12,3

Seu
Se Su

De forma anloga, podemos obtener mediante sucesivas regresiones los distintos coeficientes de
correlacin parcial entre el resto de variables.

2.6.

INFERENCIA ACERCA DE LOS ESTIMADORES

Hasta el momento hemos visto como la estimacin por MCO permite obtener estimaciones
puntuales de los parmetros del modelo. La inferencia acerca de los mismos permite completar
dicha estimacin puntual, mediante la estimacin por intervalos y los contrastes de hiptesis.

Los primeros posibilitan la obtencin de un intervalo dentro del cual, con un determinado nivel
de confianza, oscilar el verdadero valor de un parmetro, mientras que los segundos nos
permitirn extraer consecuencias del modelo, averiguando si existe o no, evidencia acerca de
una serie de conjeturas que pueden plantearse sobre sus parmetros.
La inferencia estadstica consiste en la estimacin de los parmetros poblacionales a partir de la
informacin extrada de una muestra de dicha poblacin. El nmero de estimaciones que podemos
realizar de una poblacin, a travs de la extraccin de diferentes muestras de un mismo tamao, es
generalmente muy grande porque cada una de las muestras posibles que se pueden sacar de la
poblacin arrojara una estimacin.

Por esta razn, a la estimacin que obtenemos en una investigacin por muestreo la acompaamos
con un intervalo de valores posibles. La amplitud de dicho intervalo depender del grado de
confianza que establezcamos.

El grado o nivel de confianza nos expresa el nmero de veces que la media verdadera de la
poblacin est incluida en cien intervalos de cien muestras extradas de una poblacin dada. El
nivel de confianza ms utilizado es el 95%, lo que quiere decir que 95 de cada 100 intervalos
construidos contendrn el verdadero valor de la media.

El intervalo de confianza para la media de una poblacin normalmente distribuida se construye en


base a la probabilidad de que dicha media est comprendida entre dos valores. X a y X b
equidistantes a ella:

P[ X a m X X b ] 1 a
siendo 1- a el nivel o grado de confianza asociado a dicho intervalo.
En trminos generales, los intervalos de confianza para los estadsticos muestrales se expresan
como:

Estimador (Factor de Fiabilidad)*(Error Tpico del Estimador)

2.6.1. Intervalos De Confianza


Presentamos a continuacin cmo se construyen los intervalos de confianza para los distintos
trminos que hayamos estimado en el modelo:

a) Intervalo de confianza para el parmetro i


Para construir los intervalos de confianza de las estimaciones i , se parte de que la estimacin
MCO proporciona el valor medio de los posibles valores que pudiera tener dicho parmetro, y
que la distribucin de dichos valores sigue una distribucin derivada de la Normal que se
conoce como t de Student. Dicha distribucin es simtrica presentando mayor dispersin que la
curva Normal estndar para un tamao muestral n pequeo. A medida que n aumenta (n > 100)
es prcticamente igual que la distribucin Normal.

El clculo del intervalo de confianza para i se realiza mediante la siguiente expresin:

ICi : ( i S tnk )
i

donde S i es la desviacin tpica estimada para el coeficiente i , que se obtiene de la matriz de


varianzas y covarianzas de los estimadores expresada como:

21


2 1
...

K 1

12
22
...

K 2

... 1 K

... 22 K

...
...
... 2K

cuyos estimadores sern:

S 2
1
S
2 1
...
S
K 1

1 2

S 2

...
S

K 2

... S
1 K
... S 2
2 K
...
...
... S 2
K

2
obtenidos a partir de la expresin S S e X ' X . donde S e2 es la estimacin de la varianza

del trmino de error.

Destacar por ltimo que tn-k es el valor terico de la distribucin t de Student que aparece
tabulada en el Anexo II, tabla II.2.

Ejemplo 2.4

Utilizando los resultados de la estimacin del modelo del empleo en hoteles, tenemos que la
varianza de los errores al cuadrado es:

S e2

SCR 27

1.84 .
n k 14

Entonces, la matriz de varianzas y covarianzas de los estimadores ser:

0.00001
0.048 0.435
0.00001
0.091
0.231

1
S S e2 X ' X 1.84 0.00001 0.00000001 0.000005 0.00001 0.00000001 0.00001
0.048
0.000005
0.022 0.091
0.00001
0.042

Teniendo presente que el estadstico t-Student tiene un valor en las tablas de t17-3=2.145 para
=0.025 para cada cola (el 95% de probabilidad) podemos afirmar que el valor de los
parmetros de la ecuacin estarn entre:

IC o : (5.702 0.435 2.145) (5.702 5.936)


IC 1 : (0.002 0.00000001 2.145) (0.002 0.0002)
IC o : (2.679 0.042 2,145) (2.679 0.440)
Los intervalos de confianza calculados nos dicen que lo ms probable es que, por ejemplo, el
parmetro o este entre los valores 4.287 y 7.117.

b) Intervalo de confianza para la varianza del trmino de error


La expresin del intervalo de confianza para la varianza del trmino de error es:


S 2 ( n k ) S 2 (n k ) SCR SCR
e
e

IC :
;
;
2 a2
2 a a2 2 a

e
1
1
2
2
2

donde representa el nivel de significacin del contraste y generalmente se utiliza un 5% de


significacin, que corresponde a un intervalo de confianza del 95 %.

En este caso se asume que la Suma de Cuadrados de los Errores se distribuyen segn una
2
distribucin tambin derivada de la Normal que se conoce como de Pearson. La distribucin

2 de Pearson es asimtrica. Su propiedad fundamental es que si sumamos dos 2 independientes


de grados de libertad n1 y n2 , se obtiene una nueva variable 2 con grados de libertad igual a la
suma de n1 y n2 . Los grados de libertad que hay que considerar en el clculo de los intervalos
de confianza del trmino error son de n-k.

En el Anexo II, tabla II.3. tambin figuran los valores tericos de la distribucin 2 de Pearson.

Ejemplo 2.5.
Utilizando los datos del modelo del grado de ocupacin hotelera. calculamos el intervalo de
confianza para el error con un nivel de significacin de =0.05 y 14 grados de libertad,
calculamos el intervalo para el trmino de error:

SCR SCR 27
27

IC
2 ; 2
;
(1,04;4,78)
2

26
,
119
5
,
628

0
.
025
0.975

Es decir, se puede afirma con un 95% de probabilidad que el verdadero valor de la varianza
estar entre 1,04 y 4,78.

2.6.2. Contrastes de Hiptesis


Una buena parte de las investigaciones estadsticas estn orientadas al desarrollo de procesos
encaminados a la contrastacin de hiptesis que previamente se han establecido.
Una hiptesis es una afirmacin que est sujeta a verificacin o comprobacin. Hay que tener
presente que una hiptesis no es un hecho establecido o firme, las hiptesis estn basadas en la
experiencia, en la observacin, en la experimentacin o en la intuicin del sujeto que las formula.

Cuando las hiptesis se plantean de tal modo que se pueden comprobar por medio de mtodos
estadsticos reciben el nombre de hiptesis estadsticas. Estas hiptesis son afirmaciones que se
efectan sobre uno o ms parmetros de una o ms poblaciones. Las hiptesis estadsticas son de
dos tipos: hiptesis nula e hiptesis alternativa. La hiptesis nula, o que no se verifique dicha
afirmacin, simbolizada por H0, es la hiptesis que se debe comprobar.

Para contrastar una hiptesis nula examinamos los datos de la muestra tomados de la poblacin y
determinamos si son o no compatibles con dicha hiptesis. Si son compatibles entonces H0 se
acepta, en caso contrario se rechaza. Si se acepta la hiptesis nula afirmamos que los datos de esa
muestra en concreto no dan suficiente evidencia para que concluyamos que la hiptesis nula sea
falsa; si se rechaza decimos que los datos particulares de la muestra ponen de manifiesto que la
hiptesis nula es falsa, entonces la hiptesis alternativa. H1, es verdadera.

El criterio que permite decidir si rechazamos o no la hiptesis nula es siempre el mismo. Definimos
un estadstico de prueba, y unos lmites que dividen el espacio muestral en una regin en donde se
rechaza la hiptesis establecida, y otra regin en la que no se rechaza, llamada regin de
aceptacin. A la regin donde se rechaza la hiptesis nula se le llama regin crtica. Esta regin es
un subconjunto del espacio muestral, y si el valor del estadstico de prueba pertenece a l se rechaza
la hiptesis nula.

El lmite entre la regin crtica y la regin de aceptacin viene determinado por la informacin
previa relativa a la distribucin del estadstico de prueba.

Sealar que un estadstico de prueba es una frmula que nos dice como confrontar la hiptesis nula
con la informacin de la muestra y es, por tanto, una variable aleatoria cuyo valor cambia de
muestra a muestra.

Otra de las consideraciones a realizar en la contrastacin de hiptesis es fijar la probabilidad del


error de rechazar la prueba siendo cierta, a este error se le denomina nivel de significacin. Por
ejemplo, si se utiliza un nivel de significacin de 0.05, equivale a decir que si para realizar un
contraste tomramos infinitas muestras de la poblacin, rechazaramos la hiptesis nula de forma
incorrecta un 5 % de las veces.

En la formalizacin del procedimiento de contrastacin podemos distinguir siete pasos principales:


1.- Planteamiento de las hiptesis.
2.- Seleccin del nivel de significacin.
3.- Descripcin de la poblacin y tamao de la muestra.
4.- Seleccin del estadstico de prueba y su distribucin.
5.- Especificacin de las regiones de aceptacin y de rechazo.
6.- Recoleccin de datos y clculo del estadstico.

7.- Decisin estadstica.

Los contrastes de hiptesis que normalmente se realizan en la estimacin MCO son los
siguientes:

a) Contraste individual sobre un parmetro

H 0 : j *j

Formulacin de la hiptesis:

H 1 : j *j

Estadstico experimental:

t exp

j *j
S

Estadstico terico:

ttco t n k (a / 2 )

Regla de decisin:

Si

t exp ttco se rechaza la hiptesis H0

b) Contraste de significacin individual

Formulacin de la hiptesis:

H0 : j 0

H1 : j 0
Estadstico experimental:

t exp

j
S

Estadstico terico:

t tco t n k (a / 2)

Regla de decisin:

Si t exp ttco se rechaza la hiptesis H0

c) Contraste de significacin global

Formulacin de la hiptesis:

H 0 : 1 2 ... k 0

R2
k

1
k 1

SCR
1 R2
nk
nk
SCE

Estadstico experimental:

Fexp

Estadstico terico:

Ftco F k 1, n k , a

Regla de decisin:

Si

Fexp Ftco

se rechaza la hiptesis H0

Ejemplo 2.6.
Utilizando los resultados del modelo del grado de ocupacin hotelera vamos a plantear la
hiptesis de que el parmetro 2 sea cero, y en consecuencia que el efecto de la estancia media
de cada turista sobre el grado de ocupacin hotelera no sea significativo.

1.-

Planteamiento de la hiptesis
Se contrasta la hiptesis de que H 0 : 2 0 , frente a la alternativa de que dicho valor sea
diferente de cero H1 : 2 0 .

2.-

Nivel de significacin o error de tipo I.


Sea =0.05.

3.-

Descripcin de la poblacin y tamao de la muestra.


La poblacin son las Comunidades Autnomas espaolas, lo que significa que n=17.

4.-

El estadstico pertinente.
El estadstico a calcular es:

t exp
5.-

j
S

Regiones de aceptacin y de rechazo.


El valor crtico es 2.145, que es el valor correspondiente de la distribucin t de Student
con 17-3=14 grados de libertad que deja el 2.5 % de la distribucin en cada cola. De
modo que la regin de rechazo de la hiptesis nula es la de todos los valores absolutos
de t superiores a 2.145.

6.-

Recoleccin de datos y clculo del estadstico.

t exp

7.-

2.679
13.057
0.205

Decisin estadstica.

Dado que 13.057 es mayor que 2.145 rechazamos la hiptesis nula y, por tanto, concluimos que
con un 95% de probabilidad se acepta la hiptesis alternativa H 1 : 2 0

2.7.

TABLA DE ANALIS DE LA VARIANZA (ANOVA)

La hiptesis de no significacin global H 0 : 1 2 ... k 0 se rechaza al nivel de


significacin construyendo el estadstico experimental:

SCE
Fexp

SCR

k 1
nk

y la regla de decisin que rechaza la hiptesis

H 0 ocurre cuando Fexp F (k 1, n k .a ).

El contraste en la prctica se realiza elaborando una tabla ANOVA, que requiere:


1. estimar el modelo de regresin con todas las variables de inters

Yi o 1 X 1i 2 X 2i ... k X ki ei , i=1,2,, n
que nos proporciona la suma de cuadrados de los residuos e ' e SCR ;
2. estimar elmodelo de regresin bajo H 0 : 1 2 ... k 0

Yi o u ri , i = 1, . . . ,n,
n

que nos proporciona la suma de cuadrados de los residuos,

ur ' ur i 1 (Yi Y ) SCT

El contraste de significacin global se resume en el cuadro siguiente, en donde la variacin total


de la variable dependiente (SCT) se descompone en la explicada por la regresin (SCE) y en la
no explicada (SCR). Los grados de libertad de estas tres sumas de cuadrados son n 1 , k 1 y

n k , respectivamente.
A partir de esta informacin muestral, podemos calcular el numerador y denominador del
estadstico F.

Fuente

de Suma de cuadrados

variacin
Regresin

SCE=

Residual

n
i 1

Total

de Cuadrado

libertad
k-1

medio

SCE

k 1

Estadstico F

SCE
SCR

SCT=
SCR=

(Yi Y )

Grados

i 1

i 1

(Yi Yi )

(Yi Y ) 2

n-k

SCR

k 1
nk

nk

n-1

Ejemplo 2.7.
Utilizando los resultados del modelo de grados de ocupacin hotelera vamos a realizar el
contraste de significacin global construyendo la tabla ANOVA:

Fuente

de Suma

variacin
Regresin
Residual
Total

cuadrados
1,627
27
1,654

Dado que

de Grados
libertad
2
14
16

Fexp Ftco F (2,14, a 0,05) 3,74

de

Cuadrado medio

Estadstico F

813.5
1.93

421.81

, la regla de decisin se rechaza la hiptesis

H0 .

2.8.

PREDICCIN EN EL MODELO DE REGRESIN

Una vez estimado y validado el modelo, una de sus aplicaciones ms importantes consiste en
poder realizar predicciones acerca del valor que tomara la variable endgena en el futuro o para
una unidad extramuestral. Esta prediccin se puede realizar tanto para un valor individual como
para un valor medio, o esperado, de la variable endgena, siendo posible efectuar una
prediccin puntual o por intervalos. Su clculo se realiza mediante las expresiones que figuran a
continuacin:

a) Prediccin individual: se trata de hallar el valor estimado para la variable Y un periodo


hacia delante. En este caso basta con sustituir el valor de las variables exgenas en el
modelo en el siguiente periodo y calcular el nuevo valor de Y.

) Intervalo de prediccin. Para hallar un intervalo de prediccin debe utilizarse la


siguiente expresin:

1
IC : Yt 1 t n k S e 1 X t' 1 X ' X X t 1

t 1 t n k S e 1 X t' 1 X ' X 1 X t 1
; Y

) Intervalos de prediccin para un valor medio o esperado,

Y
j

, La expresin a utilizar en

este caso ser:

1
IC E Y j : Yj t n k S e X 'j X ' X X j

t S X ' X ' X 1 X
;Y
j
n k e
j
j

Ejemplo 2.8
Utilizando los datos del modelo de estimacin del empleo en hoteles, vamos a realizar una
prediccin del grado de empleo que tendra Catalua, si mediante una adecuada promocin se
elevara el nmero de das de estancia por turista de 3.4 das a 5 das de media por turista.

La prediccin individual de Catalua sera:

Y
j

= -5.702+0.00210771.7+ 2.679 5 = 29.1

'
Para calcular el intervalo de la prediccin tenemos que calcular la expresin X j X ' X X j

X X ' X
'
j

0.00001
0.048 1
0.231

X j 1 10.722 5 0.00001 0.00000001 0.000005 10.722 0.319


0.048
0.000005
0.022 5

Si deseamos un intervalo de confianza para la prediccin del 95%, tenemos que utilizar un
valor t17-3=2.145

ICE Y : 29.1 2.145 1.37 0.319; 29.1 2.145 1.37 0.319 27.4; 30.8
j

2.9.

ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON


EXCEL

A continuacin. vamos a estimar los parmetros de un determinado modelo por Mnimos


Cuadrados Ordinarios utilizando Microsoft Excel, programa que simplifica notablemente los
clculos a realizar cuando disponemos de muchas observaciones y/o variables exgenas.

Supongamos que la cantidad demandada de manzanas viene determinada en funcin de su


precio y queremos cuantificar dicha relacin. Partimos de la siguiente tabla de datos:

Cantidad
(Kg.)
2.456
2.325
2.250
2.200
2.100
2.082
2.045
2.024

Precio (u.m. / Kg.)


82
92
94
99
106
108
112
115

Si realizamos un diagrama de dispersin mediante la opcin Grfico dentro del men Insertar de
Excel obtendremos la Figura 2.2, en el que puede comprobarse la relacin que aparentemente
existe entre cantidades demandadas de manzanas y su precio.

Curva de Demanda
130
125
120
115
110
105
100
95
90
85
80
2.000

2.100

2.200

2.300

2.400

2.500

Fig. 2.2. Relacin entre la demanda de manzanas y su precio

Pasamos a continuacin a estimar la recta de regresin por Mnimos Cuadrados Ordinarios. Para
ello, el lector debe verificar que tiene instalada la opcin Herramientas para el Anlisis dentro la
opcin Complementos del men Herramientas, tal y como puede observarse en la siguiente
figura 2.3:

Fig. 2.3.

En caso de no tener dicha opcin instalada en nuestro ordenador, deberemos marcar las casillas
que se ven en la figura 2.3, insertando seguidamente el CD-Rom de Microsoft Office para
proceder a su instalacin. Una vez instaladas estas opciones, dispondremos de una nueva opcin
en el men Herramientas llamada Anlisis de Datos. Si pinchamos en ella, nos aparecer una
ventana similar a la de la figura 2.4, en la que seleccionaremos la opcin Regresin:

Fig. 2.4.

Al seleccionar dicha opcin nos aparecer un cuadro de dilogo como el siguiente:

Fig. 2.5

En este cuadro de dilogo podemos seleccionar el rango de nuestra hoja de clculo que contiene
los datos referidos a la variable endgena (Rango Y de entrada) y a las variables exgenas
(Rango X). Asimismo, se incluyen otras opciones sumamente tiles tales como eliminar el
trmino independiente del modelo (Constante igual a cero), determinar el nivel de confianza al
cual se realizarn los tests de significacin de los parmetros, la posibilidad de obtener una tabla
con los trminos de error del modelo (Residuos) y su grfico (Grafico de Residuales), etc.

Una vez introducidos los rangos de las variables y seleccionado las opciones que deseemos (no
debemos olvidar indicar en qu Hoja, Rango o Libro deseamos aparezcan los resultados),
pulsamos en Aceptar y nos aparecer una ventana similar a sta (Fig. 2.6.):

Fig. 2.6.

La estimacin de los parmetros del modelo aparecen en la columna Coeficientes, junto con su
Desviacin Tpica o Error Tpico y el estadstico t de significatividad individual (obsrvese que
al trmino independiente del modelo, Excel lo denomina Intercepcin). A la vista de los
resultados, el modelo estimado tiene la siguiente forma:

Cantidad = 3,534.27 13.36 Precio


(48.1) (-18.46)

donde entre parntesis se muestra el estadstico t experimental asociado a cada parmetro.


siendo ambas claramente superiores a 2.365 (valor en tablas de una t de Student con n k = 7
grados de libertad al 95% de confianza.

Para el anlisis de la bondad de ajuste del modelo, Excel ofrece los siguientes resultados:

a) Por un lado, si marcamos la casilla Curva de Regresin Ajustada obtenemos un grfico


con los valores originales y estimados de la variable endgena. lo que nos permitir
realizar un primer acercamiento visual al grado de ajuste de la recta (vase figura 2.7)

Curva de regresin ajustada


2.500
Cantidad

Cantidad

2.400

Pronstico Cantidad

2.300
2.200
2.100
2.000
1.900
80

85

90

95

100

105

110

115

120

Pre cio

Fig. 2.7. Recta de regresin entre la demanda de manzanas y su precio

b) Por otro lado, Excel muestra en la parte superior de los resultados el valor del
coeficiente de determinacin que, en nuestro caso, es del 98% lo que nos indica un
grado de ajuste muy bueno.
Para evaluar la significatividad estadstica de los parmetros estimados, adems de los
estadsticos t asociados a cada parmetro estimado y los respectivos intervalos de confianza para
cada uno de ellos. Excel nos muestra tambin el estadstico F que aparece en la tabla Anlisis de
Varianza, mediante el que se realiza un contraste de significacin global de los parmetros
estimados. En los resultados obtenidos. el estadstico F tomo un valor 340.8 asociado a un pvalue de 0.0000016, valor que es claramente inferior a 0.05, por lo que se rechaza la hiptesis
nula, lo que nos permite afirmar que todos los parmetros del modelo son globalmente
significativos, es decir, todos son significativamente distintos de cero. En este punto, cabe
sealar que si estimamos un modelo con varias variables exgenas y nos encontramos con que
alguno de los parmetros del modelo es estadsticamente igual a cero, deberamos eliminar
dicha variable del modelo al no haberse encontrado una relacin de causalidad con la variable
endgena.

Respecto al anlisis de los errores o residuos del modelo, Excel ofrece el Cuadro de Valores
Ajustados (Pronstico Cantidad), los Residuos del modelo y los Residuos Estndares (es decir,
tipificados). Segn la teora que hemos estudiado hasta ahora, los residuos estndares deben
seguir una distribucin Normal de media 0 y desviacin estndar 1; por tanto, aquellos residuos
cuyo valor absoluto supere 1.96 se correspondern con valores atpicos, tambin denominados
outliers en la literatura estadstica. En nuestro ejemplo, afortunadamente, no se observa ningn
outlier como puede apreciarse en la siguiente tabla de Anlisis de Residuos:

Anlisis de los residuos


Observacin

Pronstico Cantidad

1
2
3
4
5
6
7
8

2439,03
2305,46
2278,75
2211,96
2118,47
2091,75
2038,33
1998,26

Residuos

Residuos estndares

16,97
19,54
-28,75
-11,96
-18,47
-9,75
6,67
25,74

0,79
0,91
-1,33
-0,56
-0,86
-0,45
0,31
1,20

El grfico de los residuos (figura 2.8) tambin constituye una herramienta de anlisis
importante, ya que nos permite evaluar la aleatoriedad de los mismos. En el ejemplo, se observa
una ligera falta de aleatoriedad, derivada de que los cuatro ltimos residuos presentan una
marcada racha creciente.

Grfico de los residuales


40
30

Residuos

20
10
0
-10
-20
-30
-40
80

85

90

95

100

105

110

115

120

Pr e cio

Fig. 2.8. Grfico de residuos del modelo de demanda de manzanas frente al precio

Si se prefiere estimar una ecuacin por MCO utilizando funciones en Excel, hay que tener
presente que la notacin utilizada por este paquete para la regresin lineal es la siguiente:

y = mx + b

O, si existen varios rangos de valores de X:

y = m1x1 + m2x2 + ... + b

donde mi son los coeficientes que corresponden a cada variable y b es una constante.

La funcin que permite realizar estimaciones por MCO tiene la siguiente sintaxis:

=ESTIMACION.LINEAL(conocido_y,conocido_x,constante,estadstica)

La funcin admite los siguientes argumentos:

Conocido_y

Valores de la variable independiente.

Conocido_x

Valores de la variable dependiente.

Constante

Si se va a estimar un modelo con constante b se omite o se pone


VERDADERO; si se desea estimar un modelo sin constante (b=0) se debe
escribir 0 FALSO.

Estadstica

Si se omite o se pone FALSO, EXCEL no muestra las estadsticas de regresin;


si se pone VERDADERO, Excel muestra las estadsticas de la regresin.

Una vez se completa el asistente de funciones, obtendremos los resultados de la regresin en


forma de matriz de valores; para mostrar todos los valores de la regresin, debe seleccionarse el
rango de salida y presionar simultneamente Ctrl + Shift + Enter.

El siguiente esquema muestra el orden en que se devuelven los parmetros y las estadsticas de
regresin adicionales:

El significado de cada celda se presenta en el siguiente cuadro:


Estadstica

Descripcin

se(m1),se(m2),...,se(mn)

Desviacin tpica para los coeficientes m1,m2,...,mn.

se(b)

Desviacin tpica para la constante b (se(b) = #N/A cuando constante


es FALSO).

R2

Coeficiente de determinacin.

se(y)

Desviacin tpica de la estimacin de y

Estadstico F de la regresin

dF

Grados de libertad del estadstico F

ss(reg)

La suma de regresin de los cuadrados.

ss(res)

La suma residual de los cuadrados.

Asimismo, conviene recordar que Excel tambin incluye otras funciones relacionadas con la
estimacin por MCO:

=TENDENCIA(conocido_y;conocido_x;nueva_matriz_x;constante)
=PRONOSTICO(x;conocido_y;conocido_x)
=ESTIMACION.LOGARITMICA(conocido_y;conocido_x;constante; estadstica)
=COEFICIENTE.R2(conocido_y;conocido_x)

2.10. ESTIMACIN DE UN MODELO DE REGRESIN LINEAL CON


R
R es un entorno especialmente diseado para el tratamiento de datos, clculo y desarrollo
grfico. Permite trabajar con facilidad con vectores y matrices y ofrece diversas herramientas
para el anlisis de datos.
R es una implementacin open-sourcedel lenguaje S (Bell Labs -principios de los 90), que
tambin es la base del sistema S-Plus (entorno comercial). R y S-Plus an comparten una gran
mayora de cdigo e instrucciones, si bien R es software libre, gratuito en donde los usuarios
disponen de libertad para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. De
hecho R dispone de una comunidad de desarrolladores/usuarios detrs que se dedican
constantemente a la mejora y a la ampliacin de las funcionalidades y capacidades del
programa. En la web http://www.r-project.org/ se encuentra disponible toda la informacin
acerca de R. La instalacin de R se realiza a travs de la CRAN (ComprehensiveR Archive
Network): http://cran.r-project.org
Actualmente R se distribuye para los siguientes Sistemas Operativos:
Windows: entorno grfico.
Linux (Debian/Mandrake/SuSe/RedHat/VineLinux)
MacOSX
Cdigo fuente: ampliacin a sistemas Unix

Las funciones de R se agrupan en paquetes (packages, libraries), los que contienen las funciones
ms habituales se incluyen por defecto en la distribucin de R, y el resto se encuentran
disponibles en la Comprehensive R Archive Network (CRAN) .
Las entidades que R crea y manipula se llaman objetos. Dichos objetos pueden ser
:Escalares: nmeros, caracteres, lgicos (booleanos), factores
Vectores/matrices/listas de escalares
Funciones
Objetos ad-hoc
Dichos objetos se guardan en un workspace. Durante una sesin de R todos los objetos estarn
en memoria, y se pueden guardar en disco para prximas sesiones.
R trabaja sobre estructuras de datos. La estructura ms simple es un vector numrico, que
consiste en un conjunto ordenado de nmeros.
Un vector de reales se crea mediante la funcin c y se guarda con el nombre Cantidad.

> Cantidad <- c(2.456,2.325,2.250,2.200,2.100,2.082,2.045,2.024)


Se crea ahora el vector de nombre Precio.
> Precio <- c(82,92,94,99,106,108,112,115)
Para obtener los estadsticos bsicos del vector (Cantidad): media, desviacin estandar, varianza
y mediana, se utilizan las siguientes funciones R:
> mean(Cantidad)
> sd(Cantidad)
> var(Cantidad)
> median(Cantidad)
Si se quiere tener un resumen sumario de estadstico de una variable:
> summary(Cantidad)

En R los valores "desconocidos" o "no disponibles" (missings) se simbolizan con el valor


especial NA (NotAvailable). Cualquier operacin que incluya un NA en general devolver NA
como resultado.La funcin is.na nos permite saber si un elemento es missingo no.
Otros tipos de objectosen R.

Arrays y matrices (matrix): generacin multidimensional de los vectores. Todos los elementos
de la matriz han de ser del mismo tipo.
Factores (factor): tiles para el uso de datos categricos.
Listas (list): generalizacin de los vectores donde los elementos pueden ser de diferentes tipos
(incluso vectores o nuevas listas).
Data frames: matrices donde las diferentes columnas pueden tener valores de diferentes tipos.
Funciones (function): conjunto de cdigo de R ejecutable y parametrizable.
Una tabla debe estar en un objecto tipo matriz. Ejemplo:
Tabla<-matrix(c(652,1537,598,242,36,46,38,21,218,327,106,67),nrow=3,byrow=T)
La funcin read.table permite leer datos desde ficheros en formato ASCII. Devuelve como
resultado un data.frame, por tanto, se supone que cada lnea contiene los datos para un
individuo.
El fichero EXCEL personas.xls tiene el siguiente aspecto:

Guardamos el fichero EXCEL como un fichero ASCII delimitado por tabulaciones


> manzanas <- read.table(file="manzanas.txt",header=T)
Tecleamos
> manzanas

La funcin de R que nos permite estimar un modelo de regresin lineal es la funcin lm. La
forma de invocar a la funcin para estimar un modelo de regresin lineal simple es lm(y~x).
Para consultar la ayuda de la funcin para ver todas las posibilidades que ofrece:

En nuestro ejemplo, obtenemos:


> lm(Cantidad~Precio)
Call:
lm(formula = Cantidad ~ Precio)
Coefficients:
(Intercept)
Precio
3.53427
-0.01336

En lugar de invocar simplemente la funcin podemos guardar su resultado en una variable y


veremos as que obtenemos ms informacin.
> reg = lm(Cantidad~Precio)
Si queremos obtener el vector de residuos bastar solicitar:
> reg$residuals
Para realizar el anlisis del modelo estimado utilizaremos la funcin summary. As:
> summary(reg)

2.11. PROBLEMAS
2.1. Partiendo de las siguientes observaciones de dos variables:

Y 60 62 61 55 53 60 63 53 52 48 49 53
X 23 23 25 25 26 26 29 30 30 32 33 31
Estime por MCO la funcin de regresin Y=0+1X
Satisfacen los trminos de error la condicin E(u)=0?
Contrastar la hiptesis de 1=0 con un nivel de confianza del 95%.

2.2. Los datos de una muestra aleatoria de 22 familias dan la siguiente estimacin de la funcin
de consumo:

C t 120 0,90Yt

(0,05)
donde Ct es el consumo e Yt es la renta en Euros, siendo S 1 0,05

a) Contrastar la hiptesis de que la propensin marginal a consumir es igual a 0.83.


Utilizar un nivel de confianza del 95%.
b) Calcular un intervalo de confianza al 90% para el coeficiente de regresin 1.

2.3. Utilizando los siguientes datos:

W
Z

2
8

4
28

6
60

5
52

4
32

1
7

7
75

Estimar los parmetros a y b de la siguiente relacin Z aW b


Realizar una prediccin si W=3
Establecer un intervalo de confianza para dicha prediccin con un nivel de
significacin del 5%.

2.4. Utilizando los siguientes datos:

Y
X1
X2

62 52 68 72 78 58 58 74
51 44 52 57 62 48 53 61
7 6 8 8 12 7 9 11

Obtener una estimacin MCO para Y a X 1 X 2


Calcular los coeficientes R2 y R2 ajustado.
Con un nivel de confianza del 95% contrastar que el coeficiente es significativamente
distinto de cero.
d Con un nivel de confianza del 90% contrastar que el coeficiente es significativamente
distinto de .

2.5 Suponga el siguiente modelo de regresin:

Yt 1 X 1t 2 X 2t
5 0
5
y X ' Y . Se pide:

0 1
2

Siendo T 5 , 2 0.25 , X ' X

a) Obtener una estimacin MCO para Yt 1 X 1t 2 X 2t

b) Un intervalo de prediccion para el nivel de confianza del 95%, para Yt 1 ,


sabiendo que X 1t 1 y X 2t 10 .

SOLUCIONES
2.1 a) Y 86.29 1.1X
b) Si u 0.27 y u 1.01
c) H 0 : 0 ; grados de libertad 12-2; t tco 2.228 ; t exp 9.71 ; se rechaza.
2.2 a) Se acepta la hiptesis nula
b) IC1 (0.612,1.286)
2.3 a) Z 5.086W 1.339
b) Z 22.14
c) ICE ( Z j ) (7.556, 64.901)
2.4 a) Y 20.75 1.86 X 1 1.57 X 2
b) R 2 0.893 , R 2 0.850
c) Se rechaza la hiptesis nula.
d) Se rechaza la hiptesis nula.
2.5 a) Yt X 1t 2 X 2t
b) ICE (Yt 1 ) (4.99,37.01)

3.

EXTENSIONES
LINEAL

3.1.

AL

MODELO

DE

REGRESIN

INTRODUCCIN

Como veamos en el capitulo anterior, el modelo de regresin lineal requiere que se cumplan las
siguientes hiptesis sobre los trminos de error:

Media cero : E(ei) = 0

i=1,,n

Varianza constante : Var(ei) = 2I i=1,,n


Residuos incorrelacionados : Cov(ei,ej) = 0

El incumplimiento de alguna de dichas hiptesis, implica la no aleatoriedad de los residuos y,


por tanto, la existencia de alguna estructura o relacin de dependencia en los residuos que puede
ser estimada, debiendo ser considerada en la especificacin inicial del modelo. Los principales
problemas asociados al incumplimiento de las hiptesis de normalidad de los residuos son, por
un lado, la heteroscedasticidad, cuando la varianza de los mismos no es constante, y la
autocorrelacin o existencia de relacin de dependencia o correlacin entre los diferentes
residuos, lo que violara el supuesto de trminos de error incorrelacionados.

Si se construye una grfica de los resultados de una estimacin mnimo cuadrtica (en
ordenadas) frente al valor absoluto de los residuos (en abscisas), cuando stos ltimos presentan
una distribucin aleatoria, es decir una distribucin Normal de media cero y varianza constante,
N (0, 2), el resultado obtenido (vase Fig. 3.1.) muestra que el tamao del error es
independiente del tamao de la variable estimada, ya que errores con valor elevado se
corresponden con valores bajos y altos de la variable dependiente estimada; sin embargo, una
distribucin de residuos con problemas de heteroscedasticidad da lugar a una figura como la que
puede observarse en la figura 3.2., en donde se manifiesta una clara relacin de dependencia
entre la variable estimada y el tamao del error. En este caso los errores de mayor tamao se
corresponden con los valores ms altos de la variable estimada.

V a r ia b le e s ti m a d a ( y )

R e s id u o s a le a to rio s d e m e d ia c e ro y
v a ria n z a c o n s ta n te
3500
3000
2500
2000
1500
1000
500
0
0

200

400

600

800

R e sid u o s v a lo r a b so l u to (e )

Fig. 3.1. Residuos Homocedsticos

V a ria b le e s tim a d a (y )

R e s id u o s c o n h e te r o c e d a s tic id a d
3500
3000
2500
2000
1500
1000
500
0
0

200

400

600

800

1000

R e sid u o s va lo r a b s o lu to (e )

Fig. 3.2. Residuos Heteroscedsticos

La representacin grfica de los errores en forma de serie temporal, es decir, poniendo en el eje
de ordenadas los errores y en abscisas el periodo temporal en que estn datados, permite
apreciar la ausencia o presencia de correlacin ya que a los residuos no correlacionados (figura
3.3.) les corresponde una representacin grfica en la que no se aprecia pauta temporal alguna,
sucedindose de forma impredecible o aleatoria, mientras que en los residuos con problemas de
autocorrelacin la pauta temporal es evidente, evidencindose que cada residuo podra ser

previsto en funcin de la sucesin de los errores correspondientes a periodos temporales


pasados (figura 3.4.)

Residuos aleatorios con media cero y


varianza constante
1000
500
0
-5001940

1950

1960

1970

1980

1990

2000

2010

-1000
Fig. 3.3. Residuos sin Autocorrelacin

Residuosconproblemadeautocorrelacin
1000
500
0
1940
-500

1950

1960

1970

1980

1990

2000

2010

-1000
Fig. 3.4. Residuos con Autocorrelacin
Estos problemas asociados a los errores pueden detectarse con tests estadsticos diseados para
ello. A continuacin se describen dichos tests y la forma en que debe procederse para estimar
modelos en donde la estimacin mnimo-cuadrtica presenta problemas de este tipo asociados a
los residuos.

3.2.

HETEROSCEDASTICIDAD

Decimos que el trmino de error de una estimacin mnimo-cuadrtica presenta


heteroscedasticidad cuando la varianza del mismo es diferente para las distintas observaciones
que integran la muestra, lo que implica que la variabilidad de los errores mnimo-cuadrticos
obtenidos estn relacionados de alguna manera con los datos utilizados en el modelo, ya sea
por estar relacionados con la escala temporal de los datos recogidos o por presentar alguna
relacin de dependencia con alguna de las variables exgenas utilizadas. Las consecuencias
para la estimacin mnimo-cuadrtica son que los estimadores de los coeficientes seguirn
siendo insesgados y lineales pero ya no sern de mnima varianza o eficientes. Estos problemas
se resuelven utilizando una tcnica de estimacin lineal que recibe el nombre de Mnimos
Cuadrados Generalizados (MCG), mtodo que se estudia ms adelante.

La deteccin de la heteroscedasticidad se realiza a travs de diversos contrastes paramtricos,


entre los que cabe destacar el contraste de Bartlett (Mood, 1950), el constraste de GoldfeldQuandt (1965) y el contraste de White (1980), los cuales describimos a continuacin.

3.2.1. Test de Bartlett


El test de Bartlett se basa en de que la suposicin de que las n observaciones de los datos de la
variable a estimar por el modelo pueden agruparse en G grupos (g=1, 2, ..., G), cada uno de los
cuales se caracteriza por tener un distinto tipo de observaciones asociadas a la variable
explicativa, de tal manera que n1 sera el nmero de observaciones correspondientes al primer
grupo, n2 el nmero de observaciones asociadas al segundo grupo y, en general, nG es el nmero
de observaciones asociadas al grupo g-simo. A cada grupo le corresponde un valor medio de la
variable dependiente y una varianza para este valor medio.

El test contrasta si dicha varianza es igual o no entre los distintos grupos que se han construido
para la variable dependiente, admitindose la hiptesis de existencia de heteroscedasticidad si la
varianza es significativamente diferente entre los grupos formados.

Los pasos a seguir en la prctica para realizar el test de Bartlett son los siguientes:

1. Se estima la varianza ( s g ) de cada grupo de observaciones, g=1, 2, ..., G mediante la


siguiente expresin:

ng

( y
s g2

y g )2

g 1

ng

2. Se calcula el estadstico S:

G ng 2 G
n log
s n log s g2
g 1 n g g 1 g

S
G

1
1 1

3(G 1) g 1 n g n

Bajo el supuesto de homocedasticidad, S se distribuye como una chi-cuadrado (2) con G1


grados de libertad. Por lo tanto, se rechazar la hiptesis de igual varianza en todos los grupos si
S es mayor que el valor crtico de la distribucin chi-cuadrado al nivel de significacin
estadstica fijado.

3.2.2. Contraste de Goldfeld-Quant


El contraste de Goldfeld-Quant se utiliza para contrastar la homocedasticidad cuando la forma
de la heteroscedasticidad no es conocida, aunque se intuye que la varianza guarda una relacin
montona creciente o decreciente respecto a alguna variable exgena (que denominaremos
variable z). La operativa de este test es la siguiente:

1. Ordenar todas las observaciones de las variables del modelo, de menor a mayor, en
funcin de la variable z.

2. Eliminar c observaciones centrales de la ordenacin anterior, de tal forma que queden


dos submuestras de (n-c)/2 observaciones cada una. Al seleccionar c, debe hacerse de

tal forma que (n-c)/2 sea sustancialmente mayor que el nmero de parmetros del
modelo.

3. Estimar dos veces el modelo original mediante Mnimos Cuadrados Ordinarios,


utilizando en cada estimacin cada una de las submuestras.

4. Denominando SR1 y SR2 a las sumas de los cuadrados de los residuos de ambas
submuestras (de manera que el subndice 1 corresponda a la submuestra con la menor
suma) se define el estadstico F:

SCR1
SCR2

La idea que subyace bajo este contraste es la siguiente: si existe heteroscedasticidad


entonces, con la ordenacin de la muestra, la varianza del trmino de error ser mayor
hacia el final de la muestra que al principio de la misma. Como el cuadrado de los
residuos est asociado con la varianza de los mismos, entonces SR2 debera ser
sensiblemente mayor que SR1. Por ello, se rechazara la hiptesis nula de
homocedasticidad siempre que el valor del estadstico F excede el valor en tablas de la
distribucin F(n-c-2k)/2,

(n-c-2k)/2

, aceptndose la existencia de heteroscedasticidad en caso

contrario.

Ejemplo 3.1.
Utilizando datos provinciales hemos estimado el modelo explicativo del empleo en el sector de
hoteles descrito en el capitulo 2; los resultados obtenidos fueron los siguientes:

Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.96940463
Coeficiente de determinacin R2
0.93974534
2
R ajustado
0.93728597
Error tpico
1.19099172
Observaciones
52

Trmino constante
Nmero de viajeros (miles)
Estancia media

Coeficientes Error tpico Estadstico t


-2.94444031
0.33100533 -8.89544675
0.00216699
0.00013832
15.6668389
1.31881995
0.13180001
10.0062201

El investigador sospecha que los errores obtenidos tengan alguna relacin con la variable
exgena que recoge el nmero de viajeros de cada provincia. Por ello, decide realizar un
contraste de Goldfeld-Quant, ordena los datos de la tabla en funcin del nmero de viajeros;
despus elimina las 10 observaciones centrales, y deja dos submuestras con 21 provincias cada
una.

A continuacin estima el modelo para cada una de ellas; obteniendo los siguientes resultados:

a) Primera submuestra

Trmino constante
Nmero de viajeros (miles)
Estancia media

Coeficientes
-0.80368434
0.00231232
0.37488653

Trmino constante
Nmero de viajeros (miles)
Estancia media

Coeficientes
-4.55233015
0.00234497
1.54803859

b) Segunda submuestra

La Suma de Residuos al Cuadrado obtenido en la primera muestra es de 0,176 y en la segunda


muestra es de 45.217. Construimos por tanto el estadstico F:

SCR1
0,176

0.004
SCR2 45.217

A continuacin obtenemos de las tablas de la distribucin F el valor terico para una


distribucin con 18 grados de libertad en el numerado y denominador, el valor obtenido es 2.2.
Como valor del estadstico est por debajo del valor terico no se rechaza la hiptesis de
homocedasticidad al nivel de significacin del 5% (probabilidad del 95%).

3.2.3. Contraste de White


El contraste de White se desarroll tambin para evitar la necesidad de considerar una forma
especfica para la heteroscedasticidad. El contraste se basa en que, bajo la hiptesis nula de
homocedasticidad, la matriz de varianzas y covarianzas de los estimadores MCO de es:

2 X ' X

Por el contrario, si existe heteroscedasticidad, la matriz de varianzas y covarianzas viene dada


por:

( X ' X ) 1 X ' X ( X ' X ) 1 , diag ( 12 , 22 ,..., n2 )


Por tanto, si tomamos la diferencia entre ambas queda:

( X ' X ) 1 X ' X ( X ' X ) 1 2 ( X ' X ) 1


Por ello, basta con contrastar la hiptesis nula de que todas estas diferencias son iguales a cero,
lo que equivale a contrastar que no hay heteroscedasticidad.

Los pasos a seguir para realizar el contraste de White son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados

2. Realizar una regresin del cuadrado de la serie de residuos obtenidos en el paso anterior
sobre una constante, las variables exgenas del modelo original, sus cuadrados y los
productos cruzados de segundo orden (los productos resultantes de multiplicar cada
variable exgena por cada una de las restantes). Es decir, se trata de estimar por MCO
la relacin:

et2 a 1 X 1 ... k X k 1 X 12 ... k X k2 1 X 1 X 2 ... k X 1 X k 2 X 2 X 3 ... k X 2 X k ... k X k 1 X k t

3. Al aumentar el tamao muestral, el producto nR2 (donde n es el nmero de


observaciones y R2 es el coeficiente de determinacin de la ltima regresin) sigue una

distribucin Chi-cuadrado con p 1 grados de libertad, donde p es el nmero de


variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de
existencia de heteroscedasticidad cuando el valor del estadstico supere el valor crtico
de la distribucin Chi-cuadrado (c) al nivel de significacin estadstica fijado ( nR 2 c
).

Ejemplo 3.2.
Para realizar en R el constraste de heterocedasticidad de White en el modelo estimado en el
ejemplo 2.2, primero hay que instalar en Packaged tseries:
> install.packages("tseries")

y despus ejecutar el siguiente programa R:


> library(tseries)
> datos <- read.table(file="libro1.txt",header=T,dec=",")
> datos
Aos Empleo Viajeros Estancia_m
1
Andaluca
28.4 11.902,50
3.1
2
Aragn
3.6 1.848,00
2.1
3
Asturias
2.4 1.088,20
2.3
4
Balears
25.9 6.716,00
7.2
5
Canarias
27.2 4.875,70
7.8
6
Cantabria
2.0
933,8
2.4
7
Castilla_Len
6.2 3.647,60
1.7
8 Castilla_Mancha
2.8 1.805,10
1.7
9
Catalua
23.5 10.771,70
3.4
10
C_Valenciana
13.4 5.579,70
3.9
11
Extremadura
2.2 1.000,70
1.7
12
Galicia
6.3 3.040,50
2.1
13
Madrid
10.7 5.748,90
2.1
14
Murcia
2.0
882,5
3.0
15
Navarra
1.1
557,7
2.0
16
Pas_Vasco
3.2 1.540,60
1.9
17
Rioja
0.7
446,2
1.8
> x <- matrix(c(datos$Viajeros,datos$Estancia_m),ncol=2)
> y <- matrix(datos$Empleo,ncol=1)
> white.test(x,y)
White Neural Network Test
data: x and y
X-squared = 11.2629, df = 2, p-value = 0.003583

En este ejemplo el valor del estadstico nR 2 11, 2629 , dado que el valor de la distribucin
Chi-cuadrado terica para el nivel de significacin a 0,05 da un valor crtico c 5,99
habra que aceptar la hiptesis de existencia de heterocedasticidad. El p-value es la probabilidad
asociada al estadstico calculado, al ser de 0,003583 y por tanto menor que 0,05, situara al
estadstico en la zona de rechazo de la hiptesis H 0 , la que de los valores del estadistico
superiores al valor crtico.

3.3 AUTOCORRELACIN
Decimos que existe autocorrelacin cuando el trmino de error de un modelo economtrico
est correlacionado consigo mismo a travs del tiempo tal que E (ei , e j ) 0 . Ello no significa
que la correlacin entre los errores se d en todos los periodos sino que puede darse tan slo
entre algunos de ellos. En presencia de autocorrelacin, los estimadores MCO siguen siendo
insesgados pero no poseen mnima varianza, debindose utilizar en su lugar el mtodo de
estimacin de los Mnimos Cuadrados Generalizados (MCG).

La existencia de autocorrelacin en los residuos es fcilmente identificable obteniendo las


funciones 2 de autocorrelacin (acf) y autocorrelacin parcial (acp) de los errores mnimocuadrticos obtenidos en la estimacin. Si dichas funciones corresponden a un ruido blanco, se
constatar la ausencia de correlacin entre los residuos. Sin embargo, el mero examen visual de
las funciones anteriores puede resultar confuso y poco objetivo, por lo que en la prctica
economtrica se utilizan diversos contrastes para la autocorrelacin, siendo el ms utilizado el
de Durbin-Watson (1950), que pasamos a ver seguidamente.

3.3.1. Contraste de Durbin-Watson


Si se sospecha que el trmino de error del modelo economtrico tiene una estructura como la
siguiente:

et et 1 u t
entonces el contraste de Durbin-Watson permite contrastar la hiptesis nula de ausencia de
autocorrelacin. Dicho contraste se basa en el clculo del estadstico d, utilizando para ello los
errores mnimo-cuadrticos resultantes de la estimacin:

(e

et 1 ) 2

t 2

n
2
t

e
t 1

El valor del estadstico d oscila entre 0 y 4, siendo los valores cercanos a 2 los ndicativos de
ausencia de autocorrelacin de primer orden. La interpretacin exacta del test resulta compleja,
ya que los valores crticos apropiados para contrastar la hiptesis nula de no autocorrelacin
2

Estas funciones se analizarn en detalle en el captulo 3 de la II parte

requieren del conocimiento de la distribucin de probabilidad bajo el supuesto de cumplimiento


de dicha hiptesis nula, y dicha distribucin depende a su vez de los valores de las variables
explicativas, por lo que habra que calcularla en cada aplicacin. Para facilitar la interpretacin
del test Durbin y Watson derivaron dos distribuciones: dU y dD, que no dependen de las variables
explicativas y entre las cuales se encuentra la verdadera distribucin de d, de forma que a partir
de un determinado nivel de significacin, se adopta la siguiente regla de decisin:

1. Si d dD rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis


alternativa de autocorrelacin positiva.

2. Si d 4 dD rechazamos la hiptesis nula de no autocorrelacin frente a la hiptesis


alternativa de autocorrelacin negativa.

3. Si dU d 4- dU aceptamos la hiptesis nula de no autocorrelacin.

En el Anexo II, tabla II.5., presentamos la tabla con la distribucin desarrollada por Durbin y
Watson para los valores de dU y dD.
El estadstico d de Durbin-Watson es aproximadamente igual a 21 1 en donde 1 es el
coeficiente de autocorrelacin simple muestral del retardo 1.
n

(ei et 1 ) 2
d

t2

e e

t t 1

22

n
2
t

e
t 1

t 1
n

21 1

2
t

e
t 1

Ejemplo 3.3.
En el siguiente ejercicio planteamos una regresin lineal entre el consumo de energa elctrica
en Espaa y el PIB a precios de mercado valorado en moneda constante (millones de euros).

Consumo de Energa Elctrica

1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002

PIB
(millones de euros)

(miles de TEP)
9427
9876
10410
10974
11372
11488
11569
11999
12462
12827
13331
14290
15364
16309
17282
17756
Fuente: INE y OCDE

355312
373412
391443
406252
416582
420462
416126
426041
437787
448457
466513
486785
507346
528714
543746
554852

Con los datos de la tabla anterior la estimacin MCO entre el consumo de energa elctrica y el
PIB sera la siguiente:

Yt=-6234.4+0.043Xt+t
Siendo Yt el consumo de energa elctrica y Xt el PIB en moneda constante.

Los resultados de la estimacin se presentan a continuacin:

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.99619699
Coeficiente de determinacin R2
0.99240844
R2 ajustado
0.99186619
Error tpico
233.805853
Observaciones
16

Trmino
constante
PIB-$

Coeficientes Error tpico Estadstico t Probabilidad


-6234.453
451.562
-13.806
0.000
0.043

0.001

42.780

0.000

Como vemos las estadsticas de la regresin realizada son buenas, se obtiene un R2 muy
elevado, y los parmetros son estadsticamente significativos, ya que el valor terico de la tStudent es 2.51 al 95% de probabilidad.

No obstante, la representacin grfica de los errores apunta a la posibilidad de un problema de


autocorrelacin entre los residuos:

Grafico de los residuos


600,0
500,0
400,0
300,0
200,0
100,0
0,0
-100,01986

1988

1990

1992

1994

1996

1998

2000

2002

-200,0
-300,0
-400,0

Para verificarlo calculamos el estadstico t de Durbin-Watson:

Y*
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
Total

et2

et
8933
9705
10475
11107
11548
11714
11529
11952
12453
12909
13680
14545
15423
16335
16977
17451

494.2
170.5
-65.2
-133.3
-176.3
-225.9
40.2
46.9
8.5
-81.9
-348.7
-255.1
-58.8
-25.9
305.4
305.3
0.0

(et-et-1)2

et-et-1
244192.5
29076.7
4247.8
17777.0
31078.1
51038.2
1614.1
2202.6
72.7
6715.2
121596.8
65057.3
3452.3
670.7
93286.1
93234.4
765312.5

-323.6
-235.7
-68.2
-43.0
-49.6
266.1
6.8
-38.4
-90.5
-266.8
93.6
196.3
32.9
331.3
-0.1
-188.8

(e e

i 1

i 2

n
2
i

e
i 1

)2

479, 081.7
0.62599
765,312.5

104742.4
55551.6
4645.2
1845.5
2462.8
70804.9
45.6
1474.9
8185.4
71161.5
8769.2
38536.6
1079.7
109776.4
0.0
479081.7

2004

Los valores tericos del estadstico para n=16 observaciones y k=1 variables explicativas, son
dD=0.98 y dU=1.24. Dado 0.62599 < 0.98 no podemos rechazar la hiptesis de la existencia de
autocorrelacin positiva.

En R, el test de Durbin-Watson se encuentra en el Package (lmtest), y su sintaxis es:


> dwtest(formula)
Relaizar el ejercicio anterior requiere del siguiente programa R:
>
>
>
>

install.package(bgtest)
library(bgtest)
datos <- read.table(file="libro1.txt",header=T)
datos
Aos CEnEl
PIB
1 1987 9427 355312
2 1988 9876 373412
3 1989 10410 391443
4 1990 10974 406252
5 1991 11372 416582
6 1992 11488 420462
7 1993 11569 416126
8 1994 11999 426041
9 1995 12462 437787
10 1996 12827 448457
11 1997 13331 466513
12 1998 14290 486785
13 1999 15364 507346
14 2000 16309 528714
15 2001 17282 543746
16 2002 17756 554852
> dwtest(datos$PIB ~ datos$CEnEl)
Durbin-Watson test
data: datos$PIB ~ datos$CEnEl
DW = 0.628, p-value = 0.0001192
alternative hypothesis: true autocorrelation is greater than 0

3.3.1. Contraste de Breush-Godfrey


El test de correlacin serial de BreuschGodfrey es un test de autocorrelacin en los errores y
residuos estadsticos en un modelo de regresin. Hace uso de los errores generados en el modelo
de regresin y un test de hiptesis derivado de ste. La hiptesis nula es que no exista
correlacin serial de cualquier orden de .

El test es ms general que el de DurbinWatson, que solo es vlido para regresores noestocsticos y para testear la posibilidad de un modelo autoregresivo de primer orden para los
errrores de regresin. El test BreuschGodfrey no tiene estas restricciones, y es estadsticamente
ms poderoso que el estadstico d .
Los pasos para realizar el contraste son los siguientes:

1. Estimar el modelo original y obtener la serie de residuos estimados


2. Estimar la ecuacin de regresin auxiliar:

et a 1 X 1 ... k X k 1et 1 ... p et p t


3. Al aumentar el tamao muestral, el producto n p R 2 (donde n es el nmero de
observaciones, p , el nmero de retardos del error utilizados en la regresin
auxiliar y R2 es el coeficiente de determinacin de dicha regresin) sigue una
distribucin Chi-cuadrado con p grados de libertad, donde p es el nmero de
variables exgenas utilizadas en la segunda regresin. Se aceptar la hiptesis de
existencia de autocorrelacin cuando el valor del estadstico supere el valor
crtico de la distribucin Chi-cuadrado (c) al nivel de significacin estadstica
fijado( n p R 2 c ).

Ejemplo 3.4.

El test de BreuschGodfrey tambien se realiza con la librera R (lmtest), y se programa para


p 3 del siguiente modo:
> install.package(bgtest)
> library(gbtest)
> bgtest(datos$PIB ~ datos$CEnEl,order=3)
Breusch-Godfrey test for serial correlation of order up to 3
data: datos$PIB ~ datos$CEnEl
LM test = 5.3733, df = 3, p-value = 0.1464

En este ejemplo el valor del estadstico n p R 2 5,37 , dado que el valor de la


distribucin Chi-cuadrado terica para el nivel de significacin a 0,05 da un valor crtico

c 7,81 habra que rechazar la hiptesis de existencia de autocorrelacin. El p-value es la


probabilidad asociada al estadstico calculado, al ser de 0,1454 y por tanto mayor que 0,05,
situara al estadstico en la zona de aceptacin de la H 0 , la que constituyen los valores del
estadistico inferiores al valor crtico.

3.3.

DEFICIENCIAS MUESTRALES: MULTICOLINEALIDAD

El fenmeno de la multicolinealidad aparece cuando las variables exgenas de un modelo


economtrico estn correlacionadas entre s, lo que tiene consecuencias negativas para la
estimacin por MCO, ya que la existencia de una relacin lineal entre las variables exgena,

implica que la matriz ( X ' X ) va a tener determinante cero, es decir ser una matriz singular y
por tanto no ser invertible. Dado que ( X ' X ) 1 X ' Y , no ser posible calcular la estimacin
mnimo cuadrtica de los parmetros del modelo ni, lgicamente, la varianza de los mismos.
Esto es lo que se conoce por el nombre de multicolinealidad exacta.

Consideremos por ejemplo la relacin lineal:

Yi 0 1 X 1i 2 X 2i u i
Supongamos que las variables independientes presentan relacin lineal exacta:

X 2i cX 1i
La matriz (XX) quedara:

X
X
X X

n
X ' X X 1
X 2

1
2
1

X
X X
X

1 2
2

2
2

sustituyendo X 2i por cX 1i tenemos:

X
X
c X

n
X ' X X 1
c X 1

1
2
1
2
1

c X 1

c X 12
c 2 X 12

Como el valor de un determinante no se altera si se resta de una fila o columna un mltiplo


constante de cualquier otra fila o columna. Si multiplicamos la segunda fila de (XX) por c y
restamos el resultado de la tercera fila tenemos:

A X 1
0

X
X

1
2
1

c X 1

c X 12
0

puesto que X ' X A 0 , la matriz (XX) es singular y por tanto no invertible.

Sin embargo, en la prctica no nos encontraremos con un caso tan extremo como el que
acabamos de exponer, sino que generalmente nos encontraremos ante lo que se conoce como
multicolinealidad aproximada, siendo una de las columnas de la matriz

(X' X ) ,

aproximadamente, una combinacin lineal del resto por lo que ser una matriz
aproximadamente singular. Al no ser el determinante de ( X ' X ) igual a cero, existir inversa y
podrn estimarse los parmetros pero con las siguientes consecuencias:

1. Por un lado, pequeas variaciones muestrales producidas al incorporar o sustraer un


nmero reducido

de observaciones muestrales podran generar importantes

cambios en los parmetros estimados.

2
2. Por otro lado, la matriz de covarianzas del estimador MCO, S S e X ' X , al

ser un mltiplo de ( X ' X ) 1 , ser muy grande por ser el determinante de ( X ' X )
muy pequeo por lo que la estimacin realizada ser muy poco precisa al ser la
desviacin tpica de cada parmetro muy elevada.

Las soluciones propuestas para resolver el problema de la multicolinealidad son variadas, si


bien en general resultan poco satisfactorias:

1. Una posibilidad, sugerida por Johnston (1984), consiste en excluir aquella variable
exgena que puede estar muy correlacionada con el resto y posteriormente estimar el
coeficiente asociado a dicha variable mediante otro procedimiento para incluirlo en el
modelo.

2. Otra posibilidad es la que se conoce como regresin cresta, introduciendo una


constante c en la matriz ( X ' X ) de tal forma que el estimador de MCO quedara como

( X ' X cI k ) 1 X ' Y , evitando as la singularidad de la matriz. Evidentemente, los


coeficientes estimados estarn sesgados pero la matriz de covarianzas de los mismos
ser, seguramente, menor que la que obtendramos sin introducir la constante por lo que
probablemente la menor varianza compense en parte el sesgo introducido. Otra cuestin
no menos trivial es la seleccin del valor de c, para lo que no existe un mtodo definido;
una posibilidad, sugerida por Hoerl y Kennard (1970) es comenzar con un valor muy
pequeo de c e ir aumentndolo hasta que observemos que las estimaciones comienzan
a estabilizarse.

3. Tambin se ha sugerido la posibilidad de reformular el modelo, convirtindolo en un


modelo de varias ecuaciones (estimacin por tramos).

4. Finalmente, cuando la multicolinealidad se debe a la presencia como variables


explicativas de varios retardos de una misma variable, puede especificarse una relacin
entre sus coeficientes para eliminar alguno de los retardos del modelo.

3.4.

ERRORES DE ESPECIFICACIN

Los errores de especificacin hacen referencia a un conjunto de errores asociados a la


especificacin de un modelo economtrico. En concreto cabe referirse a:

Omisin de variables relevantes

Inclusin de variables innecesarias

Adopcin de formas funcionales equivocadas

En Economa la teora no suele concretar la forma funcional de las relaciones que estudia. As,
por ejemplo, cuando se analiza la demanda se seala que la cantidad demandada es
inversamente proporcional al precio; cuando se estudia el consumo agregado se apunta que la
propensin marginal a consumir (relacin entre renta y/o consumo) es mayor que cero y menor
que uno. Por otro lado es frecuente utilizar la condicin ceteris paribus para aislar la
informacin de otras variables relevantes que influyen y/o modifican la relacin estudiada. Por
esta razn, la existencia de errores de especificacin en la relacin estimada es un factor a
considerar y a resolver en el proceso de la estimacin economtrica.

Con independencia de la naturaleza de los errores de especificacin, dado que el proceso de


estimacin MCO deben de cumplirse determinadas hiptesis bsicas, que los estimadores MCO
deben de ser insesgados, eficientes y consistentes, y que el estimador de la varianza del trmino
de error ha de ser insesgado, debemos preguntarnos: qu ocurrira con estas propiedades ante
errores de especificacin?.
Para responder a esta cuestin, partimos del modelo de regresin lineal cuya especificacin
general es:

Yi = o+ 1 X1i ++ k Xki + ei
Con las propiedades habituales:

Media cero : E(ei) = 0

i=1,,n

Varianza constante : Var(ei) = 2I i=1,,n


Residuos incorrelacionados : Cov(ei,ej) = 0
No existencia de relacin lineal exacta entre dos o ms variables independientes

3.4.1. Omisin de una variable relevante


Para analizar las consecuencias de la omisin de una variable relevante, vamos a partir del
siguiente modelo verdadero:

Yi = 0 + 1 X1i + 2 X2i + ei

(3.1)

Sin embargo, por algn motivo, se ha procedido estimar el siguiente modelo:

Yi = a0 + a1 X1i + vi

(3.2)

Dado que la variable excluida X2i est relacionada con la variable dependiente Yi, entonces se
deduce que:

vi= 2 X2i + ei.

Estimando la pendiente 2 por MCO en el modelo (3.2), se obtiene:

a1

X
X

1i

X 1 y i

1i

X1

siendo y i Yi Y , de forma que al sustituir yi por su expresin en el modelo verdadero (3.1)


quedara:

a 1

1i

X 1 1 x1i 2 x 2 i ei

X1

1i

X 1 1 X 1i X 1 X 2 i X 2 2 X 1i X 1 ei
2

1i

X1

1i

Al tomar esperanzas condicionales con respecto a los valores de las variables independientes y
dado que E(e| x1, x2, , xk) = 0, se obtiene que:

E a 1 1 2

X X X X
X X
1i

2i

1i

lo que implica que E (a 1 ) no ser igual a 1, por lo que estar sesgado siendo su sesgo:

X X X X
X X
1i

2i

1i

Expresin cuyo signo viene determinado por el signo del coeficiente 2 y por el sentido de la
correlacin entre las variables X1 y X2.

Con respecto a la varianza, dado que de la estimacin MCO resulta que:

Var 1

X 1 1 r12, 2
2

1i

donde r21,2 es el R2 resultante de regresar X1 sobre X2.

Y adems:

Var a 1

X1

1i

entonces Var (a 1 ) ser diferente de Var ( 1 ) , y por lo general ser mas pequea ya que
0<r21,2<1; pero an en el caso en que r21,2=0, que implicara que X1 y X2 no estn
correlacionadas, y aunque el estimador MCO de 1 no fuera insesgado (ya que el sesgo de las

variables omitidas se anulara porque el termino

X X X X
X X
1i

2i

1i

sera cero), las

varianzas seran ya de por s diferentes debido en la estimacin de la ecuacin (3.1) y en la de la


ecuacin (3.2).

3.4.2. Inclusin de una variable innecesaria


Supngase ahora que el modelo verdadero es:

Yi = 0 + 1 X1i + ei

(3.3)

Yi = ao + a1 X1i + a2 X2i + vi

(3.4)

Pero se especifica el siguiente modelo:

Los estimadores MCO de (3.4) son ahora sesgados y consistentes, ya que E (a 0 ) 0 ,

E (a1 ) 1 y E (a 2 ) 0 ; a este respecto hay que tener presente que al ser X2 una variable
innecesaria el parmetro estimado no ser significativamente distinto de cero.
Pero como desde el punto de vista de las varianzas ahora resulta que:

Var 1

Var a 1

X1

1i

X 1 1 r12, 2
2

1i

Puesto que 0< r21,2<1, se cumplira que Var (a 1 ) Var ( 1 ) , es decir, la varianza de la
estimacin MCO de a1 sera mayor que la estimacin MCO de 1.

3.4.3. Especificacin funcional incorrecta


Si especificamos la forma funcional de una relacin (ya sea lineal, cuadrtica, cbica,
exponencial, logartmica, etc.) y la verdadera relacin presenta una forma diferente a la
especificada tiene, en algunos casos, las mismas consecuencias que la omisin de variables
relevantes, es decir, proporciona estimadores sesgados e inconsistentes. En general, una
especificacin funcional incorrecta lleva a obtener perturbaciones heteroscedsticas y/o
autocorrelacionadas, o alejadas de los parmetros de la distribucin del trmino de error del
modelo correctamente especificado.

3.4.4. Contraste de errores de especificacin


Para constatar la presencia de errores de especificacin en los modelos se utiliza la prueba
general de errores de especificacin de Ramsey. Dicha prueba, en su versin ms sencilla, se
realiza mediante los siguientes pasos:

1. A partir del modelo especificado, obtenemos Yi estimada, es decir Yi .

2. Se efecta una nueva regresin incluyendo Yi en alguna forma, con uno o varios
regresores adicionales, por ejemplo:

Yi 0 1 X i 2Yi 2 3Yi 3 ei

(3.5)

2
3. Considerando el R2 obtenido en el modelo inicialmente especificado, R A , y el R2
2

obtenido en la segunda regresin, RB , se construye el siguiente estadstico:

2
B

R A2

l
1

RB2
(n k )

El cual se distribuye segn una F de Snedecor con l, nk grados de libertad, siendo l


el nmero de regresores nuevos incluidos en el segundo modelo y n k el nmero
de observaciones menos el numero de parmetros del segundo modelo.

4. Si el valor F calculado es significativo al nivel deseado, Fexp Ftco se puede


aceptar la hiptesis de que el modelo est mal especificado.

Ejemplo 3.5.
Utilizando los datos del modelo del grado de ocupacin hotelera estimado en el capitulo
anterior, vamos a plantear la hiptesis de la existencia de algn error de especificacin en el
modelo.

Utilizando los datos del modelo, efectuamos la regresin siguiente:

Yi 0 1 X 1i 2 X 2i 3Yi 2 4Yi 3 ei
Para el que obtenemos el siguiente resultado:

Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.92689061
Coeficiente de determinacin R2
0.8591262
R2 ajustado
0.81216826
Error tpico
5.50047546
Observaciones
17

Dado que el modelo estimado obtena un R2 ajustado de 0,794; construimos el estadstico de


prueba:

RA2

0.812 0.794

1 RB2

2
(1 0.812)
12

2
B

(n k )

0.57

Con un nivel de significacin de =0.05, obtenemos el valor terico correspondiente a una


distribucin F con 2 grados de libertad en el numerador y 12 en el denominador, que es de 3.49.
Dado que Fexp Ftco no se rechaza la hiptesis de que el modelo est mal especificado.

3.5.

MINIMOS CUADRADOS GENERALIZADOS.

En el modelo lineal general estableciamos como hiptesis de trabajo para el termino de error
tener una media cero, una varianza constante y no estar autocorrelacionado; es decir:

Media cero : E(ei) = 0

i=1,,n

Varianza constante : Var(ei) = 2I i=1,,n


Residuos incorrelacionados : Cov(ei,ej) = 0

Ahora vamos a mantener la hiptesis de media nula, es decir,

E(ei) = 0 , i=1,,n

Pero se va a admitir la posibilidad de que las varizanzas y covarianzas del termino de error estn
multiplicads por un factor escalar tal que:
E(ei ,ej) = 2 , i=1,,n
Donde 2 es desconocida y es una matriz conocida de orden n simtrica y definida positiva.

Recordemos que los errores son heteroscedsticos cuando su varianza vara a lo largo del
tiempo. Entonces, suponiendo que no existe autocorrelacin en los residuos, la matriz de
varianza y covarianzas de los errores tendra la forma:

1 0

0 2
E (ei , e j ) 2 2
... ...

0 0

... 0 12

... 0 0

... ... ...



... n 0

0
22
...
0

... 0

... 0
... ...
... n2

Si en lugar de heteroscedasticidad, existiera alguna forma de autocorrelacin en el trmino de


error tal que E (ei , e j ) 0 , la matriz de varianzas-covarianzas de los errores autocorrelacionados
tendr la siguiente forma:

2
2
E (ei , e j ) 1
...

n 1

1
1
...
n 2

... n 1

... n 2
... ...

...
1

En resumen, la existencia de heteroscedasticidad y autocorrelacin violan las hiptesis de


trabajo sobre el trmino de error que requiere MCO; en ese caso, los estimadores obtenidos por
este procedimiento no sern los ms eficientes, es decir, no sern los que garanticen la mnima
varianza entre todos los estimadores lineales.

El mtodo de Mnimos Cuadrados Generalizados (MCG) permite obtener estimadores eficientes


cuando MCO proporciona estimaciones cuyo termino de error no tiene la forma de ruido blanco,
es decir, no tiene media cero, varianza constante y no est autocorrelacionado.

2
Supngase que las varianzas heteroscedsticas i son ahora conocidas. El uso de Mnimos

Cuadrados Generalizados equivale a redefinir las variables utilizadas en el modelo original de


regresin tal que todas ellas quedan divididas por i :

Yi*

X ji
Yi
e
, X *ji
, j 2,..., k , ei* i
i
i
i

El trmino de error transformado tiene ahora una varianza homocedstica:

*
i

* 2
i ) =

Var( e ) = E( e

e
E i

1
1

= 2 E(ei)2 = 2 ( i2 ) = 1
i
i

Posteriormente se realiza la regresin mnimo cuadrtica con el modelo transformado:

Y * i 0 1 X *1i 2 X *2i ... k X *ki e *i


El estimador MCG ser:
1
1
MCG X * ' X * X * ' Y * X ' P 1 ' P 1 X X ' P 1 ' P 1Y

Siendo:

P 1

1
1
0
...
0

...

1
2
...
0

...
...
...

0
...

1
n

Si llamamos entonces 1 P 1 ' P 1 , el estimador MCG quedara como:


1
MCG X ' 1 X X ' 1Y

Por tanto, el mtodo de MCG consiste en aplicar MCO sobre las variables transformadas, las
cuales s satisfacen las hiptesis tericas establecidas para MCO.

As, por ejemplo, si detectamos la presencia de autocorrelacin, y se cree que las perturbaciones
se generan de la manera siguiente:

et et 1 t
Donde se conoce como coeficiente de autocorrelacin, siendo 1 1 y t satisface los
supuestos MCO clsicos (esto es, media cero, varianza constante y ausencia de autocorrelacin)

El estimador MCG se obtendra realizando la siguiente transformacin:

Yt Yt 1 0 (1 ) 1 X t X t 1 t

Yt* o* 1* X t* t

De forma que el estimador 1MCG viene dado por la siguiente expresin:

1MCG

xt 1 y t y t 1

t 2

xt 1

t2

siendo xt X t X e y t Yt Y , y C un factor de correccin que suele despreciarse en la


prctica.

La varianza del estimador obtenido mediante MCG ser:

Var ( 1MCG )

2
2

xt 1

t 2

donde D es otro factor de correccin que tambin es despreciable.

Dado que es un parmetro desconocido, es habitual obtener un estimador de a partir del


estadstico d de Durbin-Watson:

d
2

O por el procedimiento iterativo de Cochrane-Orcutt, que consiste en realizar una segunda


regresin con los errores de la regresin MCO de las variables originales; es decir:

et et 1 vt

y a partir de la estimacin de esta segunda regresin se realizan sucesivas regresiones a partir


del modelo transformado siguiente:

Yt Yt 1 0 (1 ) 1 X t X t 1 et* Yt* o* 1* X t* et*


et* Yt 0* 1* X t
et* et*1 wt
hasta alcanzar un determinado grado de convergencia, en el sentido de que las diferencias entre
las sucesivas estimaciones de tengan un valor inferior a un nmero previamente elegido.

En la prctica, para obtener los estimadores MCG una vez determinado el parmetro
deberamos seguir los siguientes pasos:

1. Transformar las observaciones originales utilizando el parmetro


2. Aplicar MCO a los datos transformados.

Ejemplo 3.6.
Utilizando los datos y resultados obtenidos en el ejemplo 3.2, vamos a calcular un estimador
para a partir de:

d
0.62599
1
0.687
2
2

Para obtener los estimadores MCG, primero transformamos las variables originales:

Yt * Yt Yt 1
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002

3399.63
3625.16
3822.30
3832.83
3675.41
3676.71
4051.07
4218.66
4265.57
4518.82
5131.57
5546.73
5753.89
6077.68
5883.22

(1 )

X t* X t X t 1

0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435
0.312997435

129311.74
134908.00
137329.65
137485.83
134269.10
127267.53
140161.37
145095.74
147696.21
158421.89
166289.37
172923.46
180166.00
180518.13
181297.10

En segundo lugar aplicamos MCO a los datos transformados 3, lo que da lugar a la siguiente
solucin:

Yt* 8,003.87(1 ) 0.046 X t*


que equivale a estimar:

Yt 8,003.87 0.046 X t

Para obtener una estimacin de por el

procedimiento iterativo de Cochrane-Orcutt,

iniciamos el procedimiento a partir de la funcin et et 1 vt estimada por MCO:

Notese que en vez del vector de n valores 1 que se asocia al trmino constante en el MCO ordinario, se
estima ahora utilizando un vector con n valores (1 ) .

et 0.531et 1 vt
A continuacin transformamos las variables originales:

Yt * Yt Yt 1
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002

(1 )

4867.671917
5163.129506
5443.428732
5541.789713
5446.342319
5465.714436
5852.681172
6087.232984
6206.252725
6516.337402
7207.574873
7772.082285
8146.493088
8617.438347
8574.507911

X t* X t X t 1

0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142
0.468725142

184643.6678
193058.5929
198288.1759
200750.5265
199142.4573
192745.1108
204963.7186
211442.1284
215871.7739
228259.0712
238938.3724
248729.3684
259173.8261
262853.5449
265973.4213

Aplicamos MCO a los datos transformados, lo que da lugar a la siguiente ecuacin:

Yt* 7,518.97(1 ) 0.045 X t*


Obtenemos los errores de prediccin a partir de:

et* Yt 7,518.97 0.045 X t


et*

Yt
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997

8583.804131
9404.058542
10221.18602
10892.29914
11360.43329
11536.26683
11339.76832
11789.09552
12321.39985
12804.94209
13623.20251

843.1958686
471.9414578
188.8139837
81.7008583
11.56671113
-48.26683108
229.2316841
209.9044751
140.6001486
22.05790756
-292.2025146

1998
1999
2000
2001
2002

14541.88745
15473.66927
16442.02266
17123.24168
17626.54254

-251.8874547
-109.6692747
-133.0226587
158.7583191
129.4574635

Por tanto, en segunda iteracin obtenemos el siguiente valor a partir de la regresin:

et* 0.52446et*1 wt
Y a partir de este nuevo valor repetiremos el proceso hasta obtener parmetros que difieran
en un pequeo valor, como ocurre entre los parmetros obtenidos en la iteracin 9 y 10:

Iteracin
1
2
3
4

Diferencias
0.5244578

0.52217007
0.52141952
0.52117513

-0.00228772
-0.00075055
-0.00024439

Con el parmetro correspondiente a la cuarta iteracin se obtiene la siguiente estimacin MCG:

Yt 7495.29 0.045 X t

3.6.

PROBLEMAS

3.1. Utilizando los siguientes datos:


Y
2
3
4
5
6
7
8
4
5
6
7
3
4

X
25
28
30
33
35
35
39
28
29
31
33
26
29

5
8
2
4

28
34
23
28

a) Estime por MCO la relacin Y=0+1X


b) Obtenga los residuos y representarlos grficamente. Comentar los resultados.
c) Calcule el estadstico d de Durbin-Watson e interprete el resultado
3.2. Utilizando los siguientes datos de corte transversal de 20 individuos:
i

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

5
11.1
3.2
7.9
25.5
3.8
11.1
9.9
13.3
1.5
6.4
8.9
8.1
13.5
4.7
7.5
4.7
8
7.5
9

X
4.3
4.6
2.4
2.4
26.4
4.2
5.5
4.7
2.2
4
4
8.4
3.3
4.7
5.2
3.6
3.6
4
3.9
2.1

a) Efecte la regresin MCO de Y sobre X y realice un grfico de los residuos de la


regresin.
b) En base al grfico de los residuos si concluye que hay heteroscedasticidad en la
varianza del error, realice un contraste estadstico para verificarlo.

3.3. Con los siguientes datos de X e Y


Y
217
136
67
66
93
36
173
139
61

X
6.5
4.6
2.4
2.4
3.4
1.1
5.5
4.7
2.2

58
55
212
92
138
37
152
243

2.1
2
6.4
3.3
4.7
1.2
5
7

Se ha obtenido la siguiente estimacin:


Y=8.25+3.68 X

R2=0.9846.

Comprobar si el modelo est bien especificado.

3.4. Comente los resultados con el siguiente programa R4 realizado con datos del PIB en indices
de volumen y horas trabajadas de la Contabilidad Regional de Espaa en Cantabria :
> library(lmtest)
> datos <- read.table(file="libro1.txt",header=T,dec=",")
> datos
Ao
PIB
HORAS
1 2000 81.36789 358353.0
2 2001 84.70348 376717.6
3 2002 87.13748 389675.5
4 2003 88.44620 393953.2
5 2004 90.48026 402303.7
6 2005 93.35919 415740.0
7 2006 96.36604 418940.8
8 2007 99.17407 428054.0
9 2008 100.00000 426718.0
10 2009 96.05368 401495.1
11 2010 95.64394 379246.9
12 2011 94.83684 371818.5
13 2012 93.99655 354724.5
dwtest(datos$PIB ~ datos$HORAS)
Durbin-Watson test
data: datos$PIB ~ datos$HORAS
DW = 0.0942, p-value = 6.069e-10
alternative hypothesis: true autocorrelation is greater than 0

3.5 Utilizando los datos del ejercicio 1 realice una estimacin de siguiendo el procedimiento
de Cochrane-Orcutt.

Soluciones
3.1 a) Y 7.79 0.42 X

b) A realizar por el lector

c) d

7.795
0.797 , con dU 1.40 y d L 0.90 . Se rechaza la hiptesis nula de
9.777

no autocorrelacin.
3.2 a) Y 4.61 0.757 X

b)

Fexp

71.43
1.28 ; F4, 4 6.39 ; no se rechaza la hiptesis nula de
55.71

homocedasticidad5.

2
2
3.3 R B 0.9998 y R A 0.9846 ; Fexp

(0.9998 0.9846)
1

1064 ; F1,14 4.60 .


(1 0.9998)
14

acepta la hiptesis de que el modelo est mal especificado 6.


3.4 A realizar por el lector

3.5 0.57721 ; 0.61176 ; 0.61416 ; 0.61432

Resultados del contraste de Goldfeld-Quant eliminando las cuatro observaciones centrales.

Para calcular R B2 se utiliza la regresin Yi

0 1 X i 2Yi 2 ei

Se

4.

MODELOS CON ERRORES EN LAS VARIABLES

4.1.

INTRODUCCIN

En el captulo 2 hemos mantenido dos supuestos de forma implcita: por un lado, que los
modelos haban sido correctamente especificados; y por otro, que no se cometan errores en la
medicin de las variables que componen los modelos. Sin embargo, en la prctica puede que
alguno de los supuestos anteriores no se satisfaga plenamente.

El incumplimiento del primero de ellos conlleva lo que se conoce en Econometra como errores
de especificacin, los cuales ya han sido examinados en el captulo anterior. Sin embargo, no
son stos los errores objeto de anlisis en este captulo sino los segundos, aquellos derivados de
la no coincidencia de los datos disponibles con los valores tericos de las variables incluidas.
Ello puede deberse bsicamente a dos motivos: por un lado, puede darse la circunstancia de que
no podamos obtener datos para la variable terica deseada (denominada variable latente), por lo
que deberemos usar una variable que est muy correlacionada con la anterior (variable proxy)
de la que s se disponga de datos. Por otro lado, tambin puede darse el caso en el que el
investigador se encuentre con problemas de la muestra tales como errores en el tratamiento de
los datos, respuestas no vlidas, etc.

En estos casos, los estimadores obtenidos en las regresiones se vern afectados, introduciendo
sesgos en la estimacin por Mnimos Cuadrados Ordinarios. El sesgo de los estimadores ser
menor cuanto ms se aproxime la variable que realmente aparece en el modelo, y cuanto ms
independiente sea el error de medida de las restantes variables del modelo. Asimismo, tambin
se vern afectadas las propiedades de consistencia y eficiencia de los estimadores, siendo ms
negativas las consecuencias de los errores de medida cuanto menor sea el tamao muestral.

Entre ambos tipos de errores (especificacin y medida) existe cierta relacin. De hecho, un error
de medida puede ser considerado un error de especificacin en cierta medida, ya que puede que
se est dejando informacin relevante fuera del modelo, o que se est incluyendo informacin
irrelevante en el mismo.

Si bien en el presente captulo se muestran algunos mtodos para atenuar las consecuencias de
estos errores, resulta fundamental que, desde el principio, el investigador conozca la fuente y el
origen de los datos, as como sus caractersticas bsicas (error de muestreo, nivel de confianza,
tipo de muestreo, tamaos muestrales, universo de referencia, influencia de la no respuesta, etc.)

4.2.

TIPOS DE ERRORES DE MEDIDA

A continuacin pasamos a analizar los efectos que tienen los errores de medida sobre las
distintas variables del modelo; primero, consideraremos los efectos sobre las variables
endgenas y despus, sobre las variables exgenas.

4.2.1. Errores de medida en la variable endgena


Supongamos que deseamos estudiar el comportamiento de una determinada variable endgena
terica o latente, que denominaremos Yt, a lo largo del tiempo en funcin de una sola variable,
Xt, la cual es observada sin error. El modelo especificado ser por tanto:

Yt = 0 + 1Xt + t

(4.1.)

Donde t es una variable aleatoria independiente con distribucin N(0, 2 ).

Supongamos que la variable Yt presenta algn error de medida, de tal forma que en realidad
observamos:

Yt* = Yt + ut

Donde ut, al igual que t, es una variable i.i.d. con funcin de distribucin N(0, u2 ), siendo
adems independiente de t y de Xt.

Reemplazando el valor terico de Yt por su valor observado en (4.1) tenemos que:

Yt = Yt* ut = 0 + 1Xt + t + ut

Y agrupando los dos trminos de error en uno, vt = t+ut, se obtiene que:

Yt* = 0 + 1Xt + vt

(4.2.)

Donde el trmino de error vt contina siendo i.i.d. si bien ahora su varianza pasa a ser:

Var(vt) = Var(t)+ Var(ut) = 2 + u2

Al ser Cov(t ut) = 0, por ser ambas variables ruidos blancos.

El modelo obtenido en (4.2) puede ser estimado por MCO sin ninguna dificultad y los
estimadores que se calculen sern insesgados; sin embargo, la varianza estimada para los
coeficientes del modelo s se ver afectada ya que:

Var() = v2 (XX)-1 = ( 2 + u2 )(XX)-1

Cuyo valor es mayor que el de la varianza de los estimadores del modelo (4.1) si Yt no estuviera
medida con error.

4.2.2. Errores de medida en la variable exgena


Si bien la existencia de errores de medida en la variable endgena no tiene consecuencias
excesivamente graves para la estimacin mnimo-cuadrtica, no podemos decir lo mismo
cuando existen errores de medida en las variables exgenas. En efecto, supongamos que en el
mismo modelo planteado en (4.1) es ahora la variable exgena, Xt, la que presenta el error de
medida tal que:

Xt* = Xt + ut

(4.3.)

Donde de nuevo suponemos que ut es una variable iid con funcin de distribucin N(0, u2 ),
siendo adems independiente de t y de Xt y de Yt.

As, el modelo resultante de sustituir (4.3) en (4.1) es:

Yt = 0 + 1(Xt* ut )+ t = 0 + 1Xt* + (t 1 ut )

Y, de nuevo, llamando vt = t 1 ut queda que:

Yt = 0 + 1Xt* + vt

(4.4.)

Donde ahora el trmino de error compuesto vt est correlacionado con la variable explicativa Xt
tal que:

Cov(Xt*, vt) = Cov (Xt + ut, t 1 ut)


= Cov (Xt, t) 1Cov(Xt, ut)+Cov(ut, t) 1 Cov(ut, ut)
2

= 0 10 + 0 1 u = 1 u

Siendo Cov(Xt, t) nulo por los supuestos habituales del modelo de regresin lineal, mientras que
el resto de trminos son nulos debido a los supuestos que hemos establecido a lo largo del
desarrollo sobre el error de medida.

La correlacin existente entre Xt y vt va a provocar que los estimadores MCO en este caso sean
sesgados. En efecto, si expresamos el modelo (4.4) en desviaciones respecto a la media,
dividimos numerador y denominador por el tamao muestral, T, y calculamos el lmite en
probabilidad de la expresin del estimador MCO para 1 tenemos que:

1
1
xt* yt p lim
xt (ut u )1 xt ( t )
T
T
p lim 1

1
1
p lim
xt*2
p lim
xt (ut u )2
T
T
1
p lim 1 xt2 1 xt (ut u ) xt ( t ) (ut u )( t )

2
1
T

2 1 x 2 1
2
2
1
x u
1 u / x
p lim
xt2 2 xt (ut u ) (ut u ) 2
T
p lim

El resultado obtenido muestra que, en presencia de errores de medida, el estimador MCO de 1


ser sesgado e inconsistente. La magnitud del sesgo ser mayor cuanto mayor sea la varianza
del error de medida u2 , lo que implica que un error de medida en Xt que fuese constante no
producira sesgo alguno en la estimacin de 1.

El resultado obtenido puede generalizarse a modelos con k variables explicativas, todas ellas
medidas con error. As, sea la matriz X* de dimensin T k ; dicha matriz puede
descomponerse como la suma de la matriz de variables latentes, X, y la matriz de errores de
medida, u, tal que:

X 11* X 21*
*
*
X 12 X 22

X* X*
2T
1T

X k*1 X 11 X 21

X k*1 X 12 X 22

X kT* X 1T X 2T

X k1 u11 u 21

X k 2 u12 u 22



X kT u 1T u 2T

u k1

uk2

u kT

El investigador desea estimar el modelo:

Y = X +

Sin embargo, los datos de que dispone para las variables explicativas presentan errores de
medida por lo que en la prctica el modelo que estimar ser:

Y = (X*u) + = X* + (u)= X* + v

(4.5.)

Suponiendo que u cumple las propiedades enunciadas anteriormente para los errores de medida,
la estimacin MCO de los parmetros del modelo anterior vendr dada por:

MCO ( X *' X *) 1 X *' Y

Descomponiendo el producto y tomando lmites de probabilidad en la expresin anterior


tenemos que:
( X '*X *)
( X u)' ( X u)) p lim ( X ' X u' u X ' u u' X )
p lim
T
T
T
(X' X )
(u ' u )
( X ' u)
(u ' X )
p lim
p lim
p lim
p lim
S XX S uu
T
T
T
T
p lim

( X *' Y )
( X u )' ( X ) p lim ( X ' X X ' u ' X u ' )
p lim
T
T
T
( X ' X )
(X ' )
(u ' X )
(u ' )
( X ' X )
p lim
p lim
p lim
p lim
p lim
S XX
T
T
T
T
T
p lim

Por tanto, si calculamos el lmite en probabilidad de MCO queda que:

p lim MCO (S XX S uu ) 1 S XX (S XX S uu ) 1 S uu

Resultado que muestra que incluso aunque slo una de las variables explicativas tuviera un error
de medida, los estimadores MCO obtenidos seran sesgados e inconsistentes.

4.3.

ESTIMACIN DE MODELOS CON ERRORES EN LAS


VARIABLES

En la prctica, ante un problema como el planteado poco se puede hacer. Ya hemos visto las
implicaciones que ello tiene para la estimacin, siendo stas ms importantes cuando se
presentan en las variables explicativas. Aunque en ocasiones lo que se hace es obviar dichos
errores por considerar que no son significativos, el investigador deber tener en mente que
puede utilizar dos mtodos que permiten atenuar las consecuencias de la existencia de errores de
medida en las variables. Dichos mtodos son la estimacin mediante variables instrumentales y
la estimacin por variables aproximadas.

a) Estimacin por Variables Instrumentales

Si bien este mtodo de estimacin se ver con ms detalle en el captulo 8, pasamos a comentar
en este apartado la aplicacin prctica de este mtodo de estimacin al problema de los errores
de medida. La filosofa de este procedimiento en este caso consiste en sustituir las variables
medidas con error por otras, denominadas instrumentos, que no presenten este problema y que
no hayan sido incluidas en el modelo. Para ello, cada una de las variables seleccionadas deben
verificar que:

Est incorrelacionada, al menos asintticamente, con el trmino de error tal que, si


Z es la matriz de variables instrumentales para el modelo, deber verificarse que:

p lim

Z'v
Z ' ( u)
Z '
Z'u
p lim
p lim
p lim
0
T
T
T
T

Est correlacionada con la variable explicativa para la que acta como instrumento
tal que:

p lim

Z' X
S ZX 0
T

Si estas propiedades se cumplen, el estimador de Variables Instrumentales del modelo (4.5)


vendr dado por la expresin:

VI ( Z ' X ) 1 Z ' Y

El cual ahora s es insesgado ya que:

Z' X
VI p lim

Z 'Y
Z' X
p lim
p lim

T
T

Z ' ( X v )
p lim

Z' X
Z ' X
Z ' v)
1
1
p lim
p lim
p lim
S ZX S ZX S ZX 0
T
T
T

Siendo la matriz de varianzas y covarianzas del estimador VI :


Var ( VI ) v2 ( Z ' X ) 1 ( Z ' Z )( X ' Z ) 1

b) Estimacin por Variables Aproximadas

En algunas ocasiones lo que suceder no es que existan errores de medida en la variable


considerada sino que sencillamente no existe ninguna variable observable que se corresponda
exactamente con la variable incluida en el modelo. Tal es el caso del nivel educativo o la
inteligencia de un individuo, variables que pueden ser aproximadas por los aos de
escolarizacin o los resultados de un test de inteligencia respectivamente. Sin embargo, estas
variables aproximadas deben tratarse como variables con errores de medida, ya que no podemos
aproximarnos a la verdadera variable realizando mediciones ms precisas de la variable proxy.

4.4.

APLICACIN PRCTICA

Veamos cmo afectan los errores de medida a los valores de las estimaciones. Supongamos que
un investigador desea estimar un modelo simple que relaciona renta y consumo. Para lo cual
realiza una encuesta a 10 familias, y obtiene los datos que figuran en la tabla siguiente:

Observacin
1
2
3
4
5
6
7
8
9
10

Gasto observado

Ingreso observado (I)

(C)
67.60
75.44
109.70
129.42
104.24
125.83
153.99
152.92
176.33
174.52

80.09
91.57
112.14
145.60
168.56
171.47
203.54
222.85
232.98
261.18

Sin embargo, supongamos que en realidad el gasto efectivo en consumo, y el ingresos efectivos
de dichas familias han sido los siguientes:

Observacin
1
2
3
4
5
6
7
8
9
10

Gasto efectivo en consumo

Ingreso efectivo (I*)

(C*)
75.47
74.98
102.82
125.77
106.50
131.43
149.37
143.86
177.52
182.28

80
100
120
140
160
180
200
220
240
260

En consecuencia, el modelo de consumo para las cifras reales sera:

Ci* 0 1 I i* ui

2
2
donde E (ui ) 0, E (ui ) u .

La funcin de Consumo estimada con datos reales sera :


Variable dependiente: C*
Nmero de observaciones: 10

Variable

0
1

Coeficiente
25.00

Desv. Tpica
10.48

Estadstico t
2.386

p-value
0.044

0.60

0.06

10.276

0.000

R2
R2 corregido
Desv. Tpica regresin
Estadstico Durbin-Watson

0.929
0.921
10.606
2.816

Media variable dependiente


Desv. tpica variable dependiente
Estadstico F
p-value Estadstico F

127.000
37.683
105.599
0.0000

Para comprobar como variara la estimacin, vamos a suponer que las variables observadas
contienen errores de medida tal que Ci = Ci* + i, Ii = Ii* + vi, con i y vi, errores de medicin
que satisfacen que:

E ( i ) 0, E ( i2 ) 2

E (vi ) 0, E (vi2 ) v2

E ( i vi ) E (vi i ) 0

E ( I i* i ) E ( I i*vi ) E ( I i*ui ) 0

Supongamos que el investigador dispone de los datos de ingresos efectivos, I*, pero slo cuenta
con el gasto en consumo observado, C. Con dicha informacin estimamos ahora la funcin de
*
consumo Ci 0 1 I i ui .

Variable dependiente: C
Nmero de observaciones: 10

Variable

0
1

Coeficiente
25.00

Desv. Tpica
12.22

Estadstico t
2.046

p-value
0.075

0.60

0.07

8.811

0.000

R2
R2 corregido
Desv. Tpica regresin

0.907
0.895
12.369

Media variable dependiente


Desv. tpica variable dependiente
Estadstico F

127.000
38.158
77.647

Estadstico Durbin-Watson

2.287

p-value Estadstico F

0.000

Como puede apreciarse, los estimadores continan siendo insesgados y consistentes,


coincidiendo prcticamente los coeficientes de ambas estimaciones. Sin embargo, los errores de
medicin en la variable endgena provocan el aumento de las desviaciones tpicas de los
parmetros.

Supongamos que disponemos de la serie de gasto en consumo efectivo, C*, pero tan slo
disponemos de los ingresos observados, I. Con dicha informacin estimamos ahora la funcin
*
de consumo Ci 0 1I i ui .

Variable dependiente: C*
Nmero de observaciones: 10

Variable

Coeficiente
28.46

0
1

Desv. Tpica
11.28

Estadstico t
2.522

p-value
0.036

0.06

9.246

0.000

0.58

R2
R2 corregido
Desv. Tpica regresin
Estadstico Durbin-Watson

0.914
0.904
11.692
2.842

Media variable dependiente


Desv. tpica variable dependiente
Estadstico F
p-value Estadstico F

127.000
37.683
85.481
0.000

En este caso, observamos que los estimadores obtenidos estn claramente sesgados, sobre todo
en el caso del trmino constante.

4.5.
4.1.

PROBLEMAS

Considere el siguiente modelo:

yt = xt + t

En el que las variables estn expresadas en desviaciones respecto a la media.

La variable xt presenta errores de medida tal que:

xt* = xt + ut

La variable xt en realidad es una variable aleatoria que evoluciona en el tiempo de acuerdo


a un proceso autorregresivo de orden 1 tal que:

xt* = xt-1* + t

Demuestre que, al contrario de los resultados obtenidos a lo largo del captulo, es posible
estimar consistentemente mediante la expresin:

*
t 1 y t

i2
T

*
*
t 1 x t

i 2

4.2.

Un investigador especifica el siguiente modelo:

Yt =a+ Xt + t

donde yt es el consumo que realizan las familias y Xt es la renta permanente. Dado que no
es posible observar directamente la variable Xt, el investigador decide utilizar como
variable proxy de Xt la media de la renta familiar de los ltimos cinco aos y que
denotaremos por Xt*.

La relacin entre las dos variables puede expresarse como:

Xt* = Xt + wt

Donde wt es un ruido blanco gaussiano.

Calcule el sesgo asinttico del estimador MCO del modelo cuando se tienen en
consideracin los errores de medida comentados. Es posible saber si el valor del
estimador MCO sobrestimar o subestimar el valor de ?

SOLUCIONES
4.1. A realizar por el lector.

4.2. El sesgo del estimador es


verdadero valor de .

1
. El estimador siempre subestima el
1 w2 / x2

5.

MODELOS CON VARIABLES CUALITATIVAS

5.1.

MODELOS
CON
VARIABLES
CUANTITATIVAS
CUALITATIVAS COMO REGRESORES.

En un modelo economtrico, las variables representan a los conceptos u operaciones


econmicas que queremos analizar. Normalmente utilizamos variables cuantitativas, es decir,
aquellas cuyos valores vienen expresados de forma numrica; sin embargo, tambin existe la
posibilidad de incluir en el modelo economtrico informacin cualitativa, siempre que esta
pueda expresarse de esa forma.

Las variables cualitativas expresan cualidades o atributos de los agentes o individuos (sexo,
religin, nacionalidad, nivel de estudios, etc.) y tambin recogen acontecimientos
extraordinarios como guerras, terremotos, climatologas adversas, huelgas, cambios polticos
etc.

No cabe duda de que una forma de recoger factores de este tipo sera la utilizacin de variables
proxy o aproximadas a las variables utilizadas. Por ejemplo, si quiero utilizar una variable que
mida el nivel cultural de un pas (variable cualitativa) puedo utilizar como variable proxy el
nmero de bibliotecas existentes en un pas, o representa una climatologa adversa a partir de las
temperaturas medias o precipitaciones. Sin embargo, no siempre es posible encontrar este tipo
de variables y, en cualquier caso, debemos de ser conscientes de la posible existencia de errores
en la definicin de la variable.

Puesto que las variables cualitativas normalmente recogen aspectos de la presencia o no de


determinado atributo (ser hombre o mujer, tener estudios universitarios o no tenerlos, etc.) se
utilizan variables construidas artificialmente, llamadas tambin ficticias o dummy, que
generalmente toman dos valores, 1 0, segn se d o no cierta cualidad o atributo.
Habitualmente a la variable ficticia se le asigna el valor 1 en presencia de la cualidad y 0 en
caso contrario. Las variables que toman valores 1 y 0, tambin reciben el nombre de variables
dicotmicas o binarias.

Las variables dicotmicas pueden combinarse para caracterizar variables definidas por su
pertenencia o no a un grupo. Si incluyo una variable cualitativa que me define la pertenencia o
no de un pas a un grupo, por ejemplo renta alta, media y baja, introducir tres variables
cualitativas en el modelo asociadas al la pertenencia o no a cada grupo; la primera caracterizara
a los individuos con renta alta, la segunda a los individuos con renta media, y la tercera a los
individuos con renta baja.

Los modelos que utilizan variables cualitativas como regresores se diferencian en dos grupos,
los modelos de Anlisis de la Varianza o modelos ANOVA, que nicamente incluyen variables
cualitativas como regresores; y los modelos de Anlisis de la Covarianza o modelos ANCOVA
que incluyen tanto variables cualitativas como cuantitativas. Los modelos ANOVA son muy
utilizados en Sociologa, Psicologa, Educacin, etc.; en Economa son ms comunes los
modelos ANCOVA.

5.1.1. Modelos ANOVA


Un problema estadstico clsico es la comparacin de medias de dos distribuciones normales.
Supongamos que las observaciones de la variable

Yi , provienen de dos distribuciones normales

2
con medias m1 y m 2 y varianza comn . El tamao de la primera distribucin se circunscribe

las n1 primeras observaciones, y el de la segunda las n n1 restantes observaciones.

Queremos constrastar la hiptesis

H o : m1 m 2 frente a la alternativa H o : m1 m 2 al nivel de

significacin de a .
Este contraste de igualdad de medias cabe formularlo en el marco del modelo lineal general.
As, bajo

H o tenemos el siguiente modelo de regresin mltiple utilizando variables Dummy:

Yi m1 D1i m 2 D 2 i ei
Siendo :

1 si i 1,..., n1
D1i
0 si i n1 1,..., n

0 si i 1,..., n1
D2 i
1 si i n1 1,..., n

El estimador mnimo cuadrtico del modelo planteado sera:

n
D1i2

m1
n i 1
m1 D1 D 2
i
i

i 1

D1i D 2 i

i 1

D 2 i2

i 1

D1i Yi
i 1

D 2 i Yi
i 1

Teniendo

presente

D1 Y Y
i

i 1

m1 n1

m1 0

n 2

y
1

i 1

D2 i2 n n1 n2
i 1

D1 D2
i

i 1

0
,

D2i Yi

i 1

que

i 1

n1

D1i2 n1
Y

i n1 1

, el estimador mnimo cuadrtico quedara:

n1
Yi
i 1 Y1
n Y2
Yi
i n1 1

Para contrastar la hiptesis

H o : m1 m 2 0 frente a la alternativa H o : m1 m 2 0 ,

m 1 m 2

S m1 m 2

construiramos el estadstico experimental

Y1 Y2

2 2

n1
n2

, en donde

n
2
i

e
i 1

n2 .

La hiptesis

t exp t tco

H o : m1 m 2 0 ser rechaza con el estadstico terico t tco t n 2 (a / 2) si

El anlisis anterior se extiende a la comparacin de medias con tres o ms distribuciones


normales. Suponemos ahora que las n observaciones proceden de tres distribuciones normales
2
m
con medias m1 , m 2 y 3 y varianza comn , correspondientes a tres muestras que contienen

m n n1 n 2 ultimas observaciones.
las n1 primeras observaciones, n2 siguientes y 3
El modelo lineal utilizando variables Dummy quedara:

Yi m1 d1i m 2 d 2i d 3i ei

Donde las variables binarias se definen:

1 si i en el grupo J
DJ i
0 si i en el grupo J
El estimador mnimo cuadrtico del vector de parmetros es:

m 1 n1

m 2 0
m 0
3

n1

Yi
1
0 i n1 Y1
2
0 Yi Y2
i n 1
n3 n1 Y3
Yi
i n2 1

0
n2
0

Para contrastar la hiptesis

H o : m1 m 2 m 3 , se utiliza el contraste de significacin global,

Fexp
para el que construimos es estadstico experimental
terico

R2
2

(1 R 2 )
n 3 , siendo el estadstico

Ftco F (2, n 3) , la hiptesis se rechazara con la regla de decisin Fexp Ftco .

Ejemplo 5.1.

Desde R obteneos el conjunto de datos (data.frame) mtcars, que es una base de datos relativa a
diferentes tipos de automviles.
> data(mtcars)
El contenido de la base de datos puede analizarse con la function str
> str(mtcars)
'data.frame':
$ mpg : num
$ cyl : num
$ disp: num
$ hp : num
$ drat: num
$ wt : num
$ qsec: num
$ vs : num
$ am : num
$ gear: num
$ carb: num

32 obs. of 11 variables:
21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
6 6 4 6 8 6 8 4 4 6 ...
160 160 108 258 360 ...
110 110 93 110 175 105 245 62 95 123 ...
3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
2.62 2.88 2.32 3.21 3.44 ...
16.5 17 18.6 19.4 17 ...
0 0 1 1 0 1 0 1 1 1 ...
1 1 1 0 0 0 0 0 0 0 ...
4 4 4 3 3 3 3 4 4 4 ...
4 4 1 1 2 1 4 2 2 4 ...

Teniendo presente que mpg es el consumo en Miles/ (US) gallon, y que am es una variable
cualitativa que relativa al tipo de transmisin (marchas) , que toma valor 0 en caso de

transmisin es automtica y 1 cuando lo es manual, construimos la tabla anova con la funcin


aov:
> mod1 <- aov(mtcars$mpg ~ mtcars$am)
> summary(mod1)
Df Sum Sq Mean Sq F value
Pr(>F)
mtcars$am
1 405.2
405.2
16.86 0.000285 ***
Residuals
30 720.9
24.0
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

El estadstico F al ser mayor que el valor terico permite rechazar la hiptesis

H o por lo que

cabe admitir que transmisin autmatica manual tiene relacin con el consumo de gasolina de
este conjunto de automviles. De hecho el codigo *** nos muestra que la variable es
significativa a un a muy bajo.
La variable gear, hace referencia al numero de marchas delanteras, variable que toma valores:
3,4 y 5.
> mtcars$gear
[1] 4 4 4 3 3 3 3 4 4 4 4 3 3 3 3 3 3 4 4 4 3 3 3 3 3 4 5 5 5
[30] 5 5 4

Otra posibilidad de obtener la tabla anova es definir el modelo lineal y utilizar la funcin
anova.
> reg <- lm(mtcars$mpg ~ mtcars$gear)
> anova(reg)
Analysis of Variance Table
Response: mtcars$mpg
Df Sum Sq Mean Sq F value
Pr(>F)
mtcars$gear 1 259.75 259.749 8.9951 0.005401 **
Residuals
30 866.30 28.877
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

Al igual que en laso anterior la variable tambien tiene relacin con el consumo de gasolina, sera
significativa a un a 0.001 .
Realizamos ahora un modelo anova con el descrito en la teora con la funcin siguiente:
> model.tables (mod1, type = "mean")
Tables of means
Grand mean
20.09062
mtcars$am
mtcars$am
0
1
17.147 24.392
Warning message:
In replications(paste("~", xx), data = mf) : non-factors ignored:
mtcars$am

Incorporamos ahora la variable que nos informa del nmero de marchas y estudiamos sus
efectos sobre la explicativa:
mod2 <- aov(mtcars$mpg ~ mtcars$am+mtcars$gear)
> anova(mod2)
Analysis of Variance Table
Response: mtcars$mpg
Df Sum Sq Mean Sq F value
Pr(>F)
mtcars$am
1 405.15 405.15 16.2994 0.0003615 ***
mtcars$gear 1
0.05
0.05 0.0019 0.9651278
Residuals
29 720.85
24.86
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> model.tables (mod2)
Tables of effects
mtcars$am
mtcars$am
0
1
-2.943 4.302
mtcars$gear
mtcars$gear
3
4
5
-0.01854 0.00059 0.05419
Warning messages:
1: In replications(paste("~", xx), data = mf) :
non-factors ignored: mtcars$am
2: In replications(paste("~", xx), data = mf) :
non-factors ignored: mtcars$gear

Obtenemos ahora que los vehiculos con marchas automticas reducen el consumo medio en
2,943 millas/(US) gallon, los de marchas manuales, lo aumentan en 4,302; los de 3 marchas lo
reducen en -0.01854, etc
Incluimos ahora las dos variables y sus iteracciones:
> mod3 <- aov(mtcars$mpg ~ tcars$am+mtcars$gear+mtcars$am*mtcars$gear)
> anova(mod3)
Analysis of Variance Table
Response: mtcars$mpg
Df Sum Sq Mean Sq F value
Pr(>F)
mtcars$am
1 405.15 405.15 19.9021 0.0001208 ***
mtcars$gear
1
0.05
0.05 0.0024 0.9614808
mtcars$am:mtcars$gear 1 150.85 150.85 7.4099 0.0110327 *
Residuals
28 570.00
20.36
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
> model.tables (mod3)
Tables of effects
mtcars$am
mtcars$am
0
1
-2.943 4.302
mtcars$gear

mtcars$gear
3
4
-0.01854 0.00059

5
0.05419

mtcars$am:mtcars$gear
mtcars$gear
mtcars$am 3
4
5
0 -1.022 3.833
1
1.917 -3.066

Las iteraciones entre tipo de marchas y numero de marchas son significativas estadsticamente,
y la funcin nos informa que un coche automtico con 3 marchas reduce en 1.002 adicional el
consumo de carburante en relacin con el consumo medio del automtico, un coche con
marchas manuales y 5 marchas reduce en 3.006 Milles/(US) gallon el consumo de gasolina
sobre el consumo medio de un conche con transmisin manual.
> model.tables (mod3,type="mean")
Tables of means
Grand mean
20.09062
mtcars$am
mtcars$am
0
1
17.147 24.392
mtcars$gear
mtcars$gear
3
4
5
20.072 20.091 20.145
mtcars$am:mtcars$gear
mtcars$gear
mtcars$am 3
4
5
0 16.107 21.050
1
26.275 21.380

5.1.2. Modelos ANCOVA

Para ilustrar la utilizacin de un modelo ANCOVA vamos a suponer que estamos modelizando
la relacin que existe entre el dinero que ahorra un grupo n de individuos, Yi, y la renta que
declara cada uno de ellos, Xi:

Yi=0+1Xi+et , siendo i=1..n

De este grupo de individuos conocemos algunas otras caractersticas que pueden ser
transcendentes a la hora de nuestro anlisis, por ejemplo si estn o no estn casados. Utilizando
dicha informacin creamos las siguientes variables dummy:

1, si i est casado
1, si i no est casado
D1i
D 2i (1 D1i )
0, si i no est casado
0, si i est casado

Si por ejemplo la muestra de individuos que tenemos es de n=10, de los cuales cuatro de ellos
estn casados, las variables dummy tendran la siguiente estructura:

1
0
0

1
0
D1 0
0

0

1
1

0
1
1

0
1
D 2 1
1

1

0
0

De cara a estudiar los efectos del estado civil sobre el ahorro podemos estar interesados en saber
si los casados parten de un nivel de ahorro diferente de los solteros, o bien si las diferencias
entre solteros y casados derivan en que unos y otros tienen una diferente propensin marginal a
ahorrar. En el primer caso se trata de conocer si 0 es diferente entre los dos grupos de
individuos, y en el segundo, si lo es 1.

El planteamiento del problema para observar las diferencias de cada grupo respecto a 0 se
puede realizar a travs de las siguientes especificaciones del modelo ANCOVA:

Yi=0+a1D1i+1Xi+ei

(5.1)

Yi=0+a2D2i+1Xi+ei

(5.2)

Yi=a1D1i+a2D2i +1Xi+ei

(5.3)

En este caso:

Si se utiliza la especificacin del modelo (5.1), el trmino independiente de los casados


vendr dado por la suma (0+a1), y para los solteros por 0. Si queremos analizar la

igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H 0:

a1=0

Si se utiliza la especificacin del modelo (5.2), el trmino independiente de los solteros


vendr dado por la suma (0+a2), y para los casados por 0. Si queremos analizar la
igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H 0:

a2=0

Si se utiliza la especificacin del modelo (5.3) el trmino independiente de los casados


vendr dado por el coeficiente a1, y para los solteros por a2. Si queremos analizar la
igualdad en el nivel de ahorro de ambos grupos, habra que contrastar la hiptesis nula H 0:

a1=a2
Las tres especificaciones son equivalentes, y hay que tener presente que en la especificacin del
modelo (5.3) se prescinde del trmino constante ya que de no hacerlo as tendramos un
problema de multicolinealidad exacta entre el trmino constante y las dos variables dummy.

Si planteamos el modelo (5.3) de la siguiente forma:

Yi = 0+a1D1i+a2D2i +1Xi+ei

La matriz X quedara:

1
1

1
1
X
1
1

1
1

1
0
0
1
0
0
0
0
1
1

0
1
1
0
1
1
1
1
0
0

X1
X 2
X3

X4
X5

X6
X7

X8
X9

X 10

En la que se aprecia que la suma de las columnas 2 y 3 da como resultado la primera columna,
lo que provoca que la matriz (XX) sea no singular.

Para el anlisis del comportamiento de cada grupo respecto a la pendiente, aqu propensin
marginal a ahorrar, podemos plantear las siguientes especificaciones del modelo ANCOVA:

Yi=0+1Xi+1(D1i Xi)+ei

(5.4)

Yi=0+1Xi+2(D2i Xi)+ei

(5.5)

Yi=0+1(D1i Xi)+ +2(D2i Xi)+ei

(5.6)

En este caso:

Si se utiliza la especificacin del modelo (5.4), la propensin marginal de los individuos


casados vendr dado por la suma (1+1), y la de los solteros por 1. Si queremos analizar
la igualdad en la propensin marginal del ahorro en ambos grupos, habra que contrastar la
hiptesis nula H0: 1=0

Si se utiliza la especificacin del modelo (5.5), la propensin marginal de los individuos


solteros vendr dado por la suma (1+2), y la de los casados por 1. Si queremos analizar
la igualdad en la propensin marginal del ahorro en ambos grupos, habra que contrastar la
hiptesis nula H0: 2=0.

Si se utiliza la especificacin del modelo (5.6), la propensin marginal de los individuos


casados vendr dado por 1, y la de los solteros por 2. Si queremos analizar la igualdad en
la propensin marginal del ahorro en ambos grupos, habra que contrastar la hiptesis nula
H0: 1=2

Si queremos incluir en modelo otra caracterstica de los individuos como sera por ejemplo la
profesin y distinguimos entre tres profesiones: agricultores, asalariados y empresarios, habra
que crear tres nueva variables dummy:

1, si i es agricultor
E1i
0, si i no es agricultor
1, si i es asalariado
E 2i
0, si i no es asalariado
1, si i es empresario
E 3i
0, si i no es empresario

Si bien a la hora de especificar el modelo hay que evitar los problemas de multicolinealidad
entre todas las variables dummy incluidas y el trmino constante. Una forma de evitar los
problemas es no incluir alguna de las categoras en forma de variable dummy, y dejar que la
constante recoja el efecto de la categora no incluida. Una especificacin posible de un modelo
ANCOVA sera entonces:

Yi = 0+a1D1i+1E1i+2E2i +1Xi+ei
Las variables cualitativas tambin pueden corresponder a hechos que concurren en un periodo
de tiempo y tener la forma de serie temporal. Este tipo de variables se utilizan para observar los
efectos que sobre el modelo provocan sucesos extraordinarios como son las huelgas, una
climatologa adversa, cambios polticos e incluso cambios en la metodologa estadstica de
elaboracin de los datos.

Supongamos que tenemos el siguiente modelo:

Yt=0+1Xt+et

siendo t=1,.,T1, T1+1T

En el periodo T1 sabemos de la existencia de un suceso extraordinario que afecta a la evolucin


de la variable dependiente durante un periodo determinado de tiempo, y queremos lgicamente
saber el efecto que causa dicho suceso extraordinario sobre la ecuacin a estimar.

Para ello definimos las siguientes variables dummy:

1 si t T1
0 si t T1
D1t
D 2t (1 D1t )
0 si t T1
1 si t T1
La estructura de ambas variables sera la siguiente:

1
0
.
.
.
.


1
0
D1 D 2
0
1
.
.


.
.
0
1

D1 tienen tantos unos como observaciones hay hasta T1 y

D2 tiene tantos unos como

observaciones hay entre T1 y T.

El anlisis del efecto del suceso extraordinario sobre la regresin puede realizarse de forma
separada para cada periodo de 1 a T1 y T1 a T, o conjuntamente para todo el periodo, bien sobre
el termino constante 0 o sobre la pendiente 1.

Para el anlisis de los efectos sobre el trmino constante tendremos que plantear los siguientes
modelos de regresin:

Yt=0+a1D1t+1Xt+et

(5.7)

Yt=0+a2D2t+1Xt+et

(5.8)

Yt=a1D1t+a2D2t +1Xt+et

(5.9)

En este caso:

Si se utiliza la especificacin del modelo (5.7) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: a1=0

Si se utiliza la especificacin del modelo (5.8) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: a2=0

Si se utiliza la especificacin del modelo (5.9) el anlisis de la invariabilidad de 0


exige contrastar la hiptesis nula H0: a1=a2

Si queremos analizar el efecto del acontecimiento extraordinario sobre la pendiente del modelo,
plantearemos las siguientes ecuaciones de regresin:

Yt=0+1Xt+1(D1t Xt)+et

(5.10)

Yt=0+1Xt+2(D2t Xt)+et

(5.11)

Yt=0+1(D1t Xt)+ +2(D2t Xt)+et

(5.12)

En cuyo caso:

Si se utiliza la especificacin del modelo (5.10), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 1=0

Si se utiliza la especificacin del modelo (5.11), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 2=0

Si se utiliza la especificacin del modelo (5.12), el anlisis de la invariabilidad de 1 exige


contrastar la hiptesis nula H0: 1=2

Para tomar una decisin acerca de que modelo ANCOVA seleccionar entre las varias
especificaciones

que utilizan variables cualitativas, hay utilizar el contraste de errores de

especificacin descrito en el apartado 3.5.4.

Ejemplo 5.2.
En el siguiente ejemplo planteamos una regresin lineal entre el crecimiento del consumo de
energa elctrica en Espaa y el crecimiento real del PIB, para verificar si los aos en donde las
temperaturas medias fueron mayores han tenido alguna incidencia en la evolucin del consumo
de energa elctrica. Para ello nos auxiliamos de variables cualitativas que califican los aos
como calurosos o no. En concreto calificamos los ejercicios de 1998, 1993, 1996, 1997 y 2002
como los ms calurosos del periodo estudiado.

Los datos utilizados son los siguientes:

1988
1989
1990
1991
1992
1993
1994
1995
1996

Crecimiento Consumo Energa


4.76%
5.41%
5.42%
3.63%
1.02%
0.71%
3.72%
3.86%
2.93%

Crecimiento PIB
4.83%
3.78%
2.54%
0.93%
-1.03%
2.38%
2.76%
2.44%
4.03%

1997
1998
1999
2000
2001
2002

3.93%
7.19%
7.52%
6.15%
5.97%
2.74%
Fuente: INE.

4.35%
4.22%
4.21%
2.84%
2.04%
2.43%

Con los datos de la tabla, la estimacin MCO entre el crecimiento del consumo de energa
elctrica, Yt , y el crecimiento del PIB en moneda constante, X t , sera la siguiente:

Yt=0.023+0.715Xt+et

Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2
R2 ajustado
Error tpico
Observaciones
Coeficientes
Trmino
constante
PIB

0.02291824
0.71496488

Error tpico
0.00993316
0.30995158

0.538912111
0.290426264
0.235843669
0.017592802
15
Estadstico t
2.3072447
2.30669861

Probabilidad
0.03814247
0.03818117

Como se puede apreciar en el cuadro anterior, los estadsticos de la regresin realizada no son
buenos: se obtiene un R2 muy bajo, aunque los parmetros son estadsticamente significativos
con un nivel de significacin del 2.5%, ya que el valor terico del estadstico t 15-2 es 2.16.

La variable dummy que construimos para evaluar el efecto de un mayor calentamiento


atmosfrico sera la siguiente:

0 si t 1988,1993,1996,1997,2002
1 si t 1988,1993,1996,1997,2002
D1t
D 2t (1 D1t )
0 si t 1988,1993,1996,1997,2002

1 si t 1988,1993,1996,1997,2002

Las ecuaciones que vamos a estimar son las (5.2), (5.3), (5.4), (5.5), (5.6) y (5.7), y los
resultados que hemos obtenido figuran en la siguiente tabla; entre parntesis se incluye el
estadstico t asociado a cada parmetro:

Ecuacin
Yt=0+1Xt+t

0
0.0229

1
0.7150

(2.3072)

(2.3067)

Yt=0+a1D1t+1Xt+t

0.0229
(4.3285)

1.0884
(6.1322)

Yt=0+a2D2t+1Xt+t

-0.0091
(-1.1851)

1.0884
(6.1322)
0.1775
(6.1322)

Yt=a1D1 t+a2D2t +1Xt+t


Yt=0+1Xt+1(D1 t Xt)+t

0.0192
(3.0700)

1.1942
(5.4383)

Yt=0+1Xt+2(D2 t Xt)+t

0.0192
(3.0700)

0.3661
(1.7624)

Yt=0+1(D1tXt)+2(D2 t Xt)+t

0.0192
(3.0700)

F
5.3209

R2
0.2358

26.1668

0.7824

0.0320
(5.8008)

26.1668

0.7824

0.0229
(4.3285)

17.4445

0.6991

0.0056

0.7020

0.8281
(4.6197)

17.4938

0.7020

1.1942
(5.4383)

17.4938

0.7020

a1

a2

-0.0320
(-5.8008)

-0.0091
(-1.1851)

-0.8281
(-4.6197)

0.3661
(1.7624)

Podemos apreciar que tanto el crecimiento del PIB, como las variables cualitativas resultaron
significativas al 95% en los modelos (5.7), (5.8), (5.10) y (5.11), por lo que se debe rechazar la
hiptesis de invariabilidad de 1, es decir, se rechaza que el aumento de la temperatura media
afecta a la relacin entre tasas de crecimiento del consumo de electricidad y del PIB.

En el modelo (5.10), no es significativamente distinto de cero el parmetro a1


(texp=1.181<ttco=2.56), pero se puede contrastar la hiptesis de que H0: a1=a2. A la vista de los
resultados obtenidos, se debe rechazar dicha hiptesis, con un nivel de significacin del 5%,
debindose admitir la variabilidad del coeficiente 1.

Coeficientes
PIB
D1
D2

1.08840409
-0.00906395
0.0229447

Error
tpico
0.17749128
0.00764828
0.00530081

Estadstico t
6.13215522
-1.18509733
4.32852867

Probabilida
d
5.0818E-05
0.25891813
0.00098125

Inferior
95%
0.70168381
-0.02572812
0.01139523

Superior
95%
1.47512436
0.00760021
0.03449416

Los modelos (5.10), (5.11) tambin ofrecen parmetros estadsticamente significativos, pero con
un R2 inferior, lo que apunta a que la variable cualitativa es mejor incluirla en la forma de la
variable dummy que recoge el modelo (5.8) y (5.9). No obstante, se puede rechazar la hiptesis
de la invariabilidad de 1 tanto contrastando la hiptesis nula H 0: a1=0 en (5.11) H0: a2=0 en
(5.12), como H0: a1=a2 en (5.13).

En definitiva, a la hora de modelizar la relacin entre el crecimiento de consumo de la


electricidad y el PIB en Espaa, habra que elegir la modelizacin 5.2 o su alternativa 5.4. por
ser las que mejor ajuste proporcionan; esto implica que hay que asumir un consumo autnomo
diferente en los aos climatolgicamente buenos y otro en los malos. Asimismo, al ser la
relacin consumo de energa/PIB superior a la unidad, consideraramos la existencia de una
elasticidad del consumo de energa sobre el PIB cercana a la unidad, en el sentido de que
aumentos porcentuales del PIB originan aumentos porcentuales del consumo de energa en una
proporcin similar. De hecho se puede construir un intervalo de confianza del 95% para dicha
elasticidad comprendida entre los valores 1.47 y 0.70.

5.2.

EL EMPLEO DE VARIABLES CUALITATIVAS PARA EL


TRATAMIENTO DE LA ESTACIONALIDAD

En Economa se suele trabajar con datos anuales pero en muchos casos, y derivado del carcter
predictivo del modelo y de los objetivos que persigue su elaboracin, se hace necesario trabajar
con series de datos diarias, mensuales o trimestrales; este tipo de series tienen oscilaciones que
se deben al carcter estacional de las mismas (consumos bajos en los meses de verano,
consumos tursticos altos en este periodo, disminucin de las ventas en domingos y lunes, etc.)

La estacionalidad en las series de tiempo es un patrn de comportamiento regular de una serie a


lo largo de cada ao que puede obedecer a factores tales como costumbres, das festivos
decretados, vacaciones de verano, Navidad y otros hechos similares que ocasionan incrementos
o disminuciones en las magnitudes de ciertas variables, como por ejemplo la produccin, las
ventas, etc.

Las variables dummy cualitativas pueden utilizarse tambin para recoger el efecto de la
estacionalidad en el modelo economtrico que estimamos.
La variable dummy cualitativa para ajuste estacional es una variable artificial que asumen
valores discretos, generalmente de 0 y 1, que se asigna a cada periodo de generacin o
referencia de las series del modelo. Si se trabaja con datos trimestrales, hay que utilizar, en
principio, una variable dummy para cada trimestre; su representacin sera:

1, si t es el primer trimestre
Q1t
0, si t no es el primer trimestre
1, si t es el segundo trimestre
Q 2t
0, si t no es el segundo trimestre
1, si t es el tercer trimestre
Q 3t
0, si t no es el tercer trimestre
1, si t es el cuarto trimestre
Q 4t
0, si t no es el cuarto trimestre

La inclusin de los coeficientes de estas variables y de la constante en un modelo de regresin


simple producira una matriz bianual X de la siguiente forma:

1
0

0
X 1

0
0

0
.

0
1
0
0
0
1
0
0
.

0
0
1
0
0
0
1
0
.

0
0
0
1
0
0
0
1
.

1
1
1
1
1
1
1
1
1

x1
x 2
x3

x4
x5

x6
x7

x8
.

Que lleva asociada una matriz (XX) singular (no invertible) por la existencia una combinacin
lineal entre las dummy trimestrales y el parmetro constante, lo que impide estimar los
coeficientes del modelo de regresin.

Para evitar este inconveniente se utilizan nicamente tres de las cuatro variables dummy y la
constante. As, si se excluye la variable Q4 en la matriz X; el efecto estadstico de la variable
omitida estara implcitamente recogido con la columna de la constante. En definitiva, la matriz
de variables exgenas estara determinada por las tres dummy: Q1, Q2, Q3 y la constante, y las
variables exgenas cuantitativas con lo cual la matriz (XX) quedara:

1
0

0
X 1

0
0

0
.

0
1
0
0
0
1
0
0
.

0
0
1
0
0
0
1
0
.

1
1
1
1
1
1
1
1
1

x1
x 2
x3

x4
x5

x6
x7

x8
.

La forma funcional del modelo sera entonces:


Yt = 0+a1Q1t+a2Q2t +a3Q3t +1Xt+et

(5.13)

Otra forma muy utilizada para tratar la estacionalidad con variables cualitativas, consiste en
expresar las variables artificiales estacionales como desviaciones con respecto a la que
corresponde al cuarto trimestre. Estas nuevas variables, que podran denominarse S1, S2 y S3,
corresponderan a las siguientes diferencias vectoriales:

S1 = Q1 Q4
S2 = Q2 Q4
S3 = Q3 Q4

Una vez efectuadas las operaciones anteriores e incorporado el vector de la constante, la nueva
matriz X queda definida de la siguiente manera:

0
0 1
1
0
1
0 1

0
0 1 1

1 1 1 1
X 1
0
0 1

1
0 1
0
0
0 1 1

1 1 1 1
.
.
. 1

x1
x 2
x3

x4
x5

x6
x7

x8
.

Como se observa en la matriz anterior, los vectores de las variables dummy estacionales han
sido definidos de forma tal que su suma sea cero en cada ao, por lo que este sistema permite
que el efecto estacional se anule en el ao y que se obvie el problema de singularidad de la
matriz.

En la estimacin realizada con las tres variables dummy trimestrales S1, S2 y S3, los coeficientes
de las tres variables dummy identifican las diferencias con respecto al cuarto trimestre.

Yt = 0+a1S1t+a2S2t +a3S3t +1Xt+et

(5.14)

Es importante mencionar que en el caso de variables con periodicidad mensual, se utilizaran


nicamente once variables estacionales, en forma equivalente a lo explicado en esta seccin
para las series de periodicidad trimestral. Sin embargo, hay que tener presente a la hora de
incluir variables dummy estacionales mensuales, la perdida de grados de libertad que conlleva
el tener que estimar tantos coeficientes, por lo que se requiere gran cantidad de observaciones
para que los test estadsticos ofrezcan resultados vlidos.
Tambin hay que tener en cuenta que el uso de las variables estacionales presenta problemas
cuando la estacionalidad de la serie Yt es mvil, es decir, cuando vara de ao en ao. En este
caso, es difcil que modelos de este tipo capturen de una forma adecuada la estacionalidad de la
variable dependiente.

Ejemplo 5.2.
Se disponen de datos trimestrales correspondientes a los ejercicios 1996-2003, relativos al
consumo de electricidad en GWh en Espaa (Yt) y al PIB a precios de mercado en millones de
euros constantes de 1995.

Ao

1996

1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4
1
2
3
4

1997

1998

1999

2000

2001

2002

2003

Demanda de Electricidad
PIB (millones de euros)
(GWh)
40919
109275
37275
111875
38070
111211
39981
116096
40246
113396
39070
115566
40464
115744
42602
121807
43263
118399
41535
120735
43273
121472
45010
126179
46551
122424
43735
126471
45908
126474
48160
131977
49922
129443
46861
133021
48208
130743
50020
135507
52029
134079
49314
135900
50887
134475
53405
139292
53928
136892
51523
138746
51950
137060
53762
142154
57156
140080
53231
141861
56516
140207
56990
146163
Fuente: Ministerio de Economa

En la figura 5.1 se aprecia el carcter estacional de la demanda de energa elctrica:

Consumo de Electricidad (GWh)


60.000
55.000
50.000
45.000
40.000
35.000
30.000
1996

1997

1998

1999

2000

2001

2002

2003

Figura. 5.1. Consumo Trimestral de Electricidad

Los trimestres de mayor consumo son los terceros y cuartos (otoo e invierno) y los de menor,
el segundo y tercero (primavera y verano).

Para estimar la relacin entre demanda de electricidad y PIB en Espaa vamos a plantear tanto
la especificacin del modelo (5.13) y la del modelo (5.14).

La ecuacin estimada con la especificacin (5.13) es:

Yt = -24,705.2+3,087.2Q1t-996.1Q2t +1,066.2Q3t +0.55Xt+et

con los siguientes resultados:


Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.99084217
Coeficiente de determinacin R2
0.98176821
R2 ajustado
0.97906721
Error tpico
854.455831
Observaciones
32
Coeficientes
Trmino constante
PIB
Q1
Q2
Q3

-24705.2227
0.55474441
3087.18799
-996.097068
1066.19716

Error
tpico
1999.20037
0.01492667
439.461556
432.19015
434.284718

Estadstico t
-12.3575521
37.1646554
7.024933
-2.30476578
2.45506488

Para considerar la hiptesis H0: i=0, hay que tener presente que el valor terico de la t-Student
correspondiente a una distribucin con (32-5) grados de libertad es 1.69 para =0.05/2 (95% de
confianza). Se comprueba, por tanto, que todos los coeficientes son significativamente distintos
de cero.

La ecuacin estimada con la especificacin (5.14) es:

Yt = -23,915.9+2,297.9S1t 1,785.4S2t +276.9 S3t +0.55Xt+et

con los siguientes resultados:

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.99084217
Coeficiente de determinacin R2
0.98176821
R2 ajustado
0.97906721
Error tpico
854.455831
Observaciones
32

Coeficientes
Trmino constante
PIB
S1
S2
S3

-23915.9007
0.55474441
2297.86597
-1785.41909
276.875139

Error
tpico
1920.63147
0.01492667
264.879299
261.649371
262.136744

Estadstico t
-12.4521029
37.1646554
8.67514365
-6.82370869
1.05622407

En este modelo hay que considerar la posibilidad de que la variable dummy S3 tenga un
coeficiente significativamente igual a cero, en cuyo caso cabra plantear el modelo con la
siguiente especificacin:

Yt = 0+a1S1t+a2S2t +1Xt+et

5.3.

APLICACIONES DE LAS VARIABLES CUALITATIVAS A LA


REGRESIN POR TRAMOS.

La regresin por tramos se utiliza para estimar funciones en donde la representacin grfica de
las variables observadas manifiesta un cambio de pendiente. La representacin grfica de la
figura 5.2 es de dicho tipo. Se aprecia que la relacin entre las variables sigue una determinada
forma lineal hasta un determinado valor de Xi (X*=15), y a partir de dicho valor la relacin
lineal cambia de forma.

Regresin por Tramos


16
14
12
10
8
6
4
2
0
0

10

20

30

40

Figura. 5.2.
En la regresin lineal por tramos se tiene por tanto dos partes o segmentos a los que corresponde
una determinada forma lineal de la funcin a estimar, y un valor umbral (X*) que es para el que
la representacin manifiesta el cambio de pendiente.

La forma de estimar este tipo de relaciones es utilizar una variable dummy cualitativa que toma
los siguientes valores:

D=1 si Xi>X*
D=0 si Xi<X*

Y plantear la siguiente regresin:

Yi = 0 + 1Xi + 2(Xi-Xi*)Di + i

La pendiente del primer tramo o segmento de la relacin sera 1, y 1 + 2 sera la pendiente


del segundo tramo o segmento. La significacin estadstica del coeficiente 2 (H0: 2=0 )
servira como contraste de la existencia de tramos en la relacin lineal estudiada.

5.4.

EL MODELO PROBABILSTICO LINEAL

El modelo de probabilidad lineal se caracteriza por tener la variable endgena Y dicotmica o


binaria, es decir toma el valor Y=1 si un determinado suceso ocurre y el valor Y=0 en caso
contrario. Estos modelos estn muy extendidos en el anlisis estadstico pero encuentran una
difcil aplicacin en Economa debido a las dificultades de interpretacin econmica de los
resultados que ofrecen este tipo de investigaciones. A este respecto, hay que considerar que
estos modelos lo que realmente investigan es la probabilidad de que se d una opcin (valores
Y=1) o no se d (Y=0).

A pesar del carcter dicotmico de la variable endgena, el modelo de probabilidad lineal se


especifica de la forma habitual, teniendo presente que las variables exgenas no son
dicotmicas sino continuas:

Yi=0+1Xi+ei siendo i=1,N

(5.15)

De acuerdo con la expresin (5.15), el hecho de que la variable endgena tome valores discretos
(1 0), el trmino de perturbacin ei, puede tomar tambin dos valores nicamente:

Si Yi=0 ei = -0- 1Xi con probabilidad p.

Si Yi=1 ei = 1-0- 1Xi con probabilidad (1-p).

Dado que la esperanza del trmino de error ha de ser nula E(ei)=0, entonces se demuestra que
p= 1-0-1Xi y (1-p) = 0+1Xi, lo que permite evaluar la probabilidad de que la variable
endgena tome el valor correspondiente:

Prob (Yi=0) = Prob (ei = -0 - 1Xi ) = p = 1-0- 1Xi.

Prob (Yi=1) = Prob (ei = 1-0 - 1Xi ) = (1-p) = 0+ 1Xi .

A su vez la varianza del trmino de perturbacin, se calculara a partir de p:

Var (ei ) (1 0 1 X i )( 0 1 X i ) p (1 p )
Una problemtica inherente a los estimadores MCO de estos modelos, son los siguientes:

La perturbacin aleatoria (ei) no sigue una distribucin Normal. Es sencillo observar


este hecho ya que el carcter binario (1 0) de la variable endgena afecta a la
distribucin de la perturbacin, teniendo sta una distribucin Binomial 7. Este
problema se atena cuando se utilizan tamaos de muestra (N) grandes en donde la
distribucin Binomial es susceptible de aproximarse a una Normal.

La perturbacin aleatoria no tiene una varianza constante (es heteroscedstica), lo cual


supone una falta de eficiencia. Para solucionarlo habra que realizar transformaciones
que nos diesen una perturbacin homocedstica; esta transformacin consiste en
multiplicar todas las variables por una cierta cantidad que elimine el problema de la
heteroscedasticidad. Dicha cantidad es:

1
)
)
)
)
( 0 1 X i )(1 0 1 X i )
siendo o y 1 los estimaciones MCO del modelo.

No obstante, el mayor problema que plantean estos modelos es que las predicciones
realizadas sobre la variable endgena no siempre se encuentran en el intervalo [0,1], ya
que pueden ser mayores que cero y menores que uno. Este problema tiene dos
soluciones, una es

tomar como valor cero todas las estimaciones de la variable

endgena con valores negativos, y uno cuando estas resulten mayores que uno; la
segunda, solucin es utilizar funciones de distribucin que estn acotadas entre cero y
uno como son la Logstica y la Normal; de stas se derivan los modelos Logit y Probit
que pasamos a ver a continuacin.

La distribucin binomial se basa en una prueba conocida como experimento de Bernouilli o


problema de las pruebas repetidas, que consiste en averiguar la probabilidad de que en n extracciones o
pruebas se hayan conseguido X valores de 1 y/o (n-X) valores de 0.

5.5.

EL MODELO LOGIT

El problema que presentan los modelos probabilsticos lineales en cuanto a la existencia de


predicciones establecidas fuera rango (negativas o mayores que uno), es debido a que utilizan
una funcin de probabilidad que depende linealmente de las variables explicativas (X), que se
resolveran acotando dicha distribucin de probabilidad. El modelo Logit en concreto utiliza,
para ello, la funcin de distribucin logstica:

Figura 5.3. Curva Logstica

Debido a que la funcin de distribucin logstica no tiene forma lineal, el modelo Logit se
estima de forma diferente, as en vez de minimizar las sumas de las diferencias al cuadrado
entre los valores observados y los estimados por el modelo, el carcter no lineal de los modelos
Logit requiere la utilizacin del mtodo de Mxima Verosimilitud para ser estimado,
maximizando la verosimilitud de que un suceso tenga lugar, aunque se podra estimar por MCO
mediante una transformacin logartmica de los datos (Gujarati, 1997).

La probabilidad de que Yi=0 (p) se define ahora mediante la siguiente expresin:

1
(1 e z )

donde Z = 0 + 1X1 + 2X2 + + kXk, siendo i son los coeficientes a estimar y Xi es el


vector de variables independientes

La probabilidad de que Yi=1 (1-p) sera:

(1 p )

1
(1 e z )

En consecuencia, la razn entre ambas ser igual a:

p
(1 e z )

ez
z
(1 p) (1 e )

Tomando el logaritmo natural de la expresin anterior se obtiene

pi
z
Li ln
ln(e ) 0 1 X i
(
1

p
)
i

(5.16)

Donde Li es el denominado Logit.

Los coeficientes indican el cambio en el Logit causado por el cambio en una unidad en el
valor de Xi, mientras que los e definen el cambio en la razn de probabilidades

(1 p)

causado por el cambio en una unidad en el valor de Xi. Si es positivo, e ser mayor que 1, es
decir,

(1 p ) se incrementar; si es negativo, e ser menor que 1, es decir,

(1 p)

disminuir. Adicionalmente, puede demostrarse que el cambio en la probabilidad (p) causado


por el cambio en una unidad en el valor de Xi es

(1 p) , es decir, depende no slo del

coeficiente , sino tambin del nivel de probabilidad a partir del cual se mide el cambio.

A la hora de estimar un modelo Logit, hay que tener presente que para estimar el modelo
adems de los valores Xi, se necesitan los valores del Logit (Li). Por otro lado, hay que tener
presente que la estimacin de los coeficientes de modelo (5.16) se realiza utilizando el mtodo
de Mxima Verosimilitud, es decir, eligiendo como estimadores de los coeficientes a aquellos

que maximizan la funcin de verosimilitud, construida sobre la base de p

1
. Pero si
(1 e z )

tenemos la posibilidad de agrupar los datos individuales, entonces podra estimarse el modelo
por MCO.

Ejemplo 5.3.
Supongamos, que estamos investigando la posibilidad de la relacin que se da a nivel individual
entre disponer vivienda propia (p=1) o no poseer vivienda propia (p=0). Si disponemos de la
informacin agrupada que aparece en la siguiente tabla sobre la poblacin que investigamos:

Ingreso (miles de $)
Numero de familias
6
40
8
50
10
60
13
80
15
100
20
70
25
65
30
50
35
40
40
25
Fuente: Gujarati (1997)

Nmero de familias con vivienda propia


8
12
18
28
45
36
39
33
30
20

Si se conoce la probabilidad de tener o no tener casa a partir de:

p i

ni
Ni

donde ni es el nmero de sujetos que para cada nivel i de la variable X (en el ejemplo, cada nivel
de ingreso) que cumplen la condicin (tener vivienda), y Ni es el nmero total de sujetos en cada
categora.

p i
y resolver la estimacin del Logit (5.16) por MCO. Una vez
(1 p i )

Se puede estimar ln

estimados los parmetros i , tendremos una estimacin del logaritmo de la razn de


probabilidades; es decir:

p i
Li ln
ln(e z ) 0 1 X i

(1 p i )
Y aplicando antilogaritmos, tenemos que:

ez

p i
(1 p i )

lo que permite dar una solucin a la posibilidad de determinar la probabilidad de disponer de


vivienda para un individuo dado su nivel de ingresos.

Sin embargo, dado que en la estimacin MCO del modelo Logit se pueden presentar problemas
de heteroscedasticidad, Gujarati (1997) propone realizar los siguientes pasos para resolver el
Logit:

1. Para cada nivel de ingreso (Xi), se calcula la probabilidad pi de disponer casa.

2. Para cada Xi se obtiene el Logit mediante:

p i
Li ln

(1 p i )
3. Realizar la siguiente transformacin:

wi Li Bo wi B1 wi X i i wi

que se escribe como:

L* i Bo wi B1 X * i vi

(5.17)

donde las ponderaciones wi N i p i (1 p i )

4. Estimar (5.17) mediante MCO.

5. Establecer intervalos de confianza y/o pruebas de hiptesis en el marco usual de


MCO, teniendo presente que las conclusiones sern vlidas nicamente si se
dispone de una muestra grande de datos.

Utilizando las cifras de la tabla anterior, realizamos las siguientes transformaciones:

Ni

ni

40
50
60
80
100
70
65
50
40
25

8
12
18
28
45
36
39
33
30
20

p i

ni
Ni

p i
(1 p i )

p i
ln

(1 p i )

wi

wi

L*

X*

0.25
0.32
0.43
0.54
0.82
1.06
1.50
1.94
3.00
4.00

-1.39
-1.15
-0.85
-0.62
-0.20
0.06
0.41
0.66
1.10
1.39

6.40
9.12
12.60
18.20
24.75
17.49
15.60
11.22
7.50
4.00

2.53
3.02
3.55
4.27
4.97
4.18
3.95
3.35
2.74
2.00

-3.51
-3.48
-3.01
-2.64
-1.00
0.24
1.60
2.22
3.01
2.77

15.18
24.16
35.50
55.46
74.62
83.63
98.74
100.49
95.85
80.00

0.20
0.24
0.30
0.35
0.45
0.51
0.60
0.66
0.75
0.80

Los resultados de la estimacin son:

Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2
R2 ajustado
Error tpico
Observaciones

0.98166006
0.96365647
0.83411353
0.54044729
10

Coeficientes

Error tpico

Estadstico t

*
i

0.07866857

0.0054475

14.4412221

wi

-1.59323779

0.11149444

-14.2898405

Con ello se puede calcular la probabilidad de poseer una casa dado una determinada cifra de
ingreso. Supngase que dicha cifra de ingreso es de veinte mil dlares (X=20); entonces:
L*i / (X=20)= 1.59+0.078 20=-0.0199

p i
p i
0.9803 , de donde se obtiene
, lo que implica que

(
1

p
)
(
1

p
)
i

Por tanto, 0.019 ln

que pi=0.495, es decir que la probabilidad de que un individuo con ingreso de veinte mil dlares
es del 49.5%.
En R se ejecutara el siguiente programa:

> datos <- read.table(file="libro1.txt",header=T)


> datos
Ingreso Familias Viv_propia
1
6
40
8
2
8
50
12
3
10
60
18
4
13
80
28
5
15
100
45
6
20
70
36
7
25
65
39
8
30
50
33
9
35
40
30
10
40
25
20
> prob <- datos$Viv_propia/datos$Familias
> logit <- glm(prob ~ datos$Ingreso, family = "binomial")
Warning message:
In eval(expr, envir, enclos) : non-integer #successes in a binomial
glm!
> summary(logit)
Call:
glm(formula = prob ~ datos$Ingreso, family = "binomial")
Deviance Residuals:
Min
1Q
-0.090397 -0.047938

Median
-0.007619

3Q
0.025761

Max
0.125358

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.63921
1.47043 -1.115
0.265
datos$Ingreso 0.07901
0.06592
1.199
0.231
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1.720664
Residual deviance: 0.036394
AIC: 11.995

on 9
on 8

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

Para obtener los valores estimados:


> fitted.prob <- plogis(predict(logit, type = "link"))
> fitted.prob
1
2
3
4
5
6
0.2377336 0.2675433 0.2996216 0.3515880 0.3883997 0.4852574
7
8
9
10
0.5832354 0.6750522 0.7551336 0.8207208

5.6.

EL MODELO PROBIT

Mientras que el modelo Logit utiliza la funcin de distribucin logstica para acotar la
distribucin de probabilidad en el modelo de probabilidad lineal, el modelo Probit utiliza la
funcin de distribucin Normal.

Figura 5.4. Funcin de densidad (izq.) y de distribucin (dcha.) de una Normal (0,1)
Las funciones de distribucin normal y logstica son muy semejantes: la diferencia principal es
que la funcin de distribucin normal se acerca ms rpidamente a los ejes que la logstica
(figura 5.5).

Figura. 5.5.

Para entender la filosofa del modelo Probit, vamos a suponer que existe una variable
desconocida s que cumple lo siguiente:

Si Ii=0+1Xi s entonces Yi=1


Si Ii=0+1Xi <s entonces Yi=0

(5.18)

Dado el supuesto de normalidad en un suceso, la probabilidad de que este sea menor o igual al
valor (s), se calcula a partir de la funcin de distribucin acumulada de una distribucin Normal
estandarizada, esto es, con esperanza cero y desviacin tpica uno.

pi pr (Y 1) pr ( 0 1 X i s )

o 1 X i

t dt
2

(5.19)

Lo anterior equivale a que la relacin entre la endgena y las explicativas venga dada por la
siguiente expresin:

yi ( 0 1 X i ) ui

1
2

o 1 X i

t dt u
i
2

(5.20)

Donde:

(0+1Xi) es la funcin de distribucin normal

ui es el trmino de perturbacin que se distribuye como una normal N(0,2).

Dado que (5.20) es una relacin no lineal en los parmetros no puede estimarse por MCO. No
obstante, hay una forma sencilla de asignar valores a las probabilidades que aparecen en la
expresin (5.19). Esta forma consiste en obtener informacin acerca de Ii y de los parmetros
a partir de la inversa de (5.19):
Ii=F-1(Ii)=F-1(pi)= 0+1Xi
donde F-1 es la inversa de la funcin de distribucin Normal.

Utilizando los datos agrupados del ejemplo anterior, los valores Ii son obtenidos utilizando las
tablas de la funcin de distribucin Normal estndar que aparecen en el Anexo II, tabla II.1. Por
ejemplo, tomando los datos del Ejemplo 5.3. tendramos que:

p i

ni
Ni

0.20
0.24

Ii

-0.84
-0.71

0.30
0.35
0.45
0.51
0.60
0.66
0.75
0.80

-0.52
-0.39
-0.13
0.04
0.25
0.41
0.67
0.84

Donde Ii es negativa siempre que pi<0.5; en la prctica se agrega el nmero 5 a Ii y a su


resultado se le denomina Probit. Es decir, Probit=5+Ii

Ahora, para estimar los parmetros se regresa:

Ii= 0+1Xi + ui
El trmino de la perturbacin es no obstante heteroscedstico. Gujarati (1999) sugiere que se
realice la transformacin comentada en el caso del modelo Logit, para que el modelo
transformado sea homocedstico.

Ejemplo 5.3 (cont.)


Los resultados de la regresin anterior, realizados sin considerar la transformacin que propone
Gujarati y utilizando como regresor los Ii que acabamos de calcular, son los siguientes:

Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.98943031
Coeficiente de determinacin R2
0.97897234
R2 ajustado
0.97634388
Error tpico
0.0892711
Observaciones
10

Trmino
constante
Xi

Coeficientes Error tpico


-1.01557838
0.05805496
0.0484664

0.00251134

Segn dichos resultados, una familia con un ingreso medio de 20000$, obtendra el siguiente
valor probit:

Ii / (X=20)= 1.018+0.048*20= -0.0556

Por tanto, la probabilidad que corresponde a dicho valor en la funcin de distribucin Normal
sera de un 47.78% de disponer de vivienda propia.

La estimacin en R del modelo probit, se programa:


> probit <- glm(prob ~ datos$Ingreso, family =
binomial(link="probit"))
Warning message:
In eval(expr, envir, enclos) : non-integer #successes in a binomial
glm!
> summary(probit)
Call:
glm(formula = prob ~ datos$Ingreso, family = binomial(link =
"probit"))
Deviance Residuals:
Min
1Q
-0.087368 -0.051317

Median
-0.006763

3Q
0.030342

Max
0.124273

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-1.00836
0.87615 -1.151
0.250
datos$Ingreso 0.04842
0.03876
1.249
0.212
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1.7207
Residual deviance: 0.0366
AIC: 12.02

on 9
on 8

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations:

5.7.

PROBLEMAS

5.1. Disponemos de una base de datos con los siguientes datos de un grupo de personas: Sexo,
Estado Civil, Aos de Experiencia Laboral, Salario por hora, Edad, Sector en el que trabaja
(agricultura, industria, construccin y servicios) y Categora Profesional (directivo,
comercial, administrativo, tcnico, oficial, auxiliar). Elabore un modelo uniecuacional
explicativo del salario que obtiene cada persona.
5.2. .
Disponemos de un conjunto de datos sobre las ventas de diferentes empresas Yi , sus gastos
de publicidad X i y un indicativo de su tamao Ti , que consiste en una variable binaria que
toma valor 1 para las pequeas y medianas empresas y 0 para las grandes.
a) Se quiere contrastar si el efecto de la publicidad sobre las pequeas y medianas
empresas es igual al de las grandes. Establezca una esfecificacin del modelo y el
contraste de hiptesis que considere ms adecuado.
b) Utilizando dicha especificacin, como se determinara el efecto de la publicidad sobre
las ventas de las pequeas empresas y como se determinara el efecto sobre las grandes.

5.3. Utilizando los siguientes datos:

Y
X
26
1
41 1.5
63
2
78 2.5
100 3
184 6
208 8
242 10
273 11
291 14

a) Realice la representacin grfica de los datos.


b) Considera que el modelo se ajusta a un modelo de regresin por tramos?
c) En caso afirmativo, estime el modelo.
5.4. Utilizando datos de una encuesta realizada entre en 1974/1975 en donde se pregunta
sobre estar de acuerdo en desacuerdo con la afirmacin de que las mujeres tienen que
dedicarse al cuidado del hogar y dejar el pas en manos de los hombres, se ha realizado
una regresin logistica entre el porcentaje de personas que se muestran de acuerdo con
dicha informacin, el numero de aos que han estudiado y su sexo. El conjunto de datos
se obtiene en:

> install.packages("HSAUR")
> data("womensrole", package="HSAUR")

Se ha realizado el siguiente programa R:


> fm1 <- cbind(agree,disagree) ~ sex+education
> glm_1 <- glm(fm1, data=womensrole, family = binomial())
> summary(glm_1)
Call:
glm(formula = fm1, family = binomial(), data = womensrole)
Deviance Residuals:
Min
1Q
Median
-2.72544 -0.86302 -0.06525

3Q
0.84340

Max
3.13315

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 2.50937
0.18389 13.646
<2e-16 ***
sexFemale
-0.01145
0.08415 -0.136
0.892
education
-0.27062
0.01541 -17.560
<2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 451.722
Residual deviance: 64.007
AIC: 208.07

on 40
on 38

degrees of freedom
degrees of freedom

Number of Fisher Scoring iterations: 4

a) Comente los resultados obtenidos.


b) Realice una regresin probit con estos datos
5.5. Considere el siguiente modelo probit estimado:

Pr( yi Si , Wi ) ( 1.1 0.2Si 0.09Wi )


donde yi es una variable que toma valor 1 si el individuo i dispone de vehculo propio , Si es
una variable que toma valor 1 si el individuo i es varon y 0 si es muje, y Wi es el salario mensual
del individuo i en miles de euros.

a)Considere un hombre y una mujer que cobran 1500 euros al mes, calcular que
probabilidad tienen de disponer de vehculo propio.
b)

Que diferencia de probabilidad tienen de disponer de vehculo propio un

hombre que cobra 1500 euros al mes y una mujer que cobra 2500.

SOLUCIONES
5.1. A realizar por el lector
5.2 a) Se estima el siguiente modelo Yi 0 1 X i 1 X iTi ei , y se contrasta la
hiptesis nula H 0 : 1 0 b) El efecto de la publicidad sobre las ventas de las PYMES
vendra dado por ( 1 1 ) y la de las grandes por ( 1 )
5.3 a) A realizar por el lector. b) Se estima el siguiente modelo de variables cualitativas para
la regresin por tramos

Y 103.96 13.91X 17,71( X X * ) D donde X * 6 ;

R 2 0.995
5.4. A realizar por el lector
5.5. a) Hombre (0.765) 0.222 , mujer (0.965) 0.167
b) (0.765) ( 0.875) 0.03

6.

MODELOS CON DATOS DE PANEL

6.1.

INTRODUCCIN

Un modelo de datos de panel es, segn la definicin ms extendida, un modelo que utiliza
muestras recogidas a individuos a lo largo de instantes de tiempo. Los modelos de datos de
panel incluyen as informacin de una muestra de agentes econmicos (individuos, empresas,
bancos, ciudades, pases, etc.) durante un perodo determinado de tiempo, combinando, por
tanto, la dimensin temporal y estructural de los datos.

Los modelos de datos de panel se aplican a conjuntos o bases de datos de series de tiempo
agregadas para los mismos individuos; stos conjuntos de datos suelen tener un nmero
relativamente grande de individuos y pocas observaciones en el tiempo, o por el contrario
podemos tener datos para un nmero grande de periodos pero para un nmero pequeo de
individuos. Un ejemplo de este tipo de bases de datos es el panel de hogares de la Unin
Europea (70.000 hogares en la UE), las encuestas de opiniones empresariales del Ministerio de
Industria (3.000 empresas), los ndices Nielsen (5.000 hogares en Espaa) para medir la
audiencia televisiva, etc. Estos conjuntos de datos que son conocidos como datos de panel o
datos longitudinales hay que diferenciarlos de las encuestas transversales que son repetidas en el
tiempo pero no a los mismos individuos (por ejemplo, la Encuesta de Poblacin Activa)8.

El principal objetivo que se persigue al agrupar y estudiar los datos en panel es capturar la
heterogeneidad no observable entre los agentes econmicos como entre periodos temporales.
Dado que esta heterogeneidad no se puede detectar exclusivamente con estudios de series
temporales, ni tampoco con estudios de corte transversal, hay que realizar un anlisis ms
dinmico incorporando a los estudios de corte transversal la dimensin temporal de los datos.
Esta modalidad de analizar la informacin es muy usual en estudios de naturaleza empresarial,
ya que los efectos individuales especficos de cada empresa y los efectos temporales del
medio son determinantes cuando se trabaja con este tipo de informacin.
8

En los paneles de datos a veces tambin hay que sustituir individuos por falta de respuesta, pero
no es el caso de las encuestas transversales en donde la muestra se renueva de forma sistemtica, de
manera que a un periodo de tiempo determinado, por ejemplo un ao, los hogares de la muestra sean
diferentes a los del periodo anterior. La falta de respuesta en los datos de panel como en otro tipo de
encuesta a la hora de los anlisis estadsticos deben de depurarse, bien eliminando todos los datos del
individuo con falta de respuesta o eliminando nicamente los individuos con falta de respuesta en cada
variable analizada.

Los efectos individuales especficos se definen como aquellos que afectan de manera desigual a
cada uno de los agentes de estudio contenidos en la muestra (individuos, empresas, bancos).
Estos efectos son invariables en el tiempo y se supone que afectan de manera directa a las
decisiones que toman dichas unidades. Usualmente, se identifica este tipo de efectos con
cuestiones de capacidad empresarial, eficiencia operativa, el saber-hacer (Know-how), acceso
a la tecnologa, etc.

Por su parte, los efectos temporales son aquellos que afectan por igual a todas las unidades
individuales del estudio y que, adems, varan en el tiempo. Este tipo de efectos suele asociarse,
por ejemplo, a shocks macroeconmicos que afectan por igual a todas las empresas o unidades
de estudio (una subida de los tipos de inters, un incremento de los precios de la energa, un
aumento de la inflacin, etc.), o a cambios en la regulacin de mercados (ampliacin de la
Unin Europea, reduccin de tarifas arancelarias, aumento de la imposicin indirecta, etc.).

6.2.

ESPECIFICACIN GENERAL DE UN MODELO DE DATOS DE


PANEL

La especificacin general de un modelo de regresin con datos de panel es la siguiente:

Yit a it X itj j uit


j 1

donde i = 1,......N se refiere al individuo o a la unidad de estudio (corte transversal), t = 1,...T a


la dimensin en el tiempo, Yit sera la variable a explicar correspondiente a cada unidad de
estudio, aes un escalar con N parmetros que recoge los efectos especficos del i-simo
individuo, es un vector de K parmetros que se asocian a las j=1,.K variables explicativas

X itj .
A partir del modelo general, y con base en ciertos supuestos y restricciones acerca del valor de
algunos de los parmetros, se derivan las diferentes variantes de modelos de datos de panel que
resumimos a continuacin en la siguiente tabla.

MODELOS ALTERNATIVOS PARA COMBINAR DATOS DE SERIES DE TIEMPO Y DE


CORTE TRANSVERSAL
TIPO DE MODELO
EXPRESIN
CARACTERSTICAS
K
Modelo Lineal

Yit a it X itj i j eit


j 1

Modelo Esttico de Datos de


Panel.

Yit a it X itj j eit


j 1

Modelo Esttico de Datos de


Panel de una Va (one-way) (A)

a it a i

Yit a it X itj j eit


j 1

Modelo Esttico de Efectos Fijos


con variable dummy (los
coeficientes constantes se
estiman a partir de variables
cualitativas) (B)
Modelo Esttico de Datos de
Panel de Doble Va (two-ways)
(C)
Modelo de Regresiones
Aparentemente No Relacionadas
(SUR)9
Modelo Dinmico de Datos de
Panel

Yit ia i X itj j eit


j 1

i es un vector de variables
cualitativas y i es un vector de
coeficientes constantes.

Yit a it X itj j eit

a it a m i t

j 1
K

Yit a it X itj i j eit

a it a i

j 1

Yit a it Yi , t 1 X itj j eit

a it a m i t

j 1

En un modelo de datos de panel, las variables explicativas pueden ser de tres tipos:

Una variable por cada individuo, sin que exista referencia temporal en dicha
variable: las variables son las mismas para cada unidad de corte transversal y se
refieren a atributos del individuo o agente, por ejemplo, el tipo de empresa, su
tamao, la forma gerencial; el sexo de un trabajador, el nivel de formacin, la
profesin y otras caractersticas sociales de los individuos.

Una variable por periodo, pero sin que existan diferencias en el valor que toma la
variable en cada individuo: las variables toman distintos valores en cada periodo
temporal pero no varan entre los individuos. Como ejemplo de este tipo de
variables cabe citar a la tasa de inflacin, los tipos de inters, etc.

Una variable que cambia en el tiempo y por individuo: se trata de variables que
cambian entre individuos en un momento del tiempo, y que adems cambian a lo
largo del tiempo. Como ejemplo de estas variables se pueden mencionar los

Siglas de Seemingly Unrelated Regression

ingresos totales, el nivel de beneficios, el stock de capital o el nivel de


endeudamiento, entre otras.
Los modelos de datos de panel se interpretan a travs de sus componentes de error.
Considerando la notacin matricial abreviada de un modelo general de datos de panel:

Yit X it' u it

(6.1)

El trmino de error uit incluido en la ecuacin (6.1), puede descomponerse de la siguiente


manera:

u it m i t eit

(6.2)

donde mi representa los efectos no observables que difieren entre las unidades de estudio pero no
en el tiempo (capacidad empresarial, eficiencia de cada unidad, etc.); t identifica los efectos
no cuantificables que varan en el tiempo pero no entre las unidades de estudio; y eit se refiere al
trmino de error puramente aleatorio.
La mayora de los anlisis realizados con datos de panel utilizan el modelo de componente de
error conocido como one way para el cual t =0 (modelo A). Las diferentes variantes para el
modelo one way de componentes de errores surgen de los distintos supuestos que se hacen
acerca del trmino mi, pudindose presentar tres posibilidades:

El caso ms sencillo es el que considera m i 0 ; es decir, la no existencia de


heterogeneidad no observable entre los individuos o empresas.

La segunda posibilidad consiste en suponer a m i un efecto fijo y distinto para


cada individuo o empresa. En este caso, la heterogeneidad no observable se
incorpora a la constante del modelo ( a i ).

Finalmente, la tercera alternativa es tratar a m i como una variable aleatoria no


observable que vara entre individuos/empresas pero no en el tiempo.

Bajo la primera especificacin, los mit satisfacen todos los supuestos del modelo lineal general y,
por tanto, se emplea como mtodo de estimacin MCO, obteniendo estimadores lineales e
insesgados y con la ventaja de ganar grados de libertad.

Ahora bien, en los casos en que se rechaza el supuesto de homogeneidad en un sistema de datos
de panel, es decir, que existe heterogeneidad no observable ya sea a travs del tiempo, entre
unidades de estudio (individuos) o en ambos sentidos, debe buscarse una especificacin que la
capture de forma apropiada con el fin de evitar que los estimadores de los parmetros de las
variables explicativas estn sesgados.

6.3.

VENTAJAS Y DESVENTAJAS DE LOS MODELOS DE DATOS


DE PANEL

Los modelos de datos de panel presentan una serie de ventajas y desventajas en comparacin
con los modelos de series temporales y de corte transversal. Las ms relevantes son las
siguientes:

Ventajas

La tcnica permite al investigador econmico disponer de un mayor nmero de


observaciones, incrementando los grados de libertad, reduciendo la multicolinealidad
entre las variables explicativas y, en ltima instancia, mejorando la eficiencia de las
estimaciones economtricas.

Tal y como se mencion anteriormente, la tcnica permite capturar la heterogeneidad no


observable ya sea entre unidades individuales de estudio como en el tiempo. Con base
en lo anterior, la tcnica de datos de panel permite aplicar una serie de contrastes para
confirmar o rechazar dicha heterogeneidad y determinar cmo capturarla.

Los datos de panel suponen, e incorporan al anlisis, el hecho de que los individuos o
agentes

econmicos

(consumidores,

empresas,

regiones,

pases,

etc.)

son

heterogneos. Los anlisis de series de tiempo y de corte transversal no incorporan esta


heterogeneidad corriendo as el riesgo de obtener resultados sesgados.

Permiten estudiar mejor la dinmica de los procesos de ajuste, ya que a travs de ellos
se pueden analizar los cambios en el tiempo de las distribuciones transversales.

Permiten elaborar y probar modelos relativamente complejos de comportamiento en


comparacin con los anlisis de series temporales y de corte transversal. Un ejemplo
claro de este tipo de modelos es aquel que trata de medir niveles de eficiencia tcnica
por parte de unidades econmicas individuales.

Finalmente, puesto que las unidades transversales de un panel de datos normalmente se


refieren a individuos, familias o empresas, se evitan los sesgos que aparecen cuando se
trabaja con variables agregadas.

Desventajas

En trminos generales, las desventajas asociadas a la tcnica de datos de panel se


relacionan con los procesos para la obtencin y el procesamiento de la informacin
estadstica sobre las unidades individuales de estudio; es decir cuando sta se obtiene
por medio de encuestas, entrevistas o utilizando algn otro medio de inferencia
estadstica de los datos. Ejemplos de este tipo de limitaciones son los problemas de
seleccin no aleatoria de la muestra, de recogida de datos con inadecuadas tasas de
cobertura de la poblacin, porcentajes de no respuesta, preguntas confusas, distorsin
deliberada de las respuestas, etc.

Asimismo, una escasa dimensin temporal puede invalidar alguno de los elementos
tericos de los modelos de datos de panel.

Por ultimo, algunas investigaciones han demostrado que la utilizacin de modelos de


efectos fijos produce resultados significativamente diferentes al los modelos con efectos
aleatorios cuando se estima una ecuacin usando una muestra de muchas unidades de
corte transversal con pocos periodos de tiempo (700 individuos con 5 periodos, por
ejemplo).

6.4.

MODELO DE EFECTOS FIJOS

Como ya se mencion, los modelos de datos de panel permiten contemplar la existencia de


efectos individuales especficos a cada unidad, invariables en el tiempo, que determinan la
manera en que cada unidad de corte transversal toma sus decisiones.

Estos modelos asumen que los efectos de las variables omitidas, ya sean especficas a cada
individuo y/o que cambian en el tiempo, no son importantes en forma individual, pero s en
conjunto.

Por otro lado, dado que el efecto de las variables omitidas se supone constante en el tiempo para
cada individuo, o que no varia en todos los individuos en un determinado momento en el
tiempo, o una combinacin de ambos, se pueden capturar en el trmino constante de un modelo
de regresin como un promedio que toma en cuenta explcitamente la heterogeneidad entre
individuos y/o en el tiempo contenida en los datos.

Segn la forma de incorporar la heterogeneidad no observada, se pueden diferencian los


modelos de efectos fijos y modelos de efectos aleatorios. Los modelos de efectos fijos se
conocen tambin como modelos mnimos cuadrticos con variables ficticias.

Los modelos de datos de panel de efectos fijos tienen la siguiente expresin general:
K

Yit a i X itj j u it
j 1

donde Yit es la variable dependiente, a it , es un escalar que recoge los efectos especficos del i
j

simo individuo y se supone constante en el tiempo, y X it , es el vector de las k variables


explicativas y j , de los K parmetros que recogen los efectos de las variables explicativas; uit
es el termino de error que se suponen aleatorios distribuidos con media cero y varianza
2
constante de valor u . El panel de datos corresponde a i = 1,2..., N unidades o individuos de

corte transversal, observados para los perodos t = 1,2..., T.

Por tanto, lo que se pretende resolver es un sistema de regresiones especficas con N ecuaciones
1 1
2 2
j
j
de corte transversal: Yi a i X i X i ... X i u i y T observaciones.

Su notacin matricial abreviada es:

Yit a i X it ' u it
Agrupando las observaciones temporales, para cada unidad transversal se llega al siguiente
modelo:

Yit ia X it ' eit


que en el supuesto de una nica variable explicativa tendra la siguiente expresin:

Y1 i 0 ... 0 a1 X 1
e1
Y 0 i ... 0 a X

2
2 2 e2
. . . ... . . .
.



YN 0 0 ... i a N X N
e N
Con este modelo se considera que las variables explicativas afectan por igual a las unidades de
corte transversal y que stas se diferencian por caractersticas propias de cada una de ellas,
medidas por medio de la intercepcin en el origen. Es por ello que las N intercepciones se
asocian con variables dummy con coeficientes especficos para cada unidad, los cuales se deben
estimar.
La estimacin de a i y se realiza por MCO, si bien hay que tener presente que este modelo
presenta una prdida importante de grados de libertad. Un test til en este tipo de modelos es
realizar la prueba F, para comprobar si a i a para cualquier i. Por otro lado, cabe sealar que
cuando se quiera incluir un trmino constante hay que introducir nicamente N-1 variables
ficticias.

Otra manera de plantear este modelo es especificndolo en desviaciones respecto a la media, es


decir, restando a cada variable la media en el periodo para cada unidad i-esima. El estimador a
utilizar en este caso tiene la siguiente expresin:

N T
X it X i X it X i
i 1 t 1

N T
' X it X i Yit Yi
i 1 t 1

'

(6.3)

donde Yi , X i son las medias muestrales del individuo i-simo.

El estimador de la varianza de es:

N T

Var e2 X it X i X it X i '
i 1 t 1

2
2
donde e es la varianza residual, calculada como u

e'e
, donde ee es la suma de
NT N K

los residuos del modelo al cuadrado.

En general, el estimador de mnimos cuadrados ordinarios (MCO) es apropiado cuando los


residuos son incorrelados en el tiempo y homocedsticos en los cortes transversales .
Los efectos fijos se estiman en un segundo paso a travs de la siguiente ecuacin:

a i Yi X
'
i

X it'

t 1

(6.4)

El modelo anterior puede extenderse al modelo de efectos fijos de doble va, en el que aparecen
tambin los efectos no observables temporales, tal que:

Yit a i t X it ' u it

Expresin que equivale a introducir dos conjuntos de variables ficticias, unas individuales y
otras temporales; en este caso el estimador MCO tendra las mismas propiedades del modelo
anterior.
El estimador a utilizar tendra la siguiente expresin:

N T
X it X i X t X X it X i X t X
i 1 t 1

N T
' X it X i X t X Yit Yi Yt Y
i 1 t 1

'

donde Yi , X i , son las medias muestrales del individuo i-simo, Yt , X t las medias muestrales
del periodo t, y Y , X las medias muestrales de las variables para todos los N individuos y T
periodos.

Los efectos fijos se estiman en un segundo paso a travs de las siguientes relaciones:
'
a i Yi Y X i X
'
t Yt Y X t X

6.5.

MODELO DE EFECTOS ALEATORIOS

A diferencia del modelo de efectos fijos, el modelo de efectos aleatorios considera que los
efectos individuales no son independientes entre s, sino que estn distribuidos aleatoriamente
alrededor de un valor dado. Una prctica comn en el anlisis de regresin es asumir que el gran
nmero de factores que afectan al valor de la variable dependiente pero que no han sido
incluidas explcitamente como variables independientes del modelo, puede resumirse
apropiadamente en la perturbacin aleatoria.

As, en este modelo se considera que tanto el impacto de las variables explicativas como las
caractersticas propias de cada unidad son diferentes.

El modelo de efectos aleatorios o modelo de componentes de la varianza asume que el trmino

ait es la suma de una constante comn a , una variable aleatoria especfica de corte transversal
e invariante en el tiempo m i asociada a cada individuo e incorrelada con el residuo u it , y otro
asociado al tiempo t, tambin incorrelacionado con el residuo u it .

2
En lugar de tratar mi como una constante fija, esta especificacin asume que mi : N 0, m

independiente e igualmente distribuida, e incorrelada con u it y X it .

A su vez el modelo tambin requiere que t est incorrelado en el tiempo tal que E (t , s ) 0
, y adems est incorrelada con mi , u it y X it .

Si suponemos que t 0 , la especificacin del modelo entonces se convierte en:

Yit X itj j it ,

it m i u it

i 1

La estimacin de este modelo exige de la utilizacin de Mnimos Cuadrados Generalizados pues


los residuos del modelo estn correlacionados entre s al estar m i incluido tanto en it como
en is , para t s.

El estimador apropiado de este modelo expresado en desviaciones a la media es, por tanto:
1

MCG

N
N
1 N
1 N

X i' QX i X it X i ' X it X i X i' QYi X it X i X it Yi '


i 1
i 1
T i 1
T i 1

donde:

2
2 T m2

Q IT

1
e e'
T
2

2
Generalmente las varianzas m (varianza entre grupos) y no son conocidas y, por tanto,

habr que estimar un valor para . Para estimar dicho valor un camino sera utilizar las
estimaciones de las varianzas de los residuos obtenidas en la solucin MCO del modelo.

6.6.

ELECCIN DE
ALEATORIOS

MODELO

DE

EFECTOS

EFECTOS

La decisin acerca de la estructura apropiada para el anlisis, es decir, efectos fijos vs efectos
aleatorios, depender de los objetivos que se persigan.

As, Hausman (1978) aconseja utiliza el modelo de efectos fijos para realizar inferencias sobre
la muestra utilizada, mientras que el de efectos aleatorios resulta ms til para realizar
inferencias sobre la poblacin.

Adicionalmente, si el inters del estudio particular est puesto en los coeficientes de las
pendientes de los parmetros, y no tanto en las diferencias individuales, se deber elegir un
mtodo que relegue estas diferencias y trate la heterogeneidad no observable como aleatoria.

El contexto de los datos, es decir, cmo fueron obtenidos y el entorno de donde provienen,
determinan tambin la eleccin del modelo. Con el modelo de efectos fijos la heterogeneidad no
observable se incorpora en la ordenada al origen del modelo y con el de efectos aleatorios, como
ya se mencion, se incorpora en el trmino de error, modificndose la varianza del modelo.
Asimismo, emplear un modelo de efectos fijos o aleatorios genera diferencias en las
estimaciones de los parmetros en los casos en que se cuenta con T pequeo y N grande. En
estos casos debe hacerse el uso ms eficiente de la informacin para estimar esa parte de la
relacin de comportamiento contenida en las variables que difieren sustancialmente de un
individuo a otro.

En principio, el enfoque de efectos fijos es ms atractivo, ya que no requiere realizar supuestos


paramtricos sobre la distribucin condicional de la heterogeneidad inobservable. Sin embargo,
su desventaja es que solo puede utilizarse en ciertas distribuciones y requiere hacer supuestos
muy restrictivos sobre la distribucin del trmino de error como lo son las hiptesis que exige el
mtodo MCO.

A este respecto hay que tener presente que el modelo de efectos fijos asume la existencia de
diferencias entre unidades que se capturan en forma de movimientos de la curva de regresin.
(Fig. 6.1).

Figura 6.1.

El modelo de efectos fijos, si se estima utilizando variables dummy no identifica directamente la


causa de la variacin en el tiempo y los individuos, e implica un alto coste informativo en
trminos de grados de libertad. En cuyo caso deben realizarse algunas consideraciones con
respecto a la estructura de los datos, dado que si N es grande y T pequeo, podra darse el caso
en que el nmero de parmetros en el modelo de efectos fijos sea muy grande en relacin con el
nmero de datos disponibles, lo que dara lugar a parmetros poco significativos y una
estimacin ineficiente.
Para elegir entre los estimadores del modelo fijo y aleatorio puede utilizarse el test de Hausman,
que compara directamente ambos estimadores. El contraste se basa en el hecho de que bajo la

hiptesis de que E a i X it 0 el estimador del modelo de efectos aleatorios


asintticamente ms eficiente que el estimador MCO del modelo de efectos fijos

es
; sin
EA

EF

embargo, si E a i X it 0 , el estimador MCO mantendr la consistencia, mientras que el


estimador MCG ser sesgado e inconsistente.

El estadstico propuesto por Hausman es:

1
m q ' Var (q ) q

donde q EA EF , y la matriz diagonal Var ( q ) Var ( EA ) Var ( EF ) . Bajo la hiptesis

2
nula H 0 E a i X it 0 el estadstico m se distribuye como una variable k .

Ejemplo 6.1.
A continuacin vamos a realizar un ejemplo de estimacin de un modelo de datos de panel, con
las series temporales de crditos y depsitos de las cajas de ahorro de Castilla y Len por
provincias, el objetivo de la investigacin es comprobar qu parte de los depsitos se queda en
Castilla y Len en forma de crditos y verificar si hay diferencias en los comportamientos
provinciales. Los datos utilizados corresponden al periodo 1998-2003 y tienen periodicidad
trimestral.

En primer lugar, utilizamos un modelo de datos de panel fijo de la forma siguiente:

Yit ia X it ' u it
donde Yit son los crditos que prestan las cajas de ahorro en las nueve provincias de la regin
(N=9), y X it los depsitos de las cajas de ahorro en cada una de las nueve provincias de la
regin. El nmero de observaciones temporales es T = 22.

Los datos de los crditos totales concedidos por las Cajas de Ahorro en las nueve provincias de
Castillla y Len (millones de ) son:

Ao
1998
1998
1998
1998
1999
1999
1999
1999
2000
2000
2000
2000
2001
2001
2001
2001
2002
2002
2002
2002
2003
2003

Periodo
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II

vila
587
607
623
642
643
710
694
694
685
731
753
783
787
850
835
894
902
976
1039
1076
1139
1193

Burgos
1739
1846
1872
1992
1991
2147
2171
2360
2380
2524
2665
2840
2882
3066
3166
3360
3463
3719
3826
4020
4140
4417

Len
1844
1956
1953
2037
2146
2301
2271
2350
2514
2682
2765
3043
3018
3095
2994
3081
3056
3153
3161
3262
3472
3688

Palencia
488
516
531
545
571
620
644
652
670
719
737
771
764
789
812
837
849
908
933
945
984
1022

Salamanca
1058
1130
1151
1189
1097
1254
1182
1247
1285
1468
1471
1493
1534
1628
1609
1664
1707
1821
1835
1913
1968
2069

Segovia
534
562
588
610
627
656
660
682
668
688
692
708
704
739
743
776
794
842
854
899
942
979

Soria
207
212
212
218
225
232
235
242
252
259
260
280
287
301
310
332
336
348
357
387
400
421

Valladolid
1459
1552
1593
1685
1718
1818
1895
1981
2061
2208
2308
2443
2523
2658
2685
2869
2969
3195
3241
3331
3434
3575

Zamora
392
411
423
439
436
476
481
496
507
561
559
582
581
605
612
636
644
676
676
690
702
734

Los datos de los depsitos del sector privado en las Cajas de Ahorro en las nueve provincias de
Castillla y Len (millones de ) son:

Ao
1998
1998
1998
1998
1999
1999
1999
1999
2000
2000
2000
2000
2001
2001
2001
2001
2002
2002
2002
2002
2003
2003

Periodo
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II
III
IV
I
II

vila
1175
1170
1218
1232
1238
1272
1295
1329
1349
1388
1431
1465
1488
1541
1587
1773
1768
1806
1822
1906
1949
2001

Burgos
3686
3675
3731
3862
3918
3959
4082
4217
4322
4392
4497
4692
4817
5271
5322
5496
5528
5637
5658
5898
5913
6316

Len
3220
3275
3279
3438
3374
3527
3426
3459
3469
3470
3854
3965
3957
4133
4251
4476
4910
5095
5088
4920
5239
5488

Palencia
817
802
793
826
822
838
861
894
933
961
995
1059
1075
1121
1145
1187
1173
1210
1208
1242
1230
1247

Salamanca
1600
1596
1614
1619
1594
1627
1680
1735
1822
1921
1984
2029
2081
3794
4137
4334
4722
4970
5020
5131
5118
5126

Segovia
1052
1060
1091
1104
1112
1143
1173
1183
1195
1227
1250
1293
1385
1462
1489
1522
1597
1548
1577
1722
1653
1676

Soria
593
594
596
595
581
582
594
652
642
655
677
701
724
746
763
797
794
817
832
849
842
846

Valladolid
1626
1609
1635
1697
1751
1814
2024
1986
2048
2126
2229
2323
2378
2467
2518
2650
2631
2776
2787
2929
2915
2974

Zamora
866
850
838
871
858
870
888
942
948
968
989
1048
1056
1099
1121
1177
1150
1175
1170
1210
1189
1220

A efectos de estimar el modelo MCO utilizando variables dummy habra que presentar los datos
conforme a la siguiente tabla:
Ao

Trimestre

Crditos (Y)
vila

Burgos

Len

Palencia

Dummies (i)
Salamanca Segovia

Soria

Valladolid

Zamora

Depsitos
(X)

1998

587

1175

1998

1739

3686

1998

1844

3220

1998

488

817

1998

1058

1600

1998

534

1052

1998

207

593

1998

1459

1626

1998

392

866

1998

607

1170

1998

1846

3675

1998

1956

3275

1998

516

802

1998

1130

1596

1998

562

1060

1998

212

594

1998

1552

1609

1998

411

850

Aplicando MCO al modelo descrito se obtienen los siguientes resultados:

Estadsticas de la regresin
Coeficiente de correlacin mltiple 0.96577233
Coeficiente de determinacin R2
0.9327162
R2 ajustado
0.92417602
Error tpico
274.756973
Observaciones
198
ANLISIS DE VARIANZA
Grados de
libertad
10
188
198

Regresin
Residuos
Total

Coeficientes
AV
BU
LE
PA
SA
SG
SO
VA
ZA

82.5909183
543.61444
760.615561
248.928645
58.0469567
77.3436176
-52.4921486
1323.60383
66.2517949
0.48266722

Suma de
cuadrados
196740739
14192382.1
210933121
Error
tpico
74.062306
154.683995
135.247529
66.1017603
106.602347
71.092936
62.268669
89.8271126
66.1422793
0.03002785

Media
cuadrados
19674073.9
75491.3944

F
260.613465

Valor crtico de
F
4.338E-104

Estadstico t
1.11515456
3.51435479
5.62387768
3.76583988
0.54451856
1.08792268
-0.84299455
14.7350148
1.00165576
16.0739855

Se puede apreciar que tanto el estadstico F, como la distribucin asociada a los estimadores de
los coeficientes a i descarta la hiptesis de igualdad de dichos coeficientes (el valor terico del
estadstico F en las tablas es 1.88), lo que hace significativa con un nivel de confianza del 95%
la existencia de heterogeneidad en el comportamiento de cada provincia.

Si utilizamos el modelo (6.2) y el procedimiento descrito para obtener el estimador (6.3) y los
coeficientes (6.4), obtendramos los siguientes resultados en la estimacin MCO.

MCO

N T

X it X i Yit Yi
404107385.5 0.48266722
Ni 1 Tt 1

832723809.18
X it X i X it X i
i 1 t 1

El coeficiente i correspondiente a vila se obtiene como:

a i

X it

t 1

22

811.05 0.4827 X

t 1

22

it

82.59

Anlogamente, el resto de trminos constantes es:

Burgos
Len
Palencia
Salamanca
Segovia
Soria
Valladolid
Zamora

543.61444
760.615561
248.928645
58.0469567
77.3436176
-52.4921486
1323.60383
66.2517949

Ejemplo 6.2.
La librera plm ofrece recursos en R para estimar modelos data panel.
> install.packages("plm")

En esta librera tenemos un conjunto de datos panel relativos a 10 empresas para las que
disponemos de los siguientes cifras: ao, invesin bruta, valor de la empresa y capital. El
conjunto de datos es para el periodo de 1935 a 1954.
> data("Grunfeld", package="plm")
> str(Grunfeld)
'data.frame': 200 obs. of 5 variables:
$ firm
: int 1 1 1 1 1 1 1 1 1 1 ...
$ year
: int 1935 1936 1937 1938 1939 1940 1941 1942 1943 1944 ...
$ inv
: num 318 392 411 258 331 ...
$ value : num 3078 4662 5387 2792 4313 ...
$ capital: num 2.8 52.6 156.9 209.2 203.4 ...

En el conjunto de datos los campos identificativos de las empresas y aos deben de ser ndices.
Para estimar un modelo de data panel de efectos fijos que relacione la inversin realizada por la
empresa con su valor contable y su capital, se requiere la siguiente sentencia R:
> grun.fe <- plm(inv~value+capital,data=Grunfeld,model="within")

> summary(grun.fe)
Oneway (individual) effect Within Model
Call:
plm(formula = inv ~ value + capital, data = Grunfeld, model =
"within")
Balanced Panel: n=10, T=20, N=200
Residuals :
Min. 1st Qu.
-184.000 -17.600

Median
0.563

3rd Qu.
19.200

Max.
251.000

Coefficients :
Estimate Std. Error t-value Pr(>|t|)
value
0.110124
0.011857 9.2879 < 2.2e-16 ***
capital 0.310065
0.017355 17.8666 < 2.2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares:
2244400
Residual Sum of Squares: 523480
R-Squared
: 0.76676
Adj. R-Squared : 0.72075
F-statistic: 309.014 on 2 and 188 DF, p-value: < 2.22e-16

Para estimar un modelo con efectos aleatorios:


> grun.re <- plm(inv~value+capital,data=Grunfeld,model="random")
> summary(grun.re)
Oneway (individual) effect Random Effect Model
(Swamy-Arora's transformation)
Call:
plm(formula = inv ~ value + capital, data = Grunfeld, model =
"random")
Balanced Panel: n=10, T=20, N=200
Effects:
var std.dev share
idiosyncratic 2784.46
52.77 0.282
individual
7089.80
84.20 0.718
theta: 0.8612
Residuals :
Min. 1st Qu.
-178.00 -19.70

Median 3rd Qu.


4.69
19.50

Max.
253.00

Coefficients :
Estimate Std. Error t-value Pr(>|t|)
(Intercept) -57.834415 28.898935 -2.0013 0.04674 *
value
0.109781
0.010493 10.4627 < 2e-16 ***
capital
0.308113
0.017180 17.9339 < 2e-16 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Total Sum of Squares:
2381400
Residual Sum of Squares: 548900
R-Squared
: 0.7695
Adj. R-Squared : 0.75796
F-statistic: 328.837 on 2 and 197 DF, p-value: < 2.22e-16

Los efectos fijos se extraen con la function fixef.


> summary(fixef(grun.fe, type = 'dmean'))
Estimate Std. Error t-value Pr(>|t|)
1
-11.5528
49.7080 -0.2324 0.816217
2
160.6498
24.9383 6.4419 1.180e-10 ***
3 -176.8279
24.4316 -7.2377 4.565e-13 ***
4
30.9346
14.0778 2.1974 0.027991 *
5
-55.8729
14.1654 -3.9443 8.003e-05 ***
6
35.5826
12.6687 2.8087 0.004974 **
7
-7.8095
12.8430 -0.6081 0.543136
8
1.1983
13.9931 0.0856 0.931758
9
-28.4783
12.8919 -2.2090 0.027174 *
10
52.1761
11.8269 4.4116 1.026e-05 ***
--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

6.7.

PROBLEMAS

6.1. Considere el siguiente panel de datos de inversin (Y) y beneficios (X) para 3 empresas
y 10 periodos:

t
1
2
3
4
5
6
7
8
9
10

Empresa 1
Y
X
18.32
17.85
31.30
30.69
7.62
10.48
19.94
18.79
20.80
20.41
17.20
17.59
19.93
21.64
34.82
31.45
25.32
24.64
9.77
10.43

Empresa 2
Y
X
25.30
27.93
22.47
22.97
14.31
14.16
23.01
23.73
12.63
16.31
24.84
26.15
18.76
21.13
15.00
16.61
24.51
24.55
23.32
22.06

Empresa 3
Y
X
13.85
13.65
24.60
21.55
8.87
6.47
29.19
29.91
8.99
10.01
10.73
13.34
31.68
27.70
16.49
13.36
23.49
20.44
25.84
22.87

a) Calcule la matriz de productos cruzados a partir de los datos anteriores y estime por
MCO los coeficientes del modelo:

Yit a X it uit
b) Con los datos anteriores, estime el modelo de efectos fijos y contraste la hiptesis
de que el trmino constante es el mismo para las tres empresas. Qu interpretacin
econmica puede realizarse de dicho trmino constante?
c) Calcule un modelo de efectos fijos de doble va.

6.2. Considere el siguiente el siguiente modelo de data panel estimado con efectos fijos y
aleatorios:

Yt a i 1X 1it 2 X 2it m it
Yt a 1X 1it 2 X 2it m it i
Cuya estimacin ha dado los siguientes resultados
Coeficientes

Desviacin tpica

Efectos fijos

Efectos aleatorios

Efectos fijos

Efectos aleatorios

0.3461617

0.3457104

0.0266645

0.026541

0.1079481

0.1076555

0.0175089

0.0168169

Decida si es conveniente o no utilizar efectos aleatorios


SOLUCIONES
6.1 a) Yt -1.042 1,0589X t
b) Yt -1.979D1 - 3.348D2 - 0.389D3 1.1022X t ; H 0 : a 2 a 3 ; se rechaza la hiptesis
nula.

c)

Yt -0.078D1 - 1.457D2 1.534D3 0.771T 1 0.352T 2 0.828T 3 0.695T 4


1.084T 5 1.467T 6 0.560T 7 1.439T 8 0.735T 9 1.223T 10 1.11106X t

6.2. Resultado de la prueba de Haussman, no se rechaza H o, es conveniente utilizar efectos


aleatorios.

7.

MODELOS DE ECUACIONES SIMULTNEAS

7.1.

INTRODUCCIN

Hasta el momento en todos los modelos que hemos visto, se ha supuesto que las variables
explicativas eran exgenas, de tal forma que su comportamiento poda explicarse de forma
completamente independiente del resto de las variables que componen el modelo. Esta
caracterstica deja de tener sentido cuando se pretende recoger, mediante un modelo
economtrico, la existencia de un conjunto de variables endgenas que se determinan
mutuamente.

En ese caso, es preciso especificar un modelo de ecuaciones simultneas, el cual se define como
un modelo compuesto por varias ecuaciones y en el que existe simultaneidad entre las variables
que lo componen. La simultaneidad en este tipo de modelos se produce porque, a la vez que una
variable dependiente Y est determinada por una variable explicativa X en una de las ecuaciones
del modelo, en otra ecuacin la variable X queda determinada por la anterior endgena, Y. Es
decir, se da una relacin en dos sentidos entre variables dependientes y explicativas, lo que hace
dudosa la diferenciacin entre variables dependientes e independientes.

En particular, diremos que existe endogeneidad entre dos variables cuando hay una relacin
bidireccional entre ellas, y calificaremos a una variable como exgena o predeterminada cuando
su valor no venga determinado por alguna de las ecuaciones del modelo.

La distincin entre variables endgenas y exgenas en un modelo de estas caractersticas es sutil


y resulta, a veces, controvertida. Por tanto corresponde al investigador, en funcin de
argumentos tericos establecidos a priori, la difcil tarea de especificar qu variables son
endgenas y cules son predeterminadas. No obstante, ste puede ratificar sus conjeturas a
travs de pruebas empricas (prueba de Hausman) diseadas para determinar si una variable
debe ser considerada endgena o no.

En definitiva, los modelos de ecuaciones simultneas relacionan en cada ecuacin a una


variable dependiente endgena, con variables exgenas que actan como endgenas en otras
ecuaciones adems de con otras variables exgenas o independientes.

La representacin analtica de un modelo genrico con n ecuaciones simultneas y m variables


exgenas es la siguiente:

a11Y1t+a12Y2t ++a1nYnt + 11X1t+ 12X2t++1m Xmt =u1t


a21Y1t+a22Y2t ++a2nYnt + 21X1t+ 22X2t++2m Xmt =u2t

(7.1)

....................................................................................................................................................

an1Y1t+an2Y2t ++annYnt + n1X1t+ n2X2t++nm Xmt =unt


En la expresin 7.1. puede observarse que la presencia de la simultaneidad se debe a dos
caractersticas: por un lado, que todas las variables endgenas (Yit) y exgenas (Xit) pueden
aparecer en todas las ecuaciones del modelo; y por otro, que las perturbaciones aleatorias uit
estn correlacionadas contemporneamente entre s, lo que implica que un cambio en una
cualquiera de ellas afectar a todas las variables endgenas del modelo.

De esta forma, en los modelos de ecuaciones simultneas la relacin de causalidad entre las
variables deja de ser unidireccional, al contrario de lo que suceda en los modelos
uniecuacionales, ya que una variable exgena puede influir en cualquier endgena, bien sea
directamente por estar especificada en la ecuacin, o a travs de otra endgena relacionada con
la anterior, que tambin figure especificada en la ecuacin en cuestin.

7.2.

FORMA ESTRUCTURAL Y REDUCIDA

Como veremos en detalle ms adelante, el principal problema que plantea la presencia de


simultaneidad en el modelo es la estimacin de los parmetros. No obstante, para poder
abordarla debemos definir previamente los conceptos de forma estructural y forma reducida de
un modelo de ecuaciones simultneas.

Para ello, si expresamos en trminos matriciales la expresin (7.1) tenemos que:

a11 a 12
a
21 a 22
.
.

a n1 a n 2

... a 1n Y1t 11
... a 2n Y2t 21

... . . .

... a nn Ynt n1

12
22
.
n2

... 1m X 1t u1t
... 2 m X 2t u 2t

...
. . .


... nm X mt u nt

(7.2)

O simplificando la expresin anterior:

GY BX U

Donde:

a11 a12
a
a 22
G 21
.
.

an1 a n 2

... a1n
... a 2n

... .

... a nn

Y1t
Y
Y 2t
.

Ynt

11 12

22
B 21
.
.

n1 n 2

... 1m
... 2 m

...
.

... nm

X 1t
X
X 2t
.

X mt

u1t
u
U 2t
.

unt

Esta forma de expresar el modelo es lo que se conoce como forma estructural, y en ella se
relacionan las variables de la forma que establece la teora econmica.

Si despejamos la parte endgena del modelo obtenemos que:

GY BX U

Suponiendo que la matriz tiene inversa, operamos tal que:

GG 1Y BG 1 X G 1U
Y G 1BX G 1U
Llamando P G 1B y V G 1U tenemos que:

Y PX V
Que desarrollado queda como:

Y1t 11 12
Y
22
2t 21
. .
.

Ynt n1 n 2

... 1m X 1t v1t
... 2 m X 2 t v2t


...
. . .


... nm X mt vnt

La expresin resultante se conoce como forma reducida del modelo, y con ella se relaciona cada
una de las variables endgenas con todas las variables predeterminadas. Obsrvese que en la
forma reducida no existe simultaneidad en las variables por lo que su estimacin por MCO no
presenta problema alguno.

Como veremos ms adelante, en funcin del inters del investigador la utilizacin de una forma
u otra ser ms conveniente. As, si nuestro objetivo es obtener predicciones en el modelo,
podremos realizarlas directamente con la forma reducida sin necesidad de estimar los
parmetros de la forma estructural; por el contrario, si necesitamos contrastar alguna hiptesis
sobre los coeficientes del modelo a fin de confirmar la validez de una teora econmica, lo
apropiado ser utilizar la forma estructural del modelo.

Ejemplo 7.1.
El anlisis clsico de la oferta y la demanda establece que las cantidades demandadas de un bien
(Qdt) depende del precio del bien (Pt), el precio de otros bienes sustitutivos o complementarios
(Prt) y la renta de los consumidores (Rt), as como por diversos factores psicolgicos y/o
sociolgicos que inciden en el comportamiento del consumidor: gustos, publicidad, etc. y que se
recogen en el trmino de error de la ecuacin de demanda (u1t).
A su vez, la teora econmica establece que las cantidades ofertadas de un bien (Qot) depende
del precio del bien (Pt), el precio de otros bienes sustitutivos o complementarios (Prt), y de los
precios de los factores de produccin (Ft), entre los que se incluyen los precios de las materias
primas, los salarios y los intereses que cobran los bancos por el dinero que prestan. Asimismo,
otros factores que afectan al proceso de produccin quedan recogidos por el trmino de error de
la ecuacin de oferta (u2t).

Ambas ecuaciones determinan un modelo de ecuaciones simultaneas, cuya solucin permite


obtener la cantidad consumida y el precio del bien en equilibrio. La expresin convencional de
dicho modelo es la siguiente:
Ecuacin de Demanda: Qdt=a11Pt+11Prt+12Rt + u1t, 11<0
Ecuacin de Oferta:

Qot=a21Pt+21Prt+23Ft + u2t, 21>0

Igualdad:

Qdt= Qot

Lo que, sustituyendo la igualdad, equivale a:

Qt=a11Pt+11Prt+12Rt + u1t, 11<0

(7.3)

Qt=a21Pt+21Prt+23Ft + u2t, 21>0

(7.4)

Sus caractersticas son las siguientes:

Posee dos variables endgenas: la cantidad consumida del bien (Qt) y el precio (Pt)

Asimismo, tiene tres variables exgenas o explicativas: el precio de los factores de


produccin (Ft), el precio de otros bienes complementarios o sustitutivos (Prt) y el nivel
de renta de los consumidores (Rt)

La ecuacin de demanda, tiene dos variables endgenas (Qt, Pt) y dos exgenas (Prt, Rt).

La ecuacin de oferta, tiene dos variables endgenas (Qt, Pt) y dos exgenas (Ft, Prt)

Para obtener el modelo reducido, debemos construir la expresin (7.2) tal que:

1 a11 Qt 11 12
1 a P
0
21 t

21

Pr
0 t u1t
R
23 t u2t
Ft

(7.5)

O matricialmente:

GY BX U

El determinante de G es entonces:

G 1 a21 a11 1 a11 a 21


Y su matriz inversa:

a11
a 21

a11 a 21
a11 a 21

1
1a a
a11 a 21
11
21

A partir de la matriz G 1 , podemos obtener la relacin existente entre los coeficientes de la


forma estructural (ij, ij) y los de la forma reducida (ij) tal que:

a11
a21

0
a

a
a11 a21 11 12

1
11
21
P G B

0
23
1
21
1a a

a11 a 21

11
22
a 2112
a11 23
a11 21 a 2111

a
a

a
a11 a 21

11
12
13
11
21
11
21

12
23
21 22 23 21 11

a11 a 21
a11 a 21
a11 a 21

Otra forma alternativa de obtener el modelo en forma reducida sera igualar la ecuacin de
demanda (7.3) con la ecuacin de oferta (7.4):

a11Pt 11 Prt 12 Rt a 21Pt 21 Prt 23Ft


Despejando Pt obtenemos:

Pt

21 11
12
23
Prt
Rt
Ft
a11 a 21
a11 a 21
a11 a 21

(7.6)

Ahora, si sustituimos (7.6) en (7.3) nos queda que:

11

12
23
Qt a11 21
Prt
Rt
F 11 Prt 12 Rt
a11 a 21
a11 a 21
a11 a 21
Y operando, tenemos que :

Qt

a11 21 a 2111
a
a
Prt 21 12 Rt 11 23 Ft
a11 a21
a11 a 21
a11 a 21

(7.7)

Ahora simplemente basta con relacionar los coeficientes asociados a las variables en las
ecuaciones (7.6) y (7.7) con los coeficientes de la forma reducida tal que:

a1121 a2111
a11 a 21
a 2112
12
a11 a 21
a
13 11 23
a11 a21
11

21 11
a11 a21
12
22
a11 a 21
23
23
a11 a21
21

7.3.

DETECCIN
HAUSMAN

DE

LA

SIMULTANEIDAD.

PRUEBA

DE

La consecuencia ms inmediata de la presencia de simultaneidad en los modelos


multiecuacionales es que los estimadores que se obtienen al aplicar MCO a cada una de las
ecuaciones individuales no son consistentes, por lo que debemos recurrir a mtodos de
estimacin alternativos que permitan abordar el problema de la simultaneidad y que produzcan
estimadores consistentes y eficientes. Sin embargo, hay que tener en cuenta que, si dichos
mtodos se aplican cuando no existe simultaneidad, los estimadores obtenidos son consistentes
pero no eficientes, siendo preferibles en estos casos los obtenidos por el mtodo MCO (Gujarati,
1997). Por tanto, parece razonable que, antes de descartar las estimaciones realizadas a travs de
MCO en favor de otros mtodos alternativos, se verifique la presencia de simultaneidad.

El mtodo para verificar la presencia de simultaneidad o endogeneidad ms utilizado es la


prueba de especificacin de Hausman (1974). Esta prueba intenta, esencialmente, averiguar si
un regresor est correlacionado con el trmino de error. Si lo est, existir simultaneidad, en
cuyo caso deben utilizarse mtodos de estimacin alternativos a MCO; si no lo est, se puede
utilizar este mtodo con la seguridad de que proporcionar estimadores eficientes y consistentes.

Veamos cmo se utilizara en la prctica la prueba de Hausman: supongamos que tenemos un


modelo de tres ecuaciones con dos variables endgenas, Y1 e Y2 y que hay tres variables
exgenas, X1, X2 e X3. Supngase adems que la primera ecuacin del modelo es:

Y1i a1Y2i 1 X 1i u1i


La prueba de simultaneidad de Hausman comprende los siguientes pasos:

Se obtienen las ecuaciones de la forma reducida y se estima la ecuacin de aquella


variable supuestamente endgena por MCO. Por ejemplo, si en la ecuacin anterior
sospechramos que Y2i presenta simultaneidad, realizaramos la siguiente regresin:

Y2i 0 1 X 1i 2 X 2i 3 X 3i , Y2i Y2i v 2i

A continuacin, se estima por MCO la ecuacin original del modelo en la que aparece
la variable analizada como exgena pero sustituyndola por su valor estimado en la
regresin anterior. En nuestro ejemplo, reemplazamos Y2i por Y2i v2i como variable
explicativa en la ecuacin original del modelo, tal que:

Y1i 1 X 1i a 1Y2i a 1v 2i u1i

(7.8)

Bajo la hiptesis nula de no simultaneidad, el coeficiente asociado a v2i deber ser


estadsticamente igual a cero.

Por otro lado, Pindyck y Rubinfeld (1980) sugieren una forma alternativa de realizar el contraste
de simultaneidad, incluyendo como regresor en el segundo paso de la prueba de Hausman los
residuos obtenidos en la estimacin de la forma reducida, v2i tal que:

Y1i a1Y2i 1 X 1i v2i u1i


Nuevamente se contrasta la hiptesis nula =0; en caso de que se rechace la hiptesis nula, Y2i
no debe tratarse como una variable exgena.

Finalmente, tambin es posible contrastar la endogeneidad de varias variables tal y como


propone Gujarati (1997): supongamos por ejemplo que tenemos un modelo de tres ecuaciones
con tres variables endgenas, Y1, Y2 e Y3 y tres exgenas, X1, X2 e X3, en el que la primera
ecuacin es:

Y1i a 2Y2i a 3Y3i 1 X 1i 2 X 2i 3 X 3i u1i


Vamos a verificar si Y2 e Y3 pueden ser utilizadas como exgenas; para ello, primero se estiman
las ecuaciones de ambas variables en forma reducida, obtenindose los valores proyectados Y2i
e Y3i .

Seguidamente estimamos por MCO la siguiente ecuacin:

Y1i a 2Y2i a 3Y3i 1 X 1i 2 X 2i 3 X 3i 2Y2i 3Y3i u1i


y se utiliza una prueba F para contrastar la hiptesis 2=3=0. Si esta hiptesis es rechazada,
entonces Y2 e Y3 pueden ser consideradas como endgenas, en caso contrario debern ser
tratadas como exgenas.

Ejemplo 7.2.

Utilizando el modelo multiecuacional de oferta y demanda del Ejemplo 7.1 vamos a comprobar
que la variable Pt puede tratarse como endgena en la ecuacin (7.3), aplicando la prueba de
Hausman. Para ello utilizaremos los siguientes datos:

Ao

Tm sacrificadas
de carne de
porcino (miles)

Precio
carne de
porcino

1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997

1182.31
1224.50
1336.37
1342.03
1428.66
1387.75
1398.64
1489.27
1722.33
1703.49
1788.85
1885.56
1912.92
2069.40
2193.37
2258.65
2361.85
2448.77

1.09
1.10
1.18
1.19
1.11
1.20
1.21
1.07
0.97
1.09
0.98
1.03
1.17
0.94
0.91
0.96
1.04
1.16

Precio relativo de la
carne de aves
frente a la carne de
porcino
1.09
1.07
1.00
0.99
1.18
1.04
0.90
1.03
1.12
0.93
0.99
0.93
0.89
1.14
1.09
0.85
0.93
0.82

La expresin para la ecuacin (7.3) recordemos que es:

Precio relativo de
los piensos frente a
la carne de porcino

Renta
per
capita

0.91
0.93
0.81
0.90
1.02
0.90
0.86
1.02
1.09
0.91
0.99
0.95
0.89
1.08
1.01
0.88
0.85
0.80

0.77
0.77
0.78
0.79
0.80
0.82
0.84
0.88
0.93
0.97
1.00
1.03
1.03
1.02
1.04
1.06
1.09
1.12

Qt=a11Pt+11Prt+12Rt + u1t
El primer paso consiste en realizar la regresin por MCO del precio de la carne de porcino (Pt)
sobre las tres variables exgenas del modelo: Precio relativo de la carne de aves frente a la carne
de porcino (Prt), Precio relativo de los piensos frente a la carne de porcino (Ft) y Renta "per
capita" (Rt), para lo que estimamos la relacin:
Pt=21Prt+22Rt+23Ft +e1t

Los resultados obtenidos son los siguientes:


Trmino constante
Precio relativo de la carne de aves frente a la
carne de porcino
Precio relativo de los piensos frente a la
carne de porcino
Renta per capita

Coeficientes
2.33947783

Error tpico Estadstico t


0.24298863 9.62793124

-0.34549619

0.28538168 -1.21064604

-0.43015941

0.30002065 -1.43376601

-0.55315522

0.16144429 -3.42629156

El valor obtenido para Pt sera el siguiente:


t

Pt

1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997

1.20910458
1.19432981
1.28461538
1.20231821
1.10554471
1.18859183
1.20641733
1.06103444
0.98035916
1.09799849
1.01801611
1.03870013
1.08101615
0.94140969
0.97946935
1.06484696
1.08198668
1.09829545

El siguiente paso es plantear la ecuacin (7.3) pero aadiendo la nueva variable estimada:

Qt=a12Pt+11Prt+12Rt + Pt + u1t

Los resultados obtenidos en el segundo paso son los siguientes:

Coeficientes

Error tpico

Estadstico t

Trmino constante

-9037.89318

2676.96924

-3.37616624

Precio carne de porcino

-240.316755

429.828674

-0.55909894

Precio relativo de la carne de aves frente a la carne de porcino

2350.58492

794.500316

2.95857014

5440.9149

789.283782

6.89348372

3356.23732

1182.18626

2.83900891

Renta per capita

Pt

Considerando que el valor de la t de Student en las tablas es de 2.67 para un nivel de confianza
del 95%, se descarta la posibilidad de que el coeficiente asociado a Pt pueda ser considerado
igual a cero.

Por otro lado, si generamos el residuo vt tenemos que:


t
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997

vt
-0.05564667
-0.04316201
-0.03408611
0.01838146
0.05894503
0.06080601
0.01847311
0.01379649
0.00132339
0.00100086
-0.03753504
-0.00858133
0.09163034
0.02208662
-0.04457266
-0.11952179
-0.01082423
0.06748654

Aplicando el mtodo de Pyndick y Rubinfeld ahora debemos estimar la siguiente ecuacin:

Qt=a12Pt+11Prt+12Rt + vt + u1t

Obtenindose los siguientes resultados:

Coeficientes

Error tpico

Estadstico t

Trmino constante

-9037.89318

2676.96924

-3.37616624

Precio carne de porcino

3115.92057

1101.27729

2.82936968

Precio relativo de la carne de aves frente a la carne de


porcino
Renta per capita

2350.58492

794.500316

2.95857014

5440.9149

789.283782

6.89348372

vt

-3356.23732

1182.18626

-2.83900891

Nuevamente el parmetro es estadsticamente distinto de cero, por lo que podemos afirmar


que el precio de la carne de porcino pueda ser considerado como endgeno en la ecuacin de
demanda.

7.4.

IDENTIFICACIN DEL SISTEMA

En la expresin P G 1B podemos observar que los parmetros de la forma reducida son


una combinacin lineal de los parmetros de la forma estructural del modelo ( GY BX U );
asimismo, dado que no existe simultaneidad en la forma reducida, podemos estimar sus
parmetros sin problema por MCO. Sin embargo, cmo podemos para saber si es posible
recuperar todos y cada uno de los parmetros de la forma estructural (elementos de las matrices

B y G A) a partir de las estimaciones de los parmetros de la forma reducida (elementos de la


matriz P )? Para responder a esta pregunta antes de proceder a la estimacin del modelo,
debemos realizar la identificacin del sistema de ecuaciones simultneas; una vez realizada
podemos encontrarnos en alguna de las siguientes situaciones:

Una ecuacin estar no identificada cuando no tengamos suficiente informacin para


estimar los parmetros de la forma estructural de la ecuacin.

Por su parte, una ecuacin estar sobreidentificada cuando haya ms de una


combinacin posible de valores estimados para los parmetros de la forma estructural.

Finalmente, diremos que una ecuacin est exactamente identificada cuando sea
posible obtener una nica estimacin de los parmetros estructurales.

En caso de que todas las ecuaciones de un modelo multiecuacional en su forma


estructural sean exactamente identificadas, diremos que el sistema est exactamente

identificado, pudindose recuperar de forma unvoca los elementos de las matrices B


y A a partir de las estimaciones de la matriz P .

Ejemplo 7.3.
Consideremos el modelo clsico de oferta y demanda del Ejemplo 7.1, en el que se ha omitido
la variable Prt de la ecuacin (7.4):
Qt=a11Pt+11Prt+12Rt + u1t, 11<0

(7.9)

Qt=a21Pt+23Ft + u2t, 21>0

(7.10)

Se trata de un modelo con las siguientes caractersticas:

La ecuacin de demanda (7.9) tiene dos variables endgenas (Pt y Qt) y dos exgenas
(Prt y Rt)

La ecuacin de oferta (7.10) tiene dos variables endgenas (Pt y Qt) y una exgena (Ft).

La forma reducida del modelo es:

Qt=11Ft+12Prt+13Rt
Pt=21Ft+22Prt+23Rt

Relacionando los parmetros de la forma estructural con los de la forma reducida se obtiene un
sistema de 6 ecuaciones y 5 incgnitas, que se corresponden a los coeficientes a estimar en el
modelo de oferta y demanda, tal que:

a11
a21

a11 a 21
a11 a 21 11 12

P G B
0
0
1

1a a
a11 a 21

11
21
1

0
23

a 2112
a11 23
a 2111

a11 a21
a11 a 21
a11 a 21
11 12 13

12
23
21 22 23 11

a11 a 21
a11 a 21
a11 a 21

A partir de los parmetros de la forma reducida podemos obtener los valores de los coeficientes
asociados al modelo; por ejemplo, si dividimos 13 por 23 obtenemos el valor de 11 que:

a11

13
23

Pero para algunos parmetros se pueden obtener dos soluciones:

11
21

a 21 12
22
a 21

De lo que se deduce que la ecuacin (7.10) del modelo est sobreidentificada.

7.4.1. Condiciones de Orden y Rango en la Identificacin


Para comprobar si las ecuaciones de un sistema de ecuaciones estn identificadas se utilizan dos
sencillas condiciones. Por un lado, tenemos la condicin de orden, segn la cual para que una
ecuacin est identificada debe verificarse que el nmero de variables exgenas excluidas en la
ecuacin j debe ser, al menos, tan alto como el nmero de variables endgenas incluidas en
dicha ecuacin.

En trminos matemticos deber cumplirse que:

K k m 1

Donde:

K = nmero de variables exgenas en el modelo.


k = nmero de variables exgenas en una ecuacin dada.
m = nmero de variables endgenas en una ecuacin dada.

En particular, tomando en consideracin el signo de la desigualdad tenemos que

(7.11)

Si K k < m 1, diremos que la ecuacin est subidentificada por lo que no ser


posible estimar el sistema al no haber informacin suficiente para ello (en trminos
algebraicos, diramos que es un sistema incompatible).

Si K k = m 1, la ecuacin est exactamente identificada lo que implica que


tenemos informacin suficiente para poder estimar el modelo y recuperar los
parmetros de la forma estructural (en trminos algebraicos, se tratara de un sistema
compatible determinado).

Si K k > m 1, la ecuacin est sobreidentificada existiendo varias soluciones


posibles para los parmetros de la forma estructural a causa de un exceso de
informacin, si bien en este caso la estimacin de los parmetros de la forma estructural
es viable utilizando el mtodo de Mnimos Cuadrados en 2 Etapas que veremos en el
siguiente captulo (en trminos algebraicos, tendramos un sistema compatible
indeterminado).

La condicin de orden de identificacin puede simplificarse sumando (Mm) a ambos lados de


la desigualdad (7.11), siendo M el nmero de ecuaciones del modelo, tal que:

(K k) + (M m) (m 1) + (M m)

Operando queda:

(K k) + (M m) M 1

Con ello, para aplicar la condicin de orden ahora slo tenemos que contar el nmero de
variables endgenas y exgenas excluidas en la ecuacin analizada y comparar dicho nmero
con el total de variables endgenas del sistema menos uno.

De esta forma, si el nmero de variables endgenas y exgenas excluidas supera al nmero de


ecuaciones menos uno, la ecuacin analizada estar sobreidentificada; si es igual estar
exactamente identificada; y si es menor estar subidentificada.

Sin embargo, la condicin de orden es una condicin necesaria pero no suficiente para la
identificacin, por lo que es necesario plantear otra condicin que s es necesaria y suficiente.
Se trata de la condicin de rango, que pasamos a ver a continuacin.

La condicin de rango seala que en un modelo que contiene M variables endgenas en M


ecuaciones, una ecuacin estar identificada si y slo si puede construirse al menos un
determinante diferente de cero, de orden ( M 1) ( M 1) a partir de los coeficientes de las
variables endgenas y predeterminadas excluidas de la ecuacin que se analiza, pero incluidas
en el resto de ecuaciones del modelo.

En resumen, para llevar a cabo la identificacin de un sistema de ecuaciones simultneas deben


seguirse los siguientes pasos:

1. Aplicar la condicin de orden para saber si una ecuacin est subidentificada,


exactamente identificada o sobreidentificada.
2. Aplicar la condicin de rango; en caso de verificarse confirmaremos el resultado
obtenido con la condicin de orden.

Ejemplo 7.4.
Volviendo al modelo de ecuaciones simultneas de oferta y demanda del Ejemplo 7.3, tenemos
que:

Variables predeterminadas del modelo K=3.

Variables predeterminadas en la ecuacin de demanda k=2.

Variables predeterminadas en la ecuacin de oferta k=1.

Nmero de ecuaciones en el modelo M=2.

Variables endgenas en la ecuacin de demanda m=2.

Variables endgenas en la ecuacin de oferta m=2.

Qt=a11Pt+11Prt+12Rt + u1t, 11<0

(7.9)

Qt=a21Pt+23Ft + u2t, 21>0

(7.10)

La condicin de orden de identificacin del modelo quedara establecida como sigue:

1. La ecuacin de demanda, tal y como se ha formulado, contiene dos variables endgenas y


dos exgenas, y excluye una variable (Ft), que sera igual al nmero de endgenas incluidas

en la ecuacin menos una, estando por tanto la ecuacin de demanda exactamente


identificada.

Kk=m1 3-2=2-1 1=1

2. Por su parte, la ecuacin de oferta, posee dos variables endgenas y una exgena,
excluyendo por tanto 2 variables (Prt y Rt), lo que supera al nmero de endgenas incluidas
en la ecuacin menos una, por lo que la ecuacin de oferta est sobreidentificada, tal que:

Kk=m1 3-1>2-1 2>1

Procedemos a confirmar los resultados obtenidos con la condicin de orden aplicando la


condicin de rango. Dicha condicin establece que una ecuacin est identificada, si y slo si
puede construirse por lo menos un determinante diferente de cero, de orden ( M 1) ( M 1)
a partir de los coeficientes de las variables (endgenas y predeterminadas) excluidas de esa
ecuacin particular, pero incluidas en las otras ecuaciones del modelo; en nuestro caso, dicho
determinante debe ser de orden (2 1) (2 1) = 1.

Para analizar la condicin de rango lo ms prctico es formar la siguiente tabla con los
coeficientes asociados a las variables endgenas y predeterminadas:

Ecuacin de demanda
Ecuacin de oferta

Qt
1
1

Pt
11
21

Prt
11
0

Rt
12
0

Ft
0
23

A continuacin debemos comprobar si existe algn determinante no nulo asociado a las


matrices que se pueden formar con los coeficientes asociados a las variables excluidas.

En la ecuacin de demanda se verifica la condicin de rango ya que existe un determinante no


nulo10 de orden 1 1 , 23 tal y como puede apreciarse en la siguiente tabla:

Ecuacin de demanda
Ecuacin de oferta

Qt
1
1

Pt
11
21

Prt
11
0

Rt
12
0

10

A priori, se supone que ningn parmetro es igual a cero.

Ft
0
23

En la ecuacin de oferta tambin se cumple la condicin de rango ya que existen dos


determinantes no nulos de orden 1 1 : 11 y 12 :

Ecuacin de demanda
Ecuacin de oferta

Qt
1
1

Pt
11
21

Prt
11
0

Rt
12
0

Ft
0
23

En conclusin, la ecuacin de demanda est exactamente identificada y que la ecuacin de


oferta est sobreidentificada, resultado este que ya se intua en el Ejemplo 7.3.

7.5.

PROBLEMAS

7.1. Considere el siguiente modelo de oferta y demanda de dinero en desviaciones respecto a la


media:

M tD 1Yt 2 Rt 3Pt u1t


M tO a1Yt u2t
M tD M tO
Discuta la identificabilidad de las ecuaciones del modelo.

7.2. Estudie la identificabilidad del siguiente modelo de ecuaciones simultneas:

y1t a13 y3t 11 x1t 13 x3t u1t

a 21 y1t y2 t 21 x1t 22 x2t u2t


a32 y2 t y3t 32 x2 t 33 x3t u3t

7.3. Dado el siguiente modelo estructural:

y1t a12 y2 t 11 x1t u1t


y2t a 21 y1t 22 x2t u2t
Se ha estimado la forma reducida, obteniendo los siguientes valores:

y1t 5 x1t 8 x2t


y2t 6 x1t 2 x2t
A partir de las estimaciones obtenidas, recupere los valores de los parmetros estructurales.

7.4. En el modelo de gasto pblico de Pindyck y Rubinfeld:

EXP 1 2 AID 3 INC 4 POP u i


AID 1 2 EXP 3 PS vi
donde EXP es el gasto pblico de cada regin, AID las ayudas que recibe del gobierno
central, INC los ingresos tributarios de las regiones, POP la poblacin y PS la poblacin en
edad escolar.

En principio INC, POP y PS se consideran exgenas. Debido a la posibilidad de que existiera


simultaneidad entre EXP y AID, se efecta una regresin de AID sobre INC, POP y PS,

i los trminos de error calculados en dicha regresin, obtenindose los siguientes


siendo w
resultados (entre parntesis se presenta la desviacin tpica de cada parmetro estimado):

EXP 89.41 4.50 AID 0.00013INC 0.518POP 1.39 w i


( 1.44)

(0.89)

(0.50)

( 0.02)

( 0.93)

Para una muestra de tamao N=25 y al 95% de confianza, sera vlida la estimacin de la
primera ecuacin por MCO? Y para un nivel de confianza del 90%?
SOLUCIONES

7.1. La ecuacin de demanda est subidentificada y la ecuacin de oferta est


sobreidentificada.
7.2. Las tres ecuaciones estn exactamente identificadas.

6
5

7.3. a12 4;a 21 ; 11 29; 22

14
5

7.4. La estimacin es vlida al 95% de confianza pero no al 90%, ya que en ese caso el

i sera significativo.
coeficiente asociado a w

8.

MTODOS DE ESTIMACIN DE MODELOS DE


ECUACIONES SIMULTNEAS

8.1.

INTRODUCCIN

Como acabamos de ver en el captulo anterior, la estimacin de la forma estructural de modelos


de ecuaciones simultneas utilizando el mtodo de Mnimos Cuadrados Ordinarios presenta
importantes problemas ya que los estimadores son inconsistentes. Por ello, en este captulo
vamos a ver diferentes mtodos de estimacin mediante los que s es posible obtener
estimaciones consistentes de los parmetros del modelo.

8.2.

MNIMOS CUADRADOS INDIRECTOS (MCI)

Este mtodo resulta vlido nicamente para la estimacin de modelos de ecuaciones


exactamente identificados y permite estimar los coeficientes de la forma estructural a partir de
las estimaciones MCO de los parmetros de la forma reducida del modelo.

Sea el siguiente modelo de ecuaciones simultaneas:


a11Y1t+a12Y2t ++a1nYnt + 11X1t+ 12X2t++1mXmt =u1t
a21Y1t+a22Y2t ++a2nYnt + 21X1t+ 22X2t++2mXmt =u2t.
.
.

an1Y1t+an2Y2t ++annYnt + n1X1t+ n2X2t++nmXmt =unt.

O bien, expresndolo en trminos matriciales:

GY BX U
Lo que equivale a:

YG' XB ' U

La estimacin por MCI se puede esquematizar en tres pasos:

1. Se obtienen las ecuaciones de la forma reducida en forma matricial:

Y XB ' (G' ) 1 U (G' ) 1 XP 'V

2. Las ecuaciones en forma reducida se estiman individualmente por MCO, obtenindose

:
el estimador MCO del vector de parmetros de la forma reducida, P

' X ' X 1 X ' Y


P
3. A partir de las estimaciones obtenidas de los coeficientes de las ecuaciones en forma
reducida se obtienen los parmetros estructurales, mediante la siguiente relacin:

' B ' (G ' ) 1


P

(8.1)

V U ( G ' ) 1

Si todas las ecuaciones de la forma estructural del modelo estn exactamente identificadas,
aplicando este mtodo se obtiene una nica solucin a la hora de recuperar los parmetros
estructurales a partir de los coeficientes estimados de la forma reducida del modelo; por el
contrario, si alguna de las ecuaciones del modelo estuviera sobreidentificada obtendramos ms
de una solucin para uno o ms parmetros.

Por ejemplo, supongamos el siguiente sistema de ecuaciones exactamente identificado:

a11Y1t+a12Y2t +11X1t+ 13X3t=u1t


a21Y1t+a22Y2t +22X2t+ 23X3t=u2t
En primer trmino debemos obtener la forma reducida del modelo:

Y1t= 11 X1t+ 12X2t+ 13X3t +v1t


Y2t= 21 X1t+ 22X2t+ 23X3t +v2t

Utilizando la matriz de productos cruzados se obtendran las estimaciones MCO de la forma


reducida:
2
11 21 X 1


12 22 X 2 X 1
13 23 X 3 X 1

X X
X
X X
1

2
2

X X
X X
X

2
3
2
3
1

Y1 X 1

Y1 X 2
Y1 X 3

Y X
Y X
Y X
2

3
1

Para recuperar los parmetros aij y ij partimos de la expresin (8.1) que puede rescribirse

B .
como GP
a11 a12 11 12
a

21 a 22 21 22

13

11

23
0

0
22

13
23

obteniendo as seis ecuaciones a partir de las que se pueden calcular los parmetros ai y j :

a11 11 a12 21 11

a11 12 a12 22 0

a11 13 a 12 23 13

a 2111 a 22 21 0

a 2112 a 22 22 22

a 2113 a 22 23 23
En todo caso, debe subrayarse que es necesario que todas las ecuaciones del modelo estn
exactamente identificadas para poder aplicar Mnimos Cuadrados Indirectos de forma legtima.
Asimismo debe considerarse que los estimadores obtenidos por MCI son, en general, sesgados a
pesar de que los estimadores de la forma reducida sean insesgados, debido a que los estimadores
MCI son funciones no lineales de las estimaciones de la forma reducida del modelo. Sin
embargo, los estimadores MCI s son consistentes al ser una funcin continua del estimador
MCO de la forma reducida.

8.2.1. Estimacin de curvas de oferta y demanda por MCI


Partimos de un modelo de ecuaciones simultneas compuesto por una ecuacin de oferta y otra
de demanda, cuya solucin permite obtener la cantidad consumida y el precio del bien en
equilibrio. La expresin funcional de dicho modelo es la siguiente:

Qt=a11Pt+11Prt+12Rt + u1t, 11<0

(8.2)

Qt=a21Pt+21Prt+23Ft + u2t, 21>0

(8.3)

Tal y como ya se vio en el captulo anterior, sus caractersticas son las siguientes:

Posee dos variables endgenas o a explicar: la cantidad consumida del bien (Qt= Qot=
Qdt) y su precio (Pt)

Presenta tres variables exgenas o explicativas: el precio de los factores de produccin


(Ft), el precio de otros bienes complementarios o sustitutivos (Prt) y el nivel de renta y
riqueza del pas o rea econmica (Rt)

La ecuacin de demanda tiene dos variables endgenas y dos exgenas (Prt y Rt).

La ecuacin de oferta tiene dos variables endgenas (Qt y Pt) y dos exgenas (Ft y Pt)

La ecuacin de demanda excluye una variable (Ft), y dado que el nmero de variables excluidas
es igual al nmero de relaciones menos uno (21), est exactamente identificada segn la
condicin de orden. La ecuacin de oferta tambin est exactamente identificada ya que
tambin excluye una sola variable (Rt). Asimismo, ambas cumplen la condicin de rango al
tener por lo menos un determinante diferente de cero, de orden (21) x (21), formado a partir
de los coeficientes de las variables (endgenas y predeterminadas) excluidas de la ecuacin
particular, pero incluidas en las otras ecuaciones del modelo.

En consecuencia este modelo de ecuaciones simultneas es un sistema exactamente identificado


y las dos ecuaciones pueden estimarse por MCI.

La de forma reducida del modelo ser:

Qt=11Prt+12Rt+13Ft

(8.4)

Pt=21Prt+22Rt+23Ft

(8.5)

Para estimar dicho modelo en forma reducida se utilizan los datos del Ejemplo 7.2. En la
siguiente tabla se presenta la matriz de productos cruzados que corresponde a dichos datos:

Tm
sacrificadas
de carne de
porcino
(miles) (Qt)

Precio
carne de
porcino (Pt)

56677706

33214

Tm sacrificadas de carne de
porcino (miles) (Qt)
Precio carne de porcino (Pt)
Precio relativo de la carne
de aves frente a la carne de
porcino (Prt)
Precio relativo de los
piensos frente a la carne de
porcino (Ft)
Renta "per capita" (Rt)

21.07

Precio
relativo de
la carne de
aves frente
a la carne
de porcino
(Prt)
30800

Precio
relativo de
los piensos
frente a la
carne de
porcino (Ft)

Renta "per
capita" (Rt)

29030

29781

19.34
18.16

18.02
16.90

17.94
16.62

15.80

15.62

15.83

Dichos productos cruzados se han obtenido de la siguiente forma:

18

18

Qt2 56677706,
t 1

18

Qt Pt 33214,
t 1

18

18

Qt Prt 30800,
t 1

18

Pt 2 21.07
Pr

18.16,

t 1

Pr F 16.90, Pr R
t

18
t

t 1

15.80,

16.62

t 1

18
2

t 1

18

t 1

PR

t 1

18

18
2
t

F R =15.62, R
t

t 1

Q R 29781
t

t 1

18

PF
t t 18.02

t 1

18
2
t

t 1

18

Pt Prt 19.34

t 1

18

Qt Ft 29030,

15.83

t 1

La estimacin MCO de las ecuaciones de la forma reducida del modelo es:

17.94

11 21 18.16 16.90 16.62 30800 19.34

22 16.90 15.80 15.62 29030 18.02


12

13 23 16.62 15.62 15.83 29781 17.95


15.70 20.29 3.54 30800 19.34 33.96 1.56
20.29 28.81 7.12 29030 18.02 618.42 1.06

7.12 3.38 29781 17.95 2998.18 0.83


3.54
Para recuperar los parmetros de la forma estructural a partir de las estimaciones MCO de la
forma reducida, hay que resolver el siguiente sistema:

a 2112
a11 23
a11 21 a 2111

a
a

a
a11 a 21

11
12
13
11
21
11
21

23
12
21 22 23 21 11

a11 a 21
a11 a 21
a11 a 21

a11
a 21

a
a11 a 21 11 12

1
11
21

P ' G B

0
1
1a a
21
a

11
22
11
21

0
23

Es decir:

a11 23
a 2112
a11 21 a2111

a11 a 21
a11 a 21
a11 a 21
33.96 618.42 2998.18

1.56
1.06
0.83 21 11
12
23

a11 a21
a11 a 21
a11 a 21

Los parmetros a 11 y a 21 se obtienen de forma inmediata:

siendo

a11 a 21 3028.85 .

a11

2998.18
3612.27
0.83

a 21

618.42
583.42
1.06

La recuperacin de los parmetros 12 y 23 resulta inmediata a partir de los resultados


anteriores:

12 ( 1.06 3028.85) 3210.58


23 0.83 3028.85 2513.95
Por su parte, la estimacin de 11 y 21 se obtiene resolviendo el siguiente sistema de
ecuaciones:

33.96 3028.85 583.42 11 3612.27 21

1.56 3028.85 11 21
cuya solucin es 11 5669.09 y 21 944.09

8.2.2. Estimacin de Haavelmo de la propensin marginal al


consumo por MCI

Veamos cmo se calculara la propensin marginal al consumo en el contexto del modelo


macroeconmico keynesiano. Dicho modelo, en su versin ms sencilla viene dado por el
siguiente sistema de ecuaciones:

Ct = 10+a11Yt+ut
Yt = Ct + It

donde Ct es el consumo, It es la inversin e Yt la renta nacional.

Expresando el modelo en trminos matriciales queda que:

1 a11 Ct 10
1 1 Y 0

0 1 ut

1 I t 0

Siendo su forma reducida:

Ct=10+11It
Yt=20+21It

Teniendo en cuenta que:

1
1 a
1 a11
11

1 1
1

1 a

11
1

a11
1 a11

1
1 a11

Entonces:

10

20

1
1 a
11
11

21
1

1 a

11

Lo que da lugar al siguiente sistema de ecuaciones:

10
1 a11

20 10
1 a11
a
11 11
1 a 11
1
21
1 a11
10

a11
1 a11 10

1 0
1 a11

0
1

Por lo que la propensin marginal al consumo puede calcularse a partir de la siguiente relacin:

a11

11
21

Utilizando este modelo, vamos a estimar la propensin marginal al consumo en Espaa. Para
ello utilizaremos las series de la Contabilidad Nacional Trimestral Espaola relativas a
Consumo Nacional, Formacin Bruta de Capital y Demanda Interna para el periodo 1970-1998,
cuya matriz de productos cruzados en miles de millones de euros se presenta en la siguiente
tabla:

Demanda
Interna

Consumo
Nacional

8480

6546
5055

Demanda Interna (Yt)


Consumo Nacional(Ct)
Formacin Bruta de Capital (It)

Formacin
Bruta de
Capital
1934
1490
444

Asimismo, las sumas totales en miles de millones de euros de cada variable son:

Y 967
C 747
I 221
t

La estimacin MCO del modelo en forma reducida es:

11 21 n

12 22 X

X Y Y
X Y X Y X
1

11 21 116 221 967 747 0.7262 0.8930

12 22 221 444 1934 1490 3.9944 2.9114


Que dara lugar a la siguiente estimacin de la propensin marginal a consumir:

a11

2.9114
0.7289
3.9944

8.3.

VARIABLES INSTRUMENTALES (VI)

Como ya sabemos, la utilizacin de MCO para estimar modelos de ecuaciones simultaneas


proporciona estimadores sesgados e inconsistentes, ya que en este tipo de ecuaciones existe
correlacin entre los regresores o variables exgenas y las perturbaciones.

As, por ejemplo, partiendo de la primera ecuacin del modelo general de ecuaciones
simultaneas:
a11Y1t+a12Y2t ++a1nYnt + 11X1t+ 12X2t++1mXmt =u1t t=1,,T

Y dividiendo todos los trminos de la ecuacin por a11, obtenemos:

Y1t+12Y2t +1nYnt + 11X1t+ 12X2t++1mXmt =v1t t=1,,T

(8.6)

Donde :

1i a 1i

a11 i=2,..,n ,

1i 1i

a 11 i=1,..,m , y

v1t u1t

a 11 t=1,,T

Podemos poner la ecuacin (8.6) en forma matricial:

Y11 Y21
Y Y
12 22
. .

. .
Y1T Y2T

.. Yn1
.. Yn 2

X 11
X 12

X 21
X 22

..
..

.. .
.. .
.. YnT

.
.
X 1T

.
.
X 2T

..
..
..

12
X m1 . v11
X m2 1n v12

. 11 .


. 12 .

X mT . v1T

1m

O tambin:

y1 Y1

El estimador MCO de (8.7) ser:


X v1

(8.7)

Y1
Y1
X

Y
X 1 y1
X

Operando, tenemos que:

Y1
Y1
X
Y
1 Y1
X

Y
X 1 Y1
X

Y
1 Y1
X

Y1
Y1
X


X vi

Y
X 1 Y1
X

Y v
X 1 1
Xv1

Y v
X 1 1
Xv1

Dado que Y1 y v1 estn correlacionados, al tomar esperanzas resulta que:

E E 1 Y1

1
Y1v1
X

Xv1

En definitiva, la correlacin que existe entre las matrices Y1 y v1 es la que provoca que la
estimacin MCO de la ecuacin (8.6) proporcione estimadores que no satisfagan las
propiedades de consistencia e insesgadez.

Dado que los problemas de estimacin vienen dados por la correlacin existente entre las
matrices Y1 y v1, para eliminar dichos problemas es necesario disponer de otra matriz, Z*,
denominada matriz de variables instrumentales, que deber incluir como mnimo tantas
variables como columnas tenga la matriz Y1 y cumplir dos condiciones:

Las variables que contiene esta nueva matriz deben estar correlacionadas con las
variables incluidas en Y1.

La correlacin entre las variables que aparecen en Z* y v1 ha de ser nula.

Tal y como vimos en el captulo 4, en los modelos uniecuacionales las variables instrumentales
son variables ajenas al modelo, altamente correlacionadas con la variable que sustituyen como
explicativa e independientes a su vez de la perturbacin aleatoria. En el caso de los modelos de
ecuaciones simultaneas, cabe la posibilidad de seleccionar variables instrumentales de entre las
variables exgenas y predeterminadas que no han sido incluidas en la ecuacin que se estima.
Asimismo, hay que tener presente que el nmero de variables instrumentales no debe ser menor
que el nmero de variables endgenas que aparecen como explicativas.

Veamos a continuacin cmo estimar una ecuacin por variables instrumentales. Sea una matriz
de variables instrumentales Z* de la forma:

Y21*
*
Y22
*
Z .

.
Y2*T

.. Yn*1
.. Yn*2
.. .
.. .
.. YnT*

X 11
X 12
.
.
X 1T

X 21
X 22
.
.
X 2T

..
..
..
..
..

X m1

X m2
.

.
X mT

donde los instrumentos Y1* estn correlacionados con Y1 pero no con el trmino de error v1.

Expresando la matriz de variables instrumentales en trminos matriciales:

Z * Y1*

y premultiplicando la expresin (8.7) por Z* se obtiene:

Y1*
Y1*
y

1 Y1
X
X

Y *
X 1 v1
X

De donde se obtiene el Estimador de Variables Instrumentales (VI):

Y1*
Y1
X

Y1*
X y1
X

Si denominamos Z Y1

X , tenemos entonces que:


1
B Z * ' Z Z * ' y1


La matriz Z* de instrumentos deber cumplir las siguientes propiedades asintticas:

Z*'Z
Z *'Z es una matriz no singular que indica la existencia de
p lim
T

correlacin entre las endgenas y sus instrumentos.

Z *'Z *
Z *'Z ** es una matriz simtrica definida positiva
p lim
T

Z * ' v1
0 que expresa la ausencia de correlacin entre los
p lim
T
instrumentos y el trmino de perturbacin.

Si se verifican estas condiciones, entonces el estimador VI es consistente (aunque no es


insesgado), siendo su matriz de varianzas y covarianzas:

cov( B) v21 Z * ' Z

2
Siendo v1

( y1 ZB ) '( y1 ZB )
T k

1
Z * ' Z * Z * ' Z

'

No obstante hay que tener presente la indeterminacin que la estimacin VI provoca en modelos
simultneos con ecuaciones sobreidentificadas. Por ejemplo, consideremos el siguiente modelo
en el que la primera ecuacin est sobreidentificada:

Y1t+21Y2t+11X1t=u1t
12Y1t+Y2t+22X2t + 23X3t =u1t

Para estimar la primera ecuacin por VI podemos utilizar como instrumento de Y2t las variables
exgenas X2t X3t , de tal forma que Z* puede ser:

X 21
X
*
Z a 22

X 2T

X 11
X 12

X 1T

X 31
X
*
Z b 32

X 3T

X 11
X 12

X 1T

*
*
Por lo que las estimaciones VI obtenidas utilizando la matriz Z a y Z b sern diferentes.

8.3.1. Estimacin una funcin keynesiana de consumo por VI


Se parte de nuevo del modelo macroeconmico Keynesiano de la renta de equilibrio:

Ct = a+Yt
Yt = Ct + It

donde Ct es el consumo, It es la inversin e Yt la renta nacional.

Se utiliza It como instrumento en la estimacin de Ct, de forma que las matrices de variables
endgenas, exgenas e instrumentos sern:

C1
C
y1 2
.

CT
1
1
Z
.

1
1
1
Z*
.

Y1
Y2

YT
I1
I2

.
IT

Con las que calculamos:


T

T
Yt

t 1

Z* ' Z T
T

I t I tYt
t 1
t 1

Ct
t 1

Z * ' y1 T

I t Ct
t 1

It

T
t 1

Z* ' Z* T
T

2
It I t
t 1
t 1

Con los datos de las series de la Contabilidad Nacional Trimestral Espaola utilizados en el
ejemplo anterior, la estimacin de los coeficientes por VI es:

116 967 747 0.3636


B

221 1934 1490 0.7289


De forma que la estimacin VI de la funcin de consumo resulta ser:
Ct = 0.3636 + 0.7289Yt

Si la suma residual del modelo es 3.17, tenemos que la varianza del error de estimacin es:

v21

( y1 ZB ) '( y1 ZB )
3.17

0.028
T k
116 2

Con lo que la matriz de varianzas y covarianzas de los estimadores es:

1 '
116 967 116 221 116 967
Z ' Z Z ' Z Z * ' Z 0.028

221 1934 221 444 221 1934


0.1856 0.0929
0.028

0.0058 0.0030
2
v1

Para contrastar si la propensin marginal al consumo es significativamente distinta de cero,


necesitamos su desviacin tpica tal que:

DesvTip( ) 0.028 0.0030 0.0092

Dado que la desviacin tpica es = 0.0092, el estadstico t es:

0.7289

79.23
0.0092

Valor sensiblemente superior a 1.645, valor tabulado para una distribucin t de Student con 114
grados de libertad al 95% de confianza.
Resultado que confirma que el parmetro es significativamente distinto de cero, por ser
mayor que el valor de terico de una t de Student (ttco=1.980) con 112 grados de libertad con un
nivel de confianza del 95%.
A su vez la varianza del parmetro a es:

Var (a ) 0.028 0.1798 0.00503


Al ser la desviacin tpica a 0.07 ; el estadstico t es, por tanto:

a 0.26

3.61
a 0.07

por lo que a resulta tambin estadsticamente significativo.

8.4.

MNIMOS CUADRADOS EN DOS ETAPAS (MC2E)

El mtodo denominado Mnimos Cuadrados en 2 Etapas (MC2E), al igual que los mtodos de
Mnimos Cuadrados Indirectos y Variables Instrumentales, intenta dar una solucin al problema
de la inconsistencia de los estimadores MCO en los sistemas de ecuaciones simultneas. Sin
embargo, este mtodo presenta la ventaja adicional de que puede utilizarse tanto en ecuaciones
exactamente identificadas como sobreidentificadas.

En particular, en el caso de las ecuaciones sobreidentificadas, la aplicacin del mtodo MC2E


ofrece un nico valor para cada parmetro, que puede considerarse una combinacin lineal de
los diversos estimadores que se obtendran aplicando MCI. Por su parte, si se utiliza MC2E en
ecuaciones exactamente identificadas se obtiene la misma estimacin que con los mtodos MCI
y VI.

El mtodo MC2E, como su propio nombre indica, consta de dos etapas:

En una primera etapa, para eliminar la correlacin existente entre la(s) variable(s)
endgena(s) y el trmino de error, se realiza la regresin de la(s) variable(s)
endgena(s) sobre todas las variables predeterminadas del modelo.

Posteriormente, en una segunda etapa las regresiones efectuadas en la primera etapa


se utilizan para sustituir las variables endgenas de la ecuacin inicial por los
valores estimados en la primera etapa. Seguidamente se estima la relacin original
con los nuevos valores.

Por ejemplo, si partimos de un modelo de ecuaciones simultneas con dos variables endgenas
Y1, Y2, y cuatro variables exgenas X1 , X2, X3, X4, la estimacin por MC2E de la siguiente
ecuacin del modelo:

Y2t a 21Y1t 20 23 X 3t 24 X 4t u 2t
Requiere en la primera etapa estimar:

Y1t=10+11X1t+12X2t+13X3t+13X3t+v1t

De tal forma que:

Y1t Y1t v1t


En la segunda etapa se reemplaza Y1t por los valores estimados en la etapa anterior Y1t ,
quedando ahora la ecuacin original como:

Y2t a 21 (Y1t v1t ) 20 23 X 3t 24 X 4t u 2t


Y2t a 21Y1t 20 23 X 3t 24 X 4t a 21v1t u 2t
Y2t a 21Y1t 20 23 X 3t 24 X 4t u 2*t
La estimacin de esta ecuacin nos asegura la consistencia de las estimaciones MCO, al no estar
correlacionada Y1t con Y2t y a la vez s estar muy correlacionada con X3 y X4 .

El mtodo MC2E puede tambin resolverse de forma matricial: supongamos que la relacin isima del modelo es:
yi =Yjaj + Xjj+uj

donde yi es el vector de la variable endgena, Yj es la matriz de las variables endgenas


predeterminadas y Xj es la matriz de las variables exgenas de la ecuacin.
Entonces los estimadores MC2E del modelo se obtienen resolviendo:

a j


siendo:

Yj X ( X ' X ) 1 X ' Y j
Yj'Yj Y j ' X ( X ' X ) 1 X ' Y j
Yj' y j Y j ' X ( X ' X ) 1 X ' yi
Yj ' X j Y j ' X j

Y ' j Yj

j
X ' j Y j

1
Y ' j X j Y ' j yi

X ' j X j X ' j yi

(8.8)

Donde X es la matriz de todas las variables exgenas del modelo.

As, por ejemplo en la estimacin MC2E del modelo:

y1=a11y2+11x1+u1
y2=a11y1+22x2+23x3+u2

Hay que estimar la primera relacin del modelo, teniendo presente que yi=y1 , Yj=y2 y Xj=x1

Y' j X

y x y x y x
2

x12

X ' X x 2 x1
x x
3 1

xx xx
x xx
xx x
1 2
2
2

3 2

2 3
2
3
1 3

x
x y

X'j X j
X ' j yi

2
1

1 1

Para estimar la segunda ecuacin del modelo hay que tener presente que yi=y2 , Yj=y1 y

X j x 2

x3

Y ' j X y1 x1
2
2

x
X 'j X j
x2 x3

y x y x
x x
x
1 2

1 3

2 3
2
3

x2 y2
X ' j yi

x3 y2

Los errores asociados a los coeficientes se calculan a travs de la formulacin asinttica de la


matriz de covarianzas para muestras finitas, es decir:

a j
Y '( X ' X ) 1 X ' Y j
Var 2j j
X j 'Y j
j

Yj ' X j

X j ' X j

(8.9)

siendo:

2j

y a Y

j jX j

'

y a Y
i

j X j

T k

es decir, la suma residual del modelo dividida por los grados de libertad de la ecuacin que se
estima (nmero de observaciones menos nmero de parmetros que se estiman).

8.4.1. Estimacin de un modelo de gastos e ingresos por MC2E


Supongamos que una empresa pretende conocer la evolucin de sus ingresos (ING), teniendo en
cuenta los gastos de explotacin (GAS), el capital invertido (SK), el nmero de trabajadores (L)
y un ndice de actividad econmica (ACT). Para ello, plantea el siguiente modelo de ecuaciones
simultneas expresado en desviaciones con respecto a la media:

INGt = a1GASt + a2SKt +a3Lt + ut


GASt = b1INGt + b2ACTt

+ vt

Para estimar el modelo la empresa dispone de la siguiente matriz de sumas de productos


cruzados de las variables del modelo:

ING
GAS
SK
L
ACT

ING

GAS

SK

ACT

11.25

-5.63

-11.25

22.50

-5.63

-5.63

90.00

-5.63

22.50

-4.50

-11.25

-5.63

11.25

5.00

7.00

22.50

22.50

5.00

22.50

2.00

-5.63

-4.50

7.00

2.00

11.25

Aplicando las condiciones de orden y rango tenemos que:

Condicin de Orden
1 ecuacin Variables excluidas = 1 = 21

Ecuacin Exactamente Identificada

2 ecuacin Variables excluidas = 2 > 21

Ecuacin Sobreidentificada

Condicin de Rango

1 Ecuacin
2 Ecuacin

ING
1

GAS

SK

a1

a2

a3

ACT
0

b1

b2

1 ecuacin Rang[b2] = 1 = 21

Ec. Identificada

2 ecuacin Rang[a2] = Rang[a3] = 1 = 21

Ec. Identificada

La presencia de una ecuacin sobreidentificada provoca que los mtodos MCI y VI no sean
vlidos para estimar el modelo completo por lo que debemos recurrir al mtodo de Mnimos
Cuadrados en 2 Etapas, obteniendo estimaciones consistentes y nicas para cada parmetro.

1 Ecuacin
En la primera etapa debemos eliminar la correlacin existente entre la variable GASt y el
trmino de error regresando dicha variable sobre todas las variables predeterminadas del
modelo. Es decir, debemos estimar por MCO la relacin:

GASt 1SK t 2 Lt 3 ACTt et


Cuya estimacin resulta ser:

1
11.25 5.00 7.00
( X ' X )1 X ' Y 5.00 22.50 2.00
2


7.00 2.00 11.25
3

5.63 2.17
22.50 1.33
4.50 1.74

Por lo que la relacin estimada es:

GASt 2.17 SK t 1.33Lt 1.74 ACTt et


En la segunda etapa de la estimacin por MC2E debemos trasladar el resultado de la estimacin
en la primera etapa de GASt, sustituyndola en la ecuacin que deseamos estimar por el valor
original de dicha variable; es decir:

INGt a1GAS
t a2 SK t a3Lt ut

La estimacin MCO de dicha ecuacin es:

GAS
t

a1

a ( X ' X )1 X ' Y SK GAS


t t
2

Lt GAS
3
t

SK GAS
L GAS
GAS
ING

SK
SK L SK ING

L SK
L L ING
t

2
t

2
t

Antes de proceder a operar con las matrices anteriores, debemos obtener los productos cruzados

relacionados con la variable GAS


t tal que:

t 2.17 SK t 1.33Lt 1.74 ACTt


GAS

( 2.17)2 SK t2 (1.33) 2 L2t (1.74)2 ACTt 2


22.171.33 SK t Lt 22.171.74 SK t ACTt 21.331.74 Lt ACTt 33.67
SK t2

t SK t SK t GAS t ( 2.17 1.33 1.74)


GAS
Lt SK t
ACTt SK t

11.25
( 2.17 1.33 1.74) 5.00 5.63
7.00

SK t Lt

t Lt Lt GAS t ( 2.17 1.33 1.74)


GAS
Lt
ACTt Lt

5.00
( 2.17 1.33 1.74) 22.50 22.5
2.00

SK t INGt

t INGt ( 2.17 1.33 1.74) Lt INGt


ACTt INGt

11.25
( 2.17 1.33 1.74) 22.50 39.69
5.63

GAS

Sustituyendo los valores tenemos que:

a1 33.67 5.63 22.5


a 5.63 11.25
5
2
a 22.5
5
22.50
3

39.69 6.09
11.25 4.78

22.50 6.15

Alternativamente podemos estimar la ecuacin aplicando la forma matricial del estimador; as,
denominando yi=INGt, Yj=GASt y Xj=[SKt Lt] tenemos que:

Y ' j X GASt SK t
SK t2
X 'j X j
SK t Lt

GAS L GAS ACT


SK L
L
t t

t t
2
t

SK t INGt
X ' j yi

Lt INGt
Por tanto:

Yj'Yj Y j ' X ( X ' X ) 1 X ' Y j


'

SK tGASt SK t2


LtGASt SKt Lt
ACT GAS SK ACT
t
t
t
t

SK L SK ACT SK GAS
L
L ACT L GAS 33.67
L ACT ACT ACT GAS
t t
2
t

SKt GASt 5.63


Yj' X j Y j ' X

Lt GASt 22.50
SK t2
X 'j X j
SK t Lt

SK L 11.25
L 5.00
t t
2
t

5.00
22.50

Yj' y j Y j ' X ( X ' X ) 1 X ' y j


'

SK t GASt SK t2


Lt GASt SK t Lt
ACTt GASt SK t ACTt


SKt INGt 11.25
X 'j y j

Lt INGt 22.50

SK L SK ACT SK ING
L
L ACT L ING 39.69
L ACT ACT ACT ING
t t
2
t

Sustituyendo los valores en la expresin matricial del estimador tenemos que:

a1
a Y ' j Yj
2 X ' Y
a j j
3

Y ' j X j

X ' j X j

33.67 5.63 22.50 39.69 6.09


Y ' j yi

5.63 11.25 5.00 11.25 4.78


X ' j yi 22.50 5.00 22.50 22.50 6.15

2 Ecuacin
En la primera etapa debemos eliminar la correlacin existente entre INGt y el trmino de error
regresando dicha variable sobre todas las variables predeterminadas del modelo. Es decir,
debemos estimar por MCO la relacin:

INGt 1SK t 2 Lt 3 ACTt et


Cuya estimacin resulta ser:

1
11.25 5.00 7.00
( X ' X )1 X ' Y 5.00 22.50 2.00
2


7.00 2.00 11.25
3

11.25 1.87
22.50 1.38
5.63 0.42

Por lo que la relacin estimada es:

INGt 1.87 SK t 1.38 Lt 0.42 ACTt et


En la segunda etapa de la estimacin por MC2E debemos trasladar el resultado de la estimacin
en la primera etapa de INGt, sustituyndola en la ecuacin que deseamos estimar por el valor
original de dicha variable; es decir:

GASt b1 ING
t b2 ACTt vt

La estimacin MCO de dicha ecuacin es:

ING
t
b1

b ( X ' X ) X 'Y

2
ACTt ING t

t ACTt
ING

2
ACTt

ING
t GASt

ACTt GASt

Antes de proceder a operar con las matrices anteriores, debemos obtener los productos cruzados

relacionados con la variable ING


t tal que:

2
t

1.87 SK 1.38L 0.42 ACT


ING
( 1.87) SK (1.38) L (0.42) ACT
21.871.38 SK L 21.870.42 SK ACT 21.380.42 L ACT 49.76
SK ACT

ACT ACT ING


( 1.87 1.38 0.42) L ACT
ING
ACT

2
t

2
t

7.00
( 1.87 1.38 0.42) 2.00 5.63
11.25

SK t GASt

t GASt ( 1.87 1.38 0.42) LtGASt


ACTt GASt

5.63
( 1.87 1.38 0.42) 22.50 39.69
4.50

ING

Sustituyendo los valores tenemos que:

b1 49.76 5.63 39.69 0.7975


b 5.63 11.25 4.50 0.0001

2
Tambin podemos estimar la ecuacin aplicando la forma matricial del estimador; as,
denominando yi=GASt, Yj=INGt y Xj=[ACTt] tenemos que:

Y ' j X INGt SK t
X ' j X j ACTt 2

ING L ING ACT


t

X ' j yi ACTtGASt
Por tanto:

Yj'Yj Y j ' X ( X ' X ) 1 X ' Y j


'

SKt INGt SK t2


Lt INGt SK t Lt
ACT ING SK ACT
t
t
t
t

SK L SK ACT SK ING
L
L ACT L ING 49.76
L ACT ACT ACT ING
t t
2
t

Yj' X j Y j ' X ACTt INGt 5.63


X 'j X j ACTt 2 11.25

Yj' y j Y j ' X ( X ' X ) 1 X ' y j


'

SK t INGt SK t2


Lt INGt SK t Lt
ACTt INGt SK t ACTt

SK L SK ACT SK GAS
L
L ACT L GAS 39.69
L ACT ACT ACT GAS
t t
2
t

X 'j y j ACTt GASt 4.50


Sustituyendo los valores en la expresin matricial del estimador tenemos que:

b1 Y ' j Yj
b
2 X ' j Yj

8.5.

1
Y ' j X j Y ' j yi 49.76 5.63 39.69 0.7975

X ' j X j X ' j yi 5.63 11.25 4.50 0.0001

MODELOS RECURSIVOS

En el epgrafe 8.2. se ha mostrado como los estimadores MCO producen estimadores sesgados e
inconsistentes en los modelos de ecuaciones simultaneas, debido a la relacin entre la
perturbacin aleatoria y las variables explicativas endgenas. En este apartado vamos a analizar
un caso especial de los modelos de ecuaciones simultneas en el que MCO s proporciona
estimadores insesgados y eficientes: se trata de los modelos recursivos.

Estos modelos deben satisfacer una serie de restricciones:

La matriz de coeficientes de las variables endgenas del sistema, , debe ser


triangular.

As, en el siguiente modelo de ecuaciones simultaneas:

a11Y1t

+11X1t+ 12X2t ++1mXmt =u1t

a21Y1t+a22Y2t

+ 21X1t+ 22X2t++2mXmt =u2t.

a31Y1t+a32Y2t+a33Y2t

+ 31X1t+ 32X2t++3mXmt =u2t.

.
.

an1Y1t+an2Y2t ++annYnt + n1X1t+ n2X2t++nmXmt =unt.

Se observa que la triangularidad existe, ya que la matriz G tiene la siguiente forma:

0
0
a 11
a
0
21 a 22
G a 31 a 32 a 33

.
.
.
a n1 a n 2 a n 3

... 0
... 0
... 0

... 0
... a nn

Las perturbaciones o trminos de error de cada una de las ecuaciones del sistema no
estn correlacionadas con las variables endgenas que aparecen como explicativas
en dicha ecuacin; tampoco lo estn con las perturbaciones de otras ecuaciones ni
en el mismo periodo de tiempo (correlacin contempornea) ni en periodos de
tiempo distintos.
Esta propiedad implica que la matriz de covarianzas de las perturbaciones aleatorias
debe ser diagonal, tal que:

0
1 0
0
0
2

0
0 3

.
.
.
0
0
0

... 0
... 0
... 0

... 0
... n

Para identificar un modelo recursivo hay que realizar una ordenacin previa de las ecuaciones,
de manera que la primera ecuacin tenga slo una variable endgena; la segunda ecuacin
deber tener dos variables endgenas, siendo una de ellas la endgena de la ecuacin anterior; la
tercera ecuacin tendr slo tres variables endgenas, pero dos de ellas debern ser las de las
ecuaciones anteriores, y as sucesivamente hasta llegar a la ltima ecuacin.

La estimacin de los modelos recursivos no plantea especiales problemas, ya que la segunda


condicin de recursividad garantiza que las variables explicativas de cada ecuacin estarn
incorrelacionadas con el trmino de error de esa misma ecuacin, lo que permite estimar el
modelo aplicando MCO a cada ecuacin.

La reordenacin de ecuaciones determina que la primera ecuacin tenga una variable endgena
(y ninguna variable endgena actuando como predeterminada), el conjunto de variables
exgenas y la perturbacin aleatoria. Como las variables exgenas no estn correlacionadas con
el trmino de error se puede aplicar MCO, obtenindose estimadores insesgados y consistentes.

En la segunda ecuacin y posteriores las variables endgenas de las ecuaciones previas tienen la
consideracin de variables predeterminadas, por lo que se da una completa independencia entre
los regresores y las perturbaciones, permitiendo la adecuada estimacin de cada ecuacin por
MCO sin problemas de inconsistencia e insesgadez.

La naturaleza de los modelos recursivos determina que en stos no exista el problema de tener
que identificar cada una de sus ecuaciones, es decir, una vez identificado el modelo como
recursivo se procede a estimar ecuacin por ecuacin sin tener que realizar la identificacin
individual de las ecuaciones del modelo.

8.5.1. Estimacin de un Modelo Recursivo de Determinacin de


Precios y Salarios
Sea el siguiente modelo de determinacin de precios y salarios:
Pt=b10+b11Wt-1+b12Lt+u1t
Wt= b20+b11Ut+b12Pt+u2t

Donde Pt es el incremento anual de precios, Wt la tasa de cambio de los salarios por ocupado, Lt
la tasa de variacin de la productividad laboral y Ut la tasa de desempleo.

El modelo es recursivo, ya que la matriz

1
G
b12

0
es triangular. Asumiendo que
1

Cov(u1t,u2t)=0, puede estimarse el modelo aplicando MCO ecuacin por ecuacin. Para ello, se
utilizan los siguientes datos relativos a la economa espaola para el periodo 1981-2002:

Periodo

% Var.
Deflactor

198101

14.14%

% Var.
Salarios
Medios por
Ocupado
(Wt)
18.21%

1.64%

13.38%

199103

7.09%

% Var.
Salarios
Medios por
Ocupado
(Wt)
11.46%

2.93%

16.33%

198102

13.49%

15.25%

1.67%

13.64%

199104

5.05%

7.86%

3.51%

16.93%

198103

13.49%

12.56%

1.91%

14.11%

199201

4.47%

10.89%

1.05%

17.40%

198104

13.20%

10.62%

1.87%

14.99%

199202

4.35%

10.32%

2.25%

17.71%

198201

13.02%

12.87%

3.48%

15.51%

199203

4.38%

4.92%

2.39%

18.27%

198202

12.14%

16.35%

2.41%

15.33%

199204

4.90%

4.15%

1.54%

20.03%

198203

11.72%

13.99%

1.77%

15.93%

199301

3.98%

3.93%

4.27%

21.69%

198204

10.88%

12.68%

2.26%

16.61%

199302

4.03%

4.34%

3.88%

22.17%

198301

10.98%

15.09%

4.49%

17.28%

199303

3.90%

2.71%

2.22%

22.87%

198302

11.47%

12.05%

5.10%

16.88%

199304

3.64%

3.74%

0.71%

23.83%

198303

10.81%

9.78%

5.36%

17.18%

199401

5.01%

2.90%

0.76%

24.55%

198304

10.27%

6.55%

5.54%

17.97%

199402

5.31%

4.32%

0.03%

24.22%

198401

9.03%

8.32%

3.57%

19.6%

199403

4.82%

3.46%

-0.33%

23.80%

198402

8.20%

9.15%

3.56%

19.67%

199404

4.63%

4.00%

1.02%

23.90%

198403

8.73%

10.05%

2.58%

19.97%

199601

3.77%

3.88%

1.44%

23.49%

198404

8.44%

8.70%

1.76%

21.08%

199602

3.46%

4.73%

2.45%

22.70%

198501

10.87%

11.42%

0.89%

21.50%

199603

3.52%

5.23%

1.40%

22.65%

198502

10.80%

10.49%

1.33%

21.53%

199604

3.35%

4.18%

-0.19%

22.76%

198503

10.92%

8.14%

-0.56%

21.30%

199701

2.98%

2.28%

-1.00%

22.92%

198504

10.92%

8.18%

-2.20%

21.48%

199702

1.88%

1.80%

-0.72%

22.26%

198601

6.22%

8.27%

-0.31%

21.65%

199703

2.19%

2.11%

-0.03%

21.82%

198602

6.05%

6.77%

-1.81%

21.02%

199704

2.24%

3.03%

1.55%

21.73%

198603

5.95%

7.10%

1.34%

20.59%

199801

1.78%

4.09%

0.55%

21.46%

198604

5.52%

6.37%

2.69%

20.64%

199802

2.84%

3.04%

0.06%

20.88%

198701

6.10%

8.61%

1.28%

21.01%

199803

2.72%

2.22%

0.60%

20.46%

198702

6.00%

9.64%

1.14%

20.2%

199804

2.24%

1.74%

-1.05%

20.22%

198703

5.90%

6.45%

1.21%

19.93%

199901

2.62%

2.18%

-0.96%

19.51%

198704

5.81%

5.88%

-0.51%

19.75%

199902

2.53%

2.75%

-0.26%

18.83%

198801

6.92%

6.92%

-0.09%

19.99%

199903

2.90%

2.49%

-0.25%

18.41%

198802

6.74%

6.56%

-0.52%

19.61%

199904

2.88%

3.40%

0.50%

18.09%

198803

7.14%

7.63%

-1.68%

19.04%

200001

3.15%

4.30%

2.15%

16.89%

198804

6.80%

8.08%

-0.68%

18.31%

200002

3.30%

3.89%

0.53%

15.49%

198901

7.15%

10.16%

-1.79%

18.26%

200003

3.61%

3.25%

-1.07%

15.29%

198902

7.40%

11.00%

-1.81%

17.26%

200004

3.85%

3.54%

-1.21%

15.32%

198903

7.33%

10.47%

-2.20%

16.56%

200101

3.89%

3.28%

-0.35%

14.89%

198904

7.35%

9.15%

1.54%

16.88%

200102

4.62%

4.00%

-0.41%

13.83%

199001

6.92%

9.73%

0.15%

16.76%

200103

4.08%

4.68%

0.18%

13.57%

199002

6.54%

10.13%

0.05%

16.25%

200104

4.06%

4.33%

0.25%

13.44%

199003

7.04%

10.23%

1.84%

15.85%

200201

3.96%

3.96%

-0.11%

10.87%

199004

7.29%

10.42%

-0.51%

16.09%

200202

4.21%

3.82%

-0.17%

10.35%

199101

7.56%

13.34%

3.89%

16.11%

200203

4.63%

3.81%

-0.09%

10.25%

199102

7.34%

13.53%

2.54%

15.88%

200204

4.74%

4.23%

0.46%

10.50%

PIB (Pt)

% Var.
Anual
Productividad
(Lt)

Tasa
de Paro
(Ut)

Fuente: Elaboracin propia a partir de datos del INE.

Periodo

% Var.
Deflactor
PIB (Pt)

% Var.
Anual
Productividad
(Lt)

Tasa
de Paro
(Ut)

La estimacin de la ecuacin de precios por MCO es:


Estadsticas de la regresin
Coeficiente de correlacin mltiple
0.84337111
Coeficiente de determinacin R2
0.71127483
R2 ajustado
0.7040567
Error tpico
0.01762477
Observaciones
83

Constante
Crecimiento de los salarios medios por ocupado del
trimestre anterior
Crecimiento anual de la productividad

Coeficientes Error tpico Estadstico t


0.01272847
0.00410008
3.104446
0.68870367
0.0541869
12.7097812
0.18542501

0.11484988

1.61449891

En consecuencia, la funcin de precios de la economa espaola es la siguiente:


Pt=0.0127+0.6887Wt-1+0.1854Lt+u1t

Por su parte, la estimacin de la ecuacin de salarios ofrece los siguientes resultados:


Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R2
R2 ajustado
Error tpico
Observaciones

Trmino constante
Crecimiento del deflactor PIB
Tasa de desempleo

0.86580246
0.74961391
0.74335425
0.02010504
83

Coeficientes Error tpico


0.03663072
0.01505487
1.00434242
0.07172996
-0.0015008
0.00069398

Estadstico t
2.43314844
14.0017142
-2.16258469

La funcin de salarios de la economa espaola quedara como sigue:


Wt= 0.03660.0015Ut+1.004Pt+u2t

En la que se puede apreciar como el aumento de la tasa de paro desacelera el crecimiento de los
salarios en Espaa.

8.6.

EJEMPLO PRCTICO: ESTIMACIN DE UN MODELO


EXACTAMENTE IDENTIFICADO POR MCI, VI Y MC2E

A continuacin se presenta un ejemplo en el que se aplican todos los mtodos de estimacin


presentados a lo largo del captulo. Para ello, retomamos el ya conocido modelo de oferta y
demanda clsico, en el que se ha omitido la variable Ft por no ser significativa, tal que:
Qt=a1Pt+a2Rt+u1t
Pt=b1Qt+b2Prt+u2t

La matriz de sumas de productos cruzados de las variables del modelo es la siguiente:

Pr

3.5

11.5

P
r

A fin de saber qu mtodo de estimacin es el ms apropiado, procedemos a la identificacin


del modelo aplicando las condiciones de orden y rango:

Condicin de Orden
1 ecuacin Variables excluidas = 1 = 21

Ecuacin Exactamente Identificada

2 ecuacin Variables excluidas = 1 = 21

Ecuacin Exactamente Identificada

Condicin de Rango
Q
1 Ecuacin
2 Ecuacin

b1

P
a1
1

R
a2
0

Pr
0
b2

1 ecuacin Rang[b2] = 1 = 21

Ec. Identificada

2 ecuacin Rang[a2] = 1 = 21

Ec. Identificada

Al estar ambas ecuaciones exactamente identificados podemos aplicar indistintamente los tres
mtodos descritos en el captulo (MCI, VI, MC2E), ya que las estimaciones obtenidas por
cualquiera de ellos sern iguales.

Mnimos Cuadrados Indirectos


La forma reducida del modelo es:

Qt= 11Rt + 12Prt+e1t


Pt= 21Rt + 22Prt +e2t

La estimacin de los parmetros de la forma reducida es:

' 11 21 Rt
P

12 22 Rt Prt

R Pr R Q R P 1
Pr Pr Q Pr P 1
t

2
t

t t

1
3

A partir de los parmetros de la forma reducida, podemos recuperar los parmetros estructurales
mediante la siguiente expresin:

B
GP
Por tanto:

1 a1 1 1 a2 0
b

1 1 1 3 0 b2
A partir de las matrices anteriores podemos construir el siguiente sistema de ecuaciones:

1 a1 a2
1 3a1 0
1 b1 0
3 b1 b2
Despejando los parmetros del sistema de ecuaciones anterior obtenemos que:

a1 = 0.33, a2 = 0.67 , b1 = 1, b2 = 2

Por lo que el modelo estimado es:

Qt = 0.33Pt + 0.67Rt+u1t
Qt = Pt + 2Pr t+u2t

Variables Instrumentales

1 Ecuacin
Vamos a utilizar la variable Prt como instrumento de Pt para la estimacin de la primera
ecuacin, por lo que las matrices de variables endgenas, exgenas e instrumentos sern,
respectivamente:

Q1
Q
y1 2


QT

P1 R1
P R
Z 2 2

PT RT

Pr1 R1
Pr R
Z* 2 2

PrT RT

A partir de dichas matrices podemos calcular:

Prt Pt
Z* ' Z
Pt Rt

Pr R
R
t

2
t

Prt Qt
Z * ' y1

RtQt

Siendo la estimacin de la primera ecuacin:

1
a1
3 0 1 0.33
*
*
a Z ' Z Z ' y1 1 1 1 0.67

2 Ecuacin
En este caso, se utiliza Rt como instrumento de Qt, siendo las matrices de variables endgenas,
exgenas e instrumentos respectivamente:

P1
P
y1 2


PT

Q1 Pr1
Q Pr
Z 2 2

QT PrT

R1 Pr1
R Pr
Z* 2 2

RT PrT

Con las que podemos obtener:

RtQt
Z* ' Z
Prt Qt

R Pr
Pr
t

2
t

Rt Pt
Z * ' y1

Prt Pt

La estimacin de la segunda ecuacin resulta ser:

1
b1
1 0 1 1
*
*
b Z ' Z Z ' y1 1 1 3 2

Mnimos Cuadrados en 2 Etapas

1 Ecuacin
Dado que ya hemos estimado la forma reducida del modelo al aplicar Mnimos Cuadrados
Indirectos, aprovecharemos el resultado obtenido en ese apartado ya que en la primera etapa es
necesario estimar:

Pt= 21Rt + 22Prt +e2t

La estimacin di el siguiente resultado:

Pt = Rt + 3Prt +e2t

En la segunda etapa debemos calcular:

Pt 2
a1
1

(
X
'
X
)
X
'
Y

a
PR

2
t t

P R
R
t

2
t

Qt Pt

Qt Rt

Previamente debemos obtener los productos cruzados asociados a Pt :

P
t

( Rt 3Prt )2 12 Rt2 +32 Prt2 213 Rt Prt 10

Rt2

P
R

(1
3)

t t
Rt Prt

Q P
t t

RQ
(1 3) t t 4
Prt Q

La estimacin de la primera ecuacin resulta ser:

a1 10 1 4 0.33
a 1 1 1 0.67
2

Tambin podemos estimar la ecuacin aplicando la forma matricial del estimador; as,
denominando yi=Qt, Yj=Pt y Xj=[Rt] tenemos que:

Y ' j X Rt Pt

Pr P
t

X ' j X j Rt2
X ' j yi RtQt
Por tanto:

Yj'Yj Y j ' X ( X ' X ) 1 X ' Y j


'

Rt Pt Rt2


Pr
P

t
t

Rt Prt

R Pr R P 10
Pr Pr P
t

t t

2
t

Yj' X j Y j ' X j PR
t t 1
X 'j X j Rt2 1
Yj' y j Y j ' X ( X ' X ) 1 X ' y j
'

2
PR
t t Rt


Prt Pt Rt Prt

R Pr Q R 4
Pr Pr Q
t

2
t

X 'j y j RtQt 1
Sustituyendo los valores en la expresin matricial del estimador tenemos que:

a1 Y ' j Yj
a
2 X ' j Yj

Y ' j X j

X ' j X j

1
Y ' j yi 10 1 4 0.33


1 0.67
1
1
X
'
y

j i

2 Ecuacin
Nuevamente utilizamos los resultados obtenidos al estimar la forma reducida al aplicar MCI,
dado que ahora hay que estimar la siguiente relacin:

Qt= 11Rt + 12Prt +e1t

Recordemos que el resultado que se obtuvo fue:

Qt = Rt + Prt +e1t

En la segunda etapa debemos calcular:

Q t2
b1
1
b ( X ' X ) X ' Y

2
Qt Prt

Q Pr
Pr
t

2
t

Q t Pt

Prt Pt

Previamente debemos obtener los productos cruzados asociados a Pt :

2
t

( Rt Prt ) 2 12 Rt2 +12 Prt2 211 Rt Prt 2

Q Pr

R Pr
(1 1) t 2 t
Prt

Q P

Rt Pt
(1 1)
4
Pr
P

t
t

t t

La estimacin de la segunda ecuacin es:

b1 2 1 4 1
b 1 1 3 2
2

Alternativamente podemos estimar la ecuacin aplicando la forma matricial del estimador; as,
denominando yi=Pt, Yj=Qt y Xj=[Prt] tenemos que:

Y ' j X RtQt

Pr Q
t

2
t

X ' j X j Pr
X ' j yi Prt Pt
Por tanto:

Yj'Yj Y j ' X ( X ' X ) 1 X ' Y j


'

RtQt Rt2


Pr
Q

t
t

Rt Prt

R Pr R Q 2
Pr Pr Q
t

2
t

Yj' X j Y j ' X j Qt Prt 1

X 'j X j Prt2 1
Yj' y j Y j ' X ( X ' X ) 1 X ' y j
'

RtQt Rt2


Prt Qt Rt Prt

R Pr R P 4
Pr Pr P
t

2
t

t t
t

X 'j y j Prt Pt 3
Sustituyendo los valores en la expresin matricial del estimador tenemos que:

b1 Y ' j Yj
b
2 X ' j Yj

1
Y ' j X j Y ' j yi 2 1 4 1


X ' j X j X ' j yi 1 1 3 2

Como puede comprobarse, las estimaciones obtenidas por los tres mtodos coinciden al estar las
ecuaciones del modelo exactamente identificadas.

8.7.

PROBLEMAS

8.1. Dado el siguiente modelo expresado en desviaciones con respecto a la media:

Y1t b12Y2 t a11 X 1t a12 X 2 t ut


Y2t b21Y1t a 23 X 3t vt

Siendo Yi, variables endgenas, y Xi variables exgenas, estime los parmetros de la forma
reducida del modelo y, a partir de ellos, obtenga las expresiones para los parmetros de la
forma estructural. Para ello, utilice las siguientes matrices producto:

10 0 0
(X ' X ) = 0 20 0 ;

0 0 10

5 10
(X ' Y ) = 40 20

20 30

8.2. Partimos del siguiente sistema de ecuaciones simultneas:

Y1t 11Y2 t a10 a11 I t a12Gt u1t


Y2t 21Y1t a 20 u2 t

Donde Y1t es la renta nacional (PIB), Y2t es la oferta monetaria, It el gasto en inversin y Gt el
gasto del gobierno. Estime consistentemente la segunda ecuacin del modelo a partir de los
siguientes datos:

Y1

Y2

Y1

38.05 29.73 7.07

5.31

Y2

23.29 5.55

4.15

1.33

9.90

I
G

0.74

Y1 0, 64; Y2 0,5; I 1,19; G 0,90; N 9

8.3. Considere el siguiente sistema de ecuaciones simultneas:

y1t a11 y2 t 11 z1t u1t


y2 t a 21 y1t 22 z2 t 23 z3t u2 t
Las variables y1 e y2 son endgenas y z1, z2 y z3 son exgenas. Todas las variables estn en
desviaciones respecto a la media y la suma de sus productos cruzados aparece en la
siguiente matriz:
y1

y2

z1

z2

y1

50

y2

15 10

z1

z2

z3

z3

En base a esta informacin estime por Mnimos Cuadrados en dos Etapas la primera ecuacin y
estime por Mnimos Cuadrados Indirectos la segunda ecuacin.
8.4. Considere el siguiente sistema de ecuaciones simultneas:
Y1t a11 X 1t a12 X 2 t ut
Y2t b21Y1t a 22 X 2 t vt
Siendo Yit variables endgenas y Xit variables exgenas, ambas expresadas en desviaciones
respecto a sus medias. Para ello utilice la siguiente matriz de sumas de productos cruzados:

Y1
Y2
X1
X2

Y1

Y2

X1

x2

103

47 152

152

22

70

68

300

100
200

SOLUCIONES
8.1. b12 2 / 3; a11 1 / 6 ; a12 4 / 3; b21 presenta dos soluciones, al igual que a 23
8.2. Y2t 0.8627Y1t 0.0521 u2 t

8.3. y1t 2.5 y2 t 0.25 z1t u1t ; y2 t z3t u2 t


8.4. Y1t 0.304 X 1t 0.608 X 2 t ut ; Y2 t 0.3738Y1t 0.056 X 2 t vt

9.

MTODOS DE ESTIMACIN NO LINEALES

9.1.

INTRODUCCIN

La teora econmica propone modelos de relacin entre variables econmicas, pero


generalmente deja indeterminada la forma funcional de dichas relaciones, por lo que en
ocasiones dichas relaciones pueden ser de tipo no lineal. La cuantificacin de dichas relaciones
exige un tratamiento distinto al del caso lineal, utilizando tcnicas de estimacin que
generalmente implican un mayor coste computacional pero que a cambio ofrecen un mejor
ajuste.

Por ello, en el presente captulo se abordan algunas soluciones de clculo para cuantificar este
tipo de relaciones, las cuales generalmente exigen la utilizacin de algoritmos de optimizacin
numrica en los que, a partir de una expresin general que representa una funcin de prdida o
de ganancia, de forma iterativa se evala una funcin objetivo, que variar dependiendo del
procedimiento de estimacin elegido, para las distintas combinaciones de los valores numricos
de los parmetros. El resultado de la estimacin final ser aquel conjunto de valores
paramtricos que hagan mnima o mxima (segn se defina) dicha funcin objetivo.

Las relacionales no lineales que trataremos no hacen referencia a las variables explicativas sino
a los parmetros incluidos en las relaciones del modelo, ya que las primeras pueden eliminarse
mediante la transformacin de datos apropiada. Por ejemplo, si la ecuacin que tuviramos que
estimar fuera:

yt 0 1e x1t 2 ln( x2t ) x3t t

Bastara con realizar los siguientes cambios de variable para poder estimar la ecuacin mediante
mtodos lineales:

z1t e x1t
z 2t ln( x2t ) x3t

De tal forma que ahora deberamos estimar:

y t 0 1 z1t 2 z 2t t

Ecuacin que es completamente lineal tanto en las variables como en los parmetros.
Sin embargo, si el modelo fuera de la forma:

y t 0 1 x1t 2 2 e 3 x2 t t

No sera posible hacer un cambio de variable similar al que hemos propuesto anteriormente, por
lo que habr que estimarlo mediante procedimientos de tipo no lineal.

9.2.

ESTIMACIN DE UN MODELO DE MODELOS NO LINEALES


POR MINIMOS CUADRADOS ORDINARIOS.

Los modelos a estimar no tienen porque ser funciones lineales, pero dado que el mtodo MCO
se aplica exclusivamente a modelos de dependencia lineal, este mtodo podr utilizarse en todos
aquellos modelos que pueden transformarse en funciones lineales.

Son ejemplos de funciones no lineales que pueden transformarse a lineales, las siguientes:

a) Funcin Polinmica
La funcin polinmica:

Yt 0 1 X t 2 X t2 ... k X tk
se transforma en lineal:

Yt 0 1 X 1t 2 X 2t ... k X kt

Haciendo:

X 1t X t
X 2t X t2

X kt X tk
b) Funcin Potencial
b
La funcin potencial Yt aX t se transforma en lineal tomando logaritmos tal que:

log Yt log a b log X t


y se estima:

Y t* 0 1 X *t
Haciendo:

Yt* log Yt
X t* log X t
En consecuencia:

a e 0 y b 1
c) Funcin Exponencial
La funcin exponencial Yt ab

Xt

se transforma en lineal tomando logaritmos tal que:

log Yt log a X t log b


y se estima:

Y t* 0 1 X t
Haciendo:

Yt* log Yt
En consecuencia a e 0 y b e 1

d) Funcin Logartmica

*
La funcin logartmica Yt a b log X t puede estimarse haciendo X t log X t , aplicando

MCO despus a la expresin:

Y t 0 1 X *t

En consecuencia a 0 y b 1

9.3.

MNIMOS CUADRADOS NO LINEALES

El primer mtodo que pasamos a abordar para estimar relaciones de tipo no lineal es el de
Mnimos Cuadrados No Lineales, que no es ms que una generalizacin del procedimiento del
mtodo de Mnimos Cuadrados Ordinarios que venimos utilizando a lo largo del libro. En
efecto, la idea de partida del mtodo mnimo-cuadrtico no exige en ningn momento la
linealidad del modelo, si bien la resolucin analtica del mismo se complica bastante cuando el
modelo no es lineal.

Consideremos la siguiente expresin de un modelo no lineal:

Yt f ( X t , ) i

(11.1.)

Donde f es una funcin cuya primera derivada es no lineal en .

El mtodo de Mnimos Cuadrados No Lineales, al igual que su homlogo lineal, trata de


minimizar el sumatorio de los errores del modelo al cuadrado, es decir:

t 1

t 1

Min SR ( ) t2 Yt f ( X t ; )

(11.2.)

Derivando la expresin anterior, obtenemos las condiciones de primer y segundo orden,


necesarias y suficientes para la obtencin del mnimo:

Condicin de 1 orden

T
f ( X t ; )
SR ( )
2 Yt f ( X t ; )
0

t 1

Condicin de 2 orden

T f ( X t ; ) f ( X t ; ) T
2 f (Xt ; )
2 SR ( )

(Yt f ( X t ; ))
'

'

'
t 1
t 1

Matriz que debe ser definida positiva.

Ejemplo 9.1.
Sea el modelo:

Yt 0 1 e 2 x t t

Minimizamos la expresin del sumatorio de los residuos del modelo al cuadrado tal que:

Min SR( )

Y
2
t

t 1

t 1

Derivando la expresin anterior, tenemos que:

T
SR ( )
2 (Yt 0 1e 2 xt ) 0
0
t 1

T
SR ( )
2 (Yt 0 1e 2 xt )e 2 xt 0
1
t 1

T
SR ( )
2 (Yt 0 1e 2 xt )1 xt e 2 xt 0
2
t 1

( 0 1e 2 xt )

Las ecuaciones obtenidas no poseen una solucin analtica directa por lo que es necesario un
mtodo iterativo para obtener los valores de los parmetros i. Uno de los mtodos utilizados
para resolver este tipo de problemas es el algoritmo de Newton-Raphson que pasamos a
examinar a continuacin.

9.3.1. Algoritmo de Newton-Raphson


Supongamos que disponemos de una estimacin i del mnimo de la funcin f ( X t ; ) ,
cuyas derivadas son continuas. Si consideramos un entorno del punto i , el valor numrico de f
en un punto de dicho entorno puede aproximarse mediante un desarrollo en serie de Taylor de
orden 2 tal que:

'
1
f ( X t ; ) M ( ) f ( i ) f ( i ) ( i ) ( i )' 2 f ( i ) ( i )
2

Donde f ( i ) y 2 f ( i ) son, respectivamente, el gradiente (vector k x 1) y la matriz hessiana


(matriz simtrica de orden k x k) de la funcin f ( ) evaluados en el punto i .

Podemos mejorar la estimacin actual, i , reemplazndola por aquel vector que minimice la
expresin cuadrtica anterior tal que:

M
f (i ) 2 f ( i ) ( * i ) 0

De donde obtenemos que:

1
i 1 * i 2 f ( i ) f ( i )

(11.3.)

La expresin (11.3) permite aproximarse al valor desconocido del vector de parmetros a


partir de un vector inicial de estimaciones i suficientemente prximo a l.

Debe observarse que el punto * que escogemos como nueva estimacin minimiza realmente
el valor de f en el entorno de i si la matriz hessiana 2 f ( i ) es definida positiva, lo que estar
garantizado si f es convexa en el punto i (es decir, si dicho punto estaba ya lo suficientemente
prximo a un mnimo local de f).

El procedimiento iterativo mediante el que se sustituyen las sucesivas estimaciones obtenidas a


travs de la expresin (11.2) como punto de partida en la siguiente etapa del procedimiento
hasta que se satisfagan los criterios de convergencia que el investigador determine (por ejemplo,
que la diferencia entre las estimaciones de los parmetros obtenidos en cada etapa sea inferior a
una determinada cantidad) es lo que se conoce como algoritmo de Newton-Raphson.

La utilizacin de este algoritmo exige que se verifiquen dos supuestos: por un lado, deben
existir las derivadas que en l aparecen; asimismo, el hessiano de la funcin debe ser invertible.

El algoritmo de Newton-Raphson permite obtener numricamente el estimador mnimocuadrtico de un modelo en el que Y es una funcin no lineal de . En tal caso, la funcin
objetivo ser la que vimos en (11.1), es decir:

f ( ) SR ( ) Yt f ( X t ; )

t 1

Se trata de hallar aquel vector de coeficientes que minimiza la suma residual al cuadrado,
SR( ) . Para ello tomaremos las expresiones del gradiente y de la matriz hessiana que veamos

anteriormente:

T
f ( X t ; )
SR ( )
2 Yt f ( X t ; )
0

t 1

T f ( X t ; ) f ( X t ; ) T
2 f (Xt ; )
2 SR ( )

(Yt f ( X t ; ))
'

'

'
t

1
t

Y las sustituiremos en la expresin (11.3) que define las etapas del algoritmo tal que:

1
2
T f ( X ; ) f ( X ; ) T
T

f
(
X
;

)
f ( X t ; )

t
t
t

i 1 i

(Y f ( X ; ))
Yt f ( X t ; )

'
' t 1

t 1
t 1

Una vez se haya logrado la convergencia del algoritmo, se toma como matriz de varianzas y
covarianzas del estimador obtenido, el producto de la estimacin de 2 y la inversa de la matriz
hessiana:

2 2 f ( i )

Por lo que la distribucin asinttica del vector de estimadores ser:

N i , 2 2 f ( i )

Ejemplo 9.2.
Veamos cmo se aplicara algoritmo de Newton-Raphson al modelo que veamos en el ejemplo
11.1 tomado en desviaciones respecto a la media. En primer lugar, para poder trabajar con la
expresin (11.3) necesitamos calcular el gradiente y la matriz hessiana de la funcin objetivo tal
que:

f ( ) SR( )

1e 2 xt

t 1

f ( ) 2

2 xt

, 1e 2 xt yt 1e 2 xt

t 1

T
e 2 2 xt
xt e 2 xt (21e 2 xt yt )
2 f ( ) 2

2 xt

(2 1e 2 xt y t ) 1 xt2 e 2 xt (2 1e 2 xt yt )
t 1 x t e

Por lo que la expresin para obtener las sucesivas iteraciones del algoritmo de Newton-Raphson
es:

1
T
e 2 2 xt
x t e 2 xt (2 1e 2 xt y t ) e 2 xt
1

x
x
x
2 x
x

2 i 1 2 i t 1 xt e 2 t (2 1e 2 t y t ) 1 xt e 2 t (2 1e 2 t y t ) t 1 1e 2 t

9.4.

yt 1e 2 xt

EL ESTIMADOR DE MXIMA VEROSIMILITUD

Si el lector tiene algunos conocimientos de Estadstica Terica seguramente sabr que la


estimacin por Mxima Verosimilitud precisa del establecimiento de un supuesto acerca de la
distribucin del trmino de error, a partir de la cual construiremos una funcin de verosimilitud
que deberemos maximizar.

En general, supondremos que el trmino de error del modelo, t, sigue una distribucin Normal
con media 0 y varianza, 2 ; en ese caso, la funcin de verosimilitud muestral ser:

T
2

L( , )

t 1

1
2 2

1
2 2

Yt f ( X ; ) 2

1

2
2

T
2

Yt f ( X ; )
2 2 2
t 1
e

El logaritmo de la funcin evaluado en , 2 es:

T
T
1 T
2
T
T
1
ln L ( , 2 ) ln2 - ln 2

Yt f ( X ; ) ln2 - ln 2
SR ( )
2
t

1
2
2
2
2
2
2 2

Como puede apreciarse, tal y como caba esperar el parmetro 2 no depende de ninguno de
los parmetros del vector ; por tanto, para maximizar la funcin de verosimilitud bastar con
seleccionar aquel vector que minimice la suma residual SR ( ) . Las condiciones de
maximizacin de la funcin de verosimilitud sern por tanto:

ln L( i , 2 )
f ( )
1 SR (i )
1 T
2
2 Yt f ( X t ; i ) t i 0
2
t 1
i
i
i

2
ln L( , 2 )
T
1 T
2
Y f ( X t ; ) 0
2
4 t

2 2 t 1

i 1,2,..., k

Las soluciones del sistema de ecuaciones anterior proporcionan las estimaciones de Mxima
2
Verosimilitud del vector y el parmetro bajo la hiptesis de Normalidad en el trmino de

error.

Como puede apreciarse, los resultados obtenidos coinciden el estimador de Mnimos Cuadrados
No Lineales; asimismo, de la segunda condicin de optimalidad se deduce que la estimacin de

2 es:

2
Yt f ( X t ; )

t 1

SR ( )
T

Expresin, como vemos, anloga a la obtenida para el caso lineal.

Finalmente, la expresin de la matriz de covarianzas del estimador de Mxima Verosimilitud


puede aproximarse, para muestras grandes, mediante la inversa de la matriz de informacin.
Dicha matriz viene dada por 11:

2
I ( , 2 )

0k

'

0 k

T
2 4

Si invertimos dicha matriz y sustituimos los valores de los parmetros desconocidos por sus
correspondientes valores estimados tenemos que:

1

'
2 f f

Var ( , 2 )

0k

Siempre que

9.5.
11

'

0k

4
2

no sea una matriz singular.

APROXIMACIN LINEAL DE TAYLOR

El desarrollo de la demostracin que conduce a esta expresin queda fuera de las pretensiones de este
texto.

Consideremos el siguiente modelo de regresin no lineal siguiente:

Yt f ( X t , ) i

Haciendo lineal la funcin

f ( X t , ) , alrededor de una estimacin inicial, mediante un

desarrollo en serie de Taylor de primer orden tenemos que:

'

f ( X t ; )
( ) t
Yt f ( X t ; )

Si simplificamos la notacin obtenemos:

f ( X t ; )

z ( )

'

Y por tanto:

Y f ( X t ; ) z ( ) ' ( ) t
Operando queda que:

Yt f ( X t ; ) z ( ) z ( ) t
Obtenindose el siguiente modelo lineal:

*
Yt z ( ) t

Donde

(11.4.)

Yt* Yt f ( X t ; ) z ( )

Y*
Para un valor determinado de tanto
como z ( ) son observables, y el modelo (11.4)
posee como estimador mnimo cuadrtico a:

1
~
*
z ( )' z ( ) z ( ) Yt

El desarrollo prctico sera el siguiente: debemos plantear una aproximacin numrica inicial de
*

; a continuacin generar las observaciones numricas para las variables Y , z ( ) y proceder a

~
. Con

estimar el modelo (11.4) por MCO obteniendo nuevas estimaciones numricas para
ellas, calculamos de nuevo las variables

Y * z ( )
,
e iteramos el procedimiento hasta alcanzar

determinada convergencia.

Si desarrollamos la expresin de los estimadores obtenidos mediante MCO tenemos que:


1
~
*
z ( ) ' z ( ) z ( ) Yt

1
z ( ) ' z ( ) z ( ) Yt f ( X t ; ) z ( )

1
z ( ) ' z ( ) z ( ) t

(11.5.)

La expresin (11.5) proporciona de forma directa los estimadores MCO del modelo linealizado
mediante el desarrollo de Taylor, sin ms que sustituir los valores indicados y teniendo en
cuenta que

t es el residuo obtenido al sustituir en el modelo original la estimacin inicial, .

2
La estimacin del parmetro puede obtenerse de manera anloga al caso lineal tal que:

~' ~
T k

~
~
Siendo Y f ( X , )

'
Finalmente, si existe la inversa de z ( ) z ( ) podemos derivar la distribucin de probabilidad
~
del estimador que ser:

1
N , 2 z ( ) ' z ( )

Ejemplo 9.3
Si consideramos, ahora, la funcin:

y t x1t 2 x 2t u t f ( xt , ) u t
Con ( ) , cuyo gradiente es:

f ( xt , )
'
x1t 2 x 2t

Entonces:

y t* y t f ( xt , ) z () y t x1t 2 x 2t x1t 2 x 2t
y t x1t 2 x 2t x1t 2 2 x 2t y t 2 x 2t

z1 () x1t 2x 2t
Por lo que el modelo lineal a estimar resultar ser:

y t* z1 () t

(11.6)

Vamos a aplicar dicho modelo a estimar una ecuacin para los siguientes datos de la economa
espaola:

PIB(millones
de euros
moneda
constante)

1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005

342.598
368.987
381.747
406.011
447.205
473.855
503.921
539.493
579.942
630.263
680.678
729.206
782.531
840.106
905.455

Ocupados
estudios
bsicos
(miles)

10.284
9.967
9.333
9.112
9.155
9.124
9.300
9.553
9.964
10.293
10.556
10.734
11.103
11.329
11.743

Ocupados
estudios
superiores
(miles)

2.773
2.856
2.960
3.096
3.357
3.747
4.046
4.351
4.725
5.213
5.590
5.896
6.193
6.641
7.231

Partimos de un valor de 1 , y calculamos las variables transformadas:


y t* y t 2 x 2t
345.371

z1 () x1t 2x 2t
15.830

371.842
384.707
409.107
450.562
477.602
507.967
543.844
584.667
635.476
686.268
735.102
788.724
846.747
912.686

15.678
15.254
15.303
15.869
16.619
17.391
18.255
19.415
20.719
21.736
22.527
23.489
24.612
26.204

Utilizando MCO estimamos (1.5):

y t* 30,67 z1 () t
Transformamos de nuevo las variables utilizando ahora 30,67 , y estimamos de nuevo por
MCO el modelo (1.5):

y t* y t 2 x 2t

z1 () x1t 2x 2t

2.950.626
3.054.324
3.165.652
3.317.346
3.604.106
3.997.557
4.308.575
4.631.308
5.023.700
5.532.198
5.937.493
6.274.091
6.606.664
7.085.694

180.377
185.102
190.897
198.986
215.045
238.937
257.435
276.417
299.782
329.993
353.400
372.366
390.947
418.660

Obtenemos

y t* 16,81z1 () t

Seguimos iterando hasta y alcanzamos la convergencia al cabo de la quinta iteracin:


Iteracin

Diferencia

1
2
3

30,67
16,81
11,42

-13,86
-5,38

4
5

10,26
10,20

-1,16
-0,06

La ecuacin estimada sera por tanto:

y t 10, 20 x1t 10,20 2 x 2t u t

9.6.

PROBLEMAS

11.1.Suponiendo que el trmino de error del modelo no lineal:

yt 0 1e 2 xt ut
Sigue una distribucin Normal (0, 2 ), obtener la expresin analtica del algoritmo
Newton-Raphson.

11.2.Obtenga la expresin linealizada del modelo anterior aplicando el desarrollo en serie de


Taylor.

11.3 Obtenga la matriz de covarianzas de la estimacin de mxima verosimilitud del modelo


Yt 0 1 e 2 xt t es

SOLUCIONES
10.1.
T

f ( ) 2 1, e 2 xt , 1 xt e 2 xt ut
t 1

2
f ( ) 2 e 2 xt
t 1
1e 2 xt

e 2 xt
e 2 2 xt
xt e 2 xt ut 1 xt e 2 2 xt

1 xt e 2 xt
xt e 2 xt ut 1 xt e 2 2 xt
xt2 1e 2 xt ut 12 xt2e 2 2 xt

1
)
i i 1 2 f i 1 f (i 1 )

10.2.

yt* yt 2 1e 2 xt

z1t e 2 xt

z e 2 xt
2t

*
t

y 0 1 z1t 2 z 2t ut
10.3. Inversa de la matriz de informacin siguiente:

1
2 xt
e
1
2
I ( , e ) 2 1 xt e 2 xt
e
0

e 2 xt
e 2 2 xt
1 xt e2 2 xt

1 x1t e 2 xt
1 xt e2 2 xt
12 xt2e 2 2 xt

0
0

T
2 e2

10. MTODOS DE ESTIMACIN NO PARAMTRICOS

10.1. INTRODUCCIN
Se dice que se ajusta el modelo paramtrico cuando se estiman sus parmetros a partir de un
conjunto de observaciones que siguen dicho modelo, de manera que pueden hacerse
predicciones de nuevos valores de Y conocido el valor de X, y tener informacin precisa acerca
de la incertidumbre asociada a la estimacin y a la prediccin. Sin embargo, si el modelo
paramtrico no es el adecuado al analisis de datos que estamos realizando, pueden llevar a
conclusiones que queden muy alejadas de la realidad, dado que el modelo paramtrico conlleva
un grado de exactitud en las afirmaciones que de el se derivan y que son adecuadas siempre y
cuando se cumplan los supuestos bsicos sobre los que se apoya su construccin terica. De
hecho, los modelos paramtricos presentan una estructura terica tan rgida que no pueden
adaptarse a muchos conjuntos de datos de los que hoy da se disponen para el anlisis
econmico.

La econometra no paramtrica aparece como consecuencia de intentos por solucionar


problemas que existen en la econometra paramtrica como, por ejemplo, la consistencia entre
los datos y los principios de maximizacin, homocedasticidad, o la necesidad de asumir una
determinada relacin, por lo general de forma lineal entre las variables de inters. Esta
preocupacin llev a una serie de investigadores a utilizar formas funcionales flexibles para
aproximarsea relaciones desconocidas entre las variables.El plantear formas funcionales
flexibles requiere el conocimiento del valor esperado de la variable Y, condicional en las otras,
X. Esto conlleva la necesidad de estimar la funcin de densidad de Y condicional en X. La
econometra no paramtrica no parte de supuestos sobre la distribucin de probabilidad de las
variables bajo estudio, sino que trata de estimar dicha distribucin para encontrar la media
condicional y los momentos de orden superior (por ejemplo, la varianza) de la variable de
inters. Una de las desventajas de este mtodo es, sin embargo, la necesidad de contar con
muestras muy grandes si es que se desea estimar la funcin de relacin entre ambas variables de
manera precisa. Adems el tamao de la muestra debe aumentar considerablemente conforme
aumenta el nmero de variables involucradas en la relacin.

Los modelos de regresin paramtricos suponen que los datos observados provienen de
variables aleatorias cuya distribucin es conocida, salvo por la presencia de algunos parmetros
cuyo valor se desconoce.

y 0 1 x , con N 0, 2

Este es un modelo estadstico con tres parmetros desconocidos:

0 ; 1 y 2 .

Una formulacin general de un modelo de regresin paramtrico es la siguiente:

y m( xi ; ) i , i 1,..., n , p
Donde

m( xi ; ) es una funcin conocida de x y de , que es desconocido, 1 ... n es una

variable aleatoria idnticamente distribuida con


regresin lineal simple sera un caso particular con

Se supone que se observan n pares de datos

E i 0 y V i 2 . El modelo de

o , 1 y m( xi ; o , 1 ) o 1 x .

xi , yi que provienen

del siguiente modelo de

regresin no paramtrico:

y i m( x i ) i
Donde

1 ... n es una variable aleatoria idnticamente distribuida con E i 0 y V i 2 ,

y los valores de la variable explicativa

x1 ...x n son conocidos, por lo que se dice que el modelo

tiene diseo fijo, y dado que la varianza de los errores es constante el modelo es
Homocedstico 12.

Considerando

X , Y una

variable aleatoria bivariante con densidad conjunta f x, y , cabe

definir la funcin de regresin como m( x) E (Y / X x) , es decir el valor esperado de Y


cuando X toma el valor conocido

x . Entonces

E (Y / X ) m( X ) , y definiendo

Y m( X ) , se tiene que:
Y m( X ) , E ( / X ) 0 , V ( / X ) 2

12

2
Si se supone que la varianza es funcin de la variable explicativa x : V i xi , el modelo sera

Heterocedstico.

Sean

X i , Yi , i=1n, una muestra aleatoria simple de X , Y . Estos datos siguen el modelo

de regresin no paramtrico:

Yi m( X i ) i , i=1n.
Una vez establecido el modelo, el paso siguiente consiste en estimarlo (o ajustarlo) a partir de

( x ) de la funcin de
las n observaciones disponibles. Es decir hay que construir un estimador m
2

regresin y un estimador de la varianza del error. Los procedimientos de estimacin de

m(x ) se conocen como mtodos de suavizado.


El abanico de tcnicas disponibles para estimar no paramtricamente la funcin de regresin es
amplsimo e incluye, entre otras, las siguientes:

Ajuste local de modelos paramtricos. Se basa en hacer varios (o incluso infinitos,


desde un punto de vista terico) ajustes paramtricos teniendo en cuenta nicamente los
datos cercanos al punto donde se desea estimar la funcin.

Suavizado mediante splines. Se plantea el problema de buscar la funcin m( x) que


minimiza la suma de los cuadrados de los errores (

ei y i m ( xi ) ) ms un trmino

( x ) ) candidatas (en trminos de la


que penaliza la falta de suavidad de las funciones m
integral del cuadrado de su derivada segunda).

Mtodos basados en series ortogonales de funciones. Se elige una base ortonormal del
espacio vectorial de funciones y se estiman los coeficientes del desarrollo en esa base
de la funcin de regresin. Los ajustes por series de Fourier y mediante wavelets son los
dos enfoques ms utilizados.

Tcnicas de aprendizaje supervisado. Las redes neuronales, los k vecinos ms cercanos


y los rboles de regresin se usan habitualmente para estimar m(x ) .

10.2. FUNCIN NUCLEO


Los histogramas son siempre, por naturaleza, funciones discontinuas; sin embargo, en muchos
casos es razonable suponer que la funcin e densidad de la variable que se est estimando es
continua. En este sentido, los histogramas son estimadores insatisfactorios. Los histogramas
tampoco son adecuados para estimar las modas, a lo sumo, pueden proporcionar intervalos

modales", y al ser funciones constantes a trozos, su primera derivada es cero en casi todo punto,
lo que les hace completamente inadecuados para estimar la derivada de la funcin de densidad.

Los estimadores de tipo ncleo (o kernel) fueron diseados para superar estas dificultades. La
idea original es bastante antigua y se remonta a los trabajos de Rosenblatt y Parzen en los aos
50 y primeros 60. Los estimadores kernel son, sin duda, los ms utilizados y mejor estudiados
en la teora no paramtrica.

Dada una m.a.s.

X 1 ... X n con densidad f , estimamos dicha densidad en un punto t por medio

del estimador

1 n t Xi
f t

K
nh i 1 h
donde h es una sucesin de parmetros de suavizado, llamados ventanas o amplitudes de banda
(windows, bandwidths) que deben tender a cero lentamente" ( h 0 , nh ) para poder

X
asegurar que f tiende a la verdadera densidad f de las variables i y K es una funcin que
cumple

K 1 . Por ejemplo:
Ncleo gaussiano

1
2

u2
2

Ncleo Epanechnikov 13

3
1 u 2 I u 1
4

donde I u 1 es la funcin que vale 1 si u 1 y 0 si u 1

13

Otra expresin alternativa de la funcin ncleo de Epanechnikov es:

3 1 2
1 u I
4 5 u
donde I u

es la funcin que vale

1
5

si u 5 y 0 si u 5

Ncleo Triangular

1 u I

u 1

Ncleo Uniforme

1
I
2 u 1

Ncleo Biweight

15
1 u 2 I u 1
16

Ncleo Triweight

35
1 u 2 I u 1
32

Para elegir la ventana h puede seguirse la siguiente regla14


1
3 1
h K 10 s n n 5
8

Donde

n es el tamao de la muestra
1 n
2
s n X i X
n i 1

K depende del ncleo K, y se calcula como:


1

K t dt
K
u 2 K t dt

Por ejemplo:
1
10

1
K
4
Si K es el ncleo gaussiano, entonces

Si K es el ncleo Epanechnikov, entonces K 15

Ejemplo 10.1
Nuestra muestra

X 1 ...X 10 es:

2,1 2,6 1,9 4,5 0,7 4,6 5,4 2,9 5,4 0,2

14

Por lo general, los programs informticos eligen el ancho de ventana siguiendo criterios de
optimizacin (error cuadrtico medio.

Su desviacin tpica es s n 1,779 , utilizando una funcin ncleo de Gaussiana, la ventana h


ser:

1
h

1
10

1
3 1
10 1,779 10 5 0.366
8

Hacemos una grilla para t que va desde -2 a 8 con puntos semi-espaciados:


t
-2
-1,166666667
-0,333333333
0,5
1,333333333
2,166666667
3
3,833333333
4,666666667
5,5
6,333333333
7,166666667
8

tj Xi
K
t
h
Para cada j calculamos
t

-2,0000
-1,1667
-0,3333
0,5000
1,3333
2,1667
3,0000
3,8333
4,6667
5,5000
6,3333
7,1667
8,0000

t X1
K j

t j X2

K
h

tj X3
K
h

tj X4
K
h

0,0000
0,0000
0,0000
0,0000
0,0447
0,3924
0,0195
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000
0,0010
0,1982
0,2198
0,0014
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0003
0,1206
0,3061
0,0044
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0001
0,0762
0,3597
0,0096
0,0000
0,0000
0,0000

Para cada

tj

t j X5
K

tj X6
K
h

0,0000
0,0000
0,0075
0,3437
0,0896
0,0001
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0447
0,3924
0,0195
0,0000
0,0000
0,0000

se obtiene la estimacin de f :

1 n t Xi
f t
:
K
nh i 1 h

f(t)

t j X7
K

tj X8
K
h

0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0538
0,3844
0,0156
0,0000
0,0000

0,0000
0,0000
0,0000
0,0000
0,0000
0,0538
0,3844
0,0156
0,0000
0,0000
0,0000
0,0000
0,0000

t j X9

t j X 10

0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0538
0,3844
0,0156
0,0000
0,0000

0,0000
0,0004
0,1383
0,2853
0,0033
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000
0,0000

0,0000
0,0004
0,1458
0,6293
0,2593
0,9507
0,6282
0,1379
0,8598
0,7979
0,0311
0,0000
0,0000

n
i 1

tj Xi

-2
-1,166666667
-0,333333333
0,5
1,333333333
2,166666667
3
3,833333333
4,666666667
5,5
6,333333333
7,166666667
8

0
0
0,052488651
0,166657681
0,09328713
0,257268921
0,161036178
0,039861562
0,214170733
0,182116814
0
0
0

En la figura 10.1 se representa la funcin de desnidad estimada y la que se obtiene con un h 1 :


0,3
0,25
0,2
0,15
0,1
0,05
0
-2

-1,2 -0,3 0,5 1,33 2,17

h=0.36

3,83 4,67 5,5 6,33 7,17

h=1

Figura 10.1.

Ejemplo 10.2
En R la estimacin de una funcin de densidad kernel se realiza con la funcin density, con
los datos del ejemplo 10.1 hay que realizar el siguiente programa:
> x <- c(2.1,2.6,1.9,4.5,0.7,4.6,5.4,2.9,5.4,0.2)

> density(x,kernel="epanechnikov")

Call:
density.default(x = x, kernel = "epanechnikov")
Data: x (10 obs.);
x
Min.
:-2.99424
1st Qu.:-0.09712
Median : 2.80000
Mean
: 2.80000
3rd Qu.: 5.69712
Max.
: 8.59424

Bandwidth 'bw' = 1.065


y
Min.
:0.00000
1st Qu.:0.02366
Median :0.09427
Mean
:0.08621
3rd Qu.:0.15245
Max.
:0.16948

> plot(density(x,kernel="epanechnikov"))

Figura 10.2

10.3. ESTIMADORES DE FUNCIN NUCLEO Y POLINOMIOS


LOCALES
La alternativa no paramtrica a los modelos de regresin, supone que

Y m( X ) e
donde m es una funcin que no se supone confinada" dentro de una familia paramtrica. Se

X n , Yn .
trata de estimar m a partir de una muestra X 1 ,Y1 ;
Los estimadores ncleo establecen que el peso de

X i , Yi

en la estimacin de m es

1 t Xi
K

h h
Wi (t , X i )
f (t )

donde K(t) es una funcin de densidad simtrica (por ejemplo, la normal estndar) y

f (t ) es un estimador kernel de la densidad como el definido en el apartado anterior.


Wi (t , X i ) es, para cada i, una funcin de ponderacin que da mayor importancia" a los valores
X i de la variable auxiliar que estn cercanos a t.

Una expresin alternativa para

Wi (t , X i )

t Xi
K

Wi (t , X i ) n
t Xi
K

h
j 1

A partir de los pesos

Wi puede resolverse el problema de mnimos cuadrados ponderados

siguiente:
n

min Wi Yi a bt X i
a ,b

i 1

los parmetros as obtenidos dependen de t, porque los pesos

Wi tambin dependen de t, la recta

de regresin localmente ajustada alrededor de t sera :

lt ( X ) a(t ) b(t )(t X )


Y la estimacin de la funcin en el punto en donde X t

m (t ) l t (t ) a (t )
Las funciones ncleo usadas en la estimacin no paramtrica de la regresin son las mismas que
en la densidad.

Si se generaliza al ajuste local de regresiones polinmicas de mayor grado, es decir si


pretendemos estimar una forma lineal del tipo:

0 1 X 2 X 2 ... q X q

con la salvedad de que en vez del valor

t X i .

X i en la regresin lineal mltiple se utiliza el valor

W
El estimador de polinomios locales de grado q asignado los pesos i obtenidos

mediante la funcin ncleo se resuelve el siguiente problema de regresin polinmica


ponderada:

min Wi Yi 0 1 t X i ... q t X i

0 .. q

i 1

Los parmetros

j j t

dependen del punto t en donde se realiza la estimacin, y el

polinomio ajustado localmente alrededor de t sera:


q

j
Pq ,t t X j t X
j 0

Siendo m(t ) el valor de dicho polinomio estimado en el punto en donde X t :

m q t Pq ,t 0 o t

En el caso particular del ajuste de un polinomio de grado cero, se obtiene el estimador de


Nadaraya Watson, o estimador ncleo de la regresin:

t Xi
Yi
n
h
i 1
m K (t ) n
W t , X i Yi
t Xi
i 1
K

i 1

Ejemplo 10.3
Disponemos del siguiente conjunto de datos relativos a 163 personas con su edad y su ndice de
masa corporal (relacin entre peso y altura):

Indice de masa corporal

45
40
35
30
25
20
15
10
5
0
0

20

40

60

80

100

Edad

Figura 10.3.

Se va a obtener el estimador ncleo de la regresin:


n

t Xi
Yi
h
i 1
m K (t ) n
t Xi
K

h
i 1

Donde

X i es la edad de cada individuo e Yi su masa corporal, va ha utilizarse una funcin

ncleo de Epanechnikov, cuyo ancho de ventana sera:

1
1
1
1
3 1
3 1
h 15 5 10 s n n 5 15 5 10 16,14 162 5 4,22
8
8

t Xi
K
h
Para cada edad ( t ) calculamos
t

t X1
K

t X2
K

t X3
K

t X4
K

t X5
K

t Xi
K

t X 159
K

t X 160
K

t X 161
K

t X 162
K

16

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

tj Xi

h
1,228967175

17

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0753208

0,0000000

0,0000000

0,0000000

2,298278625

18

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,3704930

0,0000000

0,0000000

0,0000000

3,689804416

19

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,5813302

0,0000000

0,0000000

0,0000000

4,490985932

0,0000000

0,0753208

0,0000000

0,0000000

0,0000000

..

0,7078326

0,0000000

0,0000000

0,0000000

4,777144002

20
21

0,0000000

0,3704930

0,0000000

0,0000000

0,0000000

..

0,7500000

0,0000000

0,0000000

0,0000000

4,768129934

..

..

..

..

..

..

..

..

..

..

..

..

85

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

3,19280911

86

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

2,48497655

87

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

1,73497655

88

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

1,027144

89

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

0,44581379

90

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

0,07532083

K
i 1

t Xi
K
Yi
Para cada edad ( t ) calculamos h :
t

t Xi
Yi
h

t X1
K
Y1
h

t X2
K
Y2
h

t X3
K
Y3
h

t X4
K
Y4
h

t X5
K
Y5
h

t Xi
K
Yi
h

t X 159
K
Y159
h

t X160
K
Y160
h

t X 161
Y161
K
h

t X 162
K
Y162
h

16

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

24,1149969

17

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

2,05894306

0,0000000

0,0000000

0,0000000

47,590736

18

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

10,1276624

0,0000000

0,0000000

0,0000000

78,5234969

19

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

15,8910333

0,0000000

0,0000000

0,0000000

96,7487803

i 1

0,0000000

1,32020961

0,0000000

0,0000000

0,0000000

..

19,3490559

0,0000000

0,0000000

0,0000000

103,586796

20
21

0,0000000

6,49393249

0,0000000

0,0000000

0,0000000

..

20,5017301

0,0000000

0,0000000

0,0000000

103,037148

..

..

..

..

..

..

..

..

..

..

..

..

85

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

90,1696692

86

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

69,1207607

87

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

48,0097761

88

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

29,5521528

89

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

14,3394414

90

0,0000000

0,0000000

0,0000000

0,0000000

0,0000000

..

0,0000000

0,0000000

0,0000000

0,0000000

2,60213476

( x ) obtenido:
En la figura siguiente se representa el estimador m

Indice de masa corporal

45
40
35
30
25
20
15
10
5
0
0

20

40

60
Edad

Figura 10.4.

Ejemplo 10.4

80

100

Utiliando la base de datos cars de R, que contine las variables dist (distancia de parada) y
speed(velocidad), vamos a realizar la representacin grfica de la regresin kernel realizada
con el estimador de NadarayaWatson.
> data(cars)
> plot(cars$speed, cars$dist)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 2), col =
2)
> lines(ksmooth(cars$speed, cars$dist, "normal", bandwidth = 5), col =
3)

Figura 10.4

Definida la matriz

.
Xt
.
1

t X 1
.
.
t X n

...
...
...
...

Y definidos los vectores


pesos

Wt

t X 1 q

t X n q

Y Y1 ...Yn , 1 ... n , 0 ... q . Se calcula la matriz de

0
W1 X 1 , t

0.
W2 X 2 , t

Wt
.
.

0
0

...
0

...
0

...
0

... Wn X n , t

Habra que estimar por mnimos cuadrados generalizados el modelo Y X , cuya


solucin es:
1
(t ) X t'Wt X t X t'Wt Y

Pueden tomar los pesos:

t Xi
K

Wi (t , X i ) n
t Xi
K

h
j 1
o

t Xi
Wi (t , X i ) K

h
Ejemplo 10.5
Utilizando los datos de edades e ndices de masas corporales, se ha realizado un ejercicio para
obtener un estimador de polinomio local a una funcin ncleo de ncleo de Epanechnikov, si se
desea obtener el estimador para una edad de 65 aos (t=65); la matriz X 65 quedara:

Los pesos

Constante

(65 X i )

(65 X i ) 2

1
1
1
1
1
1
.
1
1

-1
41
19
20
11
-17
.
5
13

1
1681
361
400
121
289
.
25
169

1
1
1
1

33
34
3
38

1089
1156
9
1444

Wi (65, X i ) seran:
Wi (65, X i )
0,70783255
0
0
0
0
0
.
0
0
0
0
0
0

La matriz

'
65

'
X 65
W65 X 65 quedara

X W65 X 65

2,669 0,347 11,896


0,347 11,896 .6,044
11,896 6,044 117,855

(65) X ' W X 1 X ' W Y

65 65
65
65 65 :
Y el estimador
22,196
(65) 0,255
0,321

Es estimador del indice de masa corporal

para la edad de 65 aos sera:

m 2 65 o 65 22,196
El estimador del parmetro de suavizado h tiene una importancia crucial en el aspecto y
propiedades del estimador de funcin de regresin. Valores pequeos de h dan mayor
flexibilidad al estimador y le permiten acercarse a todos los datos observados, pero originan
altos errores de prediccin (sobre-estimacin), valores mas altos de h ofrecern un menor grado
de ajustes a los datos pero predicican mejor, pero si h es demasiado elevado tendremos una falta
de ajuste a los datos (sub-estimacin).

Si la cantidad de datos de que disponemos lo permite, lo habitual es obtener dos muestras una
para la estimacin del modelo (muestra de entrenamiento) y otra muestra para predecir (muestra
de test). En este caso una medida de calidad del parametro h de suavizado es el error cuadrtico
medio de la poblacin de la muestra de test:

ECMPtest (h)

Donde

i ,t

1
nt

nt

i ,t

m X i ,t

i 1

, Yi ,t i 1...nt
X es el estimador no paramtrico
,
, es la muestra test y m

construido con la muestra de entrenamiento. El valor h que minimice dicho error sera el
parmetro de suavizacin elegido.

Si no de puede disponer de una muestra de test, la alternativa consiste en sacar de la muestra


consecutivamente cada una de las observaciones

X i , y estimar el modelo con los restantes

datos y predecir el dato ausente con el estimador obtenido, para despus calcular el error de
prediccin. Se construye entonces la siguiente medida del error de prediccin (validacin
cruzada) para cada h:

ECMPCV (h)
Donde

1 n
Yi m i X i 2

n i 1

m i X es el estimador obtenido al excluir la observacin i-esima.

El valor h que minimice dicho error de validacin cruzada sera el parmetro de suavizacin
elegido.
Teniendo presente que el valor que predecimos Yi no deja de ser una combinacin lineal de los
valores observados:

1
Y X X t X t'Wt X t X t'Wt Y SY

Siendo S X t X t'Wt X t
se nombra

s ij

X t'Wt , matriz que se denomina de suavizado cuyo elemento i, j

Dado que:

1 n Yi Yi
ECMPCV (h)
n i 1 1 s ii

no es necesario ajustar las n regresiones no paramtricas, sino que vasta con evaluar todos los
datos y anotar los valores de la diagonal principal de la matriz S .

Una modificacin de la funcin anterior (Validacin cruzada generalizada) permite obtener un


estimador de la varianza de los errores del modelo:

1 Yi Yi
ECMPGCV (h)
n i 1 1 v
n

Donde

v Traza S s ii
i 1

Entonces:

ECMPGCV (h)

n 2
nv

1 n
Yi Yi
n v i 1

10.4. REGRESIN POR SPLINES


Para poder estimar la funcin f de la forma ms sencilla posible, deberamos poder representar

f de forma que Yi f ( xi ) ei , ei 1, 2...., n se convierta en un modelo lineal.

Y esto se puede hacer eligiendo una base de funciones de dimensin q que genere un
subespacio de funciones que incluya a f como elemento y que pueda expresarse como:
q

f ( x) j s j x
j 1

Siendo

s (x)
un parmetro desconocido, asociado al elemento j , j
de dicha base de

funciones.
De manera que:
q

Yi j s j x ei , ei 1, 2...., n

(10.1.)

j 1

Se convierte en un modelo lineal de dimensin q .


La regresin con funciones base polinmicas es la propuesta ms sencilla para este tipo de
estimaciones.

Supongamos que f es un polinomio de grado 4 de forma que el espacio de polinomios de


grado 4 contiene a f . Una base de este subespacio es:

s1 ( x) 1

s 2 ( x ) x

2
s 3 ( x ) x

3
s 4 ( x ) x
s 5 ( x) x 4
Con lo que el modelo (10.1) se convierte en:

Yi 1 2 xi 3 xi2 4 x i3 5 xi4 ei
Un spline es una curva diferenciable definida en porciones mediante polinomios, que se utiliza
como bases de funciones para aproximar curvas con formas complicadas.

Las bases de spilines ms populares:

Bases de polinomios truncados.

Bases de splines cbicos.

Bases de B-splines.

Bases de thin plate splines.

Una funcin spline est formada por varios polinomios, cada uno definido sobre un
subintervalo, que se unen entre s obedeciendo a ciertas condiciones de continuidad.
Supongamos que se ha fijado un entero q 0 , de manera que disponemos de q+1 puntos, a
los que denominaremos nodos, tales que

t 0 t1 t 2 .... t q

, en los que troceamos nuestro

t , t ,...., t q
conjunto de. Decimos entonces que una funcin spline de grado q con nodos en 1 2
es
una funcin S que satisface las condiciones:
(i) en cada intervalo

j 1

,t j

, S es un polinomio de grado menor o igual a q .

(ii) S tiene una derivada de orden (q-1) continua en

t , t .
o

Los splines de grado 0 son funciones constantes por zonas. La expresin matemtica de un
spline de grado 0 es la siguiente:

S o ( x ) c o x t 0 , t1

S ( x )S j ( x) c j x t j , t j 1
..

S q 1 ( x ) c q 1 x t q 1 , t q

En la figura 10.3 se muestran las grficas correspondientes a los splines de grado cero.

Figura 10.3.

Los splines de grado 0, se define en un solo tramo de nudo y ni siquiera es continua en los
nudos. Equivale a realizar una regresin por tramos.

Yi o c 0 xi 1c1 xi .... q1c q1 xi ei


siendo

1 x t j , t j 1
cj
0 resto

Un spline de grado 1 o lineal se puede definir por:

S o ( x ) a o x bo x t 0 , t1

S ( x )S j ( x) a j x b j x t j , t j 1
..

S q 1 ( x ) a q 1 x bq 1 x t q 1 , t q

La representacin grfica de un spline lineal aparece en la figura 10.4:

Figura 10.4.

Las funciones de spilines ms comnmente utilizadas son las de grado 3 cbicas. Son
polinomios de grado tres a trozos, que son continuos en los nodos al igual que su primera y
segunda derivada, proporcionando proporciona un excelente ajuste a los puntos tabulados y a
travs de clculo que no es excesivamente complejo.
Sobre cada intervalo

t o , t1 , t1 , t 2 ,..., t q 1 , t q , S est

definido por un polinomio cbico

diferente. Si el polinomio cbico que representa a b en el intervalo

t , t , por tanto:
j

j 1


3
3
S o ( x ) a o x bo x co x d o x t 0 , t1

3
2
S ( x )S j ( x) a j x b j x c j x d j x t j , t j 1
..

3
3
S q 1 ( x ) a q 1 x bq 1 x c q 1 x d q1 x t q 1 , t q

S j 1

Los polinomios

Sj

interpolan el mismo valor en el punto

tj

, es decir, se cumple:

S j 1 xi y i S j xi
por lo que se garantiza que S es continuo en todo el intervalo. Adems, se supone que S' y S''
son continuas, condicin que se emplea en la deduccin de una expresin para la funcin del
spline cbico.
Aplicando las condiciones de continuidad del spline S y de las derivadas primera S' y
segunda S'', es posible encontrar la expresin analtica del spline.

x*
Una de las bases de splines cbicos ms utilizadas basadas en q 2 nodos interiores, j ,
j 1,..., q 2 , es:
S o ( x ) 1

S ( x ) S 1 ( x ) x

*
S j 2 ( x ) R ( x , x j )
Siendo

2
2
4
2

R ( x, z ) 1 z 1
1 x 1
1 1 xz 1
1 xz 1
7
4
2
12
2
12
24
2
2
2
240

Con esta base de splines definimos f a travs de un modelo lineal con matriz de regresores X
con n filas y q columnas cuya i_esima fila es:

X i 1, x i , R xi , x1* , R xi , x 2* ,..., R xi , x k*2

Los elementos de una base de splines cbicos son polinomios de grado 3. Un Spline cbico se
representa en la figura 10.5

Figura 10.5.

Ejemplo 10.5
Se va a aproximar la funcin representada con la siguiente tabla de datos:

Y
2
4
5
3
2
6

X
0,1
0,2
0,4
0,5
0,7
0,9

Una Base de splines cbicos basada en 2 nodos interiores,

x1* 13 x1* 2 3
y
,

Con lo que el modelo lineal ser

Yi 1 2 xi 3 R xi , 1 3 4 R xi , 2 / 3 ei
La expresin general de la matriz de los regresores X ser:

1
X
1
1

0.1
0.2
0.4
0. 5
0.7
0.9

R 0.1, 1
3
R 0.2, 1
3
R 0.4, 1
3
1
R 0.5,
3
1
R 0.7,
3
1
R 0.9,
3

R 0.1, 2
3
R 0.2, 2
3
R 0.4, 2
3
2
R 0.5,
3
2
R 0. 7,
3
2
R 0.9,
3

Que da como resultado:

1
1

1
X
1
1

0.1 - 0,001009311
0.2 0,000739918
0.4 0,002246091
0.5 0,001742541
0.7 - 0,000256224
0.9 - 0,002188323

- 0,00218832
- 0,00128477
0,000813992

0,001742541
0,001947479

- 0,00100931

De forma que los coeficientes MCO obtendidos:

Coeficiente
s

Error tpico

Estadstico t

Probabilida
d

Inferior
95%

Superior
95%

Intercepci
n
x

-1,28441535

0,463139089

-2,7732821

0,1091437

-3,27714201

0,70831132

9,92100052

0,890608598

11,13957416

0,00796254

6,08902101

13,75298

3
R x , 2
3

1541,86453

168,4360681

9,154004551

0,01172431

817,142626

2266,58644

-1745,47096

171,1229452

-10,2000989

0,00947511

-2481,75357

-1009,18835

R xi , 1
i

Dan como resultado la siguiente estimacin:

7
6
5
4

y-estimada

2
1
0
0

0,2

0,4

0,6

0,8

Figura 10.6.

Un tema importante es la eleccin del grado de suavizacin del spline. Una de las posibilidades
es a travs del contraste de hiptesis, valorar la posibilidad de utilizar uno o ms nodos. Pero lo
aconsejado es mantener fija la base de splines y controlar el grado de suavizacin aadiendo una
penalizacin a la funcin objetivo de mnimos cuadrados:

' S
Donde S es una matriz de orden q q con coeficientes conocidos que dependen de la base
elegida y un parmetro de suavizado .
La solucin del modelo de regresin lineal penalizado en donde la matriz de regresores est
ahora definida por la base de splines y la penalizacin sera:
1
penal X ' X S X ' y

El modelo de regresin lineal con spilines penalizados es equivalente al siguiente modelo de


regresin lineal:

Y ' X ' e
'
En donde Y (Y ,0,0...0)' es un vector de dimensin ( n q) 1 , es decir el vector Y seguido

de tantos ceros como nodos se han utilizado en la base de splines.

X
X '

B tiene ahora orden (n q) q , siendo B una matriz que


La matriz de regresores
cumple S B ' B y que se obtiene a travs de la descomposicin de Cholesky y el parmetro
de suavizado y e un vector de ( n q) 1 errores aleatorios.

Ejemplo 10.6
En el modelo anterior, el modelo de regresin lineal equivalente al penalizado se construira
con:

2
4

5

3
2
Y '
6
0

0
0

0

1
1

1
X '
1

0
0

R 0.1, 1
3
1
R 0.2,
3
1
R 0.4,
3
1
R 0.5,
3
1
R 0.7,
3
R 0.9, 1
3
0
0
R 1 , 1
3 3
2
R
,1
3 3

0.1
0.2
0.4
0. 5
0. 7
0.9
0
0
0

R 0.1, 2
3
2
R 0.2,
3
2
R 0.4,
3
2
R 0.5,
3
2
R 0.7,
3
R 0.9, 2
3
0
0
R 1 , 2
3 3
2
R
,2
3 3

La matriz de penalizacin es por tanto

0
0
S
0

0
0
0
0
1
0 R
,1
3 3
0 R2 ,1
3 3

0
0
1
R
,2
3 3
R 2 ,2
3 3

0

0
0

0

0
0
0

0
0
0

0 0,00216049 0,000102881

0 0,000102881 0,00216049

El parmetro de suavizacin, , es a priori desconocido y hay que determinarlo, si es muy alto


suaviza los datos en exceso, un criterio utilizado para elegir el parmetro es del valor que
minimiza el estadstico general de validacin cruzada:

vg

n y X X ' X S X ' y ' y X X ' X S X ' y

traza I X X ' X S X '

La regresin por splines puede realizarse con mltiples variables explicativas, si tenemos ahora
dos explicativas,

xi y z i , y queremos estimar el siguiente modelo aditivo:

y i f1 ( xi ) f 2 ( z i ) ei
Representaramos cada una de estas dos funciones a travs de una base de splines penalizados,
que tomando la base cbica quedara:

q 2

f1 ( x ) 1 2 xi R xi , x *j
j 1

y
q2

f 2 ( z ) 1 2 z i R z i , z *j
j 1

Ejemplo 10.7
Partiendo de la base de datos cars utilizada en el ejemplo 10.4, la funcin R smooth.spline
realiza la regresin por splines utilizando una base de splinee cbicos penalizados:
> plot(speed, dist, main = "data(cars)

&

smoothing splines")

> cars.spl1 <- smooth.spline(speed, dist)


> cars.spl1
Call:
smooth.spline(x = speed, y = dist)
Smoothing Parameter spar= 0.7801305 lambda= 0.1112206 (11
iterations)
Equivalent Degrees of Freedom (Df): 2.635278
Penalized Criterion: 4187.776
GCV: 244.1044

En la funcin smooth.spline el parmetro de suavizado es un valor generalmente entre 0 y 1,


en tanto que el coeficiente que denomina se obtiene en el criterio de aceptacin (logaritmo de
verosimilitud penalizado) . En el ejercicio el programa elige un spar 0,7801305 . Si se desea
un funcin menos suavizada habr que elegir un parmetro de suavizado ms bajo, en linea roja
se representa en el grfico la regresin por splines que se obtendra con un parmetro de
suavizado de valor 0,10.
> cars.spl2 <- smooth.spline(speed, dist,spar=0.10)
> lines(cars.spl1, col = "blue")
> lines(cars.spl2, col = "red")

10.5. APROXIMACIN POR SERIES DE FOURIER

La forma de Fourier permite aproximar arbitrariamente cerca tanto a la funcin como a sus
derivadas sobre todo el dominio de definicin de las mismas. La idea que subyace en este tipo
de aproximaciones (que podran denominarse semi-no-paramtricas) es ampliar el orden de la
base de expansin, cuando el tamao de la muestra aumenta, hasta conseguir la convergencia
asinttica de la funcin aproximante a la verdadera funcin generadora de los datos y a sus
derivadas (Gallant, A.R.;1981,1984).

Un polinomio de Fourier viene dado por la expresin:

a k
u j cos jwo t v j sin jwo t
2 j 1
Donde k es el nmero de ciclos tericos o armnicos que consideramos, siendo el mximo n/2.

w0

2
es la frecuencia fundamental (tambin denominada frecuencia angular fundamental).
n

t toma los valores enteros comprendidos entre 1 y n (es decir, t = 1, 2, 3, ...n).

Los coeficientes de los armnicos vienen dados por las expresiones:

a 2 n
2 n
2 n
y i , u j y i cosw0 t i j , v j y i sin wo t i j
2 n i 1
n i 1
n i 1
La aproximacin a una funcin no peridica g (x) por una serie de expansin de Fourier se
realiza en Gallart (1981) aadiendo es esta un trmino lineal y cuadrtico. De esta forma que la
aproximacin univariada se escribe como:
J
1
g x / a bx cx 2 u j cos jx v j s sin jx
2
j 1

(10.2.)

El vector de parmetros es a, b, c, u1v1 ,..., u J , v J de longitud K 3 2 J .


Suponiendo que los datos siguieran el modelo y i g ( xi ) ei para i=1,2,,n estimariamos
por mnimos cuadrados, minimizando
n

n y g

s n 1

xi / 2

i 1

Dado que la variable exgena xi no esta expresada en forma peridica, debe de transformase o
normalizarse en un intervalo de longitud menor que 2 , 0,2 .

Considerando 0 la solucin al problema de minimizacin anterior, podramos obtener


diferentes soluciones minimocuadrticas para g (x) , considerando diferentes valores de n y K y
elegir aquel de ellos que mejor aproxime, g (x ) , ( d / dx) g ( x) , y ( d 2 / dx 2 ) g ( x ) .

La expresin de la primera y segunda derivada de la funcin (10.2) son las siguientes:

D x g x / b cx u j sin jx v j cos jx j
j 1

D x2 g x / c u j cos jx v j sen jx j 2
j 1

La aproximacin multivariada se describe:

g x / u o b' x
A

Donde C

0a

1
x' Cx u 0a 2 u ja cos jka' x v ja sin jka' x
2
a 1

k a k a' . La regla de formacin de la secuencia ka est dada en Gallant

a 1

(1981) y en Gallant (1982) para diferentes sistemas.

Ejemplo 10.7
Vamos a estimar una forma de flexibilidad global para el PIB trimestral de Espaa, en ndices
de volumen ajustados a estacinalidad y calendario, y utilizando como regresor los puestos de
trabajo equivalentes a tiempo completo, todas las series estn obtenidas de la Contabilidad
Nacional Trimestral de Espaa del INE. Base 2000. Datos corregidos de estacionalidad y
calendario.

1995TI

Puestos de trabajo equivalentes a tiempo completo


12974

Producto interior bruto

1995TII

13027

81,62

1995TIII

13043

81,85

81,35

13036

82,28

1995TIV
1996TI

13021

82,75

1996TII

13123

83,44

1996TIII

13310

84,14

13358

84,68

1996TIV
1997TI

13458

85,57

1997TII

13630

86,36

1997TIII

13756

87,35

13828

88,69

1997TIV
1998TI

13974

89,5

1998TII

14186

90,35

1998TIII

14391

91,43

14481

92,24

1998TIV
1999TI

14655

93,14

1999TII

14869

94,56

1999TIII

15026

95,99

15132

97,08

1999TIV
2000TI

15360

98,56

2000TII

15592

99,65

2000TIII

15867

100,36

15859

101,44

2000TIV
2001TI

15972

102,51

2001TII

16106

103,17

2001TIII

16290

104,12

16333

104,79

2001TIV
2002TI

16354

105,25

2002TII

16530

106,14

2002TIII

16702

106,79

16608

107,62

2002TIV
2003TI

16763

108,61

2003TII

16871

109,33

2003TIII

17108

110,02

17053

111,03

2003TIV
2004TI

17230

111,81

2004TII

17291

112,71

2004TIII

17574

114,01

17524

114,8

2004TIV
2005TI

17646

115,85

2005TII

17874

116,93

2005TIII

18225

117,93

18136

119,02

2005TIV
2006TI

18280

120,14

2006TII

18493

121,41

2006TIII

18702

122,48

18692

123,83

2006TIV
2007TI

18887

125,04

2007TII

19080

126,21

2007TIII

19253

127,13

19148

128,14

2007TIV

Fuente: Contabilidad Nacional de Espaa. INE

La aproximacin utilizada es la descrita en (10.2) con la variable dependiente transformada en


un intervalo menor a 2 utilizando la siguiente funcin de transformacin x

2 X
. En la
max( X )

ecuacin se utilizan 7 parmetros, la constante, el asociado x , el asociado a x

2 y los

parmetros asociados a los dos primeros armnicos. El resultado de la estimacin mnimo


cuadrtica de (10.2) aparecen en la tabla adjunta:

x2

COS (x)

SENO(x)

COS(2x)

SENO(2x)

g x /

4,2340

17,9271

-0,4603

-0,8878

-0,5762

0,8173

81,645

4,2513

18,0739

-0,4449

-0,8956

-0,6042

0,7969

82,087

4,2566

18,1183

-0,4402

-0,8979

-0,6124

0,7905

82,220

4,2543

18,0989

-0,4423

-0,8969

-0,6088

0,7933

82,162

4,2494

18,0572

-0,4466

-0,8947

-0,6010

0,7992

82,038

4,2827

18,3413

-0,4166

-0,9091

-0,6529

0,7575

82,875

4,3437

18,8677

-0,3604

-0,9328

-0,7402

0,6724

84,356

4,3594

19,0040

-0,3457

-0,9383

-0,7609

0,6488

84,725

4,3920

19,2896

-0,3149

-0,9491

-0,8016

0,5978

85,480

4,4481

19,7858

-0,2612

-0,9653

-0,8636

0,5043

86,735

4,4892

20,1534

-0,2213

-0,9752

-0,9021

0,4316

87,622

4,5127

20,3649

-0,1983

-0,9801

-0,9213

0,3888

88,118

4,5604

20,7972

-0,1514

-0,9885

-0,9541

0,2993

89,101

4,6296

21,4330

-0,0827

-0,9966

-0,9863

0,1649

90,486

4,6965

22,0569

-0,0159

-0,9999

-0,9995

0,0318

91,790

4,7259

22,3337

0,0135

-0,9999

-0,9996

-0,0269

92,357

4,7826

22,8736

0,0702

-0,9975

-0,9901

-0,1400

93,446

4,8525

23,5465

0,1396

-0,9902

-0,9610

-0,2765

94,789

4,9037

24,0464

0,1902

-0,9818

-0,9277

-0,3734

95,785

4,9383

24,3868

0,2240

-0,9746

-0,8996

-0,4366

96,466

5,0127

25,1273

0,2958

-0,9552

-0,8250

-0,5652

97,958

5,0884

25,8921

0,3672

-0,9301

-0,7303

-0,6832

99,525

5,1782

26,8134

0,4491

-0,8935

-0,5966

-0,8026

101,453

5,1756

26,7864

0,4468

-0,8946

-0,6008

-0,7994

101,396

5,2124

27,1695

0,4795

-0,8776

-0,5402

-0,8415

102,210

5,2562

27,6273

0,5174

-0,8558

-0,4647

-0,8855

103,191

5,3162

28,2621

0,5678

-0,8232

-0,3552

-0,9348

104,566

5,3302

28,4115

0,5793

-0,8151

-0,3288

-0,9444

104,891

5,3371

28,4847

0,5849

-0,8111

-0,3159

-0,9488

105,050

5,3945

29,1010

0,6305

-0,7762

-0,2050

-0,9788

106,397

5,4507

29,7098

0,6730

-0,7396

-0,0941

-0,9956

107,730

5,4200

29,3763

0,6500

-0,7599

-0,1550

-0,9879

107,000

5,4706

29,9272

0,6876

-0,7261

-0,0544

-0,9985

108,206

5,5058

30,3141

0,7128

-0,7014

0,0161

-0,9999

109,050

5,5832

31,1718

0,7648

-0,6442

0,1699

-0,9855

110,909

5,5652

30,9717

0,7531

-0,6579

0,1345

-0,9909

110,477

5,6230

31,6179

0,7899

-0,6133

0,2478

-0,9688

111,864

5,6429

31,8422

0,8019

-0,5974

0,2861

-0,9582

112,341

5,7352

32,8931

0,8536

-0,5209

0,4573

-0,8893

114,538

5,7189

32,7061

0,8450

-0,5348

0,4280

-0,9038

114,152

5,7587

33,1631

0,8656

-0,5007

0,4985

-0,8669

115,093

5,8332

34,0256

0,9004

-0,4350

0,6216

-0,7834

116,835

5,9477

35,3751

0,9443

-0,3292

0,7832

-0,6217

119,491

5,9187

35,0305

0,9343

-0,3565

0,7458

-0,6662

118,819

5,9656

35,5890

0,9500

-0,3122

0,8050

-0,5932

119,908

6,0352

36,4232

0,9694

-0,2455

0,8795

-0,4760

121,533

6,1034

37,2511

0,9839

-0,1789

0,9360

-0,3519

123,171

6,1001

37,2113

0,9833

-0,1821

0,9337

-0,3580

123,091

6,1637

37,9917

0,9929

-0,1192

0,9716

-0,2366

124,686

6,2267

38,7721

0,9984

-0,0564

0,9936

-0,1127

126,372

6,2832

39,4784

1,0000

0,0000

1,0000

0,0000

128,013

6,2489

39,0490

0,9994

-0,0343

0,9977

-0,0685

127,000

La representacin grfica de los resultados obtenidos est en la figura 10.7.

135

125
115

105

95
85

75

Aproximacin FFF
PIB (IV)

Figura 10.7.

A continuacin figuran los coeficientes obtenidos en la estimacin MCO de la expansin de


Fourier:

Coeficientes
SENO (2X)
COS (2X)
SENO (x)
COS(x)

x2

COEFICIENTE
25,7726
30,5090
-452,1873
153,4978
163,5181

VARIANZA
48,4461
27,1992
644,8903
389,0007
267,6648

-1623,8053
3691,2378

2811,5767
6689,6026

x
Constante

10.6. PROBLEMAS
10.1

Estimar un funcion de densidad kernel con los siguientes datos utilizando una funcin

de distancia de Epanechnikov y una grilla de 12 datos con valores entre 300 y 700.
349
368
388
414
444
484
518
550
586
635
686

10.2

Realice una regresin polinmica de segundo grado entre el Consumo (Y) y la Renta

(X).
Aos
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009

Consumo
Renta
349
368
388
414
444
484
518
550
586
635

388
408
433
465
498
538
574
614
656
699

2010

10.3

686

748

Ajuste un spiline cbico a la relacin entre ventas (Y) y publicidad (X), con base de 2

*
*
nodos interiores, x1 1 3 y x 2 2 3 .

2000
2001
2002
2003
2004
2005

10.4

VENTAS
500
1000
2000
3500
3800
4000

PUBLIC.
25
10
5
10
25
40

Realice el ejercicio anterior en R, seale el parmetro de suavizacin elegido por la

funcin y represente los resultados obtenidos.


10.5

Utilizando los datos del ejercicio 10.2 Ajustar una funcin de Fourier a la relacin entre

Consumo (Y) y la Renta (X) con K=5.

SOLUCIONES
10.1.
t
300
333,3333333
366,6666667
400
433,3333333
466,6666667
500
533,3333333
566,6666667
600
633,3333333
666,6666667
700

f(t)
0,00000
0,00195
0,00383
0,00365
0,00269
0,00234
0,00249
0,00253
0,00244
0,00197
0,00145
0,00080
0,00000

10.2

)
Yt 68,47 0,62 X t 68,48 X t2
10.3

Yt 1642,80 74,13 X t 4,19 X 1*t 4.33 X 2*t


10.4

spar 1,485

10.5

Yt 579,02 175,51xt 30,86 xt2 7.73 cos eno( xt ) 66,23seno( xt )

ANEXO I. NOCIONES DE ALGEBRA MATRICIAL


MATRICES

Definicin
Una matriz de orden nm contiene nm elementos dispuestos en n filas y en m columnas; su
notacin matemtica habitual es:

x11
x
21
.

x n1

x12
x 22
.
xn 2

... x1m
... x 2m
... .

... x nm

Tipos de Matrices
Una matriz de orden 1m tiene una sola fila y m columnas y recibe la denominacin de vector
fila:

x11

x12 ... x1m

Una matriz de orden n1 tiene n filas y una sola columna y recibe el nombre de vector columna:

x11
x
21


xn1
Una matriz que posee con igual nmero de filas que de columnas, es decir, de orden nn, se
denomina matriz cuadrada.

x11
x
21
.

xn1

x12
x22
.
xn 2

... x1n
... x2n

... .

... xnn

Llamamos matriz unidad o identidad a la matriz cuadrada de orden nn con n unos situados en
la diagonal principal, siendo ceros los elementos restantes; es decir:

1 0 ... 0
0 1 ... 0

In
. . ... .

0 0 ... 1
Una matriz diagonal es aquella que nicamente tiene al menos un elemento no nulo en la
diagonal principal, es decir:

a11
0
A
.

0
a 22
.
0

...

0
... 0
... .

... a nn

Una matriz derivada de otra a la que se le han eliminado parte de sus filas y columnas, se
denomina submatriz.

Ejemplo

2 1 0
3 2

B =
seria una submatriz de la matriz A= 1 3 2 , de orden 33.

2 1
1 2 1

Operaciones con matrices

Suma
Si dos matrices A y B son del mismo orden, y tienen como elementos genricos aij y bij,
definimos la matriz C, suma de A y B, como la matriz cuyo elemento genrico sera cij=aij+bij.

As, por ejemplo, si disponemos de dos matrices, A y B, de orden 22:

a12
a
A 11

a21 a22

b
b
B 11 12
b21 b22

La suma de ambas matrices sera:

a12 b11 b12 a11 b11 a12 b12


a
C 11

a21 a22 b21 b22 a21 b21 a22 b22


Multiplicacin

a) Multiplicacin por un escalar


La matriz A multiplicada por un nmero escalar cualquiera, da como resultado otra matriz
cuyo elemento genrico es aij. As, por ejemplo, si consideramos una matriz de orden 22, el
resultado de multiplicarla por un escalar sera:

a12 a11 a12


a
11

a 21 a 22 a 21 a 22
b) Multiplicacin de matrices
Si una matriz A es de orden mn y la B es de orden np (o si la matriz A es de orden nm y la
B es de orden pn), definimos la matriz C, producto de A y B, como la matriz de orden mp (
nn) cuyo elemento genrico es:

cij aik bkj


k 1

Por ejemplo, si deseramos multiplicar una matriz de orden 32 por una matriz de orden 23
tendramos que el resultado es una matriz 33 tal que:

a11 a12
b
b
a
a22 11 12
21

b
b
a31 a32 21 22

a11b12 a12b22
a b a b
b13 11 11 12 21
a b a b
a b a22b22
b23 21 11 22 21 21 12
a31b11 a32b21 a31b12 a32b22

a11b13 a12b23
a21b13 a22b23

a31b13 a32b23

Del mismo modo, si quisiramos multiplicar una matriz de orden 23 por una matriz de orden
32 tendramos que el resultado es una matriz 22 de la forma:

b11 b12
b
21 b22

a
a
b13 11 12 b11a11 b12a21 b13a31 b11a12 b12a22 b13a32
a
a
b23 21 22 b21a11 b22a21 b23a31 b21a12 b22a22 b23a32
a31 a32

En conclusin, para que dos matrices se puedan multiplicar tiene que existir coincidencia entre
el nmero de columnas de la primera matriz y el nmero de filas de la segunda matriz o
viceversa.

Ejemplo

2 ( 1) 1 2 0 1 5 0
2 1 0 2 1 2 2 1 1 0 3
1 3 2 1 2 1 2 3 1 ( 2) 3 1 ( 1) 3 2 ( 2) 1 1 3

1 2 1 3 1 ( 1) 2 2 1 1 3 ( 1) ( 1) 2 2 1 1 3 6
c) Producto Kronecker
Otra forma de multiplicacin matricial es el producto directo o Kronecker. Si A es una matriz de
orden mn y B es de orden pq, el producto Kronecker A B se define como:

a11 B a12 B
a B a B
22
A B 21
.
.

a m1 B a m 2 B

... a1n B
... a 2 n B
...
.

... a mn B

La matriz resultante A B es una matriz de orden mpnq.

Traspuesta de una matriz


La traspuesta de una matriz A de rango nm es una matriz A de orden mn obtenida mediante
el intercambio de filas y columnas de A, de tal forma que el elemento genrico aij pasa a ser aji
en la matriz traspuesta. Por ejemplo, si consideramos una matriz de orden 32:

a11
A a21
a31

a12
a22
a32

Su traspuesta ser:

a
A' 11
a12

a 21
a 22

a31
a32

Las matrices traspuestas verifican las siguientes propiedades:

1) (A)=A

2) (A+B)=A+B

3) (AB)=AB

4) Si una matriz verifica AA=AA=I se dice que A es una matriz ortogonal

5) Si una matriz de orden nn verifica que A=A, esto es, que los elementos situados por
encima de la diagonal principal son simtricos a los elementos situados por debajo de la
diagonal principal, se dice que es una matriz simtrica.

Ejemplo
La matriz A es simtrica tal que:

3 1 1
A A 1 5 1

1 1 3

DETERMINANTES
Una matriz cuadrada A de orden nn se puede hacer corresponder con un escalar A ,
denominado determinante, a partir de la suma de los productos cruzados de sus elementos.

As, el determinante de una matriz A de orden 22 puede obtenerse como:

a11 a12
a11a22 a12a21
a21 a22

Del mismo modo, el determinante de una matriz de orden 33 se obtiene operando de la


siguiente forma:

a11
A a 21
a31

a12
a 22
a 32

a13
a 23 a11a 22 a 33 a12 a 21 a33 a12 a 23 a31 a13 a 22 a31 a13 a 21a 32 a11 a 23 a 32
a 33

En el clculo de un determinante hay que tener presente que:

Cada trmino contiene uno y solo un elemento de cada fila y cada columna.

El nmero de elementos de cada trmino es el mismo que el nmero de filas (o


columnas) del determinante. El determinante de una matriz de orden 22 tiene dos
elementos en cada trmino, mientras que un determinante de una matriz de orden 33
tiene tres elementos en cada trmino; y en general, un determinante nn tiene n
elementos en cada trmino.

Los trminos alternan en signo.

El desarrollo de un determinante 22 tiene dos trminos, mientras que el determinante


de una matriz de orden 33, seis trminos. Y en general, un determinante de orden nn
tiene n! trminos.

Propiedades de los determinantes

Una matriz cuyo determinante tiene valor cero se denomina matriz singular.

Si todos los elementos de una fila o columna son iguales a cero, el determinante
tambin ser cero.

El determinante de una matriz con dos filas (o columnas) iguales es cero.

El determinante de una matriz y de su traspuesta son iguales tal que A A ' .

El intercambio de dos filas o de dos columnas cualesquiera de una matriz cambian el


signo de su determinante.

RANGO DE UNA MATRIZ


El rango de una matriz se define como el nmero mximo de columnas de A que son
linealmente independientes. En el caso de una matriz no singular, (tal que A 0 ), el rango de
A viene dado por el nmero de filas (o columnas) de A. En el caso de una matriz singular,

A 0 , el rango ser el orden de la submatriz cuadrada ms grande cuyo determinante no sea


igual a cero.

Ejemplo
Sea la matriz A:

2 1 0
A 0 1 2
1 0 1
La matriz A es singular ya que:

2 1

A 0 1 2 2 1 1 1 0 1 1 (2) 1 0 1 1 0 0 0 2 (2) 0 0
1 0 1

1 2
es una submatriz de la matriz A, y el determinante de dicha submatriz no es
0 1

Dado que

cero: 11-(-2)0, entonces el rango de A es 2.

Menor y cofactor del elemento a ij de una matriz


Se denomina menor Aij

del elemento aij de una matriz al determinante de la submatriz

resultante de eliminar la fila y la columna correspondiente a dicho elemento. As, en una matriz
de orden 33:

a11
A a 21
a31
El menor de a11 ser A11

a13 ser A13

a 21

a 22

a 31

a32

a 22
a 32

a12
a 22
a32

a13
a 23
a33

a 23
a 21
, el menor de a12 ser A12
a33
a 31

a 23
y el menor de
a33

Por su parte, el cofactor de un elemento a ij se define como:

cij (1) ij Aij

En el ejemplo anterior, en la matriz A el cofactor c11 A11 , el cofactor c12 A12 y el


cofactor c13 A13 .

En consecuencia el determinante de una matriz A cuadrada de orden 3, se puede escribir como:

A a11c11 a12 c12 a13 c13 a11 A11 a12 A12 a13 A13
Y en general el determinante de una matriz cuadrada de orden n, puede ser desarrollado a partir
de los elementos de cualquier fila, mediante la siguiente expresin:

A ai1ci1 ai 2 ci 2 ... ain cin

Ejemplo

2 1 0
A 1 3 2
1 2 1
El determinante de A puede ser escrito como:

A 2

3 2
1 2
1 3
1
0
15
2 1
1 1
1 2

La matriz de cofactores de una matriz A de orden nn se obtiene reemplazando cada elemento


de dicha matriz por su cofactor.

La transpuesta de la matriz de cofactores recibe el nombre de matriz adjunta de A.

MATRICES INVERSAS
La matriz inversa de una matriz cuadrada de orden n, A-1, es aquella que verifica que AA-1=I.
La inversa de una matriz se calcula a partir de la siguiente expresin:

c11
A

.
1
(adjA) .

A
.
c1n
A

c 21
A
.
.
.
c2n
A

...
...
...
...
...

c n1
A

.
.

.
c nn
A

En consecuencia para hallar la inversa de una matriz hay que realizar los siguientes pasos:

1. Calcular el determinante de dicha matriz.

2. Obtener los cofactores, y con ellos la matriz de cofactores.

3. Transponer la matriz de cofactores para obtener la matriz adjunta.

4. Dividir cada elemento de la matriz adjunta por el determinante de A.

Ejemplo

2 1 0
A 1 3 2
1 2 1
El determinante es A 15
La matriz de cofactores es:
3

2
1

2
1

2
1
0
1
0
2

1 2
1 1

2 0
1 1

2 0
1 2

1 3

1 2
7 1 5
2 1

1 2 5

1 2

2
4
5

2 1

1 3

Y la matriz adjunta de A es:

7 1 2
adjA 1 2
4
5 5 5
Por tanto, la inversa de A es:

7
15
1
A 1
15
5
15

1
15
2
15
5

15

2
15 0,46 0,06 0,13

4
0, 406
0,13
0, 26
15
5 0,33 0,33 0,33
15

Propiedad
Dado el producto de dos matrices AB=C, donde A es una matriz cuadrada no singular, se
verifica que B=A-1C.

DIAGONALIZACIN, VALORES SINGULARES E INVERSA GENERALIZADA


Sea A una matriz cuadrada de orden nn:

a11
a
A 21
.

an1

a12 ... a1n


a22 ... a2 n

. ... .

an 2 ... ann

Se dice que el vector:

v1
v
V 2
.

v n
es un vector propio de A de valor propio si verifica que:

AV V
Los valores propios se obtienen resolviendo la ecuacin caracterstica, ecuacin polinmica de
grado n, que se obtiene igualando a cero el determinante de la matriz A I , es decir,
resolviendo:

A I 0

La solucin de la ecuacin caracterstica origina un polinomio con respecto a , cuya solucin


implica la existencia de n races n posibles valores para .

As, por ejemplo, si A es una matriz de orden 22, entonces su ecuacin caracterstica se obtiene
como:

A I

a11
a 21

a12
(a11 )(a 22 ) a12 a 21 0
a 22

(a11 )(a 22 ) a12 a 21 2 (a11 a 22 ) a11a 22 a12 a 21 0

Si es una raz, entonces el vector propio de valor propio puede obtenerse resolviendo a su
vez el siguiente sistema de ecuaciones lineales:

(a11 )v1 a12 v 2 ... a1n v n 0


a11v1 (a12 )v 2 ... a1n v n 0
.....................................................
a11v1 a12 v 2 ... (a1n )v n 0
O en expresado matricialmente:

( A I )V 0
Como puede apreciarse, una matriz A tiene tantos vectores propios como races o valores
propios tenga.

Propiedades

El producto de los valores propios de una matriz es igual a su determinante.

Si C es la matriz-columna de todos los vectores propios de A y D es la matriz diagonal


con todos los vectores propios entonces se demuestra que:

AC CD

Si la matriz A es simtrica entonces sus valores propios son siempre nmeros reales; si
adems son positivos se dice que es una matriz simtrica definida positiva.

Si una matriz simtrica es definida positiva de rango n y se puede descomponer en la


forma:

A PP '
donde P es una matriz de rango n y de orden nn no necesariamente simtrica.

Toda matriz simtrica puede expresarse como el producto:

A CD C '
Donde C es una matriz ortogonal, con los vectores propios normalizados.

Asimismo, si una matriz A es definida positiva, entonces existe una matriz , tal que:

1
0
.
0

0
2
.
0

.
.
.
.

0
.

verificndose entonces que P C .

Ejemplo
Sea la matriz A:

3 1 1
A 1 5 1
1 1 3
La ecuacin caracterstica a travs de la que calculamos los valores propios de A es:

A I 3 11 2 36 36 0

Las races de la ecuacin caracterstica son 1 6, 2 3, 3 2 ; al ser los valores propios


nmeros reales positivos, la matriz A es definida positiva.

El vector propio correspondiente al valor propio 1 6 , se obtiene resolviendo el siguiente


sistema lineal:

(3 6)v1 v 2 v3 0
v1 (5 6)v 2 v3 0
v1 v 2 (3 6)v3 0
La solucin de dicho sistema es v1 1, v 2 2, v3 1

De igual forma, podemos calcular los vectores propios asociados a 2 3 y 3 2.

La matriz ortogonal con los vectores propios de A normalizados ser entonces:

C 2
6

2
1

3
1
3
1
3

Y entonces se verifica que:

A CD C '
1
6
3 1 1

1 5 1 2


6
1 1 3
1

3
2 6 0 0
6

1
0 0 3 0 1

3
3
0 0 2

1
1
1

3
2
2
1

y adems:

P C
1

P 2
6

1
6

2 6

0 0

0
1

2
1

3
1
3
1
3

0
3
0

2
6
1
3
0

3
1
2
1

ANEXO II. TABLAS ESTADSTICAS

TABLA II.1. DISTRIBUCIN NORMAL (0, 1)


0.00

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.0
0.1

0.5000
0.5398

0.5040
0.5438

0.5080
0.5478

0.5120
0.5517

0.5160
0.5557

0.5199
0.5596

0.5239
0.5636

0.5279
0.5675

0.5319
0.5714

0.5359
0.5753

0.2

0.5793

0.5832

0.5871

0.5910

0.5948

0.5987

0.6026

0.6064

0.6103

0.6141

0.3

0.6179

0.6217

0.6255

0.6293

0.6331

0.6368

0.6406

0.6443

0.6480

0.6517

0.4

0.6554

0.6591

0.6628

0.6664

0.6700

0.6736

0.6772

0.6808

0.6844

0.6879

0.5

0.6915

0.6950

0.6985

0.7019

0.7054

0.7088

0.7123

0.7157

0.7190

0.7224

0.6

0.7257

0.7291

0.7324

0.7357

0.7389

0.7422

0.7454

0.7486

0.7517

0.7549

0.7

0.7580

0.7611

0.7642

0.7673

0.7704

0.7734

0.7764

0.7794

0.7823

0.7852

0.8

0.7881

0.7910

0.7939

0.7967

0.7995

0.8023

0.8051

0.8078

0.8106

0.8133

0.9

0.8159

0.8186

0.8212

0.8238

0.8264

0.8289

0.8315

0.8340

0.8365

0.8389

1.0

0.8413

0.8438

0.8461

0.8485

0.8508

0.8531

0.8554

0.8577

0.8599

0.8621

1.1

0.8643

0.8665

0.8686

0.8708

0.8729

0.8749

0.8770

0.8790

0.8810

0.8830

1.2

0.8849

0.8869

0.8888

0.8907

0.8925

0.8944

0.8962

0.8980

0.8997

0.9015

1.3

0.9032

0.9049

0.9066

0.9082

0.9099

0.9115

0.9131

0.9147

0.9162

0.9177

1.4

0.9192

0.9207

0.9222

0.9236

0.9251

0.9265

0.9279

0.9292

0.9306

0.9319

1.5

0.9332

0.9345

0.9357

0.9370

0.9382

0.9394

0.9406

0.9418

0.9429

0.9441

1.6

0.9452

0.9463

0.9474

0.9484

0.9495

0.9505

0.9515

0.9525

0.9535

0.9545

1.7

0.9554

0.9564

0.9573

0.9582

0.9591

0.9599

0.9608

0.9616

0.9625

0.9633

1.8

0.9641

0.9649

0.9656

0.9664

0.9671

0.9678

0.9686

0.9693

0.9699

0.9706

1.9

0.9713

0.9719

0.9726

0.9732

0.9738

0.9744

0.9750

0.9756

0.9761

0.9767

2.0

0.9772

0.9778

0.9783

0.9788

0.9793

0.9798

0.9803

0.9808

0.9812

0.9817

2.1

0.9821

0.9826

0.9830

0.9834

0.9838

0.9842

0.9846

0.9850

0.9854

0.9857

2.2

0.9861

0.9864

0.9868

0.9871

0.9875

0.9878

0.9881

0.9884

0.9887

0.9890

2.3

0.9893

0.9896

0.9898

0.9901

0.9904

0.9906

0.9909

0.9911

0.9913

0.9916

2.4

0.9918

0.9920

0.9922

0.9925

0.9927

0.9929

0.9931

0.9932

0.9934

0.9936

2.5

0.9938

0.9940

0.9941

0.9943

0.9945

0.9946

0.9948

0.9949

0.9951

0.9952

2.6

0.9953

0.9955

0.9956

0.9957

0.9959

0.9960

0.9961

0.9962

0.9963

0.9964

2.7

0.9965

0.9966

0.9967

0.9968

0.9969

0.9970

0.9971

0.9972

0.9973

0.9974

2.8

0.9974

0.9975

0.9976

0.9977

0.9977

0.9978

0.9979

0.9979

0.9980

0.9981

2.9

0.9981

0.9982

0.9982

0.9983

0.9984

0.9984

0.9985

0.9985

0.9986

0.9986

0.0

0.5000

0.5040

0.5080

0.5120

0.5160

0.5199

0.5239

0.5279

0.5319

0.5359

3.1

0.9990

0.9991

0.9991

0.9991

0.9992

0.9992

0.9992

0.9992

0.9993

0.9993

3.2

0.9993

0.9993

0.9994

0.9994

0.9994

0.9994

0.9994

0.9995

0.9995

0.9995

3.3

0.9995

0.9995

0.9995

0.9996

0.9996

0.9996

0.9996

0.9996

0.9996

0.9997

3.4

0.9997

0.9997

0.9997

0.9997

0.9997

0.9997

0.9997

0.9997

0.9997

0.9998

3.5

0.9998

0.9998

0.9998

0.9998

0.9998

0.9998

0.9998

0.9998

0.9998

0.9998

3.6

0.9998

0.9998

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

3.7

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

3.8

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

0.9999

3.9

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

1.0000

TABLA II.2. DISTRIBUCIN t DE STUDENT


K

0.995

0.99

0.975

0.95

0.9

0.8

0.75

0.7

0.6

0.55

63.656

31.821

12.706

6.314

3.078

1.376

1.000

0.727

0.325

0.158

9.925

6.965

4.303

2.920

1.886

1.061

0.816

0.617

0.289

0.142

5.841

4.541

3.182

2.353

1.638

0.978

0.765

0.584

0.277

0.137

4.604

3.747

2.776

2.132

1.533

0.941

0.741

0.569

0.271

0.134

4.032

3.365

2.571

2.015

1.476

0.920

0.727

0.559

0.267

0.132

3.707

3.143

2.447

1.943

1.440

0.906

0.718

0.553

0.265

0.131

3.499

2.998

2.365

1.895

1.415

0.896

0.711

0.549

0.263

0.130

3.355

2.896

2.306

1.860

1.397

0.889

0.706

0.546

0.262

0.130

3.250

2.821

2.262

1.833

1.383

0.883

0.703

0.543

0.261

0.129

10

3.169

2.764

2.228

1.812

1.372

0.879

0.700

0.542

0.260

0.129

11

3.106

2.718

2.201

1.796

1.363

0.876

0.697

0.540

0.260

0.129

12

3.055

2.681

2.179

1.782

1.356

0.873

0.695

0.539

0.259

0.128

13

3.012

2.650

2.160

1.771

1.350

0.870

0.694

0.538

0.259

0.128

14

2.977

2.624

2.145

1.761

1.345

0.868

0.692

0.537

0.258

0.128

15

2.947

0.000

2.131

1.753

1.341

0.866

0.691

0.536

0.258

0.128

16

2.921

2.583

2.120

1.746

1.337

0.865

0.690

0.535

0.258

0.128

17

2.898

2.567

2.110

1.740

1.333

0.863

0.689

0.534

0.257

0.128

18

2.878

2.552

2.101

1.734

1.330

0.862

0.688

0.534

0.257

0.127

19

2.861

2.539

2.093

1.729

1.328

0.861

0.688

0.533

0.257

0.127

20

2.845

2.528

2.086

1.725

1.325

0.860

0.687

0.533

0.257

0.127

21

2.831

2.518

2.080

1.721

1.323

0.859

0.686

0.532

0.257

0.127

22

2.819

2.508

2.074

1.717

1.321

0.858

0.686

0.532

0.256

0.127

23

2.807

2.500

2.069

1.714

1.319

0.858

0.685

0.532

0.256

0.127

24

2.797

2.492

2.064

1.711

1.318

0.857

0.685

0.531

0.256

0.127

25

2.787

2.485

2.060

1.708

1.316

0.856

0.684

0.531

0.256

0.127

26

2.779

2.479

2.056

1.706

1.315

0.856

0.684

0.531

0.256

0.127

27

2.771

2.473

2.052

1.703

1.314

0.855

0.684

0.531

0.256

0.127

28

2.763

2.467

2.048

1.701

1.313

0.855

0.683

0.530

0.256

0.127

29

2.756

2.462

2.045

1.699

1.311

0.854

0.683

0.530

0.256

0.127

30

2.750

2.457

2.042

1.697

1.310

0.854

0.683

0.530

0.256

0.127

40

2.704

2.423

2.021

1.684

1.303

0.851

0.681

0.529

0.255

0.126

60

2.660

2.390

2.000

1.671

1.296

0.848

0.679

0.527

0.254

0.126

2.576

2.326

1.960

1.645

1.282

0.842

0.674

0.524

0.253

0.126

TABLA II.3. DISTRIBUCIN k

0.995

0.99

0.975

0.95

0.9

0.75

0.5

0.25

0.1

0.05

0.025

0.01

0.005

7.8794

6.6349

5.0239

3.8415

2.7055

1.3233

0.4549

0.1015

0.0158

0.0039

0.0010

0.0002

0.0000

10.5965

9.2104

7.3778

5.9915

4.6052

2.7726

1.3863

0.5754

0.2107

0.1026

0.0506

0.0201

0.0100

12.8381

11.3449

9.3484

7.8147

6.2514

4.1083

2.3660

1.2125

0.5844

0.3518

0.2158

0.1148

0.0717

14.8602

13.2767

11.1433

9.4877

7.7794

5.3853

3.3567

1.9226

1.0636

0.7107

0.4844

0.2971

0.2070

16.7496

15.0863

12.8325

11.0705

9.2363

6.6257

4.3515

2.6746

1.6103

1.1455

0.8312

0.5543

0.4118

18.5475

16.8119

14.4494

12.5916

10.6446

7.8408

5.3481

3.4546

2.2041

1.6354

1.2373

0.8721

0.6757

20.2777

18.4753

16.0128

14.0671

12.0170

9.0371

6.3458

4.2549

2.8331

2.1673

1.6899

1.2390

0.9893

21.9549

20.0902

17.5345

15.5073

13.3616

10.2189

7.3441

5.0706

3.4895

2.7326

2.1797

1.6465

1.3444

23.5893

21.6660

19.0228

16.9190

14.6837

11.3887

8.3428

5.8988

4.1682

3.3251

2.7004

2.0879

1.7349

10

25.1881

23.2093

20.4832

18.3070

15.9872

12.5489

9.3418

6.7372

4.8652

3.9403

3.2470

2.5582

2.1558

11

26.7569

24.7250

21.9200

19.6752

17.2750

13.7007

10.3410

7.5841

5.5778

4.5748

3.8157

3.0535

2.6032

12

28.2997

26.2170

23.3367

21.0261

18.5493

14.8454

11.3403

8.4384

6.3038

5.2260

4.4038

3.5706

3.0738

13

29.8193

27.6882

24.7356

22.3620

19.8119

15.9839

12.3398

9.2991

7.0415

5.8919

5.0087

4.1069

3.5650

14

31.3194

29.1412

26.1189

23.6848

21.0641

17.1169

13.3393

10.1653

7.7895

6.5706

5.6287

4.6604

4.0747

15

32.8015

30.5780

27.4884

24.9958

22.3071

18.2451

14.3389

11.0365

8.5468

7.2609

6.2621

5.2294

4.6009

16

34.2671

31.9999

28.8453

26.2962

23.5418

19.3689

15.3385

11.9122

9.3122

7.9616

6.9077

5.8122

5.1422

17

35.7184

33.4087

30.1910

27.5871

24.7690

20.4887

16.3382

12.7919

10.0852

8.6718

7.5642

6.4077

5.6973

18

37.1564

34.8052

31.5264

28.8693

25.9894

21.6049

17.3379

13.6753

10.8649

9.3904

8.2307

7.0149

6.2648

19

38.5821

36.1908

32.8523

30.1435

27.2036

22.7178

18.3376

14.5620

11.6509

10.1170

8.9065

7.6327

6.8439

20

39.9969

37.5663

34.1696

31.4104

28.4120

23.8277

19.3374

15.4518

12.4426

10.8508

9.5908

8.2604

7.4338

21

41.4009

38.9322

35.4789

32.6706

29.6151

24.9348

20.3372

16.3444

13.2396

11.5913

10.2829

8.8972

8.0336

22

42.7957

40.2894

36.7807

33.9245

30.8133

26.0393

21.3370

17.2396

14.0415

12.3380

10.9823

9.5425

8.6427

23

44.1814

41.6383

38.0756

35.1725

32.0069

27.1413

22.3369

18.1373

14.8480

13.0905

11.6885

10.1957

9.2604

24

45.5584

42.9798

39.3641

36.4150

33.1962

28.2412

23.3367

19.0373

15.6587

13.8484

12.4011

10.8563

9.8862

25

46.9280

44.3140

40.6465

37.6525

34.3816

29.3388

24.3366

19.9393

16.4734

14.6114

13.1197

11.5240

10.5196

26

48.2898

45.6416

41.9231

38.8851

35.5632

30.4346

25.3365

20.8434

17.2919

15.3792

13.8439

12.1982

11.1602

27

49.6450

46.9628

43.1945

40.1133

36.7412

31.5284

26.3363

21.7494

18.1139

16.1514

14.5734

12.8785

11.8077

28

50.9936

48.2782

44.4608

41.3372

37.9159

32.6205

27.3362

22.6572

18.9392

16.9279

15.3079

13.5647

12.4613

29

52.3355

49.5878

45.7223

42.5569

39.0875

33.7109

28.3361

23.5666

19.7677

17.7084

16.0471

14.2564

13.1211

30

53.6719

50.8922

46.9792

43.7730

40.2560

34.7997

29.3360

24.4776

20.5992

18.4927

16.7908

14.9535

13.7867

40

66.7660

63.6908

59.3417

55.7585

51.8050

45.6160

39.3353

33.6603

29.0505

26.5093

24.4331

22.1642

20.7066

50

79.4898

76.1538

71.4202

67.5048

63.1671

56.3336

49.3349

42.9421

37.6886

34.7642

32.3574

29.7067

27.9908

60

91.9518

88.3794

83.2977

79.0820

74.3970

66.9815

59.3347

52.2938

46.4589

43.1880

40.4817

37.4848

35.5344

70

104.2148

100.4251

95.0231

90.5313

85.5270

77.5766

69.3345

61.6983

55.3289

51.7393

48.7575

45.4417

43.2753

80

116.3209

112.3288

106.6285

101.8795

96.5782

88.1303

79.3343

71.1445

64.2778

60.3915

57.1532

53.5400

51.1719

90

128.2987

124.1162

118.1359

113.1452

107.5650

98.6499

89.3342

80.6247

73.2911

69.1260

65.6466

61.7540

59.1963

100

140.1697

135.8069

129.5613

124.3421

118.4980

109.1412

99.3341

90.1332

82.3581

77.9294

74.2219

70.0650

67.3275

TABLA II.4. DISTRIBUCIN F DE SNEDECOR


Percentiles de 95
(n1 = Grados de libertad del numerador; n2 = Grados de libertad del denominador)

10

15

20

25

30

40

50

120

161.4

199.5

215.7

224.6

230.2

234.0

236.8

238.9

240.5

241.9

245.9

248.0

249.3

250.1

251.1

251.8

253.3

254.3

18.51

19.00

19.16

19.25

19.30

19.33

19.35

19.37

19.38

19.40

19.43

19.45

19.46

19.46

19.47

19.48

19.49

19.50

10.13

9.55

9.28

9.12

9.01

8.94

8.89

8.85

8.81

8.79

8.70

8.66

8.63

8.62

8.59

8.58

8.55

8.53

7.71

6.94

6.59

6.39

6.26

6.16

6.09

6.04

6.00

5.96

5.86

5.80

5.77

5.75

5.72

5.70

5.66

5.63

6.61

5.79

5.41

5.19

5.05

4.95

4.88

4.82

4.77

4.74

4.62

4.56

4.52

4.50

4.46

4.44

4.40

4.37

5.99

5.14

4.76

4.53

4.39

4.28

4.21

4.15

4.10

4.06

3.94

3.87

3.83

3.81

3.77

3.75

3.70

3.67

5.59

4.74

4.35

4.12

3.97

3.87

3.79

3.73

3.68

3.64

3.51

3.44

3.40

3.38

3.34

3.32

3.27

3.23

5.32

4.46

4.07

3.84

3.69

3.58

3.50

3.44

3.39

3.35

3.22

3.15

3.11

3.08

3.04

3.02

2.97

2.93

n1

n2

5.12

4.26

3.86

3.63

3.48

3.37

3.29

3.23

3.18

3.14

3.01

2.94

2.89

2.86

2.83

2.80

2.75

2.71

10

4.96

4.10

3.71

3.48

3.33

3.22

3.14

3.07

3.02

2.98

2.85

2.77

2.73

2.70

2.66

2.64

2.58

2.54

11

4.84

3.98

3.59

3.36

3.20

3.09

3.01

2.95

2.90

2.85

2.72

2.65

2.60

2.57

2.53

2.51

2.45

2.40

12

4.75

3.89

3.49

3.26

3.11

3.00

2.91

2.85

2.80

2.75

2.62

2.54

2.50

2.47

2.43

2.40

2.34

2.30

13

4.67

3.81

3.41

3.18

3.03

2.92

2.83

2.77

2.71

2.67

2.53

2.46

2.41

2.38

2.34

2.31

2.25

2.21

14

4.60

3.74

3.34

3.11

2.96

2.85

2.76

2.70

2.65

2.60

2.46

2.39

2.34

2.31

2.27

2.24

2.18

2.13

15

4.54

3.68

3.29

3.06

2.90

2.79

2.71

2.64

2.59

2.54

2.40

2.33

2.28

2.25

2.20

2.18

2.11

2.07

16

4.49

3.63

3.24

3.01

2.85

2.74

2.66

2.59

2.54

2.49

2.35

2.28

2.23

2.19

2.15

2.12

2.06

2.01

17

4.45

3.59

3.20

2.96

2.81

2.70

2.61

2.55

2.49

2.45

2.31

2.23

2.18

2.15

2.10

2.08

2.01

1.96

18

4.41

3.55

3.16

2.93

2.77

2.66

2.58

2.51

2.46

2.41

2.27

2.19

2.14

2.11

2.06

2.04

1.97

1.92

19

4.38

3.52

3.13

2.90

2.74

2.63

2.54

2.48

2.42

2.38

2.23

2.16

2.11

2.07

2.03

2.00

1.93

1.88

20

4.35

3.49

3.10

2.87

2.71

2.60

2.51

2.45

2.39

2.35

2.20

2.12

2.07

2.04

1.99

1.97

1.90

1.84

21

4.32

3.47

3.07

2.84

2.68

2.57

2.49

2.42

2.37

2.32

2.18

2.10

2.05

2.01

1.96

1.94

1.87

1.81

22

4.30

3.44

3.05

2.82

2.66

2.55

2.46

2.40

2.34

2.30

2.15

2.07

2.02

1.98

1.94

1.91

1.84

1.78

23

4.28

3.42

3.03

2.80

2.64

2.53

2.44

2.37

2.32

2.27

2.13

2.05

2.00

1.96

1.91

1.88

1.81

1.76

24

4.26

3.40

3.01

2.78

2.62

2.51

2.42

2.36

2.30

2.25

2.11

2.03

1.97

1.94

1.89

1.86

1.79

1.73

25

4.24

3.39

2.99

2.76

2.60

2.49

2.40

2.34

2.28

2.24

2.09

2.01

1.96

1.92

1.87

1.84

1.77

1.71

26

4.23

3.37

2.98

2.74

2.59

2.47

2.39

2.32

2.27

2.22

2.07

1.99

1.94

1.90

1.85

1.82

1.75

1.69

27

4.21

3.35

2.96

2.73

2.57

2.46

2.37

2.31

2.25

2.20

2.06

1.97

1.92

1.88

1.84

1.81

1.73

1.67

28

4.20

3.34

2.95

2.71

2.56

2.45

2.36

2.29

2.24

2.19

2.04

1.96

1.91

1.87

1.82

1.79

1.71

1.65

29

4.18

3.33

2.93

2.70

2.55

2.43

2.35

2.28

2.22

2.18

2.03

1.94

1.89

1.85

1.81

1.77

1.70

1.64

30

4.17

3.32

2.92

2.69

2.53

2.42

2.33

2.27

2.21

2.16

2.01

1.93

1.88

1.84

1.79

1.76

1.68

1.62

40

4.08

3.23

2.84

2.61

2.45

2.34

2.25

2.18

2.12

2.08

1.92

1.84

1.78

1.74

1.69

1.66

1.58

1.51

60

4.00

3.15

2.76

2.53

2.37

2.25

2.17

2.10

2.04

1.99

1.84

1.75

1.69

1.65

1.59

1.56

1.47

1.39

120

3.92

3.07

2.68

2.45

2.29

2.18

2.09

2.02

1.96

1.91

1.75

1.66

1.60

1.55

1.50

1.46

1.35

1.25

3.84

3.00

2.60

2.37

2.21

2.10

2.01

1.94

1.88

1.83

1.67

1.57

1.51

1.46

1.39

1.35

1.22

1.01

Percentiles de 99
(n1 = Grados de libertad del numerador; n2 = Grados de libertad del denominador)
1

10

15

20

25

30

40

50

120

4052.18

4999.34

5403.53

5624.26

5763.96

5858.95

5928.33

5980.95

6022.40

6055.93

98.50

99.00

99.16

99.25

99.30

99.33

99.36

99.38

99.39

99.40

34.12

30.82

29.46

28.71

28.24

27.91

27.67

27.49

27.34

27.23

21.20

18.00

16.69

15.98

15.52

15.21

14.98

14.80

14.66

14.55

16.26

13.27

12.06

11.39

10.97

10.67

10.46

10.29

10.16

10.05

6208
.66
99.4
5
26.6
9
14.0
2
9.55

6239
.86
99.4
6
26.5
8
13.9
1
9.45

6260
.35
99.4
7
26.5
0
13.8
4
9.38

6286
.43
99.4
8
26.4
1
13.7
5
9.29

6302
.26
99.4
8
26.3
5
13.6
9
9.24

6339
.51
99.4
9
26.2
2
13.5
6
9.11

6365.
59
99.50

6156
.97
99.4
3
26.8
7
14.2
0
9.72

13.75

10.92

9.78

9.15

8.75

8.47

8.26

8.10

7.98

7.87

7.56

7.40

7.30

7.23

7.14

7.09

6.97

6.88

12.25

9.55

8.45

7.85

7.46

7.19

6.99

6.84

6.72

6.62

6.31

6.16

6.06

5.99

5.91

5.86

5.74

5.65

11.26

8.65

7.59

7.01

6.63

6.37

6.18

6.03

5.91

5.81

5.52

5.36

5.26

5.20

5.12

5.07

4.95

4.86

10.56

8.02

6.99

6.42

6.06

5.80

5.61

5.47

5.35

5.26

4.96

4.81

4.71

4.65

4.57

4.52

4.40

4.31

10

10.04

7.56

6.55

5.99

5.64

5.39

5.20

5.06

4.94

4.85

4.56

4.41

4.31

4.25

4.17

4.12

4.00

3.91

11

9.65

7.21

6.22

5.67

5.32

5.07

4.89

4.74

4.63

4.54

4.25

4.10

4.01

3.94

3.86

3.81

3.69

3.60

12

9.33

6.93

5.95

5.41

5.06

4.82

4.64

4.50

4.39

4.30

4.01

3.86

3.76

3.70

3.62

3.57

3.45

3.36

13

9.07

6.70

5.74

5.21

4.86

4.62

4.44

4.30

4.19

4.10

3.82

3.66

3.57

3.51

3.43

3.38

3.25

3.17

14

8.86

6.51

5.56

5.04

4.69

4.46

4.28

4.14

4.03

3.94

3.66

3.51

3.41

3.35

3.27

3.22

3.09

3.00

15

8.68

6.36

5.42

4.89

4.56

4.32

4.14

4.00

3.89

3.80

3.52

3.37

3.28

3.21

3.13

3.08

2.96

2.87

16

8.53

6.23

5.29

4.77

4.44

4.20

4.03

3.89

3.78

3.69

3.41

3.26

3.16

3.10

3.02

2.97

2.84

2.75

17

8.40

6.11

5.19

4.67

4.34

4.10

3.93

3.79

3.68

3.59

3.31

3.16

3.07

3.00

2.92

2.87

2.75

2.65

18

8.29

6.01

5.09

4.58

4.25

4.01

3.84

3.71

3.60

3.51

3.23

3.08

2.98

2.92

2.84

2.78

2.66

2.57

19

8.18

5.93

5.01

4.50

4.17

3.94

3.77

3.63

3.52

3.43

3.15

3.00

2.91

2.84

2.76

2.71

2.58

2.49

20

8.10

5.85

4.94

4.43

4.10

3.87

3.70

3.56

3.46

3.37

3.09

2.94

2.84

2.78

2.69

2.64

2.52

2.42

n1

n2
26.13
13.46
9.02

21

8.02

5.78

4.87

4.37

4.04

3.81

3.64

3.51

3.40

3.31

3.03

2.88

2.79

2.72

2.64

2.58

2.46

2.36

22

7.95

5.72

4.82

4.31

3.99

3.76

3.59

3.45

3.35

3.26

2.98

2.83

2.73

2.67

2.58

2.53

2.40

2.31

23

7.88

5.66

4.76

4.26

3.94

3.71

3.54

3.41

3.30

3.21

2.93

2.78

2.69

2.62

2.54

2.48

2.35

2.26

24

7.82

5.61

4.72

4.22

3.90

3.67

3.50

3.36

3.26

3.17

2.89

2.74

2.64

2.58

2.49

2.44

2.31

2.21

25

7.77

5.57

4.68

4.18

3.85

3.63

3.46

3.32

3.22

3.13

2.85

2.70

2.60

2.54

2.45

2.40

2.27

2.17

26

7.72

5.53

4.64

4.14

3.82

3.59

3.42

3.29

3.18

3.09

2.81

2.66

2.57

2.50

2.42

2.36

2.23

2.13

27

7.68

5.49

4.60

4.11

3.78

3.56

3.39

3.26

3.15

3.06

2.78

2.63

2.54

2.47

2.38

2.33

2.20

2.10

28

7.64

5.45

4.57

4.07

3.75

3.53

3.36

3.23

3.12

3.03

2.75

2.60

2.51

2.44

2.35

2.30

2.17

2.06

29

7.60

5.42

4.54

4.04

3.73

3.50

3.33

3.20

3.09

3.00

2.73

2.57

2.48

2.41

2.33

2.27

2.14

2.03

30

7.56

5.39

4.51

4.02

3.70

3.47

3.30

3.17

3.07

2.98

2.70

2.55

2.45

2.39

2.30

2.25

2.11

2.01

40

7.31

5.18

4.31

3.83

3.51

3.29

3.12

2.99

2.89

2.80

2.52

2.37

2.27

2.20

2.11

2.06

1.92

1.80

60

7.08

4.98

4.13

3.65

3.34

3.12

2.95

2.82

2.72

2.63

2.35

2.20

2.10

2.03

1.94

1.88

1.73

1.60

120

6.85

4.79

3.95

3.48

3.17

2.96

2.79

2.66

2.56

2.47

2.19

2.03

1.93

1.86

1.76

1.70

1.53

1.38

6.63

4.61

3.78

3.32

3.02

2.80

2.64

2.51

2.41

2.32

2.04

1.88

1.77

1.70

1.59

1.52

1.32

1.00

TABLA II.5. DISTRIBUCIN DEL ESTADSTICO DEL CONTRASTE DE DURBINWATSON

Se tabulan los valores de dL y dU para un nivel de significacin =0.05

BIBLIOGRAFA
Achim Zeileis, Torsten Hothorn (2002). Diagnostic Checking in Regression Relationships. R
News 2(3), 7-10. URL http://CRAN.R-project.org/doc/Rnews/

Albright,R., Lerman,S. y Manski,C. (1977), Development Of An Estimation Program For The


M. Probit Model. Federal Highway Administration

Akaike, H. (1974), A new look at the statistical model identification, IEEE Transactions on
Automatic Control AC-19, pp. 716723.

Amemiya, T. (1978), On A Two-Step Estimation Of A Multivariate Logit Model, Journal Of


Econometrics 8.

Anderson, R. L. (1942), Distribution of the Serial Correlation Coefficient, Annals of


Mathematical Statistics, 1942: 1-13.
Aznar, A. y Trvez, F. J. (1993), Mtodos de Prediccin en Economa II: Anlisis de Series
Temporales, Ed. Ariel.

Balestra, P. y Nerlove, M. (1966), Pooling Cross Section And Time Series Data In The
Estimation Of Coefficients In A Structural Equation, Econometrica 34.

Bassmann, R. (1957). A Generalized Classical Method Of Linear Estimation Of Coefficients


In A Structural Equation. Econometrica 25, pp. 77-83

Box, G.E.P., Jenkins, G.M. y Reinsel, G.C. (1994), Time Series Analysis - Forecasting and
Control, 3rd Edition, Prentice Hall.

Burns, A.F. y Mitchell, W.C. (1947), Measuring Business Cycles, New York: Columbia
University Press For The NBER.

Chateld, Cris (2004). The Analysis of Time Series: An Introduction (6th edn.), 2004. CRC Press

Chow, G.C. (1983), Econometrics, McGraw-Hill, New York.

Christ (1960). Simultaneus Equations Estimation: Any Veredict Yet?. Econometrica 28, pp.
835-845.

Cochrane, D. y Orcutt, G. H. (1949a), Application Of Least Squares Regression To


Relationships Containing Autocorrelated Error Terms, Journal of American Statistical
Association 44, pp. 32-61.

Cochrane, D. y Orcutt, G. H. (1949b), A Sampling Study Of The Merits Of Autorregressive


And Reduced Form Transformations In Regression Analysis Journal of American Statistical
Association 44, pp. 356-372.

Dickey, D.A. y W.A. Fuller (1979), Distribution of the Estimators for Autoregressive Time
Series with a Unit Root, Journal of the American Statistical Association, 74, p. 427431.

Durbin, J. y Koopman, S. J. (2001), Time Series Analysis by State Space Models (Oxford
Statistical Science Series, n 24), Oxford University Press.

Durbin, J. y Watson, G. S. (1950), Testing for Serial Correlation Least Squares Regressions,
Biometrika, vol 37. pp. 409-428.

Engle, Robert F. (1974), Band Spectrum Regression,International Economic Review 15,1-11.

Frisch, R. (1933). Pitfalls In The Statistical Construction Of Demand and Supply Analysis,
Hans Buske Verlag. Leipzig.

Frisch, R. (1936). Note On Term 'Econometrics' , Econometrica 1, pp. 1-4.


Gallant, A. R.(1981) "On the Bias in Flexible Functional Forms and an Essentially Unbiased
Form." J. Econometrics 15(1981):211-45.

Gallant, A. R.(1984) "The Fourier Flexible Form." Amer. J. Agr. Econ. 66(1984):204-15
Goldfield, S. M. y Quandt, R. E. (1965), Some test for Homocedasticy, Journal of American
Statistical Association. Vol 37. pp 539-547.

Granger, C. W. J. (1969), Investigating causal relations by econometric models and crossspectral methods, Econometrica 37, p. 424-438.

Granger, C.W.J.(1981), Some properties of time series data and their use in econometric model
specification, Journal of Econometrics 16, pp. 121-130.

Granger, C.W.J., y Newbold, P. (1974), Spurious regressions in econometrics, Journal of


Econometrics 2, pp. 111-120

Greene, W. H. (2000), Anlisis Economtrico, Ed. Prentice Hall

Gujarati, D. (1997), Basic Econometrics, McGraw-Hill

Gujarati, D. (2003), Econometra, Ed. McGraw-Hill

Haavelmo, T. (1943). The Statistical Implications Of A System Of Simultaneous Equations.


Econometrica 11, pp. 1-12.

Haavelmo, T. (1944). The Probability Approach In Econometrics, Suplemento de


Econometrica 12. pp. 1-118.
Hamilton, J. D. (1994), Time Series Analysis, Princeton University Press.

Hannan, E.J. (1963), Regression for Time Series, in Rosenblatt, M. (ed.), Time Series Analysis,
New York, John Wiley.

Harvey, A.C. (1978), Linear Regression in the Frequency Domain, International Economic
Review, 19, 507-512.

Hausman, J.A. (1974), Estimation and Inference in Nonlinear Structural Models, Annals of
Economic and Social Measurement, con Berndt E., Hall R.E. y Hall, B.H. October 1974.

Hausman, J.A. (1974): Full Information Instrumental Variables Estimations of Simultaneas


Equations Systems, Annals of Economic and Social Measurement, Vol 3. n 4. pp. 641-652.

Hausman, J.A. (1978), Specification tests in econometrics, Econometrica, 46, pp. 1251-71.

Hildreth, C. (1960). Simultaneus Equations Estimation: Any Veredict Yet?. Econometrica 28,
pp. 846-854.

Hsiao, C. (1986), Analysis of Panel Data. Cambridge University Press.

Johnston, J. (1997), Econometric Methods. McGraw-Hill.

Johnston, J. y Dinardo, J. (2001), Mtodos De Econometra, Ed. Vicens-Vives 3 Ed.

Intriligator, M. D. (1978). Econometrics Models. Techniques And Applications. North-Holland.


New York.

Klein, L. R. (1960). Single Equation Vs. Equation System Methods Of Estimation In


Econometrics. Econometrica 28, pp. 866-871.

Klein, L. R. y Goldberger, A. (1955), An Econometric Model Of United States, 1929-1952.


North-Holland, Amsterdam.

Koopmans, T.C., Rubin, H. y Leipnik, R.B. (1950). Measuring The Equation System Of
Dinamic Economics, en Statistical Inference In Dinamic Economic Models, Cowles
Commision Monografico n 10. John Wiley. Nueva York.

Kuh, L.M. (1959), The Validity Of Cross-Sectionally Estimated Behavior Equations


Econometrica 27.
Liu, T. (1960), Underidentification, Structural Estimation, And Forecasting Econometrica 28,
pp. 855-865.

Lucas, R.E. (1972), Expectations And The Neutrality Of Money Journal Of Economic Theory
4, pp. 103-124.

Lucas, R.E. (1973), Some International Evidence On Output-Inflation Tradeoffs, American


Economic Review 63, pp.326-334.

Lucas, R. E. (1976), Econometric Policy Evaluation: A critique, Journal of Monetary


Economics 1, n 2, Supplementary Series: 19-46.

McFadden, D. (1974), Conditional Logit Analysis Of Qualitative Choice Behaviour, en


Frontiers In Econometrics, Ed. P. Zarembka, Academic Press. Nueva York.

McFadden, D. (1976), Quantal Choice Analysis: A Survey, Annals Of Economic And Social
Measurement.

Mitchell, W. C. (1928), Business Cycles: The Problem In Its Setting. National Bureau Of
Economic Research.

Mood, A. M. (1950), Introduction to the Theory of Statistics, McGraw-Hill.

Moore, H. L. (1914), Economic Cycles: Their Law And Causes. Macmillan Press. Nueva York.

Moore, H. L. (1917), Forecasting The Yield And The Price Of Cotton. Macmillan Press.

Muth, J.F. (1961), Rational Expectations And The Theory Of Price Movements,
Econometrica 29, pp. 315-335.

Novales, A. (1993), Econometra, 2 Edicin, McGraw-Hill.

Pindyck, R. S. y Rubinfield, D. L. (1976), Econometric Models and Economic Forecast,


McGraw-Hill.

Pindyck, R. S. y Rubinfield, D. L. (1980), Modelos Economtricos, Ed. Labor.


Pulido, A. (1983), Modelos Economtricos, Ed. Pirmide

Rosenberg, B. (1973), A Survey Of Stochastic Parameter Regression, Annals Of Economic


And Social Measurement 2.

Samuelson, P. A., Koopmans, T. C. y Stone, J. (1954), Report Of The Evaluative Committe


For Econometrica, Econometrica 22, pp. 141-146.

Sargan, J. D. (1958), The Estimation Of Economic Relationships Using Instrumental


Variables, Econometrica 26, pp. 393-415.

Sargent, T. (1973), Rational Expectations, The Real Rate Of Interest And The Natural Rate
Of Unemployment, Brookings Papers On Economic Activity 2, pp. 429-472.

Sargent, T.J. (1984), Vector autoregressions, expectations and advice, American Economic
Review 74, pp.408-415

Sargent, T. y Wallace, N. (1975), Rational Expectations And The Theory Of Economic


Policy, Journal Of Monetary Economics 2, pp. 169-184.

Schultz, M. (1938), The Theory And Measurement Of Demand, Chicago University Of


Chicago Press.

Schwarz, G. (1978), Estimating the dimension of a model, Annals of Statistics 6, 461464.

Sims, C. A. (1980), Macroeconomics and Reality, Econometrica, vol. 48, p. 1-48

Sims, C.A. (1982), Policy Analysis With Economic Models, Brookings Papers On Economic
Activity 1, pp. 107-164.

Stewart, M. y Wallis, K. (1984), Introduccin a la Econometra, Alianza Editorial.


Swamy, P. A. y Menhta, J. S. (1977), Estimation Of Linear Models With Time And CrossSectionaly Varying Coefficients, Journal Of The American Statistical Association 72.

Theil, H. (1954), Estimation Of Parameters Of Econometrics Models, Bulletin Of


International Statistics Institute 34, pp.122-128.

Tinbergen, J. (1930), Bestimmung Und Deutung Von Angebotkurven, Zeitschrift Fr


Nationalkonomie 1.

Venables, W. N. y Ripley, B. D. (2002), Modern Applied Statistics with S. 4 Ed., Springer.

White, H. (1980), An Heteroskedastic-Consistent Regression with Independent Observation,


Econometrica 48, pp. 817-838.

Working, E.J. (1927), What Do Statistical Demand Curves Show?, Quarterly Journal Of
Economics 41.

Wright, P.G. (1915), Review Of Economic Cycles By Henry Moore, Quarterly Journal Of
Economics 29.

Wright, P.G. (1928), The Tariff On Animal And Vegetable Oils, New York, The Mcmillan
Company.

Vous aimerez peut-être aussi