Vous êtes sur la page 1sur 24

Fichero: capitulo 4

CAPTULO 4
PROBLEMAS DE ADECUACIN MODELO-REALIDAD (I)
ERRORES DE ESPECIFICACIN

1. TIPOS DE ERRORES DE ESPECIFICACIN


La construccin de un modelo economtrico est sujeta en la prctica a un conjunto
de condicionantes que atentan contra el buen resultado de la inferencia que a
continuacin se realiza. Las teoras econmicas que deben inspirar su especificacin
concreta y la calidad de la informacin muestral son dos de los elementos clave en
este desarrollo. La informacin a priori proporcionada por la teora econmica o, en su
defecto, por el conocimiento de la realidad econmica basado en la observacin de
los hechos no permite, en la mayora de los casos, establecer con el nivel de detalle
deseable qu variables deben intervenir en el modelo, ni su estructura temporal en el
caso de tratarse de relaciones asociadas con datos temporales. Por otra parte, la
informacin estadstica utilizada incorpora a menudo aproximaciones empricas que
no son completamente satisfactorias con los conceptos manejados por los tericos.
Cuando en un modelo emprico tratamos de establecer los mecanismos explicativos
del comportamiento de los consumidores de un bien duradero, como es el caso -por
poner un ejemplo- de la compra de automviles, acudimos a la teora del consumidor
que nos ofrece, entre alguna de sus mltiples aproximaciones, hiptesis del estilo
siguiente: "la renta permanente y la riqueza son, adems de los precios y las
______________________________________
Manual de Econometra. Captulo 4, pgina 1.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

preferencias personales, factores que revelan las variaciones en el consumo entre los
individuos con caractersticas similares". Aproximar la renta permanente por los
ingresos declarados, y la riqueza por los activos es una opcin tomada comunmente
en las aplicaciones empricas para este tipo de modelo de consumo. En otras
ocasiones se opta por la no inclusin en el modelo de la variable riqueza debido a la
falta de informacin estadstica disponible y fiable.
En otro orden de cosas, la relacin paramtrica establecida en un modelo
economtrico suele ser lineal, o linealizable despus de alguna transformacin en los
valores de las variables. En cualquier caso se trata de una representacin formal que
trata de ser lo ms cercana posible a la verdadera relacin que es, como sabemos,
desconocida por parte del investigador.
En sentido amplio, entendemos por errores de especificacin todos aquellos errores
que se cometen en la construccin de un modelo economtrico. Estos errores pueden
afectar tanto a la definicin de los regresores como a las hiptesis que suponemos
cumple la perturbacin aleatoria de la ecuacin de regresin. En la primera categora
de errores situaramos al que se comete cuando no incorporamos un factor relevante
en la explicacin de la variabilidad de la variable endgena de un modelo, mientras
que incurrimos en la segunda categora de errores cuando estimamos un modelo por
MCO suponiendo que las perturbaciones tienen varianza constante cuando en
realidad son heteroscedsticas.
En este captulo nos limitaremos a considerar los errores de especificacin en un
sentido ms restringido: nos referiremos por el momento a los errores cometidos al
especificar la matriz X de regresores. Se incluyen en este tipo de errores los
siguientes casos:

______________________________________
Manual de Econometra. Captulo 4, pgina 2.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

a) La omisin de factores explicativos relevantes


b) La inclusin de variables suprfluas
c) Los errores de medida de las variables (problema que ser analizado en un
captulo posterior)
d) La incorrecta especificacin funcional
Dedicaremos los prximos epgrafes en este captulo al desarrollo formal de las
consecuencias que cada uno de estos tipos de error transmite sobre la estimacin por
MCO en el modelo de regresin lineal. Para ello seguiremos el esquema utilizado en
los captulos precedentes, es decir, en primer lugar formalizaremos la situacin
descrita conceptualmente, a continuacin pasaremos a descubrir los efectos que la
asuncin de los diferentes tipos de error tirne sobre los estimadores MCO. A
continuacin, se introducirn algunos elementos que permitan diagnosticar el error de
cosntruccin del modelo y, finalmente, se apuntarn las posibles conductas a seguir
para mejorar el resultado de la estimacin realizada.
Conviene insistir, antes de iniciar los desarrollos enunciados, en una cuestin de
importancia capital. El trabajo con modelos economtricos no pretende el
descubrimiento a toda costa del verdadero modelo o de la relacin subyacente. Se
trata de establecer los mecanismos necesarios para lograr que el investigador
aplicado se acerque en la medida de sus posibilidades, y las que ofrecen los datos y
la informacin terica previa, a un nivel de concocimiento de las conductas de los
agentes econmicos que le permita alcanzar, con un cierto grado de verosimilitud, los
objetivos planteados. Estos objetivos pueden ser, como ya anuncibamos en el primer
captulo del libro, el anlisis de las relaciones estructurales existentes entre las
variables o, alternativamente, la obtencin de buenos pronsticos fuera de la muestra
considerada.

______________________________________
Manual de Econometra. Captulo 4, pgina 3.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

2. OMISIN DE VARIABLES RELEVANTES

2.1. OMISIN DE UNA VARIABLE RELEVANTE EN UNA ESTIMACIN POR


REGRESIN LINEAL SIMPLE
Supongamos por el momento que el modelo verdadero fuese conocido por nosotros.
Para ilustrar este hecho supongamos que las variaciones en el absentismo laboral (Y)
se explican a partir de una relacin lineal entre el tamao de la empresa medido por el
nmero de empleados (X) y el salario medio por empleado (Z).
Y i = + X i + Z i + ui

(4.1)

Supongamos que esta relacin es poblacionalmente correcta y, de este modo,


denominamos a la expresin (4.1) el modelo verdadero. En dicha ecuacin, como de
costumbre, u representa el trmino de error aleatorio. La anterior ecuacin es vlida
para los n elementos de la muestra (i=1...n). El trmino de error u es una variable
aleatoria que satisface las hiptesis 5 a 8 enunciadas en el modelo lineal estndard,
es decir se distribuye con valor esperado igual a cero, y de forma idntica e
independiente con varianza constante igual a 2 y siguiendo una ley normal.
Para facilitar los desarrollos posteriores utilizaremos en lo que sigue un modelo
equivalente al anterior en el que no aparece el trmino constante de la relacin. Para
ello basta con expresar la ecuacin (4.1) en desviaciones respecto de las medias de
las variables, es decir
y i = xi + z i + u i

(4.2)

en donde,
______________________________________
Manual de Econometra. Captulo 4, pgina 4.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

y i = Y i - Y ; xi = X i - X ; z i = Z i - Z

con lo cual el modelo a estimar presenta solamente dos parmetros, adems de la


varianza del trmino de error y el trmino constante que se derivara de la informacin
proporcionada por la estimacin de y .
La estimacin MCO de los parmetros de (4.2), dada una muestra de n observaciones
de y, x y z, goza de las propiedades deseables. Dicho de otro modo, las estimaciones
MCO de y se obtienen haciendo
xy - xz zy
= z 2 2
x z - ( xz )2
2

(4.3)

x 2 zy - xz xy
x 2 z 2 - ( xz )2

y son estimadores ELIO, o sea, lineales, insesgados y de varianza mnima. Las


respectivas varianzas se obtienen de
Var( ) = u2

z2
x 2 z 2 - ( xz )2
(4.4)

x2
Var( ) =
x 2 z 2 - ( xz )2
2
u

Obsrvese que, con objeto de aligerar las expresiones anliticas, en los sumatorios se
ha eliminado la referencia al trmino genrico que corresponde a todos los valores
desde i=1 hasta i=n.

______________________________________
Manual de Econometra. Captulo 4, pgina 5.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

Supongamos ahora que en una situacin distinta a la anterior, el investigador utilizara


un modelo emprico en el que por alguna razn no utilizaramos el salario medio por
empleado (Z) como factor explicativo de las variaciones en el absentismo (Y). Tal
como apuntbamos en la introduccin a este tema de la especificacin errnea de un
modelo economtrico, podra suceder que la omisin de una variable explicativa se
debiera a causas tan dispares como la falta de informacin estadstica suficiente o el
desconocimiento del hecho de la intervencin de dicha variable en el modelo. En el
primer caso se tratara de una omisin por pobreza muestral, mientras que en el
segundo la razn estribara en el desconocimiento de la influencia de la variable
suprimida.

Razones de la omisn de variables relevantes:


Limitacin de la informacin estadstica disponible (pobreza muestral)
Desconocimiento de la existencia de una relacin estable entre dicha
variable y la variable endgena (desconocimiento del modelo)
Simplificacin funcional (error de aproximacin de la forma funcional)

La inferencia por MCO del modelo resultante de la omisin de una variable explicativa
Z, lleva a la formulacin de un modelo alternativo en la forma:
y i = xi + vi

(4.5)

en donde, como es obvio, vi= ui+zi. Advirtamos en seguida que, el hecho de que u
cumpliera las hiptesis del modelo estndar no garantiza en absoluto que vaya a
suceder lo mismo con el nuevo trmino de error aleatorio v. En efecto, el trmino de
error v de la ecuacin (4.5) es tal que su valor esperado es cero, pero su varianza
viene determinada por la varianza de la variable omitida z y que puede ser distinta
______________________________________
Manual de Econometra. Captulo 4, pgina 6.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

para cada i. La independencia tambin vendr condicionada a la ms que probable


correlacin entre los sucesivos valores de las z's, cuando los datos son temporales.
En consecuencia, v es un trmino de error en el que con toda probabilidad se
incumplirn las condiciones estndar de homoscedasticidad y/o no autocorrelacin
serial.
Por lo que se refiere a la estimacin de , y para la misma muestra de tamao n, la
estimacin MCO proporciona los siguientes resultados
~ xy
=
x2

que puede expresarse alternativamente, sin ms que sustituir la variable y por su valor
segn la ecuacin (4.5), mediante:
x( x + v)
xv
x(z + u ) = + xz + xu
=
+
=
+
~ =

x2
x2
x2
x 2 x2

(4.6)

Veamos a continuacin cules son las propiedades del estimador de obtenido en


(4.6), es decir en una situacin de especificacin incorrecta debida a omisin de una
variable relevante. Por lo que respecta al valor esperado de la distribucin en el
muestreo de este estimador, de (4.7) se deduce que

xz xu
xz
~
E( ) = E[ +
+
]=+

2
2
x
x
x2

(4.7)

o, lo que es lo mismo, el estimador de en el caso de omisin de una variable


relevante es un estimador sesgado. La magnitud del sesgo viene determinada por la
expresin

______________________________________
Manual de Econometra. Captulo 4, pgina 7.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

SESGO =

xz
x2

Esto significa que el signo del sesgo depende de los signos del parmetro y de la
covarianza entre la variable incluida x y la omitida z. Si ambos signos coinciden, el
sesgo es positivo, en tanto que si y xz son de signos contrarios, entonces el sesgo
es negativo. Una situacin extrema, aunque altamente improbable tratndose de
variables econmicas, en la que x y z estuviesen perfectamente incorrelacionadas
linealmente (en cuyo caso, xz = 0) conducira a una estimacin insesgada de a
pesar de la ausencia de z en el modelo.
Es decir, explicar las variaciones en el absentismo a travs de la variabilidad del
tamao de las empresas olvidando los salarios medios, conduce a estimadores
sesgados del parmetro que refleja la respuesta del absentismo a las variaciones en
la dimensin empresarial. Si las empresas mayores son las que ofrecen salarios
medios ms elevados (rxz>0), y se espera que a mayores salarios corresponden
menores tasas de absentismo, entonces el sesgo es negativo.
Por lo que respecta a la varianza del estimador de , para el modelo mal especificado,
vale:
1
xu 2
~
~
~
Var( ) = E[ - E( ) ] 2 = E[
] = u2
2
x
x2

(4.8)

Vemos que esta varianza es menor que la que se obtena en el caso de trabajar con
el modelo completo. En efecto, la varianza del estimador para el modelo completo
("verdadero") es:

______________________________________
Manual de Econometra. Captulo 4, pgina 8.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

Var( ) = u2

z2
1
= u2
2
2
2
2
x (1 - r 2xz )
x z - ( xz )

(4.9)

Comparando las expresiones (4.8) y (4.9) se llega a la conclusin siguiente:


~
Var( ) Var( )

que muestra como la varianza del estimador de que se obtiene del modelo en el que
se incurre en un error de omisin de una variable relevante es menor que la varianza
del estimador de obtenido del modelo correcto.
La anterior afirmacin puede parecer una contradiccin por cuanto nos seala que la
distribucin del estimador en presencia de un error de especificacin del modelo es
ms concentrada que la obtenida con el modelo bien construido. Sin embargo, la
distribucin de beta tilde es sesgada respecto de . En consecuencia, para decidir
cul de los dos estimadores es preferible debemos recurrir a la medida de su
respectivo error cuadrtico medio (ECM) que nos informar conjuntamente de la
magnitud del sesgo y de la varianza.

En el caso que nos ocupa tenemos que el ECM del estimador de deducido del
modelo de la ecuacin (4.2), es decir en el modelo correcto es,
ECM( ) = [Sesgo ( ) ] 2 + Var ( ) = 0 +

u2
x 2 (1 - r 2xz )
(4.10)

u
=
x 2 (1 - r 2xz )

______________________________________
Manual de Econometra. Captulo 4, pgina 9.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

mientras que el ECM del estimador de a partir de la ecuacin (4.5) en el que se


incurre en el error por omisin de la variable relevante z, resulta
~
~
~
xz 2 u2
ECM( ) = [Sesgo ( ) ] 2 + Var ( ) = [
] +
x2
x2
(4.11)
=

2 ( xz )2 u2
+
x2
( x 2 )2
)

La comparacin de las dos expresiones anteriores permite obtener, despus de un


entretenido proceso de simplificacin que no mostramos aqu, el resultado siguiente
~
ECM( )
= 1 + r 2xz ( 2 - 1)

ECM( )

con definida como

Var( )

que no es otra cosa que el valor terico del estadstico de prueba de la hiptesis nula
Ho: =0. Decimos que se trata de un valor terico puesto que en el denominador
interviene el verdadero valor de la varianza del estimador y no su estimacin, como
sucede en el clculo del estadstico t de student utilizado en el contraste de
significacin individual de los parmetros en el modelo de regresin.
En definitiva, tenemos que

______________________________________
Manual de Econometra. Captulo 4, pgina 10.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

ECM( ) ECM( ~ )
(4.12)
si y solo si : 1 + r ( - 1) > 0
2
xz

o, lo que es lo mismo, si

=|

|> 1
Var( )

expresin que debemos interpretar en el sentido siguiente: la ausencia de una variable


relevante proporciona estimadores peores, en trminos del error cuadrtico medio,
siempre que la variable omitida tenga una significacin dbil en la contribucin a la
variabilidad de la variable dependiente. Dicho de otra forma, la omisin de una
variable relevante no es preocupante si el valor terico del estadstico t de student
para la prueba de significacin individual es menor, en valor absoluto, que la unidad.
Debemos hacer hincapi en el hecho de que la comparacin entre los estimadores se
ha venido realizando en trminos del valor terico de un estadstico de prueba. En la
prctica no disponemos ms que una aproximacin a este valor, fruto de la estimacin
de 2 que es deconocida, por lo que las conclusiones derivadas de las afirmaciones
anteriores deben tomarse con gran precaucin.
Un ejemplo de aplicacin de los resultados de la comparacin entre los ECM de los
estimadores deducidos con y sin error por omisin aparece en los modelos con
multicolinealidad. Habamos dejado en el captulo anterior una discusin pendiente
relativa a las consecuencias de eliminar de la regresin la variable causante de la
colinealidad. Pues bien, ahora disponemos ya de mayores elementos de juicio para
tomar, o no, esta decisin drstica. Si eliminamos una variable relevante del modelo
introducimos sesgo en la estimacin de los restantes estimadores pero disminuimos
sus varianzas. La omisin de la variable colineal estara justificada solamente en
______________________________________
Manual de Econometra. Captulo 4, pgina 11.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

aquellos casos en los que el estadstico de prueba de significacin del parmetro que
la acompaa presentara valores sensiblemente inferiores a la unidad, es decir que la
relevancia de la variable excluida fuera escasa.

2.2. EL CASO GENERAL DE OMISIN DE VARIABLES


La generalizacin de los resultados anteriores al caso del modelo de regresin con K
variables requiere abandonar la notacin sumatorial y retomar la formulacin matricial.
Supongamos a tal efecto que el modelo verdadero contiene como regresores a los
que ocupan todas las columnas de la matriz X, pero estimamos (incorrectamente) un
modelo cuyos regresores forman la matriz X*:
Modelo Verdadero :
Y = X + U; E(U) = 0; E(U U) = 2 I
(4.13)
Modelo Estimado :
Y = X * +V

Los estimadores MCO que obtenemos utilizando X* como matriz de variables


explicativas son los siguientes

-1
-1
1
b* = (X * X * ) X * Y = (X * X * ) X * X + (X * X * ) X * U

(4.14)

Dichos estimadores son estimadores sesgados, puesto que


E( b* ) = ( X * X * ) 1 X * X

(4.15)

______________________________________
Manual de Econometra. Captulo 4, pgina 12.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

En general, cuando cometemos errores de especificacin decidiendo incorrectamente


los regresores que entran en la ecuacin, los estimadores MCO son sesgados.
Cuando el error de especificacin se concreta en la omisin de variables relevantes,
estimamos un modelo que contiene nicamente r regresores (matriz X1), pero el
modelo verdadero tiene K (K>r) variables explicativas, incluyendo adems de X1, otro
conjunto de variables a las que llamamos X2:
Modelo Verdadero :
Y = X + U = X 1 1 + X 2 2 + U

Modelo Estimado :
(4.16)
Y = X * 1 = X 1 b*

X * = [ X 1 X 2 ... X r ] = X 1
X = [ X 1 X 2 ... X r X r+1 ... X K ] = [ X 1 X 2 ]

En este caso, teniendo en cuenta (4.16) podemos ver que:


( X * X

-1
) X * X = ( X 1 X

-1

) X 1 [ X

]
(4.17)

= ( X 1 X

-1

) [ X 1 X

X 1 X

] = [ Ir

( X 1 X

-1

) X 1 X

La ltima matriz de (4.17) tiene r filas y K columnas. Sus primeras r columnas forman
una matriz identidad. Las otras K-r columnas son los estimadores MCO de la
regresin

de

cada

una

de

las

variables

en

X2

(dependientes)

contra

______________________________________
Manual de Econometra. Captulo 4, pgina 13.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

X1(independientes). Sustituyendo (4.17) en (4.15), que es vlida en general, vemos


que los estimadores MCO son sesgados.
Adems, el sesgo depende de la correlacin entre las variables includas y las
omitidas y de los parmetros de las variables omitidas:
E(

* j

)=

+ a

j, r + 1

r+ 1

...+

j, K

(4.18)
(j = 1,2,...r)

donde el valor aj,k es el elemento de la fila j-sima y la columna k-sima de la matriz


(X1'X1)-1 X1'X2, es decir, los valores a son los coeficientes de la regresin que explica
el comportamiento de cada variable excluda en funcin de las incluidas en el modelo.
Los valores sealados con a, as como el sesgo, dependen de la correlacin entre los
dos conjuntos de variables. Solamente en el caso que X1 y X2 sean ortogonales
(correlaciones nulas: X1'X2 = 0) los estimadores son insesgados.
Por otra parte, en (4.18) vemos tambin que el sesgo depende de la importancia real
de las variables omitidas en la explicacin de la endgena (los parmetros de los
regresores excluidos).
Por otra parte, se comprueba que el sesgo no tiende a cero al aumentar el tamao
muestral. Por lo tanto, en presencia de variables omitidas los estimadores MCO son
inconsistentes.
Finalmente, el estimador de la varianza del error tambin es sesgado, con lo cual se
aade un problema nuevo a todo el proceso de estimacin de modelos con variables
relevantes excluidas. Para comprobar esta afirmacin debemos partir del hecho de
que el vector de residuos MCO para el modelo estimado (4.16) es (ver a este respecto
la expresin (2.11) del captulo 2)
______________________________________
Manual de Econometra. Captulo 4, pgina 14.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

e = M 1 Y = [I - X 1 ( X 1 X

-1

) X 1 ]Y

siendo M1 una matriz simtrica e idempotente de rango n-r. Teniendo en cuenta esta
ltima expresin y que M1 es ortogonal con X1, es decir, que:
X1 M1 = M1 X1 = 0
podemos obtener la expresin de la suma de cuadrados de los errores para nuestro
modelo, en funcin de las perturbaciones U, de las exgenas X y de los parmetros :
SCE = ee = Y M 1 Y
= ( X 1 1 + X 2 2 + U) M 1 ( X 1 1 + X 2 2 + U)
(4.19)
= ( X 2 2 + U) M 1 ( X 2 2 + U)
= U M 1U + 2 X 2 M 1 X 2 2 + 2 2 X 2 M 1U

Aplicando esperanzas a (4.19) obtenemos la expresin de la esperanza de la suma de


cuadrados de los residuos MCO:

E(ee) = E(U M 1U) + 2 X 2 M 1 X 2 2


(4.20)
= 2 (n - r) + 2 X 2 M 1 X 2 2

El estimador MCO de la varianza de la perturbacin es, como sabemos, la suma de


cuadrados de los residuos dividida entre los grados de libertad (n-r). Es un estimador
sesgado, ya que:

______________________________________
Manual de Econometra. Captulo 4, pgina 15.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

2 =

ee
n-r
(4.21)

E( 2 ) = 2 +

1
2 X 2 M 1 X 2 2
n-r

y, en definitiva, el sesgo en la estimacin de la varianza del trmino de perturbacin,


que es el segundo sumando, existe y adems es de signo positivo.

En caso de excluir del modelo variables relevantes, los estimadores MCO de


son sesgados. El sesgo depende de la correlacin entre las variables excluidas y
las omitidas, y de la influencia de estas ltimas sobre Y.
Los estimadores son inconsistentes.
El estimador de la varianza de la perturbacin tambin es sesgado, por lo que el
proceso de inferencia estadstica puede proporcionar resultados errneos.

3. INCLUSIN DE VARIABLES IRRELEVANTES


3.1. INCLUSIN DE UNA VARIABLE SUPRFLUA
El segundo tipo de error de especificacin que aboradaremos en este captulo se
refiere a la incorporacin en el modelo de variables irrelevantes o suprfluas. Para ello
supondremos en principio que el modelo verdadero contiene una nica variable
explicativa y que estimamos un modelo que contiene, adems, una variable
______________________________________
Manual de Econometra. Captulo 4, pgina 16.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

irrelevante. Ms adelante procederemos a la generalizacin de los resultados


alcanzados con el ejemplo ms simple con el que inciamos el desarrollo.
Consideremos que el valor mensual de una cartera de activos financieros viene
explicado por el precio del dinero. Supongamos que, en un intento de explicar mejor
las variaciones temporales de la cartera, se incorpora en el modelo una segunda
variable explicativa que, como el consumo privado, refleja las variaciones en una
dimensin de la actividad econmica.
Sea el modelo correcto el representado por la ecuacin siguiente (en desviaciones
respecto a las medias):
y i = xi + u i

(4.22)

en donde, Y representa el valor de la cartera, X el precio del dinero. El modelo que


incorpora la variable consumo (C), que vamos a suponer que resulte irrelevante en la
explicacin del valor de la cartera, es
y i = xi + ci + u i

(4.23)

Las variables se han expresado, en ambos modelos, en desviaciones respecto de sus


medias para evitar la presencia explcita del trmino constante de cada una de las
ecuaciones.
De este modo,
y i = Y i - Y ; xi = X i - X ;

ci = C i - C ; i = 1...n

La estimacin del parmetro en el modelo (4.23), en el que se incluye de manera


errnea la variable c, viene dada por:
______________________________________
Manual de Econometra. Captulo 4, pgina 17.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

2 xy - xc cy
~ = c 2
x c 2 - ( xc )2

(4.24)

Como se observa en la anterior expresin conservaremos el smbolo tilde para indicar


que se trata del estimador deducido de un modelo incorrecto. Este estimador es un
estimador insesgado de como se demuestra fcilmente sin ms que utilizar estas
dos iguladades:
E[ cy] = E[ c( x + u)] = xc
(4.25)
E[ xy] = E[ x( x + u)] = x 2

En efecto:
c 2 E[ xy] - xc E[ cy]
~
E[ ] =
x 2 c 2 - ( xc )2
(4.26)
c ( x ) - xc ( xc)
=
x 2 c 2 - ( xc )2
2

Por lo que se refiere a la varianza del estimador, que coincidir con su ECM puesto
que se trata de un estimador insesgado, tenemos
Var( ~ ) = ECM( ~ ) = u2

c2
x 2 c 2 - ( xc )2
(4.27)

= u2

1
x (1 - r 2xc )
2

______________________________________
Manual de Econometra. Captulo 4, pgina 18.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

Esta varianza es, en cualquier caso, superior a la varianza que se obtiene del modelo
correcto, es decir
~
Var( ) = u2

1
1
Var( ) = u2
2
x (1 - r xc )
x2
2

(4.28)

Finalmente, el estimador de la varianza del trmino de perturbacin es insesgado a


pesar de la presencia de variables irrelevantes, es decir que se puede demostrar que:
E( ~u2 ) = u2

Si repetimos el ejercicio para el estimador del parmetro en el modelo (4.23),


tenemos que
~ 2 cy - xc xy
= x2
x c 2 - ( xc )2

y, utilizando de nuevo las expresiones que aparecen en (4.25), resulta


E[ ~ ] =

x 2 E[ cy] - xc E[ xy]
x 2 c 2 - ( xc )2
(4.29)

x 2 xc - xc E[ x 2 ]
=0
x 2 c 2 - ( xc )2

que demuestra la insesgadez del estimador de puesto que poblacionalmente es


decir, en el modelo correcto su valor es igual a cero.
As pues, en presencia de variables irrelevantes los estimadores MCO de los
______________________________________
Manual de Econometra. Captulo 4, pgina 19.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

parmetros en el modelo de regresin siguen siendo insesgados, pero pierden


precisin como consecuencia del aumento de las varianzas de sus distribuciones
muestrales.

3.2. INCLUSIN DE s VARIABLES IRRELEVANTES


Para el modelo general con K variables explicativas al que se le aaden s variables
irrelevantes se mantienen las propiedades de los estimadores tal como se mostr en
el caso de un regresor. En efecto, el verdadero modelo contiene K regresores (X1),
pero aadimos en la ecuacin a estimar s variables explicativas irrelevantes de ms.
La matriz de regresores contiene, pues, los conjuntos X1 y X2:
Modelo

Verdadero

Y = X

Modelo

+ U

Estimado

:
(4.30)

Y = X

b1+ X

X = [ X
X

= [ X

Teniendo en cuenta (4.30) podemos ver que los estimadores MCO son insesgados:

______________________________________
Manual de Econometra. Captulo 4, pgina 20.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

( ( X * X

-1

X * )

IK
0 (4.31)

El sesgo es nulo, porque los coeficientes de la regresin de X1 contra X1 y X2 son la


unidad (cuando una variable se regresa contra s misma) o cero (cuando se regresa
contra las dems). Por lo tanto, los estimadores de los coeficientes de las variables
relevantes (X1) son insesgados, mientras que los estimadores de los parmetros
correspondientes a las variables irrelevantes tienen media nula (en general, resultarn
no significativos).
El estimador de la varianza del error tambin es insesgado. En efecto, en este caso el
vector de residuos MCO es el siguiente:

e = MY, con M = I - X * (X * X * )-1 X *

y, teniendo en cuenta que MX1 = MX* = 0, vemos que la suma de cuadrados de los
errores de la regresin es U'M U:

SCE = ee = Y MY = ( X 1 1 + U) M ( X 1 1 + U)
(4.32)
= U MU + 1 X 1 M X 1 1 + 2 1 X 1 MU = U MU

La esperanza matemtica de la suma de cuadrados de los errores es:

E(ee) = E(U MU) = 2 tr(M) = 2 (N - K - s)

donde, como de costumbre, tr indica la traza de la matriz que, en nuestro caso,


______________________________________
Manual de Econometra. Captulo 4, pgina 21.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

coincide con los grados de libertad del modelo estimado, es decir, N-K-s. El estimador
MCO de la varianza del error es insesgado, ya que:

~ 2 =

ee
;
N -K -s
(4.33)

N -K -s
E (~ 2 ) = 2
=2
N -k -s

En caso de incluir en el modelo variables irrelevantes, los estimadores MCO son


insesgados y consistentes. El estimador de la varianza del error tambin lo es.
Pero hay un coste de eficiencia: los estimadores tienen varianzas mayores que si
se hubiera especificado el modelo correctamente.

4. ESPECIFICACIN INCORRECTA DE LA FORMA FUNCIONAL


La especificacin incorrecta de la forma funcional es un error de especificacin
asimilable al cometido por omisin de variables relevantes. Sus consecuencias son,
por lo tanto, estimadores MCO sesgados e inconsistentes. Para ilustrar este caso,
supondremos que el verdadero modelo es cuadrtico en la (nica) variable explicativa
X2, pero que, incorrectamente, estimamos un modelo lineal. Estamos omitiendo la
variable relevante X2i2. En desviaciones respecto a las medias:

______________________________________
Manual de Econometra. Captulo 4, pgina 22.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

Modelo Verdadero :
y i = 2 x 2i + 3 x 22i + u i
(4.34)
Modelo Estimado :
y i = 2 x 2 i + vi

Deduzcamos la expresin del estimador MCO de 2:

~2 =

x y
x
2

2
2

(4.35)

donde,

x 2i = X

2i

- X 2 ; u i = U i - U ; i = 1...n

Tomando esperanza en (4.35) y sustituyendo y por su expresin segn el modelo


"verdadero", descubrimos que el estimador en general es sesgado. El sesgo ser
nulo nicamente cuando la distribucin muestral de la variable X2 sea simtrica, y por
tanto cuando su momento centrado de tercer orden sea nulo. A mayor asimetra de la
distribucin, mayor sesgo:
E( b2 ) = 2 + 3

x32i
x 22i

(4.36)

expresin que podemos comparar con la obtenida en (4.7) para ver que efectivamente
se trata del mismo tipo de problema y, en consecuencia, del mismo resultado.

5. ESPECIFICACIN INCORRECTA DEL NIVEL DE ANLISIS. PROBLEMAS DE


______________________________________
Manual de Econometra. Captulo 4, pgina 23.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

AGREGACIN Y "FALACIA ECOLGICA"


En este apartado se menciona un problema de especificacin que encontramos
frecuentemente en la prctica. Consiste en especificar el modelo a un nivel de anlisis
inadecuado. Por ejemplo, una relacin causal se produce a nivel micro, entre agentes
econmicos, pero la estimamos e interpretamos, incorrectamente, con datos
agragados (macro), como si la interpretacin micro pudiera trasladarse al nivel
agregado. A este sesgo de agregacin se le llama en la literatura, a veces, "falacia
ecolgica" (interpretar para un colectivo resultados que solo son vlidos al nivel
individual).
Piense en el gasto en medicamentos de un paciente (nivel 1), funcin lineal de la
gravedad, aproximada por la edad del paciente. Cuanto ms veijo, ms gasto. Pero
estimamos la ecuacin a nivel de mdico prescriptor (nivel 2). Su variable endgena
es el gasto medio por paciente y como explicativa tendremos la edad media de los
pacientes asignados a cada mdico. Influye relamente la edad media de los
pacientes en el gasto del mdico?. No, pero la ecuacin resulta de agregar las
ecuaciones individuales de los pacientes que atiende.
Volveremos a este problema en el captulo de los modelos de panel y los modelos
jerrquicos. De momento, lo dejamos as planteado.

______________________________________
Manual de Econometra. Captulo 4, pgina 24.
1
2
Carlos Murillo Fort y Beatriz Gonzlez Lpez-Valcrcel (2000)
1
Catedrtico Universidad Pompeu Fabra
2
Catedrtica Universidad de Las Palmas de GC

Vous aimerez peut-être aussi