Académique Documents
Professionnel Documents
Culture Documents
División de Economía
NOTAS: (1) Exogeneidad estricta implica que la media incondicional de cada perturbación es cero
𝐸 (𝑢� ) = 0; 𝑖 = 1,2, … , 𝑁 (2.6)
Por la ley de Expectativas totales: 𝐸 (𝑢� ) = 𝐸 [𝐸(𝑢� |𝑥)] = 𝐸 [0] = 0
Este supuesto implica que 𝐸�𝑢�� �𝑿� = 𝜎 � ; 𝑖 = 1,2, … , 𝑁, lo cual se conoce como
“homocedasticidad” o “ausencia de heterocedasticidad”.
Igualmente 𝐸�𝑢� 𝑢� �𝑿� = 0; 𝑖, 𝑗 = 1,2, … , 𝑁; 𝑝𝑎𝑟𝑎 𝑡𝑜𝑑𝑜 𝑖 ≠ 𝑗, lo cual implica “ausencia de
correlación” entre cada par de observaciones
NOTAS:
(1) Para muestras aleatorias los supuestos establecidos en 2.1.2 y 2.1.4 implican
𝐸 (𝑢� |𝑥� ) = 0 & 𝐸�𝑢�� �𝑥� � = 𝜎 � > 0; 𝑖 = 1,2, … , 𝑁
(2) Si la matriz 𝑿 fuese fija, no habría necesidad de distinguir entre la distribución condicional
𝑓(𝑢� |𝒙� , 𝒙� , … , 𝒙� ) y la distribución incondicional 𝑓(𝑢� ). Entonces, 2.1.2 y 2.1.4 se pueden formular
simplemente como:
𝐸 (𝑢� ) = 0; 𝐸 (𝑢� � ) = 𝜎 � , 𝑖 = 1,2, … , 𝑁; 𝐸�𝑢� 𝑢� � = 0; 𝑖, 𝑗 = 1,2, … , 𝑁; 𝑖 ≠ 𝑗
�� �
La condición de segundo orden es = 2 > 0. Por lo que 𝛽� corresponde a un mínimo.
�� �
(iii) Considere ahora una muestra aleatoria (𝑌� , 𝑋� ), 𝑖 = 1, … , 𝑇 y suponga que existe una relación
lineal 𝑌� = 𝑋� 𝛽 + 𝑢� . Donde 𝛽 es un parámetro desconocido y 𝑢� ~ (0, 𝜎 � ). Halle 𝛽� de MC.
min 𝑆 = �(𝑌� − 𝑋� 𝛽 )�
�
���
Donde (𝑌� − 𝑋� 𝛽 )� = 𝑢�� , lo que equivale a “minimizar la suma de los errores al cuadrado”
��
Condición de primer orden: = −2 ∑����(𝑌� − 𝑋� 𝛽 )𝑋� = 0
��
⇒ 𝛽� = ∑���� 𝑌� 𝑋� / ∑���� 𝑋� �
�� �
Condición de segundo orden: = 2 ∑���� 𝑋� � > 0
�� �
⇒ 𝛽� corresponde a un mínimo
min 𝑆 = �(𝑌� − 𝛽� − 𝛽� 𝑋� )�
�
���
�� ��
Resolviendo las dos condiciones de primer orden: =0 & = 0 se puede obtener:
��� ���
𝛽�� = 𝑌� − 𝛽�� 𝑋�
� �
Para modelos con más variables explicativas, la obtención del estimador de mínimos cuadrados
para cada parámetro del modelo se hace algebraicamente más complicada. Esto nos lleva a
plantear un tratamiento general (matricial) del método de mínimos cuadrados.
𝑦�
𝑦�
(1) 𝒀′𝒀 = [𝑦� 𝑦� … 𝑦� ] � ⋮ � = 𝑦�� + 𝑦�� + ⋯ + 𝑦��
𝑦�
Utilizando los resultados anteriores, la condición de primer orden del problema de minimización es:
𝜕𝑼� 𝑼
= −2𝑿� 𝒀 + 2𝑿� 𝑿𝜷 = 0 (2.13)
𝜕𝜷
De donde se puede obtener:
𝑿� 𝑿[�×�] 𝜷[�×�] = 𝑿� [�×�] 𝒀[�×�] (2.14)
Nótese que (2.14) es un sistema de 𝐾 ecuaciones. Estas son conocidas como “ecuaciones
normales”.
Pre-multiplicando (2.14) por (𝑿� 𝑿)�� se ob�ene el es�mador de mínimos cuadrados de 𝜷:
� ��
𝜷 = (𝑿� 𝑿)�� �
[�×�] �𝑿 [�×�] 𝒀[�×�] � (2.15)
[��]
La condición de segundo orden se satisface puesto que 𝑿′𝑿 es una matriz definida positiva.
Como se demostrará más adelante, un estimador de la varianza del término de error es:
��� � �𝑼
𝑼 �
�
𝜎� = =
��� ���
� = 𝒀 − 𝑿𝜷
Donde 𝑼 � , es el vector de residuales estimados y RSS denota la Suma Residual de
Cuadrados (de la regresión de 𝒀 en 𝑿).
𝑿� �𝒀 − 𝑿𝜷 �� = 𝟎 (2.16)
Donde �𝒀 − 𝑿𝜷 � � es el vector de residuales estimados, denotado por 𝑼
�.
Dado que 𝑿� 𝑼� = 𝟎 implica � ∑ 𝒙� 𝑢�� = 𝟎, las ecuaciones normales se pueden interpretar
�
como el análogo muestral de las condiciones de ortogonalidad 𝐸 (𝑿� 𝑼) = 0 (momentos
poblacionales).
(a) Simétrica: 𝑷 = 𝑷�
[𝑿(𝑿� 𝑿)�𝟏 𝑿� ]� = 𝑿(𝑿� 𝑿)�𝟏 𝑿�
(b) Idempotente: 𝑷𝑷 = 𝑷
𝑿(𝑿� 𝑿)�𝟏 (𝑿� 𝑿)(𝑿� 𝑿)�𝟏 𝑿�
= 𝑿(𝑿� 𝑿)�𝟏 𝑿�
(c) 𝑷𝑿 = 𝑿
𝑿(𝑿� 𝑿)�𝟏 (𝑿� 𝑿) = 𝑿
�
= 𝒀 − 𝑿𝜷
= 𝒀 − 𝑿(𝑿� 𝑿)�𝟏 (𝑿� 𝒀)
= [𝑰 − 𝑿(𝑿� 𝑿)�𝟏 𝑿� ]𝒀
� �×� = �𝑰[�×�] − 𝑷[�×�] �𝒀[�×�]
𝑼
� [�×�] = 𝑴[�×�] 𝒀[�×�]
𝑼 (2.18)
(b) Idempotente: 𝑴𝑴 = 𝑴
�𝟏 �𝟏
�𝑰 − 𝑿�𝑿ʹ 𝑿� 𝑿ʹ � �𝑰 − 𝑿�𝑿ʹ 𝑿� 𝑿ʹ �
= 𝑰 − 𝑿(𝑿ʹ 𝑿)�𝟏 𝑿ʹ − 𝑿(𝑿ʹ 𝑿)�𝟏 𝑿ʹ + 𝑿(𝑿ʹ 𝑿)�𝟏 𝑿ʹ 𝑿(𝑿ʹ 𝑿)�𝟏 𝑿ʹ
= 𝑰 − 𝑿(𝑿ʹ 𝑿)�𝟏 𝑿ʹ = 𝑴
Alternativamente: (𝑰 − 𝑷)(𝑰 − 𝑷) = 𝑰 − 𝑷 − 𝑷 + 𝑷𝑷 = 𝑰 − 𝑷 − 𝑷 + 𝑷 = (𝑰 − 𝑷)
(c) 𝑴𝑿 = 𝟎
(𝑰 − 𝑷)𝑿 = 𝑿 − 𝑷𝑿 = 𝑿 − 𝑿 = 𝟎
(La matriz 𝑴 “aniquila” a la matriz 𝑿)
� ʹ𝑼
(iv) Suma Residual de Cuadrados (Residual Sum of Squares): 𝑅𝑆𝑆 = 𝑼 � = 𝑼′𝑴𝑼
� = 𝑴𝒀 = 𝑴(𝑿𝜷 + 𝑼)
Utilizando el resultado (iii): 𝑼
= 𝑴𝑿𝜷 + 𝑴𝑼 = 𝟎 + 𝑴𝑼 = 𝑴𝑼
Entonces,
𝑅𝑆𝑆 = (𝑴𝑼)′(𝑴𝑼) = 𝑼� 𝑴� 𝑴𝑼 = 𝑼′𝑴𝑼
� 𝑳𝑺
2.3 Propiedades Estadísticas del Estimador de Mínimos Cuadrados: 𝜷
2.3.1 Insesgamiento
� �� es
Bajo los supuestos de linealidad, exogeneidad estricta y rango completo el estimador 𝜷
insesgado:
� �� |𝑿) = 𝜷
𝐸(𝜷 (2.19)
Sustituyendo 𝒀 = 𝑿𝜷 + 𝑼 en (2.15) se puede obtener:
� �� = 𝜷 + 𝑨𝑼;
𝜷 𝑨 = (𝑿ʹ 𝑿)�𝟏 𝑿ʹ (∗)
Tomando esperanza condicional en 𝑿:
� �𝑿� = 𝐸 (𝜷|𝑿) + 𝐸 (𝑨𝑼|𝑿) = 𝜷 + 𝑨𝐸 (𝑼|𝑿) = 𝜷 + 𝟎
𝐸�𝜷
� �� |𝑿) = 𝜷
⟹ 𝐸(𝜷
2.3.2 Eficiencia (Teorema de Gauss-Markov)
� cualquier estimador de 𝜷 lineal en 𝒀 e insesgado. Bajo los supuestos de linealidad,
Sea 𝜷
exogeneidad estricta, rango completo y matriz de convarianza escalar-identidad, la diferencia:
� �𝐗� − 𝑉𝑎𝑟�𝜷
�𝑉𝑎𝑟�𝜷 � �� �𝐗�� (2.20)
Es una matriz semidefinida positiva (no negativa definida).
� es igual a 𝐸� [𝜷
Por definición, la varianza del estimador 𝜷 � − 𝐸� �𝜷
� �][𝜷
� − 𝐸� �𝜷
� �]′. Entonces,
� �� �𝐗� = 𝐸� �𝜷
𝑉𝑎𝑟�𝜷 � − 𝜷��𝜷
� − 𝜷�′ = 𝐸� [(𝑨𝑼)(𝑨𝑼)′] = 𝐸� [𝑨𝑼𝑼′𝑨]
� �𝑿� = 𝑨𝐸�𝑼𝑼ʹ �𝑿�𝑨ʹ = 𝑨(𝜎 � 𝑰)𝑨ʹ = 𝜎 � 𝑨𝑨ʹ = 𝜎 � (𝑿ʹ𝑿)��
⟹ 𝑉𝑎𝑟�𝜷
NOTA: Se obtiene lo mismo aplicando el operador varianza a la expresión (∗), condicional en 𝑿.
� , lineal e insesgado:
Considere ahora el estimador alternativo 𝜷
� = 𝑪𝒀 = [(𝑿ʹ 𝑿)�� 𝑿ʹ + 𝑪 − �𝑿ʹ 𝑿)�𝟏 𝑿ʹ �𝒀
𝜷
Haciendo 𝑨 = (𝑿ʹ 𝑿)�𝟏 𝑿ʹ y 𝑫 = 𝑪 − (𝑿ʹ 𝑿)�𝟏 𝑿ʹ
� = (𝑨 + 𝑫)𝒀 = (𝑨 + 𝑫)(𝑿𝜷 + 𝑼)
𝜷
� = 𝑨𝑿𝜷 + 𝑫𝑿𝜷 + 𝑨𝑼 + 𝑫𝑼 (**)
𝜷
� = 𝜷 + 𝑫𝑿𝜷 + 𝑨𝑼 + 𝑫𝑼. Aplicando la esperanza condicional en 𝑿:
Pero 𝑨𝑿 = 𝑰. Entonces 𝜷
� �𝑿� = 𝜷 + 𝑫𝑿𝜷 + 𝑨𝐸 (𝑼|𝑿) + 𝑫𝐸 (𝑼|𝑿)
𝐸�𝜷
Puesto que para cualquier matriz 𝑫 el producto 𝑫𝑫′ siempre será una matriz semidefinida positiva
� 𝑳𝑺
2.3.3 Media y Varianza Incondicionales de 𝜷
Utilizando la ley de expectativas iteradas:
� � = 𝐸� �𝐸�𝜷
𝐸�𝜷 � �𝑿��
��
= 𝐸� [𝐸(𝜷 + �𝑿ʹ 𝑿� 𝑿ʹ 𝑼)|𝑿]
= 𝜷 + 𝐸� [�𝑿ʹ 𝑿)�𝟏 𝑿ʹ 𝑬(𝑼|𝑿)�
�� = 𝜷
𝐸�𝜷 (2.21)
� 𝑳𝑺 también es insesgado incondicionalmente.
Puesto que 𝐸 (𝑼|𝑿) = 𝟎. ⟹ 𝜷
� ) = 𝜎 � (𝑿ʹ𝑿)��
𝑉𝑎𝑟(𝜷
� ʹ𝑼
𝐸(𝑼 � |𝑿) = 𝐸(𝑼� 𝑴𝑼|𝑿) = 𝐸[𝑡𝑟(𝑼� 𝑴𝑼|𝑿)]
= 𝐸[𝑡𝑟(𝑴𝑼𝑼� |𝑿)]
= 𝑡𝑟[𝐸 (𝑴𝑼𝑼′|𝑿)]
= 𝑡𝑟[𝑴𝐸 (𝑼𝑼′|𝑿)]
= 𝜎 � 𝑡𝑟[𝑴]
Evaluando 𝑡𝑟(𝑴):
𝑡𝑟(𝑴) = 𝑡𝑟[𝑰 − 𝑷] = 𝑡𝑟(𝑰) − 𝑡𝑟(𝑷) = 𝑵 − 𝑡𝑟(𝑷)
𝑡𝑟(𝑷) = 𝑡𝑟[𝑿�𝑿ʹ 𝑿)�𝟏 𝑿ʹ �
Haciendo 𝑨 = 𝑿 𝑦 𝑩 = [�𝑿ʹ 𝑿)�𝟏 𝑿ʹ � y utilizando el resultado (2) de la nota anterior:
𝑡𝑟(𝑷) = 𝑡𝑟[�𝑿ʹ 𝑿)�� 𝑿ʹ 𝑿� = 𝑡𝑟[𝑰� ] = 𝐾
⇒ 𝑡𝑟(𝑴) = 𝑁 − 𝐾
� ʹ𝑼
Por tanto: 𝐸�𝑼 � �𝑿� = 𝐸 (𝑼� 𝑴𝑼|𝑿) = 𝜎 � 𝑡𝑟[𝑴] = 𝜎 � (𝑁 − 𝐾)
� como:
Con el estimador (2.23) podemos definir a la Varianza Estimada de 𝜷
� ) = 𝜎� � (𝑿ʹ𝑿)��
� (𝜷
𝑉𝑎𝑟
� ) será utilizada para hacer inferencia
� (𝜷
NOTAS: (1) 𝑉𝑎𝑟
(2) 𝜎� es conocido como “error estándar de la regresión” y (𝑁 − 𝐾), el número de observaciones
menos el número de parámetros estimados, es denominado “grados de libertad”.
Econometría 1 Programa de Maestría en Economía
Prof. Rodolfo Cermeño
Centro de Investigación y Docencia Económicas, A.C.
División de Economía
𝑼′𝑴𝑼 = � � 𝑢� 𝑚�� 𝑢�
��� ���
� �
= � � 𝑚�� 𝑢� 𝑢�
��� ���
𝑸 = � � 𝑋� 𝑎�� 𝑋�
��� ���
Suponiendo que 𝑋� 𝑋� = 𝑐, ∀𝑖 = 𝑗 𝑦 𝑋� 𝑋� = 0, ∀𝑖 ≠ 𝑗,
� �
En el caso simple 𝐍 = 𝟐:
𝑎�� 𝑎�� 𝑋� 𝑋�
𝑸 = [𝑋� 𝑋� ] �𝑎 � �
𝑎�� 𝑋� � = [ 𝑋� 𝑎�� + 𝑋� 𝑎�� 𝑋� 𝑎�� + 𝑋� 𝑎�� ] � �
�� 𝑋�
� �
Haciendo 𝑋� 𝑋� = 0 y 𝑋� � = 𝑋� � = 𝑐
𝑸 = 𝑐𝑎�� + 𝑐𝑎�� = 𝑐(𝑎�� + 𝑎�� ) = 𝑐[𝑡𝑟𝑎𝑧𝑎(𝑨)]
𝒀ʹ 𝒀 = �𝒀 � �ʹ �𝒀
�+𝑼 �+𝑼
�� = 𝒀
�ʹ𝒀
� + 2𝒀
�ʹ𝑼
� +𝑼
� ʹ𝑼
�=𝒀
� ′𝒀
�+𝑼
� ′𝑼
�
� ′𝑼
Puesto que 𝒀 � = (𝒀� 𝑷� )(𝑴𝒀) = 𝒀� 𝑷� (𝑰 − 𝑷)𝒀 = 𝒀� 𝑷� 𝒀 − 𝒀� 𝑷� 𝒀 = 𝟎
𝒀 = 𝒊� 𝛽�� + 𝑿� 𝜷
�� + 𝑼
� (2.1𝑎)
Sea 𝑴� una matriz “aniquiladora” definida como:
𝑴� = 𝑰� − 𝒊� (𝒊� ʹ𝒊� )�� 𝒊� ʹ
Pre-multiplicando (2.1a) por 𝑴� :
𝑴� 𝒀 = 𝑴� 𝒊� 𝛽�� + 𝑴� 𝑿� 𝜷
� � + 𝑴� 𝑼
�
� �×� : Vector de residuales obtenidos de la regresión de 𝒀 en una constante.
𝑴� 𝒀 = 𝒀
� �×(���) : Matriz de residuales de la regresión de cada columna de 𝑿� en una constante.
𝑴� 𝑿� = 𝑿
�=𝑼
𝑴� 𝒊� = 𝟎, puesto que 𝑴� “aniquila” a 𝒊� ; mientras que 𝑴� 𝑼 � �×� .
Entonces,
�=𝑿
𝒀 � 𝜷� + 𝑼
�
� ′ se puede obtener:
Pre-multiplicando por 𝒀
� ʹ𝒀
𝒀 � � ʹ𝑿
�=𝜷 � ʹ𝑿
�𝜷�� + 𝑼
� ʹ𝑼
�
� ʹ𝒀
𝒀 � : 𝑇𝑆𝑆 (Suma total de cuadrados)
� � ʹ𝑿
𝜷 � ʹ𝑿
�𝜷� � : 𝐸𝑆𝑆 (Suma explicada de cuadrados)
� ʹ𝑼
𝑼 � : 𝑅𝑆𝑆 (Suma residual de cuadrados)
��� ��� ���
Dividiendo la expresión anterior entre 𝑇𝑆𝑆: = +
��� ��� ���
𝐸𝑆𝑆 𝑅𝑆𝑆 ∑� � ��
��� 𝑢
𝑹𝟐𝑪 = =1− =1− � (2.25)
𝑇𝑆𝑆 𝑇𝑆𝑆 ∑���(𝑌� − 𝑌�)�
0 ≤ 𝑹𝟐𝑪 ≤ 1: Es la fracción de la variación de 𝒀 (alrededor de la media) explicada por la variación de
los regresores no constantes 𝒙� , … , 𝒙� . Es una medida del poder explicativo de los regresores
excluyendo la constante.
NOTA: Cuando el modelo no incluye una constante, es posible que 𝑹𝟐𝑪 tome valores negativos por
lo que carecerá de interpretación. Por construcción, esto no ocurrirá con el 𝑹𝟐𝑵𝑪 .
�𝟐
2.5.3 𝑹𝟐 -Ajustada: 𝑹
Es la 𝑅�� ajustada por los “grados de libertad” de RSS y TSS respectivamente.
𝑅𝑆𝑆⁄(𝑁 − 𝐾)
𝑅� � = 1 − (2.26)
𝑇𝑆𝑆⁄(𝑁 − 1)
No necesariamente aumenta cuando se incluye un regresor adicional. Aumentará solo sí la
reducción proporcional en RSS es mayor que la reducción proporcional en (𝑁 − 𝐾).
Puede ser negativo si el modelo tiene poco poder explicativo. En este caso:
𝑁 − 1 𝑇𝑆𝑆
>
𝑁 − 𝐾 𝑅𝑆𝑆
2.5.4 Los Criterios de Información de Akaike, Schwarz & Hannan-Quinn
Sirven para comparar el ajuste de modelos con diferente número de regresores.
� ʹ𝑼
𝑼 � 2𝐾
𝐴𝐼𝐶 = 𝑙𝑛 + � � ← 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑑𝑒 𝑝𝑒𝑛𝑎𝑙𝑖𝑧𝑎𝑐𝑖ó𝑛 (2.27)
𝑁 𝑁
𝑼� ʹ𝑼
� 𝐾
𝐵𝐼𝐶 ó 𝑆𝐶 = 𝑙𝑛 + � 𝑙𝑛𝑁� ← 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑑𝑒 𝑝𝑒𝑛𝑎𝑙𝑖𝑧𝑎𝑐𝑖ó𝑛 (2.28)
𝑁 𝑁
� ʹ𝑼
𝑼 �
𝐻𝑄𝐶 = 𝑁 𝑙𝑛 + 2𝐾𝑙𝑛(ln 𝑁) ← 𝑡é𝑟𝑚𝑖𝑛𝑜 𝑑𝑒 𝑝𝑒𝑛𝑎𝑙𝑖𝑧𝑎𝑐𝑖ó𝑛 (2.29)
𝑁