Vous êtes sur la page 1sur 4

Comisión Económica para América Latina y el Caribe (CEPAL)

División de Estadísticas y Proyecciones Económicas (DEPE)


Centro de Proyecciones Económicas (CPE)

Modelo Clásico de Regresión


Enfoque Matricial
Christian A. Hurtado Navarro
Mayo, 2006

1. Introducción.
Reconsideremos el modelo de regresión lineal, pero extendiendo el
análisis para el caso de k variables explicativas. El modelo es
j
y i = β1 + β 2 x 2,i + β 3 x3,i + K + β k x k ,i + ε i = ∑β
j =1
j x j ,i + ε i ; con i = 1, 2,…,n.

Donde x1,i = [x11 K x n1 ]' = [1 K 1]' .


'

Utilizando notación matricial el modelo general, se puede escribir como:


Y = Xβ + ε
Donde ε es, como antes, aleatorio, y
⎡ y1 ⎤ ⎡ x11 L x1k ⎤ ⎡ β1 ⎤ ⎡ε1 ⎤
Yn×1 = ⎢ M ⎥ ; X k ×n = ⎢ M O M ⎥ ; β k ×1 = ⎢ M ⎥ ; ε n×1 = ⎢⎢ M ⎥⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥

⎣⎢ y n ⎦⎥ ⎢⎣ x n1 L x nk ⎦⎥ ⎣⎢ β k ⎦⎥ ⎣⎢ε n ⎦⎥
Los supuestos más simples del modelo de regresión general son:
i. E [ε ] = 0 , donde 0 es el vector nulo.

ii. [ ]
var(ε ) = E (ε − E [ε ])(ε − E [ε ])' = E [εε '] = σ 2 I n
iii. X es no estocástico, fijo en muestras repetidas.
iv. ran(X) = k < n. Esto es, los vectores de observaciones que
conforman la matriz X son linealmente independientes.
v. El vector ε tiene una distribución normal multivariada:

(
ε ~ N 0, σ 2 I n )
S-i y S-ii implican que ε es un vector de errores aleatorios en el que
cada uno de sus elementos tiene media cero, varianza constante, y no
están correlacionados entre sí. Donde In es una matriz identidad de orden
n × n. Nótese que en la matriz anterior, todas las entradas en la
diagonal corresponden a las varianzas de εi (el término de error), todas
las cuales son idénticas a σ2, por lo que seguimos considerando errores
homocedásticos. Además, como todas las entradas fuera de la diagonal
corresponden a las covarianzas entre pares de errores, y éstas son cero,
entonces pares de los ε’s están no correlacionados. La matriz E(εε’) = Ω
= σ2In recibe el nombre de matriz de varianzas y covarianzas de los
errores. Solo para estar seguros de que estamos entendiendo el desarrollo
del modelo, hagámonos las siguientes preguntas: ¿qué importancia
económica tienen los supuestos de homocedasticidad y de independencia de
los errores? Ambos supuestos implican:
i. que la distribución de los efectos no considerados en el modelo
- que en su conjunto constituyen el error - es tan estable
período a período, que su dispersión, medida por su varianza, es
invariante en el tiempo; y,
ii. que las acciones de los agentes económicos con respecto a las
variables no consideradas no se trasladan de un período a otro,
por lo que no se provocan efectos traslapados en el tiempo; por
lo tanto, los errores permanecen relativamente estables en el
tiempo.
El S-iii lleva a concluir que Y varía aleatoriamente sólo debido a la
presencia del término de error ε. El supuesto S-iv, por su parte, tiene
dos partes. Primero, requiere que la matriz X sea de rango completo y,
segundo, que el número de observaciones n sea mayor que el número de
parámetros a estimar, k. Es necesario que la matriz X sea de rango
completo porque la matriz X’X también será de rango completo y por lo
tanto invertible, resultado que es necesario más adelante. Si tanto X
como X’X no son de rango completo, entonces los vectores columna (fila)
que conforman la matriz X serán linealmente dependientes; esto es, al
menos una de las columnas (filas) de dicha matriz puede obtenerse como un
múltiplo constante de las otras columnas (filas), o por una combinación
lineal de al menos dos columnas (filas), por lo que X’X no será
invertible y, como veremos, cualquier intento de estimar los parámetros
de la regresión será infructuoso.

2. Estimación por OLS.

Para obtener los estimadores OLS de los β, expresamos la regresión


muestral como:

Y = Yˆ + εˆ = Xβˆ + εˆ
Donde β̂ es un vector columna de k elementos, compuesto por los
estimadores OLS de los coeficientes de la regresión. Al igual que antes,
estamos interesados en minimizar la suma de los errores al cuadrado, que
en este caso corresponden a:

( )
S βˆ ols = min ∑ εˆ i
2
= εˆ ' εˆ

donde εˆ = Y − Xβˆ

( )(
εˆ ' εˆ = Y − Xβˆ ' Y − Xβˆ )
εˆ ' εˆ = Y ' Y − (Xβˆ )' Y − Y ' (Xβˆ ) + (Xβˆ )(
' Xβˆ )

εˆ ' εˆ = Y ' Y − 2 βˆ ' X ' Y + βˆ ' X ' Xβˆ


por lo tanto, la minimización de εˆ ' εˆ implica la siguiente condición de
primer orden:
εˆ ' εˆ
= 0 ⇒ −2 X ' Y + 2( X ' X )βˆ = 0
∂βˆ ols

εˆ ' εˆ
= 0 ⇒ ( X ' X )βˆ = X ' Y
∂βˆ ols
de donde se obtiene el siguiente resultado:
εˆ ' εˆ
= 0 ⇒ ( X ' X )βˆ = X ' Y
∂βˆ ols

βˆ ols = ( X ' X )−1 X ' Y


Resultado que es posible si y sólo si (X’X)−1 existe, para lo cual es
condición necesaria que las columnas de la matriz X sean linealmente
independientes; esto es, que ran (X) = k < n, tal como lo exige el
supuesto S-iv.

3. El Coeficiente de Determinación R2 y la Bondad del Ajuste.

SCE SCR
Como sabemos, R 2 = = 1− . Si consideramos el enfoque matricial, este
SCT SCT
resultado puede reescribirse como:

βˆ ' X ' y − nY 2
R2 =
y ' y − nY
Donde el modelo está expresado en desvíos.
Como hemos discutido en anteriormente, la inclusión de más variables
explicativas hace aumentar el R2, pero a costa de mayor complejidad
comutacional, y la correspondiente pérdida de grados de libertad. El
coeficiente de determinación que incorpora la pérdida de grados de
libertad es el coeficiente de determinación ajustado.
SCR
R 2 = 1− n−k
SCT
n −1

4. Prueba de Hipótesis

Si el objetivo de la estimación econométrica es la inferencia


estadística, entonces se tiene que suponer que las perturbaciones
estocásticas o término de error siguen alguna distribución de
probabilidad. En nuestro caso hemos supuesto que los errores siguen una

distribución normal multivariada del tipo ε ~ N 0, σ 2 I . ( )


Dado este supuesto de normalidad, y reconociendo el hecho que los

estimadores OLS (βˆ ,σˆ )


i
2
son insesgados y que la distribución de los β̂ i es
normal, entonces podemos generalizar estas ideas al caso de la regresión
general en los siguientes términos:

(
βˆ ~ N β , σ 2 ( X ' X )−1 )
A partir de estos resultados es posible señalar que cada elemento del

vector β̂ sigue una distribución t con n − k grados de libertad; esto es,

βˆi − β i
t= ~ t (n − k )
σˆ β̂
i

Luego, si estamos interesados en estudiar la significancia estadística de


cada uno de los parámetros del modelo o bien alguna hipótesis respecto de
ellos, seguimos el mismo procedimiento que el usado para estimar la
significancia o realizar pruebas de hipótesis para parámetros
individuales en el caso del modelo de dos variables.
Para realizar un test de hipótesis conjunta donde H 0 : β 2 = β 3 = K = β k = 0 , se
puede demostrar que:

(βˆ ' X ' y − nY ) 2

F=
(k − 1) ~ F
(y' y − βˆ ' X ' y ) ( k −1, n − k )

(n − k )
R2
F=
(k − 1)
(1 − R )
2
~ F(k −1,n − k )
(n − k )

Vous aimerez peut-être aussi