Regresion Lineal Multiple

Modelo de Regresin Lineal Mltiple
MODELO DE REGRESIN LINEAL MLTIPLE

Autores: Renatas Kizys (rkizys@uoc.edu), ngel A. Juan (ajuanp@uoc.edu).
ESQUEMA DE CONTENIDOS
________________________
Hiptesis sobre el trmino de perturbacin
Hiptesis sobre variables explicativas
Hiptesis sobre los parmetros del modelo
Hiptesis del MRL Medidas bondad del ajuste
Estimacin MV
Modelo de Regresin Lineal Mltiple (MRLM)
Estimacin MCO
Introduccin a la Inferencia en el modelo lineal

Caso prctico con Minitab
Contrastes de significacin Prediccin
Caso prctico con Minitab Caso prctico con Minitab
INTRODUCCIN
___________________
Todo estudio economtrico se centra en dos pilares bsicos: la teora y los hechos. La teora permite derivar un modelo (el modelo econmico) que sintetiza la incgnita relevante sobre el fenmeno (la variable endgena) objeto del anlisis y del cual deriva el modelo economtrico que permite medirlo y contrastarlo empricamente. Los hechos se concretan en una serie de datos que denominaremos informacin muestral. La muestra, a su vez, consiste en una lista ordenada de valores numricos de las variables objeto de estudio. En una muestra de corte transversal, diversos agentes econmicos de una naturaleza similar proporcionan informacin solicitada en un mismo instante de tiempo. Alternativamente, el investigador econmico trabaja en ocasiones con datos de series temporales, en las que se dispone de informacin acerca de Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Modelo de Regresin Lineal Mltiple unidad econmica, como puede ser un pas, una empresa, a lo largo de tiempo; estas muestras pueden tener frecuencia diaria, mensual, anual, segn frecuencia de observacin de los datos. Una vez que se especifica el modelo y se dispone de la informacin estadstica convenientemente tratada, se llega a la etapa siguiente del trabajo economtrico: la etapa de estimacin. Los resultados de esta etapa de estimacin permiten medir y contrastar las relaciones sugeridas por la teora econmica. En este math-block postularemos una serie de hiptesis bsicas de un modelo de regresin mltiple (MRLM) y consideremos los principales mtodos de estimacin bajo dichas hiptesis. Veremos que los estimadores obtenidos mediante el mtodo de mnimos cuadrados ordinarios (MCO) son insesgados, eficientes y consistentes. Adems, utilizaremos la inferencia basada en los contrastes de hiptesis para apreciar estadsticamente una cierta evidencia emprica. Finalmente, conoceremos la importancia del MRLM en la prediccin y pronstico de un cierto fenmeno comprendido por la variable endgena.
OBJETIVOS
________________________
Conocer la estructura del MRLM. Familiarizarse con las hiptesis bsicas del MRLM y entender su importancia. Conocer los mtodos de estimacin del MRLM, el mtodo de mnimos cuadrados ordinarios (MCO) y el de mxima verosimilitud (MV). Introducirse en el uso de Minitab para estimar el MRLM mediante el MCO. Saber cuantificar e interpretar bondad del ajuste del modelo. Evaluar la contribucin de cada variable exgena en explicar el comportamiento de la variable endgena; contrastar la significacin individual de un parmetro y la global del modelo. En base de la estimacin de MRLM, realizar predicciones puntuales y por intervalo de la variable endgena.
CONOCIMIENTOS PREVIOS
___________________________________
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks relacionados con Estadstica: Intervalos de confianza y contraste de hiptesis para 1 y 2 poblaciones Anlisis de regresin y correlacin lineal Correlacin y regresin lineal mltiple
Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
CONCEPTOS FUNDAMENTALES
______________________________
Hiptesis del modelo de regresin lineal mltiple (MRLM)

Mediante un modelo de regresin lineal mltiple (MRLM) tratamos de explicar el comportamiento de una determinada variable que denominaremos variable a explicar, variable endgena o variable dependiente, (y representaremos con la letra Y) en funcin de un conjunto de k variables explicativas X1, X2, ..., Xk mediante una relacin de dependencia lineal (suponiendo X1 = 1):
Y = 1 + 2 X 2 + ... + k X k + U
siendo U el trmino de perturbacin o error
Para determinar el modelo anterior, es necesario hallar (estimar) el valor de los coeficientes 1, 2, ..., k. La linealidad en parmetros posibilita la interpretacin correcta de los parmetros del modelo. Los parmetros miden la intensidad media de los efectos de las variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable a explicar respecto a cada una de as variables explicativas:
j =
Y ; j = 1,..., k . X j
Nuestro objetivo es asignar valores numricos a los parmetros 1, 2, ..., k. Es decir, trataremos de estimar el modelo de manera que, los valores ajustados de la variable endgena resulten tan prximos a los valores realmente observados como sea posible. A fin de poder determinar las propiedades de los estimadores obtenidos al aplicar distintos mtodos de estimacin y realizar diferentes contrastes, hemos de especificar un conjunto de hiptesis sobre el MRLM que hemos formulado. Existen tres grupos de hiptesis siguientes: las hiptesis sobre el trmino de perturbacin, las hiptesis sobre las variables explicativas, y las hiptesis sobre los parmetros del modelo.
Hiptesis sobre el trmino de perturbacin: Para una muestra de n observaciones (cada observacin estar formada por una tupla con los valores de X2, X3, ..., Xk y el valor de Y asociado), tendremos el siguiente sistema de n ecuaciones lineales:
Y1 = 1 + 2 X 21 + ... + k X k1 + u1 Y = + X + ... + X + u 2 1 2 22 k k2 2 ... Yn = 1 + 2 X 2 n + ... + k X kn + u n

o, en forma matricial: Y = XB + U, donde:
Y1 1 X 21 Y 1 X 22 2 , X = Y= ... ... ... 1 X 2n Yn
X k1 1 u1 u ... X k 2 2 2 , B= ,U = ... ... ... ... ... X kn k u n ...
En estas condiciones, las hiptesis del MRLM se resumen en la esfericidad del trmino de perturbacin, i.e.: a) El valor esperado de la perturbacin es cero:
E [u i ] = 0
i = 1,..., n
b) Homoscedasticidad: todos los trminos de perturbacin tienen la misma varianza (varianza constante):
Var [u i ] = Var u j = 2
[ ]
i j
Por tanto, todos los trminos de la diagonal principal de la matriz de varianzas y covarianzas sern iguales:
2 Var [U ] = ...
...
... ... ... ... 2
...
c) No Autocorrelacin: los errores son independientes unos de otros, i.e.: la matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal principal todo son ceros):
1 2 0 Var [U ] = ... 0
22
... 0
... ... ...
2 ... n 0 0 ...
Observar que, bajo las hiptesis de homoscedasticidad y no autocorrelacin, la matriz de varianzas y covarianzas tendr la forma siguiente:
2 0 Var [U ] = ... 0
... 0
0 0 = 2 In ... ... ... 2 ... ...
(In es la matriz identidad de orden n)
d) El error o perturbacin sigue una distribucin normal, i.e.:
U N 0 n , 2 I n
Hiptesis sobre las variables explicativas:
a) Las variables explicativas son fijas o deterministas. b) La variables explicativas estn no correlacionadas con la perturbacin aleatoria.
Modelo de Regresin Lineal Mltiple c) Las variables explicativas no presentan relacin lineal exacta entre si. d) Adems, supondremos que las variables explicativas son medidas sin error. e) En el modelo no se excluyen las variables relevantes y que tampoco no se incluyen las variables irrelevantes, a la hora de explicar el comportamiento de la variable endgena.
Hiptesis sobre los parmetros del modelo:
a) La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de permanencia estructural, lo cual quiere decir que los parmetros poblacionales, j, se mantienen constantes a lo largo de toda la muestra.
Estimacin del MRLM

Estimar el modelo equivale asignar valores numricos a los parmetros desconocidos 1, 2, ..., k, a partir de la informacin muestral disponible de las variables observables del modelo. nicamente consideraremos dos mtodos de estimacin: El mtodo de mnimos cuadrados ordinarios (MCO) El mtodo de mxima verosimilitud (MV)
Estimacin por mnimos cuadrados ordinarios: Sea un modelo en forma matricial Y = XB + U. Supongamos que el modelo ha sido estimado, obtenindose , vector de valores de la variable dependiente implicado por el modelo. La
=Y X B , la diferencia entre los valores observados y los valores estimados, e = Y Y denominaremos vector de residuos. Ahora bien, nuestro problema consiste en minimizar la suma de los cuadrados de residuos, ee con respecto del vector de parmetros estimados, B. De este problema de optimizacin se deduce la siguiente expresin de mnimos cuadrados ordinarios del MRLM [7]:
= ( X X )1 X Y B
cuya varianza viene dada por:
= 2 ( X X )1 Var B
[]
Adems, el estimador MCO de la varianza del trmino de perturbacin es:

2 u =
e e nk
donde n es el nmero de observaciones y k es el nmero de elementos del vector B. Bajo la hiptesis de perturbaciones esfricas, el estimador MCO del vector B cumple una serie de propiedades que le convierten en un insesgado (el valor esperado del estimador coincide con el valor real del parmetro), eficiente (de varianza mnima), y consistente [4].
Modelo de Regresin Lineal Mltiple Adems, bajo la hiptesis de esfericidad, el estimador MCO de la varianza del trmino de error,
2 u , es tambin insesgado.
Estimacin por mxima verosimilitud: El mtodo de estimacin por MCO consiste en asignar valores numricos a los parmetros desconocidos de manera que la suma cuadrtica de errores sea mnima y slo requiere que la matriz XX sea invertible. A continuacin veremos un mtodo de estimacin alternativo, el mtodo de mxima verosimilitud. El mtodo de mxima verosimilitud (MV), en cambio, propone como un estimador el valor que maximiza la probabilidad de obtener la muestra ya disponible. El mtodo MV se basa, prcticamente, en la distribucin que sigue el trmino de error. A tales efectos, se suele suponer que las perturbaciones aleatorias se distribuyen con una distribucin Normal que, adems de cumplir las propiedades de una muestra grande, es una aproximacin cmoda y fcil de tratar. El modelo que utilizaremos es Y = XB + U, y supondremos que el trmino aleatorio sigue la distribucin Normal con la siguiente funcin de densidad:
f (u i ) =
u2 exp i 2 , i = 1,..., N . 2 2 1
Maximizar la probabilidad de obtener la muestra ya disponible equivale maximizar la funcin de densidad conjunta del vector aleatorio, u. Para ello, hemos de suponer homoscedasticidad y ausencia de autocorrelacin. Por tanto, la expresin de la funcin de densidad conjunta es la siguiente:
f (U ) = f (u i ) =
i =1
(2 )
2 n2
2 ui exp 2 2
Como U sigue una distribucin Normal Multivariante de orden k, la variable Y, al ser una combinacin lineal de las perturbaciones aleatorias, tambin se distribuir con una distribucin Normal Multivariante. As pues, para que la funcin de densidad conjunta sea una funcin de verosimilitud, el vector aleatorio U ha de expresarse en funcin del vector Y, es decir:
L(Y ; , 2 ) =
(2 )
2 n2
(Y X )' (Y X ) exp 2 2
Se trata, por tanto, de maximizar la funcin de verosimilitud. Como la expresin anterior resulta complicada, aplicaremos una transformacin montona; en concreto, una funcin logartmica:
(Y X )' (Y X ) n n ln L(Y ; , 2 ) = ln (2 ) ln (2 2 ) 2 2 2 2
Derivando la funcin de verosimilitud con respecto de B y 2, e igualando las derivadas a cero, obtenemos los resultados:
MV = ( X X ) 1 X Y B
cuya varianza es la siguiente:
MV ] = 2 ( X X )1 . Var [B
Adems, el estimador MCO de la varianza del trmino de perturbacin es:

2 MV =
e e , n
donde n es el nmero de observaciones y k es el nmero de elementos del vector B. Observamos que el estimador de MV de B coincide con el MCO, con lo que tendr las mismas propiedades: ser lineal, insesgado, ptimo y consistente. Es fcil ver que el estimador de MV de 2, en cambio, resulta diferente del MCO y no es insesgado aunque s es asintticamente insesgado.
Medidas del bondad del ajuste Las estimaciones por MCO y MV que hemos realizado todava no nos permite evaluar la calidad de ajuste del modelo. Para ello, de aqu a delante iremos viendo las medidas de bondad de ajuste. Comenzaremos por la suma de los cuadrados de errores, SCE, que puede expresarse de varias formas:
X 'Y = Y 'Y Y 'Y = Yi 2 Y i 2 . e'e = ei2 = Y 'Y B

i =1 i =1 i =1
Despejando la suma de cuadrados de la variable endgena, queda:
'Y + e'e , o bien, Y 'Y = Y

Restando a ambos lados la cantidad
2
Yi 2 = Yi 2 + ei2 .
i =1 i =1 i =1
2 (Yi Y )2 = (Yi Y ) + ei2 .
n Y , obtenemos:
n n n
'Y n Y 2 + e'e , o bien, Y 'Y n Y 2 = Y
i =1
i =1
i =1
La parte izquierda representa suma de cuadrados totales (SCT) y no es sino la suma de cuadrados de las desviaciones respecto a su media aritmtica. Por otra
2
parte,
n i =1
si
el
modelo
tiene
trmino
independiente,
la
cantidad
'Y n Y Y
i Y )2 se le denomina suma de cuadrados de la regresin (SCR) . = (Y
En resumen, la variabilidad total de la variable endgena (SCT) puede descomponerse en dos partes: la parte que podemos explicar mediante el modelo especificado (SCR) y la parte que no podemos explicar, la suma de cuadrados de los errores (SCE).
Modelo de Regresin Lineal Mltiple A partir de la descomposicin anterior de la SCT, definiremos el coeficiente de determinacin, R2, el cual ser la primera medida de bondad de ajuste:
R 2 = 1
SCE . SCT
Si el modelo tiene trmino independiente, entonces se cumple la igualdad SCT = SCR + SCE, y el coeficiente de determinacin podr expresarse de la siguiente manera alternativa:
R2 =
SCR . SCT
El coeficiente de determinacin indica que proporcin de variabilidad total queda explicada por la regresin. Si el modelo tiene trmino independiente, entonces R2 toma valores entre 0 y 1. En prctica, el uso de R2 presenta algunas limitaciones a la hora de comparar varios modelos desde la perspectiva de bondad del ajuste. En efecto, cuanto ms variables explicativas incorporamos al modelo, mayor ser el coeficiente de determinacin, pues la SCR disminuye conforme aumenta el nmero de variables explicativas. Por tanto, cuando queremos llevar a cabo un anlisis comparativo entre varios modelos, utilizamos R2 corregido:
R 2 = 1
n 1 ( 1 R 2 ) nk
Este estadstico es inmune ante la incorporacin de extra variables va interaccin de dos efectos: el efecto que permite aumentar R2, y el efecto opuesto que surge al descontar un mayor nmero de las variables explicativas,
n 1 [7]. nk
Significacin de los parmetros del modelo Distinguiremos entre dos distintas dimensiones de significacin: significacin econmica y significacin estadstica.
Significacin econmica Significacin econmica nos permite comprobar si las estimaciones obtenidas son coherentes con la teora econmica. Segn especificacin del modelo, la interpretacin y significacin de los parmetros puede variar. Si el modelo est especificado en niveles, el parmetro refleja el efecto medio que tiene una variacin unitaria de la variable explicativa sobre la variable endgena:
j =
Y . X j
En cambio, si el modelo est especificado en logaritmos neperianos, los parmetros pueden interpretarse como una elasticidad, como es el caso de la funcin de produccin de CobbDouglas:
j =
ln Y . ln X j
Significacin estadstica El anlisis economtrico pretende analizar, por medio una serie de contrastes, la significacin (o significatividad) estadstica individual y conjunta de los parmetros del modelo. En concreto, para contrastar las hiptesis de significatividad individual, tenemos: H0 : j = 0 HA : j 0. El estadstico t-Student que se utiliza para realizar el test es el siguiente:
tj =
2 u a jj
l
2 u a jj
~ t nk .
donde
l , y a jj es el j-simo elemento de la es el error estndar estimado de
diagonal principal de la matriz (XX)-1. Dado un nivel de significacin , las tablas de distribuciones nos proporcionan la cantidad tnk,/2 que es el valor asociado a una t-Student con n-k grados de libertad que deja a su derecha un rea de /2 (o, equivalentemente, deja a su izquierda un rea de 1 - /2). La regla de decisin que utilizaremos para determinar si el parmetro asociado a la variable Xj es individualmente significativo o no es la siguiente: Si |tj| tn-k,/2, el estadstico cae fuera de la regin de aceptacin, por lo que rechazamos la hiptesis nula. Concluimos, por tanto, que el parmetro es significativamente diferente de cero. Si |tj| < tn-k,/2, el estadstico cae dentro de la regin de aceptacin, por lo que no podemos rechazar la hiptesis nula. Por tanto, el parmetro no es individualmente significativo.
Nota: si en vez de realizar el contraste bilateral deseamos hacer un contraste unilateral (en el cual la hiptesis alternativa sera H1 : j > 0 H1 : j < 0), deberemos sustituir en la frmula anterior /2 por (ya que ahora trabajaremos con una nica cola de la distribucin). En cambio, si queremos contrastar la significacin conjunta, las hiptesis especificamos de la manera siguiente: H0 : 2 = 3 = ... = k =0 HA : No H0. Nota: el trmino independiente no contribuye en explicar la variabilidad de la variable endgena, con lo cual no lo incluimos en la restriccin. El estadstico F de Snedecor que se utiliza para realizar el test es el siguiente:
F0 =
nk R2 ~ Fk 1,n k . 2 1 R n 1
Modelo de Regresin Lineal Mltiple El estadstico se distribuye bajo la hiptesis nula con una distribucin F de Snedecor con k-1 grado de libertad en el numerador y n-k grados de libertad en el denominador. La regla de decisin utilizada para contrastar la significacin global del modelo es la siguiente: Si F0 Fk-1,N-k;, el estadstico de contraste cae fuera de la regin de aceptacin, con lo que rechazamos la hiptesis nula. Por tanto, el modelo es globalmente significativo. Si F0 < Fk-1,N-k;, el estadstico de contraste cae dentro de la regin de aceptacin, de modo que ahora la hiptesis nula no la rechazamos. En consecuencia, podemos afirmar que el modelo no es globalmente significativo.
Prediccin Una vez hemos especificado, estimado y validado un modelo, podemos utilizarlo con objetivos diferentes. Cuando trabajamos con una serie temporal, podemos estar interesados en predecir el comportamiento futuro de la variable endgena. Si, por otro lado, trabajamos con un corte transversal (o una seccin cruzada), podemos utilizar el modelo ajustado para predecir el comportamiento de un individuo (o una unidad) no incluido en la muestra. No obstante, para realizar las predicciones, hemos de suponer que todas las hiptesis que hemos formulado sobre X, B y U se mantendrn tambin para las observaciones fuera de la muestra. En particular, es fundamental suponer que se cumple la hiptesis de permanencia estructural del modelo. Cuando realizamos predicciones, podemos optar por predecir el valor puntual que tomar la variable endgena, o bien, determinar un intervalo de posibles valores. El primer caso se denomina prediccin puntual, y el segundo prediccin por intervalo.
Prediccin puntual Supongamos que la variable endgena ajustada para una determinada observacin i es igual a:
1 + 2 X 2i + ... + k X ki . i = Y
Si queremos predecir el valor de la variable endgena, para una observacin n + h, podemos utilizar la siguiente expresin:
1 + 2 X 2,n + h + ... + k X k ,n + h . n + h = Y
Prediccin por intervalo La fiabilidad de prediccin se caracteriza por el intervalo de prediccin. Distinguimos entre la prediccin por intervalo sobre Yn+h y la prediccin por intervalo sobre su valor esperado, E(Yn+h). En primer lugar, para obtener el intervalo del valor esperado de la variable endgena para la observacin n+h, E(Yn+h), utilizaremos la siguiente expresin:
10
1 2 n + h < t Pr ob E (Y n + h ) Y u X n + h ( X ' X ) X n + h nk , 2
] = 1 ,
1 2
donde tn-k,/2 es el valor de las tablas de una t de Student de nk grados de libertad. La expresin sirve para indicar que la probabilidad de que E(YN+h) quede dentro del intervalo de
n + h t Y
a
nk ,
X n + h ( X ' X ) X n + h
2 u
]
]
1 2
n + h + t Y
nk ,
X n + h ( X ' X ) X n + h
2 u 1
1 2
es (1 - ), siendo el nivel de significacin. Nota: el intervalo de prediccin para E(YN+h) coincide con el intervalo de confianza. Es decir, el intervalo de prediccin del valor esperado no es sino el intervalo de confianza del parmetro Xn+hB. En segundo lugar, para obtener la prediccin por intervalo del valor observado de la variable endgena para la observacin n + h, Yn+h, utilizaremos la siguiente expresin:
1 n + h < t Pr ob Y n + h Y u 1 + X n + h ( X ' X ) X n + h n k , 2
] = 1
1 2
De forma anloga al caso anterior, la expresin indica que la probabilidad de que Yn+h se encuentre dentro del intervalo de
n + h t Y
a
nk ,
u 1 + X n + h ( X ' X ) X n + h
1
1 2
n + h + t Y
n k ,
[1 + X
1 2 n + h ( X ' X ) X n + h ] 1
es (1 - ), siendo el nivel de significacin. Nota: A la hora de realizar las predicciones, se puede ver que el intervalo de prediccin para el valor observado de la variable endgena resulta ms grande que el intervalo de prediccin para el valor esperado de la variable endgena. El caso es que, al predecir E(Yn+h), pretendemos prever slo componente explicada por Xn+h, y la componente puramente aleatoria, un+h, no forma parte del objetivo de prediccin. En cambio, cuando el objetivo es predecir Yn+h, hemos de prever tambin la perturbacin aleatoria un+h la cual incrementa la varianza del trmino de error.
11
CASOS PRCTICOS CON SOFTWARE___________________________________

Estimacin MCO del modelo de regresin lineal

Ejemplo 1. Representacin grfica del ajuste de MCO. A efectos de una mejor comprensin del mtodo de estimacin de MCO, realizaremos la representacin grfica del ajuste de MCO. Consideremos un modelo de regresin lineal simple:
Yi = 1 + 2 X i + u i ;i = 1,..., n
Como ya hemos dicho, nuestro objetivo es asignar valores numricos a los parmetros desconocidos, en este caso, 1 y 2, y as poder cuantificar la relacin de dependencia que hay entre las dos variables. Determinar estos valores equivale a determinar una recta que pasa por la nube de puntos que resultan al representar las observaciones correspondientes a las variables endgena y explicativa. Consideremos los siguientes datos anuales correspondientes al perodo 1960-1990 de la economa de los Estados Unidos: Observacin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Ao 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 Y (inversin real) 14,2226 13,9336 15,5040 16,3105 17,4936 19,8906 21,4803 20,4046 21,4776 22,6821 20,9722 23,3538 26,1040 29,1101 27,2418 23,0096 27,6116 32,1111 36,1788 37,5671 33,5069 36,6088 31,1554 32,7752 41,1886 39,9715 39,6866 40,2991 40,9538 41,9323 39,8393 X (PIB real) 95,065 97,281 103,159 107,607 113,860 121,153 129,102 132,340 138,663 142,856 143,120 147,928 155,955 164,946 163,921 163,426 172,485 180,519 190,509 196,497 196,024 200,832 196,769 205,341 220,230 228,703 236,500 244,560 254,771 263,683 268,304
Estos datos en el espacio bidimensional constituyen una nube de puntos, para los cuales trazaremos la recta de regresin caracterizada por el mejor ajuste. Para ello, seguiremos los siguientes pasos en el entorno de Minitab:
12
Modelo de Regresin Lineal Mltiple Seleccionamos Stat > Regression > Fitted Line Plot :
A continuacin completamos los campos segn se indica:
La operacin nos proporciona el siguiente grfico:
13

Regression Plot
Y = -1,92133 + 0,175617X R-Sq = 93,7 %
45
Inversin real
35
25
15
100
150
200
250
Producto interior bruto real
La recta en rojo es la que mejor se ajusta, segn el criterio de MCO, a la nube de puntos que tenemos. Es decir, es la recta que hace que el error de estimacin, definido como la distancia entre el valor observado y el valor estimado de la variable endgena (en el grfico, es la distancia vertical sealada por la flecha en azul), sea la mnima para cada una de las observaciones. La pendiente de la recta presenta signo positivo, pues es de esperar que el un auge en el PIB genere una mayor cantidad de inversiones y viceversa. Encima de la recta, se aparece la ecuacin de MCO con el coeficiente de determinacin, R2. Podemos apreciar que el modelo se ajusta buenamente a los datos, explicando un 93,7% de la variabilidad de la variable endgena. En consecuencia, el estadstico de significacin global del modelo se calcula de la siguiente manera: F0 = (R2/(1 R2)).(n k)/(n-1) = (0,937/0,063)*29/30 = 14,377 Sabemos que en el modelo de regresin lineal simple se cumple que F0 = t22, siendo t2 el estadstico de contraste de significacin individual. De modo que t2 = F0 = 3,792. Para contrastar la significacin individual de la variable explicativa, a partir de las tablas extraemos tn-k,/2 = t29;0,025 = 2,0452. Dado que t2 = 3,792 > t29;0,025 = 2,0452, rechazamos la hiptesis nula. En conclusin, el PIB real es individualmente significativo para explicar la variabilidad de la inversin real en la economa de los Estados Unidos. Ejemplo 2: Una empresa de investigacin de mercados est interesada en realizar un estudio para el gobierno sobre la industria aeronutica de los Estados Unidos. Para ello, va a estimar la funcin de produccin Cobb-Douglas estocstica aumentada por la variable el avance tecnolgico:
log(Y t ) = 1 log(Lt ) + log(K t ) + log( At ) + u t ; t = 1,..., T

donde Yt es la produccin (en millones de dlares), Lt es el nivel de empleo (que representaremos a travs del agregado de las nminas (en millones de dlares), Kt es el nivel de capital utilizado (en millones de dlares), y At es el avance tecnolgico, representado por la proporcin del PIB de las empresas tecnolgicas en el PIB total en la economa americana (en tanto por ciento). Supondremos que esta relacin satisface las hiptesis el MRLM con normalidad del trmino de error. Se dispone de datos anuales correspondientes a 1958-1996 que se muestran en la siguiente tabla:
14
Observacin 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
Ao 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996
log(Y) 8,7700 8,8260 8,6861 8,6995 8,7332 8,7509 8,7924 8,8750 9,1050 9,3129 9,4738 9,4291 9,3468 9,2124 9,0802 9,2748 9,3644 9,4094 9,5044 9,6047 9,7440 10,0222 10,1955 10,3034 10,2417 10,3262 10,2560 10,4624 10,5502 10,5737 10,6333 10,6768 10,8468 10,9698 11,0506 10,9173 10,8390 10,7585 10,7645
Log(L) 7,75803 7,79136 7,64248 7,69871 7,81145 7,77039 7,75307 7,82740 8,07770 8,18004 8,27055 8,31059 8,15047 7,91517 7,96106 8,02597 8,10119 8,14297 8,17836 8,28801 8,46720 8,65232 8,80499 8,98153 8,95546 8,93089 8,91690 8,98805 9,10319 9,17777 9,21186 9,25614 9,32587 9,24224 9,35001 9,28638 9,24362 9,12033 9,19414
Log(K) 9,3214 9,3502 9,2551 9,2588 9,2779 9,2977 9,3311 9,3657 9,5809 9,8358 9,9564 10,0004 9,9534 9,8486 9,8342 9,8140 9,8716 9,9271 9,9131 9,9559 10,1037 10,3419 10,5113 10,6039 10,7125 10,6632 10,7302 10,7732 10,8743 10,9206 11,0444 11,1949 11,2812 11,3309 11,3281 11,2780 11,1210 11,0568 11,1375
Log(A) -0,44229 -0,67441 -0,04824 -0,07823 0,02132 0,06255 0,23289 0,43465 0,60064 0,77948 0,84076 1,00189 1,04609 0,95128 0,97795 1,19855 1,37927 1,21982 1,50437 1,71540 1,92360 2,16460 2,26792 2,42746 2,49750 2,47373 2,61771 2,44101 2,53751 2,85079 2,82018 2,82289 2,72615 2,54905 2,55048 2,50060 2,62398 2,77913 2,79638
La primera etapa del estudio consiste en estimar el modelo por MCO mediante el Minitab. Para ello, seleccionamos Stat > Regression > Regression :
15
A continuacin completamos los campos segn se indica:
Los resultados de estimacin se muestran en el siguiente cuadro:
Regression Analysis
The regression equation is log(Y) = - 1,17 + 0,559 log(L) + 0,601 log(K) + 0,0329 log(A) Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
Predictor Constant log(L) log(K) log(A) S = 0,06750
Coef -1,1666 0,5585 0,6014 0,03291
StDev 0,4613 0,1237 0,1018 0,03229
T -2,53 4,51 5,91 1,02
P 0,016 0,000 0,000 0,315
R-Sq = 99,3%
R-Sq(adj) = 99,3%
Analysis of Variance Source Regression Residual Error Total DF 3 35 38 SS 23,5977 0,1595 23,7572 MS 7,8659 0,0046 F 1726,58 P 0,000
A partir de la salida de estimacin por MCO, el vector de parmetros estimados, B, resulta ser B = (-1,17; 0,559; 0,60; 0,033). Los signos que presentan los parmetros asociados a las variables explicativas son positivos y, por tanto, eran esperables. Puesto que la funcin de regresin es una transformacin logartmica de la funcin de produccin de Cobb-Douglas, los parmetros miden las elasticidades de la produccin respecto al empleo, al capital y al avance tecnolgico respectivamente:
eY , L = 2 = eY , K = 3 = eY , A = 4 =
log(Y ) ; log(L ) log(Y ) ; log(K ) log(Y ) . log( A)
Una vez estimado el modelo, procedemos a analizar la validez estadstica del modelo. Por ejemplo, para contrastar la significacin individual del la variable log(A), especificamos la hiptesis nula H0: 4 = 0 frente a la hiptesis alternativa bilateral HA: 4 0. El contraste de hiptesis realizaremos en base del estadstico de contraste t y el p-valor asociado. Suponiendo cierta la hiptesis nula, el estadstico de contraste se calcula t4 = B4/SE(B4), siendo SE(B4) la desviacin tpica del estimador B4. A partir de los resultados de estimacin, tenemos que t4 = 1,02 con p-valor = 0,315. Recordemos que p-valor = Prob(t > t4 = 1,02). Como p-valor = 0,315 > = 0,05, no podemos rechazar la hiptesis nula para el nivel de significacin de 5%. Tambin, haciendo el uso del valor crtico tn-k;/2 = t35;0,025 = 2,0301 a partir de las tablas de una distribucin t-Student, queda t4 = 1,02 (-2,0301; 2,0301) lo cual nos conduce a la misma conclusin. Por tanto, la variable el avance tecnolgico resulta estadsticamente no significativa. La evidencia emprica parece indicar que el desarrollo tecnolgico no ha sido decisivo para la industria aeronutica. En cambio, los resultados de los contrastes de significacin individual de log(L) y de log(K) nos llevan a rechazar la hiptesis nula; concluimos, por tanto, que tanto el capital humano como el capital fsico son significativos a la hora de explicar la variacin de la produccin en el sector aeronutico. Una vez analizada la relevancia individual de las variables explicativas, pasamos a contrastar la significacin conjunta del modelo. Utilizando el estadstico F0 a partir del cuadro de estimacin y comparndolo con el valor crtico Fk-1;n-k; a partir de las tablas de una distribucin F de Snedecor queda: F0 = 1726,58 > F3;35;0,05 = 2,8742.
17
Modelo de Regresin Lineal Mltiple Puesto que el estadstico de contraste muestral es muy superior al valor crtico a partir de las tablas, rechazamos la hiptesis nula de no significacin global del modelo. A continuacin, a base del modelo estimado, pasaremos a realizar la prediccin, tanto del valor esperado como del valor observado, de la variable endgena para el ao 1997, teniendo en cuenta la siguiente informacin sobre las variables explicativas para el ao 1997: log(L97) = 9,00; log(K97) = 11,50 y log(A97) = 2,80. Volvemos a seleccionar Stat > Regression > Regresin y completamos los campos en la ventana Regresin tal y como hemos hecho para estimar el modelo de regresin. A continuacin, dentro de la misma ventana seleccionamos Options y introducimos los valores de predictores, especificando el 95% nivel de confianza. Por ltimo, marcamos las opciones Fits, SDs of fits, Confidence limits y Prediction limits para mostrar el ajuste de prediccin, la desviacin tpica de prediccin, los intervalos de confianza y los intervalos de prediccin, respectivamente:
Los resultados de prediccin aparecen en el siguiente cuadro:
Predicted Values Fit StDev Fit 95,0% CI 95,0% PI 10,8678 0,0677 ( 10,7304; 11,0052) ( 10,6738; 11,0619) XX X denotes a row with X values away from the center XX denotes a row with very extreme X values Los resultados indican que la prediccin de la produccin en el sector aeronutico (prediccin puntual) es: log(Y97) = -1,17 + 0,559.log(L97) + 0,601.log(K97) + 0,0329.log(A97) = -1,17 + 0,559.9,0 + 0,601.11,5 + 0,0329.2,80 = 10,865.
18
Modelo de Regresin Lineal Mltiple Observad que la prediccin realizada es de una transformacin logartmica; no obstante, nuestro inters reside en la prediccin de la produccin en niveles. A tales efectos, calculamos la exponencial del resultado anterior: Y97 = exp(log(Y97)) = exp(10,865) = 52.293 millones de dlares. El intervalo de prediccin del valor esperado de la variable endgena en el programa Minitab coincide con el intervalo de confianza para el parmetro Xn+hB: IP(E(Yn+h)) = IC(Xn+hB) = {10,7304; 11,0052}. Finalmente, el intervalo de prediccin sobre el valor observado de la variable endgena es: IP(YN+h) = {10,6738; 11,0619}. En efecto, el intervalo de prediccin del valor observado de la variable endgena es ms grande que el intervalo de prediccin para el valor esperado de la variable endgena.
19
BIBLIOGRAFA
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
______________________________________________
Arts, M.; Suriach, J.; et al (2002): Econometra. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Carter, R.; Griffiths, W.; Judge, G. (2000): Using Excel for Undergraduate Econometrics. ISBN: 0-471-41237-6 Doran, H. (1989): Applied Regression Analysis in Econometrics. Ed. Marcel Dekker, Inc. ISBN: 0-8247-8049-3 Gujarati, D. (1997): Econometra bsica. McGraw-Hill. ISBN 958-600-585-2 Johnston, J. (2001): Mtodos de econometra. Ed. Vicens Vives. Barcelona. ISBN 84-316-6116-X Kennedy, P. (1998): A Guide to Econometrics. Ed. MIT Press. ISBN: 0262611406 Novales, A. (1993): Econometra. McGraw-Hill. ISBN 84-481-0128-6 Pulido, A. (2001): Modelos economtricos. Ed. Pirmide. Madrid. ISBN 84-368-1534-3 Uriel, E. (1990): Econometra: el modelo lineal. Ed. AC. Madrid. ISBN 84-7288-150-4 Wooldridge, J. (2001): Introduccin a la Econometra: un enfoque moderno. Ed. Thomson Learning. ISBN: 970-686-054-1
ENLACES
___________________________________
http://www.feweb.vu.nl/econometriclinks/index.html The Econometrics Journal On-Line http://www.elsevier.com/hes/books/02/menu02.htm Libro on-line: Handbook of Econometrics Vols. 1-5 http://elsa.berkeley.edu/users/mcfadden/discrete.html Libro on-line: Structural Analysis of Discrete Data and Econometric Applications http://www.oswego.edu/~kane/econometrics/stud_resources.htm Online Resources for Econometric Students http://www.econ.uiuc.edu/~morillo/links.html Econometric Sources: a collection of links in econometrics and computing. University of Illinois http://www.econometrics.net/ Econometrics, Statistics, Mathematics, and Forecasting http://ideas.uqam.ca/EDIRC/ectrix.html Economics Departments, Institutes and Research Centers in the World: Econometrics, Mathematical Economics
20

Regresion Lineal Multiple

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regresion Lineal Multiple

Transféré par

Droits d'auteur :

Formats disponibles

Modelo de Regresin Lineal Mltiple

MODELO DE REGRESIN LINEAL MLTIPLE

Hiptesis sobre el trmino de perturbacin

Hiptesis sobre variables explicativas

Hiptesis sobre los parmetros del modelo

Hiptesis del MRL Medidas bondad del ajuste

Modelo de Regresin Lineal Mltiple (MRLM)

Introduccin a la Inferencia en el modelo lineal

Contrastes de significacin Prediccin

Caso prctico con Minitab Caso prctico con Minitab

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

Hiptesis del modelo de regresin lineal mltiple (MRLM)

siendo U el trmino de perturbacin o error

Y1 = 1 + 2 X 21 + ... + k X k1 + u1 Y = + X + ... + X + u 2 1 2 22 k k2 2 ... Yn = 1 + 2 X 2 n + ... + k X kn + u n

Y1 1 X 21 Y 1 X 22 2 , X = Y= ... ... ... 1 X 2n Yn

X k1 1 u1 u ... X k 2 2 2 , B= ,U = ... ... ... ... ... X kn k u n ...

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

... ... ... ... 2

... ... ...

0 0 = 2 In ... ... ... 2 ... ...

(In es la matriz identidad de orden n)

d) El error o perturbacin sigue una distribucin normal, i.e.:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Hiptesis sobre los parmetros del modelo:

Estimacin del MRLM

Adems, el estimador MCO de la varianza del trmino de perturbacin es:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

Adems, el estimador MCO de la varianza del trmino de perturbacin es:

X 'Y = Y 'Y Y 'Y = Yi 2 Y i 2 . e'e = ei2 = Y 'Y B

Despejando la suma de cuadrados de la variable endgena, queda:

'Y + e'e , o bien, Y 'Y = Y

'Y n Y 2 + e'e , o bien, Y 'Y n Y 2 = Y

i Y )2 se le denomina suma de cuadrados de la regresin (SCR) . = (Y

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

l , y a jj es el j-simo elemento de la es el error estndar estimado de

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

CASOS PRCTICOS CON SOFTWARE___________________________________

Estimacin MCO del modelo de regresin lineal

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

A continuacin completamos los campos segn se indica:

La operacin nos proporciona el siguiente grfico:

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

Producto interior bruto real

log(Y t ) = 1 log(Lt ) + log(K t ) + log( At ) + u t ; t = 1,..., T

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)

Modelo de Regresin Lineal Mltiple

A continuacin completamos los campos segn se indica:

Los resultados de estimacin se muestran en el siguiente cuadro:

Modelo de Regresin Lineal Mltiple

Predictor Constant log(L) log(K) log(A) S = 0,06750

Coef -1,1666 0,5585 0,6014 0,03291