Vous êtes sur la page 1sur 36

INTRODUCCION

En los captulos 1 y 2, se trabajar exclusivamente con datos de corte1


transversal.
Regresin es un conjunto de tcnicas que son usadas para establecer una relacin entre una
variable cuantitativa llamada variable dependiente y una o ms variables independientes
llamadas variables predictoras. Las variables independientes tambin deberan ser cuantitativas,
sin embargo es permitido que algunas de ellas sean cualitativas. La ecuacin que representa la
relacin es llamada el modelo de regresin2.

CAPITULO 1
El modelo general de regresin
Cuando se analizan simultneamente las relaciones existentes entre un
grupo de variables, es necesario recurrir a tcnicas de anlisis
multivariante. Una de estas tcnicas es el anlisis de regresin, que se
ocupa de la relacin de dependencia existente entre una variable
respuesta (Y ) , y otras variables explicativas ( X 1 , , X k ) . La econometra
se refiere a la aplicacin del anlisis de regresin a variables de tipo
econmico, es decir, que la econometra se basa en mtodos
estadsticos para estimar las relaciones econmicas, poner a prueba
teoras y evaluar para posteriormente poner en prctica, polticas
gubernamentales y/o comerciales. En general, el principal objetivo es
encontrar predicciones de la variable respuesta, para ciertos
comportamientos de inters de las variables explicativas.

1
Los datos de corte transversal se refieren a observaciones tomadas en el mismo
momento.
2
Acua
Ejemplo 1
Se pretende explicar los gastos en determinados bienes de consumo3
por medio de una variable que indique el nivel de ingresos familiar.

Ingresos Gastos en artculos de aseo y


artculos decorativos
1550 210
1420 133
2010 367
2175 421
2790 523
2500 511
3215 625
3210 685
2231 412
1856 253
2356 452
2130 269
Tabla 1. Gastos en determinados bienes de consumo e ingresos de 12 familias

Al realizar un diagrama de dispersin entre estas dos variables, se


observa claramente su relacin. A medida que aumentan los ingresos,
son mayores los gastos en dicho tipo de artculos.

3
Los bienes de consumo son bienes que no buscan producir otros bienes o servicios.
Grfico 1. Ingresos Vs Gastos

Sin embargo, el anlisis de regresin es una tcnica estadstica


completamente general, que se puede aplicar a cualquier rea del
conocimiento en la cual se presenten relaciones de dependencia. A
continuacin un ejemplo en el rea de la salud.

Ejemplo 2
Se toma la medida de la tensin arterial diastlica en setenta individuos
de los que se conoce adems su edad, colesterol e ndice de masa
corporal (Tabla 2). Es bien conocido que el valor de la tensin arterial
diastlica vara tanto en funcin del colesterol como del ndice de masa
corporal de cada sujeto.
Tabla 2. Edad, colesterol, ndice de masa corporal y tensin arterial diastlica en 70
pacientes.

En este caso hay que explorar todas las relaciones posibles para
distintas combinacin de variables.
Grfico 2. Matriz de dispersin de las variables edad, colesterol, IMC y TAD.

Simultneamente, solo se pueden visualizar hasta tres variables.


Grfico 3. Diagrama de dispersin. Tensin arterial diastlica Vs colesterol, IMC

1.1 Regresin lineal simple. Conceptos bsicos

La regresin lineal simple, se presenta cuando la variable respuesta


depende de una nica variable explicativa. Aunque no es muy comn su
uso en la prctica debido a que en general, no basta con una sola
caracterstica para explicar un fenmeno de inters, si es muy til su
estudio por ilustrar, todos los conceptos que intervienen cuando se
trabaja con modelos de regresin, en presencia de mltiples variables
explicativas. Adems, como un primer paso indispensable en este tipo
de anlisis, se exploran todas las relaciones de la variable respuesta con
cada una de las explicativas e incluso las relaciones de las variables
explicativas entre si.
En el Ejemplo 1, el diagrama de dispersin sugiere una relacin de tipo
lineal, por lo tanto, se puede proponer como modelo para este conjunto
de datos, la ecuacin general de una lnea recta.
Gastos = m(ingresos ) + b + Ecuacin 1
Donde Gastos e ingresos son respectivamente, la variable respuesta4 y
explicativa5, de las cuales se ha tomado una muestra con base en la cual
se va a buscar aquella recta que se encuentre mas cerca del conjunto
de datos; dicha recta, tendr pendiente m e intercepto b , los cuales. El
trmino adicional se refiere al error, y representa la discrepancia
entre el modelo propuesto y la realidad, todos aquellos elementos que
pueden influir en los gastos, pero que no son observables como errores
de medicin y efectos aleatorios impredecibles.
La notacin ms general usada en este mbito usa la letra griega . De
tal forma que la ecuacin 1 queda
Gastos = 0 + 1 (ingresos ) + Ecuacin 2
En este caso 0 y 1 se llaman los parmetros del modelo y sus valores
ptimos sern hallados a travs de los mtodos de regresin.

Grfico 4. Residuales en un modelo de regresin lineal simple.

Lo anterior no significa que la regresin lineal solo se use para el caso


en el que el modelo supone una relacin de tipo lineal entre las dos
variables involucradas. El trmino lineal, se refiere exclusivamente a la
forma como ingresan los parmetros en el modelo. De hecho, dos
variables pueden estar relacionadas en una forma no lineal y sin
embargo, admitir el uso de la regresin lineal.

4
Tambin llamada dependiente, explicada, predicha o regresando
5
Tambien llamada independiente, control, predoctora o covariable
Ejemplo 3

Suponga el siguiente conjunto de datos. Se puede observar que la


variable y crece muy rpidamente con respecto a cambios suaves en la
variable x. Al observar el grfico 5 se nota que la relacin entre estas
dos variables es claramente de tipo exponencial.

Tabla 3.

La relacin que sugiere este grfico entre las dos variables es de la


forma

Y = exp( 0 + 1 X + ) Ecuacin 3
Grfico 5. Diagrama de dispersin de dos variables, cuya relacin es de tipo
exponencial (x,y)

Por lo tanto, si se desea buscar una relacin lineal, se tendran que


analizar las variables X y lnY, en lugar de X y Y. As la ecuacin de la
recta a encontrar sera en general:

ln Y = 0 + 1 X + Ecuacin 4

Que se puede ver como


Y = 0 + 1 X + donde Y = ln Y Ecuacin 5
El grfico 6 muestra que esta ltima relacin es de tipo lineal.
Grfico 6. Diagrama de dispersin de dos variables, una vez se ha encontrado la
transformacin que hace la relacin lineal (x, lny)
Ejemplo 4

La curva de Phillips es una supuesta relacin inversa entre la inflacin y


el desempleo. Si en el eje de abscisas se ubica la tasa de desempleo y en
el de las ordenadas la tasa de inflacin, se obtiene una curva con
pendiente negativa. La curva de Phillips relaciona la inflacin con el
desempleo y sugiere que una poltica dirigida a la estabilidad de precios
promueve el desempleo. Por tanto, cierto nivel de inflacin es necesario
a fin de minimizar ste ltimo.

Grfico 7. Curva de Phillips


1.1.1 Estimacin de los parmetros del modelo de regresin por el
mtodo de Mnimos Cuadrados Ordinarios (MCO)

Suponiendo en general, que se va a estimar una lnea recta, el modelo


terico, el modelo estimado y el residuo en cada punto, son:

yi = 0 + 1 xi + i
y = + x
i 0 1 i
Ecuacin 6

yi = y i + i
residuoi = i = yi y i

El mtodo de los MCO tiene como objetivo minimizar la suma de los


cuadrados de los residuos, es decir, encontrar 0 y 1 tal que

n

i =1 i
2
sea mnima Ecuacin 7

Deduccin de los estimadores de MCO

S .R. = i =1 t2 = i =1 [ y i 0 1 x ]
n n 2

S .R.
0
n
[ n
]
= 2i =1 y i 0 1 xi (1) = 0 i =1 y i n0 1 i =1 xi = 0
n

S .R.
1
n
[ ]
= 2i =1 y i 0 1 xi ( xi ) = 0 i =1 y i xi 0 i =1 xi 1 i =1 xi2 = 0
n n n

Se obtiene el siguiente sistema de dos ecuaciones lineales con dos


incgnitas

0 = y 1 x

1 = y x y xi i i

x x x i
2
i

Que es equivalente a

0 = y 1 x Ecuacin 8

(x x )( y y )
n

1 = i =1 i i

(x x )
n 2
i =1 i
El estimador usado para la varianza de error esta dado por:
2
(y y i )
n
i
s 2
e = i =1
Ecuacin 9
n2

1.1.2 Estimacin de los parmetros del modelo de regresin por el


mtodo de Mxima Verosimilitud (MV)

Para utilizar este mtodo de estimacin es indispensable conocer la


distribucin de probabilidad de la que provienen los errores, .
Suponiendo i ~ N 0, e2 ( ) para toda i con i = 1, , n , se encontrar a
continuacin la estimacin de MV para 0 , 1 y e2
Funcin de verosimilitud
n
(
L y1 , y 2 , , y n ; 0 , 1 , 2
e )= 1 1
exp

( y i 0 1 x i )2
i =1
2 e
2
2 2
e
n
1
= exp 1 2
(y 0 1 xi )
n

2 2 i
2 e
2 i =1
e

Funcin log-verosmil6

( n n
)
ln L y1 , y 2 , , y n ; 0 , 1 , e2 = ln(2 ) ln e2
1
( ) (y
n
i 0 1 xi )
2

2 2 2 e2 i =1

Por ser la ecuacin negativa se puede ver que maximizar la funcin log-
verosmil es equivalente a minimizar la expresin

(y 0 1 xi )
n 2
i =1 i

Por lo tanto, los estimadores de 0 y 1 son idnticos a los encontrados


por el mtodo de MCO.

El estimador de MV de la varianza del error est dado por


2
(y y i )
n
i
2
e = i =1
Ecuacin 10
n

6
En general, es mas sencillo el proceso de maximizacin para la funcin lnL que para
la funcin L. Estas dos funciones tienen sus mximos en los mismos puntos, dado que
se cumpla la propiedad de continuidad.
1.1.3 Propiedades de los estimadores obtenidos por MCO

Si se cumple que
el modelo especificado es correcto, esto es, E (Yi ) = 0 + 1 X i
Cov ( i , j ) = 0 i j
Var ( i ) = e2 i = 1, ,n
Cov( , x ) = 0

Entonces los estimadores de los parmetros 0 y 1 son insesgados y


de mnima varianza. Se les conoce como MELI (Mejores estimadores
lineales insesgados de mnima varianza).
2
Adems, el estimador de la varianza del error s e es insesgado. Su
divisor es n-2, teniendo en cuenta que se pierden dos grados de libertad
al realizar la estimacin de dos parmetros.

1.1.4 Propiedades de los estimadores obtenidos por MV

Los estimadores de MV son estimadores de muestra grande. En general,


producen estimadores sesgados para las varianzas, pero esto se
soluciona trabajando con muestras grandes.

En este caso el estimador de la varianza residual e2 es sesgado, pero


tiende a ser insesgado a medida que el tamao de muestra crece. Esto
es

2 2
(y y i )
(y y i )
n n
i =1 i i =1 i

n n n2

Los estimadores para 0 y 1 son insesgados por coincidir con los


de MCO
Los estimadores de MV, son consistentes y eficientes
asintticamente. Esto es,

lim V ( ) = 0
n

lim =
n
Por ltimo, el supuesto de normalidad se puede justificar porque dado
que el modelo est bien especificado, los errores del modelo sern
pequeos y tendrn un comportamiento aleatorio alrededor de cero,
independientemente tanto de la variable respuesta como de las
explicativas. Mas adelante, se ver que si esto no llegara a cumplirse es
indispensable tomar realizar correcciones. Adicionalmente, bajo este
supuesto se construye la inferencia usada posteriormente.

1.1.5 Varianzas (y estimaciones) de los parmetros estimados del


modelo de regresin

Usando la propiedad de insesgamiento de los parmetros estimados del


modelo de regresin se demuestra que

e2
=2

(x x)
1 n 2
i =1 i

Con estimador dado por

se2
s 1 =
2

(x x)
n 2
i =1 i

e2 i =1 xi2
n

= 2

ni =1 ( xi x )
0 n 2

Con estimador dado por

se2 i =1 xi2
n

s 20 =
ni =1 ( xi x )
n 2

1.2 Inferencia en el modelo de regresin lineal simple

Se puede dividir la inferencia en las siguientes tres etapas: determinar


si la variable elegida como explicativa, aporta suficiente informacin
sobre Y, si el modelo propuesto es adecuado y por ltimo encontrar
predicciones acertados para la variable respuesta, dadas ciertas
condiciones de inters de la variable explicativa. La inferencia ser
construida en todos los casos bajo el supuesto de normalidad. Cuando
este supuesto no se tenga, ninguno de estos procedimientos ser
vlido.
1.2.1 Significancia del coeficiente de la variable explicativa (pendiente
de la recta)

Con el intervalo de confianza y la prueba de hiptesis presentados a


continuacin se podr determinar si a un nivel de confianza previamente
determinado la variable X explica a Y.

(
1 ~ N 1 ; 21 )
Como 21
, no es conocida, es necesario reemplazarla por su estimacin

s21 , con lo cual es supuesto de normalidad no es vlido y es sustituido


por el de una distribucin t. Por lo tanto, la variable aleatoria

1 1
~ t n2
s1

De tal forma, que un intervalo centrado de (1 )% de confianza ser:

1 1
t( n 2; / 2) < < t( n 2; / 2)
s1

Despejando para el parmetro de inters 1

1 t(n2; / 2 )s < 1 < 1 + t(n2; / 2 )s


1 1

Si en este intervalo de confianza est al 0, este es un valor que puede


tomar el parmetro en cuestin, por lo tanto, se concluye a un nivel de
confianza de (1 )% que el coeficiente no es significativo, es decir, que
el comportamiento de la variable Y no depende de la variable X
propuesta como explicativa. En este caso, hubo un planteamiento
errneo del modelo.
Y la prueba de hiptesis asociada, que permite someter cualquier valor
de inters para 1 es:
H 0 : 1 = (1 )0
H a : 1 (1 )0

( )
donde 1 0 es el valor sometido a prueba, de acuerdo al inters de
investigador7
Estadstico de prueba

1 1
tc =
s1

Con t c ~ t ( n 2 )

Como caso particular est la prueba que es indispensable realizar


siempre, en la que se evala la significancia del coeficiente de regresin,
lo cual equivale a determinar si la variable X propuesta como explicativa,
aporta informacin relevante para la variable respuesta Y, o si por el
contrario el comportamiento de esta ltima no depende de X.

H 0 : 1 = 0

H a : 1 0

Para el cual el estadstico de prueba se convierte en

1
tc = Ecuacin 11
s
1

Por lo tanto, al rechazar la hiptesis nula, se concluye que la variable X si


est aportando informacin importante sobre la variable Y, o
equivalentemente que las variables X y Y si pueden presentar una
relacin de dependencia como la sugerida en el modelo.
1.2.2 Tabla de anlisis de varianza

La tabla de anlisis de varianza, suele abreviarse ANOVA o


ANDEVA. La ANOVA es bsicamente la construccin de una
prueba de hiptesis, que en cada paso aporta informacin
importante acerca de la calidad del modelo propuesto. Esta prueba
es mas general que la anterior, pues permite sacar conclusiones
sobre el modelo y no solo sobre una variable. Sin embargo, para el

7
De acuerdo al conocimiento adicional que se tenga sobre este coeficiente, la prueba
de hiptesis puede ser planteada a una sola cola.
caso particular de la regresin lineal simple es equivalente, por
involucrar solo una variable explicativa.
La tcnica del anlisis de varianza divide la variacin total de las
observaciones en dos componentes:
El modelo propuesto (1 X )
Error aleatorio
Lo que se espera, suponiendo una correcta especificacin del modelo es
ste recoja la mayor parte de esta variacin, dejando as una parte muy
pequea al error. Si esta relacin se invierte, la prueba conducir a la
conclusin de que el modelo propuesto no es adecuado para explicar la
variable Y.

ANOVA

H 0 : 1 = 0
H a : 1 0

Fuente de
gl SC CM Estadstico F Valor p
Variacin
( y y)
2

( y i y )
2
1 i
Regresin
( y y)
2
1 i

1
( yi yi ) P ( F > Fc )
2

(y y i ) ( yi y i )
2
Error n-2 i
2

n2
n2
(y y)
2
Total n-1 i

De forma ms general, los cuadrados medios son respectivamente las


varianzas recogidas por la regresin y por el error, por eso son
simplemente los cocientes entre las sumas de cuadrados y sus
respectivos grados de libertad. La prueba F que se utiliza es entonces la
prueba clsica de comparacin de varianzas.

Fuente de
Variacin
gl SC CM Estadstico F Valor p

( y y)
2
Regresin 1 i SCR/1
CMR
(y y i ) P ( F > Fc )
2
Error n-2 i SCE/(n-2) Fc =
CME
(y y)
2
Total n-1 i

Por lo tanto: Fc ~ F(1, n 2 )

( y y) ; (y y i ) ; SCT= ( y i y )
2 2 2
SCR= i SCE= i

Siempre se cumplen las identidades


SCT = SCR + SCE

(y y ) = ( y i y ) + ( y i y i )
2 2 2
i

glT = glR + glE

Observe que los grados de libertad total son iguales al tamao de la


muestra menos 1. Esto es porque se utiliza el estimador insesgado de la
varianza muestral, esto es,

(y y)
n 2
i SCT
s 2
y = i =1
=
n 1 n 1

Como las varianzas en cada caso tienen distintos denominadores (para


la regresin 1, para el error (n-2)), las sumas de las varianzas no
cumplen identidad alguna, mientras que las de los cuadrados si la
cumplen.

Nota 1
Para este caso particular existe una relacin entre el estadstico F de la
tabla de anlisis de varianza y el estadstico t de la prueba planteada
para la ecuacin 11

2

Fc = (t c ) Fc = 1
2

s
1
Si una variable aleatoria F con 1 y n-2 grados de libertad, entonces
F = T 2 donde T es una variable aleatoria t de student con n-2 grados de
libertad. Sus percentiles se encuentran entonces relacionados as:

f (1 ,1,n 2 ) = t (21 / 2,n 2 )

1.2.3 Coeficiente de determinacin

El coeficiente de determinacin, notado R 2 es una medida de la


bondad del ajuste del modelo a los datos.

Se tiene que la descomposicin de la suma de cuadrados

SCT= Suma de cuadrados total = ( y i y )


2

SCR= Suma de cuadrados total = ( y i y )


2

luego, es muy claro que entre mas cerca est SCR a SCT, es mejor el
ajuste del modelo a la realidad. As el cociente entre SCR y SCT mide la
proporcin de la variabilidad total explicada por el modelo propuesto;
este cociente expresado es lo que se conoce como el coeficiente de
determinacin.
SCR
R2 = Ecuacin 12
SCT
Adems, tambin se concluye que 0 R 2 1 ,pues SCR < SCT8 ;, de tal
forma que entre mas cerca est de 1, mejor ser el ajuste del modelo.

Nota 2
No obstante, el coeficiente de determinacin, solo es una medida mas de
la bondad de ajuste del modelo; por s solo no es concluyente, ya que no
mide la validez del modelo. Se le suele dar ms importancia de la que
realmente tiene y en algunas ocasiones se maneja como la medida
decisiva para seleccionar modelos, cuando en muchos casos ni siquiera
son comparables los R 2 de distintas ecuaciones. En el captulo 2,, al
trabajar con mas variables explicativas se ampliar este concepto.

1.2.4 Coeficiente de correlacin lineal en la regresin

El coeficiente de correlacin lineal es una medida de asociacin lineal


entre dos variables. Esta definido por como el cociente entre la
covarianza entre las dos variables en cuestin y el producto de sus
respectivas desviaciones estndar.

s xy
rxy =
sx s y

Tiene dos propiedades fundamentales que hacen muy clara su


interpretacin:
Es adimensional
Acotado 1 rxy 1

En general, es cierto que

rxy 1 Alta asociacin lineal positiva


rxy 1 Alta asociacin lineal negativa
rxy 0 No hay asociacin lineal

Cuando no hay asociacin lineal entre X y Y, a{un existen dos


posibilidades:

8
Siempre y cuando la ecuacin tenga trmino independiente. Si el modelo se estima
por el origen no se cumple la descomposicin de la suma de cuadrados, y por lo tanto
el coeficiente de determinacin no es inferiormente acotado, puede dar incluso
negativo.
Que en efecto no haya relacin alguna entre estas dos variables
Que la asociacin no sea lineal pero sea de otra clase. En este
caso, la asociacin lineal puede ser de Y con f ( X ) o de
X con f (Y ) , como se ilustra en el ejemplo 3.
Ahora, especficamente en el contexto de la regresin lineal simple, hay
que tener en cuenta que si bien mide la existencia y magnitud de la
relacin lineal, este coeficiente no aporta ninguna informacin sobre la
dependencia de una variable en trminos de la otra (r
xy = ryx ) . La
eleccin de la variable dependiente, la hace en general el investigador
experto en el campo de aplicacin, tanto por su bagaje terico como por
el objetivo central del estudio.

El estimador de la pendiente 1 , en el modelo de regresin lineal simple


se puede escribir en trminos de rxy as:

( y i y )2
12

1 = rxy
(xi x )
2

De donde se puede ver que si rxy = 0 como consecuencia directa se


tiene que 1 = 0 , que indica la ausencia de asociacin lineal. Adems,
el rxy2 = R 2 .

1.2.5 Prediccin

Una vez se ha llegado al modelo definitivo, este se usa para hacer


predicciones acerca del valor medio que tomara la variable respuesta
(y p ), para un cierto valor de la variable explicativa (x p ) . Los mtodos de
regresin contemplan la prediccin como una interpolacin, es decir, se
predice dentro del rango de valores de la variable explicativa
efectivamente observados en la muestra. La extrapolacin se podra
numricamente calcular pero los errores para sta seran excesivos, no
tendra precisin alguna.

El predictor puntual del valor medio de y p , se obtiene por simple


sustitucin de x p en la ecuacin final:

y p = 0 + 1 x p

( )
Bajo el supuesto de normalidad se tiene que Y p ~ N E (Y p ); Y2p , donde
nuevamente no se conoce la varianza y por lo tanto ser necesario
estimarla; se llega entonces a la siguiente conclusin
y p E (Y p )
~ t (n 2 )
s y p

Y por lo tanto, la prediccin a un nivel de confianza (1 )% esta dada


por:

y p t(n2, / 2 )s y p < E (Yp ) < y p + t(n2, / 2 )s y p

Y la correspondiente prueba de hiptesis asociada es:

H 0 : Y p = (Y p )0
H a : Y p (Y p )0

donde (Y ) p 0 es el valor sometido a prueba, de acuerdo al inters del


investigador
Estadstico de prueba

y p (Y p )0
tc =
s y p

Con t c ~ t ( n 2 )

Luego, es necesario calcular la varianza de la prediccin y la estimacin


de esta varianza de prediccin;

( )
y2 p = Var 0 + 1 x p = 20 + x 2p 21 + 2 x p 0 , 1

=
1
(
+ n
2
x p x )
2

n
i =1 (xi x )
e 2

Cuyo estimador es

( )
s y2 p = Var 0 + 1 x p = s2 + x 2p s2 + 2 x p s
0 1 0 , 1

1 (x x )2
= se2 + n p
Ecuacin 13
n
i =1 (xi x )
2

Por tanto, la desviacin estndar estimada del error de prediccin, es:


(x p x )
12
1 2

s y p
= se + n
n
i=1 (xi x )2
En ocasiones, no se tiene inters en la prediccin del valor medio sino en
la prediccin de un valor particular de la variable Yp . La prediccin
puntual de sigue siendo y p . Pero la varianza de prediccin aumenta,
pues tambin se tiene en cuenta la varianza de la distribucin de
probabilidad de la variable; la expresin es la siguiente:

y2 part = y2 + y2 p = e2 + y2 p

La igualdad entre y2 y e2 surge del siguiente hecho:

Yi = 0 + 1 X i + i y2 = Var (Yi ) = Var ( 0 + 1 X i + i ) = Var ( i ) = e2

De tal forma que los intervalos de confianza y las pruebas de hiptesis


tiene igual forma pero cambia el clculo de la estimacin de la
desviacin estndar:

(x p x )
12
1 2

s y p
= se 1 + + n
n
i =1 (xi x )2
Al realizar el grfico simultneo para distintos intervalos de prediccin, y
unir los lmites superiores con una curva y los limites inferiores con otra,
se encuentran las curvas conocidas como bandas de confianza o bandas
de prediccin. Por supuesto, entre mas angostas sean, mas precisas
sern las respectivas predicciones.

Las bandas de confianza, en general, son mas angostas al centro, ya que


la menor varianza de prediccin se encuentra cuando la variable
explicativa toma su valor promedio, (ver ecuacin 13). A medida que se
alejan del centro y por lo tanto se acercan a los lmites de los rangos en
los que hay observaciones, la varianza de prediccin presenta un
crecimiento muy rpido, de aqu el riesgo de extrapolar.
Grfico 8. Bandas de confianza para la prediccin del valor medio y del valor particular

1.3 Un modelo con dos variables explicativas

Ejemplo 5

El objetivo es construir un modelo que permita predecir el salario al que


puede aspirar un profesional, de acuerdo a sus aos de educacin. Sin
embargo, se sabe que tambin influyen notoriamente los aos de
experiencia en el mercado laboral. Por esto, la ecuacin con una sola
variable explicativa no es suficiente, se requieren dos variables
explicativas para este caso.

Y Salario
X 1 Educacin
X 2 Experiencia

Si se excluye una de estas variables explicativas, toda la informacin que


esta contiene y que no es incluida en el modelo, ir directamente al
error. En caso de que el error no se viera afectado, la conclusin sera
que no aportaba informacin relevante para el salario.

Suponiendo que la relacin fuera lineal, el modelo sera

Y = 0 + 1 X 1 + 2 X 2 +

En este caso es necesario llevar a cabo la estimacin de 3 parmetros


de regresin.

La estimacin utilizando el mtodo de mnimos cuadrados ordinarios,


requiere la solucin ahora, de un sistema de 3 ecuaciones con 3
incgnitas. Nuevamente se llevar a cabo el proceso necesario para
que

n

i =1 i
2
sea mnima
S .R. = i =1 t2 = i =1 [ yi 0 1 x1i 1 x2i ]
n n 2

El sistema de ecuaciones resultar de:

S .R. S .R. S .R.


= 0; = 0; =0
0 1 2

Por lo tanto, ahora el estimador usado para la varianza de error esta


dado por:
2
( y y )
n
i i
se2 = i =1
n3

Significancia de los coeficientes de las variables explicativas

Todos los intervalos de confianza y las pruebas de hiptesis, se


mantiene con la misma estructura, excepto que la distribucin de
probabilidad t student, tiene n-3 grados de libertad en lugar de n-2,
debido a la estimacin de un parmetro adicional en el modelo de
regresin.

Ahora hay que llevar a cabo dos pruebas de hiptesis, una para cada
coeficiente correspondiente a cada variable explicativa:

H 0 : 1 = (1 )0 H 0 : 2 = ( 2 )0
y
H a : 1 (1 )0 H a : 2 ( 2 )0

Con respectivos estadsticos de prueba


1 1 2 2
~ tn 3 y ~ tn 3
s1 s
2

Ahora hay que analizar, los siguientes dos intervalos de (1 )% de


confianza ser:

1 t( n 3; / 2) s < 1 < 1 + t( n 3; / 2) s
1 1

2 t( n 3; / 2) s < 2 < 2 + t( n 3; / 2) s
2 2

Las conclusiones se toman por separado; as puede ser que el primero


de los intervalos no contenga el 0, mientras que el segundo si; en este
caso se concluye que el coeficiente de la variable X 1 es
significativamente distinto de 0, mientras que el de la vairable X 2 no lo
es, lo que se traduce en el hecho de que la primera se mantiene en el
modelo, mientras que la segunda posiblemente deba excluirse del
mismo. Las conclusiones a las que se llegan en la prueba de hiptesis
son similares, siempre y cuando se trabaje con el mismo nivel de
confianza.

La tabla de anlisis de varianza quedara:

ANOVA

H 0 : 1 = 2 = 0 (El modelo no ajusta los datos)


H a : 1 0 , o, 2 0 (El modelo ajusta los datos)

Fuente de
Variacin
gl SC CM Estadstico F Valor p

( y y)
2

( y i y )
2
2 i
Regresin
( y y )
2
2 i

2
Error n-3 ( yi y i )
2 ( yi yi )2 ( yi yi )2
P ( F > Fc )
n3 n3
(y y)
2
Total n-1 i

Para que la prueba de hiptesis conduzca a rechazar la hiptesis nula,


basta con que alguna de las dos variables tenga la relacin supuesta con
Y. Ntese que el o de la hiptesis alternativa no es excluyente;
rechazar la nula indica que alguno de los dos coeficientes es distinto de
cero o que ambos lo son: encierra todas las posibilidades.

Nota 3

La Suma total de cuadrados no se ve afectada en forma alguna, por la


cantidad de variables incluidas en el modelo de regresin.

**************

1.4 Modelo de regresin lineal mltiple

En el ejemplo 5 es posible tener an, mas factores en cuenta; adems de


los aos de educacin y de experiencia laboral, es posible que influyan
otros aspectos como algunas medidas de habilidad, pruebas
psicolgicas, variables demogrficas como nmero de hermanos,
educacin de los padres, o clase de universidad (pblica o privada). De
tal forma, que es indispensable generalizar la teora al caso de mltiples
variables explicativas; a encontrar modelos donde la variable respuesta,
se explica por mltiples covariables, se dedican los mtodos de
regresin lineal mltiple. A continuacin, se proceder a generalizar
todos los conceptos.

El modelo general, para el caso de k variables explicativas es:

Y = 0 + 1 X 1 + 2 X 2 + + k X k +

1.4.1 Estimacin de los parmetros del modelo de regresin mltiple

La estimacin de los k+1 parmetros de regresin por el mtodo de los


MCO, sera:


n
Minimizar i =1
i
2

2
S .R. = i =1 t2 = i =1 [ yi 0 1 x1i 1 x2i k xk ]
n n

El sistema de ecuaciones resultante es:

S .R. S .R. S .R. S .R.


= 0; = 0; =0 =0
0 1 2 k

Por lo tanto, ahora el estimador usado para la varianza de error esta


dado por:
2
( y y )
n
i i
s2
= i =1

n ( k + 1)
e

As, a medida que aumenta el nmero de variables, aumenta del mismo


modo, el nmero de ecuaciones en el sistema; esto hace indispensable,
llevar cambiar la notacin de sumatorias a la forma matricial.

El modelo general quedar expresado:

Y = X +

donde
y 1 x11 xk1
1
Y = ; X = matriz de dimensin n ( k + 1)

yn 1 x1n xkn
0
1

= 1; = 2


k n

Bajo el supuesto de normalidad

(
Y N X ; e2 I ) y N ( 0; e2 I )
Hay que notar que el hecho de que la matriz de covarianza del vector de
errores sea diagonal implica que los errores no estn correlacionados
entre s. Adems, todos los elementos de la diagonal son iguales, por lo
tanto la varianza es constante para todos los errores.

= 0
i i No autocorrelacin

Var ( i ) = 2 i = 1,, n Homocedasticidad

La solucin de la ecuacin matricial queda:


X ' Y = X ' X ( X ' X ) X ' Y = ( X ' X ) ( X ' X )
1 1

Por lo tanto, es estimador de MCO es:


= ( X ' X ) X ' Y
1

Y la ecuacin estimada de regresin es

Y = X

As en lo sucesivo Y se referir al vector que contiene todas las


predicciones puntuales, para los valores observados de X .

1.4.2 Propiedades de los estimadores obtenidos por MCO

Bajo el supuesto de normalidad, las propiedades de los estimadores, son


extensiones del caso de la regresin lineal simple:

( )
j N ; 2 ; j = 0,..., k
j

Insesgamiento E j = j ( )
El estimador insesgado de la varianza de error es

( y y )
n 2
Y ' Y X ' Y
e2 = = i =1 i i

n ( k + 1) n ( k + 1)

Los j son ptimos (mnima varianza)

Nuevamente, los estimadores de MCO de coinciden con los de


MV, excepto por la varianza del error, cuya estimacin va MV es
sesgada y est dada por
Y ' Y X ' Y
e2 =
n

1.5 Inferencia en el modelo de regresin lineal mltiple

1.5.1 Significancia de los coeficientes de las variables explicativas

Todos los intervalos de confianza y las pruebas de hiptesis, se


mantiene con la misma estructura, excepto que la distribucin de
probabilidad t student, tiene n-(k+1) grados de libertad. Se pierden
tantos grados de libertad como parmetros se estimen en la ecuacin de
regresin.

Ahora hay que llevar a cabo k pruebas de hiptesis, una para cada
coeficiente correspondiente a cada variable explicativa:

H 0 : j = ( j )0
H a : j ( j )0

Con estadsticos de prueba


j j
~ tn( k +1)
s
j

Los intervalos de (1 )% de confianza sern:

j t( n( k +1); / 2) s < j < j + t( n( k +1); / 2) s


j j
El anlisis de cada una de las variables con su respectivo coeficiente es
independiente del resto. Las conclusiones se hallan una a la vez para
cada variable explicativa.

1.5.2 Tabla de anlisis de varianza

ANOVA

H 0 : 1 = 2 = = k = 0 (El modelo no ajusta los datos)


H a : j tal que j 0 (El modelo ajusta los datos)

j = 1, , k
Fuente de
Variacin
gl SC CM Estadstico F Valor p

( y y )
2

( y y)
2
Regresin k i

( y y )
i 2
k i

k
( y y )
2
P ( F > Fc )
( yi y i ) ( yi yi )
2 i i 2
Error n-(k+1)
n ( k + 1)
n ( k + 1)
(y y)
2
Total n-1 i

Cuya expresin matricial es

Fuente de
gl SC CM Estadstico F Valor p
Variacin
1 SCR
Regresin k X ' Y Y ' Y
n k
SCE CMR
Error n-(k+1) Y ' Y X ' Y Fc = P ( F > Fc )
n ( k + 1) CME
1
Total n-1 Y 'Y Y 'Y
n

Esta es la prueba fundamental del modelo. Lo deseable en este caso es


rechazar la hiptesis nula; cuando se rechaza la hiptesis nula, se
concluye en realidad, que al menos una de las variables explicativas es
significativa para el modelo; es por completo errneo concluir algo como
que todas las variables explican a Y; en pasos posteriores el modelo
seguir tratndose de depurar, e incluso es posible que al final queden
menos variables de las presentes en este momento.

Nota 4

De nuevo, se puede ver que la Suma total de cuadrados no se ve afectada en


forma alguna, por la cantidad de variables incluidas en el modelo de regresin.
1.5.3 Coeficiente de determinacin y coeficiente de correlacin mltiple

El coeficiente de determinacin tiene el mismo significado que en la


regresin lineal simple: es la proporcin de la variabilidad total explicada
por el modelo propuesto y se define
Variabilidad explicada por la regresin SCR
R2 = =
Variabilidad total SCT
que utilizando la identidad de la suma de cuadrados, tambin se puede
expresar como

SCR SCT SCE SCE


R2 = = = 1
SCT SCT SCT

SCE
Donde SCT es la proporcin de variabilidad no explicada por el modelo.

Para la regresin lineal simple el coeficiente de correlacin lineal entre


la variable explicativa y la respuesta, es la raz cuadrada del coeficiente
de determinacin; en la regresin lineal mltiple ya no es posible esta
equivalencia, pues hay muchas variables explicativas: en este caso se
tiene:
La raz cuadrada del coeficiente de determinacin se conoce
como coeficiente de correlacin mltiple R = R 1 . Ser igual a
2

1 nicamente en el caso en que el modelo explique de forma


perfecta a la variable respuesta.


R 2 = ryy . Entre mayor similitud haya entre los observados y los
predichos por el modelo mayor ser el coeficiente de correlacin
mltiple.
No obstante, la sencillez aparente de su interpretacin. En el contexto
de la regresin lineal mltiple el coeficiente de determinacin es
sensible al nmero de variables explicativas introducidas en el modelo.
2
El R aumenta cada vez que se incluye una nueva variable en el modelo,
an cuando ste ltimo no mejore substancialmente. Por esta razn, se
ha propuesto un coeficiente de determinacin que no presente este
defecto:

2
1.5.4 Coeficiente de determinacin corregido R

El nombre completo podra ser coeficiente de determinacin corregido


por sus grados de libertad. Se define
2 Varianza no explicada
R = 1
Varianza de y

2 CME SCE / ( n ( k + 1) ) ( n -1) SCE


R = 1 = 1 = 1
SCT / ( n -1) SCT / ( n -1) ( n ( k + 1) ) SCT
2
Sustituyendo por su expresin en trminos de R , queda

( n -1) 1 R2
( )
2
R == 1
( n ( k + 1) )

Para regresin lineal mltiple es preferible analizar el coeficiente de


determinacin corregido.

Nota 5

Una desventaja del coeficiente de determinacin ajustado es que puede llegar

a ser negativo, es decir, que no es acotado inferiormente. R ( ;1]


2

1.5.5 Prediccin

El predictor puntual del valor medio de y p es

y p = 0 + 1 x1 p + + k xkp = X p'

s 2 = se2 X p' ( X ' X ) X p


1
Con estimador de la varianza y p

y p E (Y p ) t
Bajo el supuesto de normalidad se tiene que ~ ( n ( k +1))
s y p

Y por lo tanto, la prediccin a un nivel de confianza (1 )% esta dada


por:
y p t( n ( k +1), / 2) s y p < E (Yp ) < y p + t( n ( k +1), / 2) s y p

Y la correspondiente prueba de hiptesis asociada es:

H 0 : Y p = (Y p )0
H a : Y p (Y p )0
donde (Y )
p 0 es el valor sometido a prueba, de acuerdo al inters del
investigador
Estadstico de prueba

y p (Y p )0
tc = con
tc t( n ( k +1))
s y p

Si se desea determinar una prediccin particular de la variable


respuesta, la varianza nuevamente aumenta y est dada por
s y2 p = se2 1 + X p' ( X ' X ) X p
1

No es posible visualizar las bandas de confianza para todas las variables


explicativas simultneamente. Sin embargo, siempre es importante
analizar los intervalos de confianza en los dos casos; entre menor
amplitud tengan estos, mejor ser la calidad de las predicciones.

Ejemplo 6. Modelos Polinmicos

Suponga los siguientes datos

x 1 2 3 4 5 6 7 8 9 10
y 50 32,5 80 250 165 520 720 1300 1600 2050

Y su diagrama de dispersin
2500

2000

1500

1000

500

0 2 4 6 8 10 12

Grfico 9. Diagrama de dispersin de x Vs y

Inicialmente, se ha pensado en una regresin lineal simple, al existir solo


una variable explicativa. Sin embargo, del grfico se observa que la
tendencia no es lineal sino cuadrtica, cbica, o de forma mas general
polinmica; el trabajo en este caso, est en encontrar el grado ideal del
polinomio que ajusta los datos. As, surge una regresin lineal mltiple,
an cuando se tenga solo una variable explicativa; si se propone el
cuadrtico, la ecuacin a estimar tendra la forma general
y = 0 + 1 x + 2 x 2

o cbico

y = 0 + 1 x + 2 x 2 + 3 x3

l
Las variables x son tratadas en el modelo como cualquier otra variable
explicativa independiente de la variable de origen x . Para cuestiones
generales de anlisis estos seran equivalentes a los modelos lineales
y = 0 + 1 x1 + 2 x2 y y = 0 + 1 x1 + 2 x2 + 3 x3 respectivamente.

1.6 Regresin con variables cualitativas

En el conjunto de variables explicativas pueden existir algunas que no


sean numricas sino de atributo. La variable estrato socioeconmico,
por ejemplo, influye en el costo de los servicios pblicos, de los
impuestos a pesar de no ser numrica; no se podra pensar en un
modelo de regresin para predecir el costo de un servicio pblico sin
tenerla en cuenta.

1.7 Modelos de regresin con variable respuesta cualitativa


CAPITULO 2
Diagnstico y Validacin del modelo general
2.1 Multicolinealidad

2.2 Errores de especificacin

2.3 Normalidad

2.4 Heterocedasticidad

2.5 Autocorrelacin

2.6 Mnimos Cuadrados Generalizados

2.7 Criterios de seleccin de variables

2.8 Validacin del modelo


Captulo 3
Introduccin a las series temporales
3.1 Conceptos bsicos

3.2 Descripcin y suavizamiento

3.3 Procesos autorregresivos

3.4 Procesos de media mvil

3.5 Procesos ARMA

3.6 Procesos ARIMA

3.7 Identificacin

Captulo 4.
Introduccin a la Econometra Espacial
4.1 Introduccin a la econometra espacial. Concepto,
antecedentes y aplicaciones

4.2 Efectos espaciales. Dependencia espacial

4.3 Matriz de pesos espacial. Definiciones de contigidad

4.4 Contrastes de autocorrelacin espacial

4.5 Anlisis exploratorio de datos espaciales (AEDE). Mtodos


grficos de representacin de las distribuciones espaciales
Captulo 5
Dependencia espacial en un modelo regresin
5.1 Anlisis confirmatorio de datos espaciales: especificacin de
los modelos de dependencia espacial

5.2 Tipos de modelos de dependencia espacial

5.3 Pruebas de dependencia espacial

5.4 Modelo bsico de regresin espacial

5.5 Aplicacin de algunas estructuras usadas en las series


temporales a datos con dependencia espacial

5.6 Especificacin y estimacin del modelo de regresin espacial


por el mtodo de mnimos cuadrados ordinarios (MCO).

5.7 Inferencia y prediccin

5.8 Validacin de supuestos

Vous aimerez peut-être aussi