Vous êtes sur la page 1sur 42

MÉTODOS DE INVESTIGACIÓN

CUANTITATIVA

Sesión 10

MODELO DE REGRESIÓN LINEAL GENERAL

FÁTIMA PONCE REGALADO 1


PUNTOS A TRATAR

Sesión 10. MODELO DE REGRESIÓN LINEAL


GENERAL.
Presentación y Supuestos.
Estimación: Método de Mínimos Cuadrados Ordinarios
o Modelo Bivariado
o Modelo Multivariado.
Interpretación económica y estadística.
Aplicación.
Ejercicios.

FÁTIMA PONCE REGALADO 2


MODELO DE REGRESION LINEAL GENERAL (MRLG)

El MRLG, empleado para analizar el comportamiento de


una variable (Y) a través de variables independientes (Xs),
es uno de los más populares y aplicados.
Características:
La variable dependiente Y es cuantitativa. Si la variable
dependiente fuese cualitativa se requiere métodos de
estimación alternativos a MCO (Logit-probit)
La variable explicativa X tiene varianza muestral Sx² no
nula y además n ≥ K.
Se tiene una muestra suficiente (n).

FÁTIMA PONCE REGALADO 3


SUPUESTOS DEL MRLG
El MRLG es lineal en los parámetros.
Variables independientes (X’s) son deterministicos o fijos
No multicolinealidad (no relación lineal alta entre las X’s)
Exogeneidad (X es independiente de u)
 Estabilidad Estructural de la función: Los parámetros (vector
β) se mantienen constantes a lo largo de la muestra.

 Media nula de las pertubaciones (E(u) = 0)


 Homocedasticidad (igual varianza de u=2 )
µ N(0,2µ I)
 No autocorrelación (No correlación de ui y uj)
 Distribución normal de las perturbaciones.

FÁTIMA PONCE REGALADO 4


HOMOSCEDASTICIDAD
Errores homoscedásticos:
Igual varianza
 La recta de regresión de Ahorros
sobre Ingresos representa con igual
precisión la relación entre ingresos
y ahorros, independientemente de
los valores de ingreso.
RESIDMCO

NO AUTOCORRELACIÓN .06

.04

Errores no correlacionados: .02

Cov(ut,ut-1)=0 .00

 Los errores tienen un comportamiento


-.02

puramente aleatorio o irregular. -.04

-.06
30 35 40 45 50 55 60 65 70 75

FÁTIMA PONCE REGALADO 5


EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)

 Es uno de los procedimientos más conocidos de


estimación de los parámetros poblacionales.
 Se tiene una muestra de n observaciones.
 Se plantea utilizar aquella combinación de α y β que
minimice los errores que el modelo cometerá.

 Criterio MCO: Minimización de Σ e2 ^


e=Y–Y
 Elevar al cuadrado los errores individuales antes de
sumarlos para cumplir dos objetivos:
1. Penalizar los errores más grandes.
2. Cancelar el efecto de los valores positivos y negativos.

FÁTIMA PONCE REGALADO 6


MODELO DE
REGRESIÓN LINEAL
BIVARIADO

FÁTIMA PONCE REGALADO 7


EL MODELO DE REGRESIÓN LINEAL BIVARIADO
 Modelo especificado: Y=+βX+µ

A nivel de observaciones, cada vector es un vector columna:

y1 1 x1  µ1
Objetivo: Estimar
y2 1 x2 β µ2 =intercepto u
y3 = 1 x3 + µ3 ordenada y,
2x1
… … … … =pendiente.
yn 1 xn µn
nx1 nx2 nx1
observaciones Observaciones de la Perturbación
de la var. var. independiente
dependiente
Y=X+µ

FÁTIMA PONCE REGALADO 8


LA RECTA DE REGRESIÓN
O Función de Regresión Poblacional (FRP), depende de los
parámetros poblacionales. Se obtiene cuando el valor de la
perturbación es cero (E(u)=0).
Es la parte sistemática o predecible del modelo y corresponde
al comportamiento promedio de la variable a explicar:
E(Yi / Xi) = E ( + βXi + ui)
=  + βXi + E(ui)

E(Yi / Xi) = + βXi

 La recta MCO recoge el comportamiento medio de la


variable Y, a partir de observaciones provenientes de una
muestra (X1,Y1), (X2,Y2), . . . , (Xn,Yn). Gráficamente, consiste
en calcular la pendiente y la ordenada que mejor se
ajusta a la nube de puntos.

FÁTIMA PONCE REGALADO 9


FUNCIÓN DE REGRESIÓN
(caso bivariado)
Y=Consumo

Y=Consumo
^
E(Y/X) =  + β X Y=a+bX

a

X=Ingreso X=Ingreso
Función de Regresión Función de Regresión
Poblacional Muestral

FÁTIMA PONCE REGALADO 10


FUNCIÓN DE REGRESIÓN MUESTRAL
(caso bivariado)
Y Relación observada
entre las variables
(X,Y)
Yi
ei=error
^
Yi
^
Yi

X=xi X
^
MUESTRA: Yi = Yi + ei

FÁTIMA PONCE REGALADO 11


EL ESTIMADOR MINIMO CUADRADO
ORDINARIO (MCO)
Los estimadores que se emplean para encontrar la pendiente
(b) y el intercepto (a) de la recta de regresión MCO de mejor
ajuste son:
“b” es el estimador MCO de 

b
 XY  nXY β=ΔE(Y)/ΔX: Si β>0: un aumento unitario en la variable
explicativa X conlleva un aumento promedio de β
 2
X  nX 2 unidades en la variable dependiente. La pendiente
mide el efecto de un aumento marginal en la variable
explicativa sobre E(Y).
“a” es el estimador MCO de 
a  Y  bX =E(Y|X=0): valor promedio de la variable dependiente Y
cuando el valor que toma la variable independiente es cero.

^ Recta de regresión estimada por MCO


Y= a + b X

FÁTIMA PONCE REGALADO 12


ERROR ESTANDAR DE LA ESTIMACIÓN (se):
 Mide la variabilidad o dispersión de los valores
observados alrededor de la recta de regresión
(=confiabilidad de la ecuación estimada)
Y= Valores de la variable dependiente.

se 
 (Y  Yˆ ) 2 Ŷ= Valores estimados con la ecuación
de estimación que corresponden a
n2 cada valor de Y.
Grados de
libertad
n = número de puntos utilizados para
ajustar la línea de regresión.
 Interpretación:
Mientras más grande sea el error estándar de la estimación, mayor
será la dispersión de los puntos alrededor de la línea de regresión.
 Si se = 0  ecuación de estimación (Ŷ) nos da un estimador
perfecto de la variable dependiente.

FÁTIMA PONCE REGALADO 13


ANÁLISIS DE REGRESIÓN SIMPLE o BIVARIADA:
Aplicación: Crecimiento – Infraestructura móvil
Estimar la línea de regresión … en Excel
Estadísticas de la regresión
PBI - Líneas Móviles Coeficiente de correlación múltiple 0.97706831
600,000
R2
Coeficiente de determinación R^2 0.95466249
PBI (mlls de S/.de 2007)

500,000
R^2 ajustado 0.95239561
400,000
Error típico 21551.1878
300,000 Error estándar
Observaciones 22
200,000 y = 7.2x + 210383 de estimación
100,000 R² = 0.954
0 ANÁLISIS DE VARIANZA
0 10000 20000 30000 40000
Líneas móviles (miles)
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 1.956E+11 1.956E+11 421.135817 6.6026E-15
Residuos 20 9289073882 464453694
Total 21 2.0489E+11
Coeficientes
estimados Coeficientes Error típico Estadístico t Probabilidad Inferior 95%
Intercepción 210383.26 6375.84822 32.9969054 6.477E-19 197083.474
Líneas móviles en servicio (miles) 7.19995394 0.3508477 20.5215939 6.6026E-15 6.46809847

FÁTIMA PONCE REGALADO 14


Estimación en Excel
a) Determinar la Mejor Ecuación de Regresión para los datos.

EN EXCEL emplear comando DATOS / ANALISIS DE DATOS


a) Escoger REGRESIÓN:

FÁTIMA PONCE REGALADO 15


Estimación en Excel

Rango de datos de
la variable
dependiente

Rango de datos
de las variables
independientes

Presenta cuadro
con los errores
estimados y
valor de Yestimado.
(Se explicará en
próxima sesión)

FÁTIMA PONCE REGALADO 16


MRLG MÚLTIPLE O
MULTIVARIADO

FÁTIMA PONCE REGALADO 17


MODELO DE REGRESIÓN LINEAL GENERAL

 Si el modelo especificado es:

Y = β1 + β2X2 + β3X3 + … + βkXk + µ


Y=Xβ+µ

 El análisis de regresión busca cuantificar la relación


existente entre la variable Y (dependiente) y las X’s
(independientes):
E(Y/X) = β1 + β2X2 + β3X3 + … + βkXk

 El objetivo es estimar los parámetros (β’s) buscando


el valor más probable de Y dados los valores de X.

FÁTIMA PONCE REGALADO 18


EL MRLG MULTIPLE ó MULTIVARIADO
A nivel de observaciones, cada X es un vector columna:

y1 1 x12 x13 ... x1k β1 µ1 Objetivo:


Estimar
y2 1 x22 x23 ... x2k β2 µ2 intercepto,y
y3 = 1 x32 x33 … x3k β3 + µ3 pendientes,
… … … … … … … …
yn 1 xn2 xn3 … xnk βk µn
nx1 nxk kx1 nx1
vector de observaciones de perturbación
observaciones las var. exógenas
de la var.
dependiente
Y=X+µ

FÁTIMA PONCE REGALADO 19


SUPUESTOS DEL MRLG (1/2)
1. Hipótesis: Relación lineal de la variable dependiente Y con
un conjunto de k variables explicativas X:
Y = β1 + β2 X2 + β3 X3 + β4 X4 + … + βk Xk + µ

Y=X+µ

Forma Lineal: y = β1 + β2X2 + β3 X3 + µ

pendientes
Y
2 = ------------------
X2 de 1 unidad

FÁTIMA PONCE REGALADO 20


OTRAS FORMAS FUNCIONALES

- Semilogarítmica: y = eβ1 + β2 X2 + β3 X3 + µ
tasa de crec.
linealización: ln y = β1 + β2 X2 + β3 X3 + µ

- Doblelogarítmica: y = β1 X2β2 X3β3 eµ


linealización: ln y = ln β1 + β2 ln X2 + β3 ln X3 + µ

elasticidades
%Y Es una elasticidad de
2 = ------------ Y respecto a X2.
% X2

FÁTIMA PONCE REGALADO 21


SUPUESTOS DEL MRLG (2/2)
2. Hipótesis sobre las perturbaciones (µ):
i) E (µ) = 0
ii) Var(µi)=2µ Varianzas de las perturbaciones son iguales
(Homoscedasticidad).
iii) Cov(µi,µj)=0 Cada perturbación es No correlacionada
con todas las otras perturbaciones.
iv) Distribución de la perturbación: Normal: µ N (0, 2 I)
µ

3. Hipótesis sobre los regresores (variables X’s):


i) X es matriz de valores fijos independiente de µ (No debe
haber relación lineal entre Xi y µ).
ii) No hay relación lineal exacta entre las variables X’s:
Los k vectores son Linealmente Independientes, es decir,
cada variable aporta información propia.

FÁTIMA PONCE REGALADO 22


FUNCIÓN DE REGRESIÓN
(caso múltiple)
Punto observado
Y

Error
Punto correspondiente en el plano

Plano formado a través


de los puntos de la muestra:
^
Y = b 1 + b2 X 2 + b 3 X 3
b1= intercepto
X1

Fuente: Fig 13-1 Levin y Rubin(2010)

X2
FÁTIMA PONCE REGALADO 23
FUNCIÓN DE REGRESIÓN POBLACIONAL

La función de regresión, objeto de estimación, se denomina Función


de Regresión Poblacional (FRP) y depende de los coeficientes
poblacionales desconocidos (parámetros: β1, β2,… βk ).

Se trata de la parte sistemática o predecible del modelo y corresponde


al comportamiento medio o esperado de la variable a explicar:

E(Yi/X) = E (β1+ β2X2i +… + βkXki + ui)

= β1+ β2X2i +… + βkXki + E(ui )

E(Yi/X) = β1+ β2X2i +… + βkXki

FÁTIMA PONCE REGALADO 24


MRLG (MÚLTIPLE):
interpretación de coeficientes

 β1=E(Yi|Xi=0): valor medio de la variable dependiente


cuando el valor que toma la variable independiente es
cero. Es el intercepto u ordenada.

 β2=ΔE(Yi)/Δx2i: un aumento unitario en la variable


independiente X2 conlleva un aumento medio de β2
unidades en la variable dependiente. La pendiente mide el
efecto de un aumento marginal en la variable explicativa
sobre E(Yi).
……
 βk=ΔE(Yi)/Δxki: un aumento unitario en la variable
independiente Xk conlleva un aumento medio de βk
unidades en la variable dependiente.

FÁTIMA PONCE REGALADO 25


ESTIMADOR MINIMO CUADRADO ORDINARIO
(MCO)
 Muestra de n observaciones.
 Utilizar aquella combinación de β1, β2,… βk que minimice
los errores que el modelo cometerá.
^
 Criterio MCO: Minimización de Σ e2 , e=Y–Y
^
βMCO = (X’X)-1 X’Y Estimador MCO de 
^ ^
β es variable aleatoria, Con Media : E[ β ] = β
^
Varianza del estimador MCO : MVC(β) = µ2 (X’X)-1
Con este estimador (fórmula), empleando datos muestrales
^
cuantificamos los valores de los β’s: obtenemos β.

FÁTIMA PONCE REGALADO 26


PROPIEDADES DEL ESTIMADOR MCO
^
 LINEAL: βMCO = f(Y)
^
 INSESGADEZ: E[ βMCO ] = β
o Su distribución está centrada sobre el verdadero valor del
parámetro que está siendo estimado.
 EFICIENCIA: El estimador MCO tiene menor varianza que
cualquier otro estimador lineal insesgado.

Teorema de Gauss-Markov:
^
El estimador βMCO es el Mejor Estimador Lineal Insesgado
(M.E.L.I. ) si se cumplen los supuestos básicos del MRLG.

FÁTIMA PONCE REGALADO 27


INTERPRETACIÓN Y EVALUACIÓN DE
RESULTADOS

Para evaluar los resultados de la estimación:

1. Interpretación Económica: signos, valores. Es muy


importante la unidad de medida.

2. Evaluación Estadística: R2, test de hipótesis de


significancia conjunta (Test F) y test de hipótesis de
significancia individual (test t).

3. Evaluación Econométrica (Si los supuestos básicos del


modelo se cumplen, especialmente los residuos).

FÁTIMA PONCE REGALADO 28


INTERPRETACIÓN
DE LA ESTIMACIÓN

FÁTIMA PONCE REGALADO 29


Aplicación 1:
La Demanda de Electricidad (1/2) */
I. Especificación: La ecuación teórica a estudiar es:
QD = 1 + 2 Ingreso + 3 Población + 4 Precio + 
2 >0, 3 >0 y 4 <0
donde:
QD = VEN : Volumen de energía vendida en GWh
Ingreso = PBI : PBI en millones de nuevos soles constantes.
Población = POB : Población del mercado (miles de habs.)
Precio = TAR : Tarifa promedio en ctvUS$/kWh en $ constantes.
Ante una variación del Precio en 1 unidad, la
cantidad demandada de electricidad varía en
promedio en 4 GWh

*/ Basado en un trabajo práctico desarrollado por alumnos de Econometría Intermedia–PUCP (2008-I).

FÁTIMA PONCE REGALADO 30


Aplicación 1:
La Demanda de Electricidad (2/2)
2. Se estima por MCO:  = Da el VEN ante un PBI en 1 unidad: Las
2
Dependent Variable: VEN Ventas de electricidad se elevan en promedio en
Method: Least Squares 0.067 mills de nS/. cuando el PBI se  en 1 mll
1992 2001
Sample: 1981 2012 de nS/.
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
4 = Da el VEN ante un TAR en 1 unidad: Las Ventas
de electricidad se reducen en promedio en 147.1 mills de
nS/. cuando la TAR se  en 1 ctvUS$/kWh
FÁTIMA PONCE REGALADO 31
EVALUACIÓN
ESTADÍSTICA DE LA
ESTIMACIÓN

FÁTIMA PONCE REGALADO 32


I. BONDAD DE AJUSTE
 Coeficiente de Determinación ó R2:
Mide el grado de ajuste lineal de la regresión e indica el %
de la variación observada de Y que es explicada por la
variación combinada lineal de los regresores (X’s).

0 < R2 < 1

 Por ej.: Si R2=0.76  El 76% de las variaciones de la


variable endógena (cantidad p.e.) son explicadas por las
variaciones de las variables independientes del modelo.

 NOTAR que: En muestras de Serie de Tiempo el valor del R2 va a estar


más cercano de 1 que en muestras de corte transversal, donde por lo
general sólo se tienen valores entre 0.2 y 0.5

FÁTIMA PONCE REGALADO 33


II. INFERENCIA ESTADISTICA
Si el modelo estimado es:
^ ^ ^ ^ ^
Y = β1 + β2X2 + β3X3 + … + βkXk ó
^
Y = b1 + b2X2 + b3X3 + … + bkXk
 Test de significancia individual de βi .
^
Prueba t – student sólo se conoce 2µ .

 Test de significancia conjunta de vector β.


Prueba F–Fisher: βi asociados a las pendientes.

En MRL Múltiple 1ro. analizar test F y luego test individual t.

En un MRL Bivariado: F = (t)2

FÁTIMA PONCE REGALADO 34


TEST DE SIGNIFICANCIA CONJUNTA
(de todos los i asociados a pendientes)

Estadístico F (Análisis ANOVA):


^ SCE/(k-1)
^ Varianza explicada por la regresión
F =---------------------------------------------  F= ------------- F
̃ (k-1,n-k)
Varianza no explicada por la regresión SCR/(n-k)

H0 : vector β de pendientes = 0
β2
β3 = 0
:
:
βk
H1 : vector β de pendientes  0

FÁTIMA PONCE REGALADO 35


TEST DE SIGNIFICANCIA CONJUNTA

1-= 0.95
Aceptar H0: βde pendientes= 0
^
Si F<F%(k-1, n-k)  Aceptar H1
No rechazar H0. = 0.05
^
Si F>F%(k-1,n-k)
Aceptar H1.

Valor crítico F%


=0.05 Prob < = 0.05
Análisis del P-valor:
 Si: Prob  0.05  Se acepta la H0: βde pendientes = 0
 Si: Prob < 0.05  Se rechaza la H0: βde pendientes = 0

FÁTIMA PONCE REGALADO 36


TEST DE SIGNIFICANCIA INDIVIDUAL (de i)
(Prueba a 2 colas)
H0: βi = 0 Var. X no es importante para explicar Y
H1: βi  0 Var. X es estadísticamente importante para explicar Y
Región de
Estadístico t :
aceptac. de la H0
^ 1-= 0.95
^ i -  i Región de rechazo
t = ̃ t(n-k)
^ de H0 /2= 0.025
SE(i)

-t/2(n-k) 0 t/2(n-k) t

=0.05
Prob < 0.05 Prob < 0.05
Análisis del P-valor:
 Si: Prob  0.05  Se acepta la H0: β = 0
 Si: Prob < 0.05  Se rechaza la H0: β = 0
FÁTIMA PONCE REGALADO 37
DISTRIBUCIÓN t
Para el caso de un i: (n-k) grados de libertad

Valor  Prueba de
IC dos colas

g.l.

FÁTIMA PONCE REGALADO 38


INTERPRETACIÓN Y
EVALUACIÓN
ESTADÍSTICA DE LA
ESTIMACIÓN

FÁTIMA PONCE REGALADO 39


Cont. Aplicación 1:
La Demanda de Electricidad (1/2)
I. Especificación:
La ecuación teórica a estudiar es:
QD = 1 + 2 Ingreso + 3 Población + 4 Precio + 
2 >0, 3 >0 y 4 <0
II. Estimación:
La ecuación a estimar es:
VE = 1 + 2 PBI + 3 POB + 4 TAR + 
donde:
VE : Volumen de energía vendida en GWh
PBI : PBI del área de influencia del mercado, en millones
nuevos soles constantes.
POB: Población del área de influencia del mercado (miles de habs.)
TAR : Tarifa promedio a cliente final en ctvUS$ / kWh en $ constantes.

FÁTIMA PONCE REGALADO 40


Cont. Aplicación 1:
La Demanda de Electricidad (2/2)
2. Se estima por MCO:
Test de significancia individual:
Dependent Variable: VEN
Method: Least Squares 1. │test│>│ttabla 2│ ó 2. prob <0.05
Sample: 1981 2001
Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000
POB 0.626912 0.045192 13.87215 0.0000
TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407
Adjusted R-squared 0.981504 S.D. dependent var 1971.226
S.E. of regression 268.0884 Akaike info criterion 14.19015
Sum squared resid 1221814. Schwarz criterion 14.38911
Log likelihood -144.9966 F-statistic 354.7673
Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000

El 98% de las variaciones Test de significancia Conjunta:


3. Evaluación.de VEN son explicadas Fest > Ftabla ó prob(F)<0.05
por PBI, POB y TAR.  Rechazar H0.

FÁTIMA PONCE REGALADO 41


BIBLIOGRAFIA

Anderson, D., Sweeney, D. y Williams T. (2008). Estadística


para Administración y Economía. [10ma. Ed.] México,
Cengage Learning Editores S.A. de C.V., Cap 14 y 15.

Levin, R. y Rubin, D. (2010). Estadística para Administración


y Economía. Séptima Edición Revisada. Pearson Educación,
México. Prentice Hall. 2010. Cap. 12 y 13.

FÁTIMA PONCE REGALADO 42

Vous aimerez peut-être aussi