Modelos de Regresión

MODELOS DE CORTES TRANSVERSALES
Visión general
Econometría  “medición económica”
“En econometría, el que construye el modelo a menudo se enfrenta a datos provenientes de las
observación más que de la experimentación. Esto tiene dos implicaciones importantes para la
creación empírica de modelos de econometría. Primero, se requiere que quien elabore modelos
domine muy distintas habilidades en comparación con las que se necesitan para analizar los datos
experimentales… Segundo, la separación de quien recopila los datos y el analista exige que quien
elabora modelos se familiarice por completo con la naturaleza y la estructura de los datos en
cuestión.”1
Visión general
 Regresión  relación entre una variable (dependiente) y otra(s) (independientes)
 Terminología2:
Visión general
 Relaciones estadísticas Vs. determinísticas
 Regresión y causalidad: Una relación estadística per se no implica causalidad.
 Regresión Vs. Correlación.
 Tipos de datos:
 Corte transversal
 Series de tiempo
 Combinación de cortes transversales (pooled data)
 Panel
Visión general
 Función de regresión muestral Vs. Poblacional
 Significado de “lineal” en la regresión.

Metodología de la Econometría
1. Planteamiento de la teoría o hipótesis
2. Modelo matemático
3. Modelo econométrico
4. Datos
5. Estimación
6. Validación (pruebas de hipótesis)
7. Utilización del modelo (control, políticas, pronósticos)

Razones para incluir el término inobservable
 Vaguedad de la teoría
 Disponibilidad de los datos
 Variables Centrales Vs. Periféricas
 Aleatoriedad en el comportamiento humano
 Variables proxi inadecuadas
 Parsimonia
 Forma funcional incorrecta

ESTIMACIÓN DE MODELOS DE REGRESIÓN
Estimación
 Mínimos Cuadrados Ordinarios (M.C.O)
Fuente: Brooks (2008) Fuente: Brooks (2008)

Estimación
 Estimadores de MCO para un modelo de regresión lineal simple:

Estimación
 Precisión (error estándar de la regresión) y errores estándar:

Propiedades de los estimadores de MCO
Los estimadores de MCO son MELI (Mejores Estimadores Lineales Insesgados):
 Lineales
 Insesgados
 Mejores (más eficientes)
• Consistentes
(Consistencia: Conforme el tamaño de la muestra crece, un estimador converge en probabilidad al

valor poblacional correcto.)
ESPECIFICACIÓN DEL MODELO Y FORMAS LOGARÍTMICAS
Especificación del modelo de regresión
Inclusión de variables irrelevantes en el modelo
• La inclusión de variables irrelevantes –sobreespecificación del modelo- no afecta el insesgamiento

de los estimadores de MCO. Sin embargo, incluirlas puede afectar su varianza (eficiencia).
Exclusión de variables relevantes en el modelo
• La exclusión de variables relevantes –subespecificación del modelo- hace que los estimadores de
MCO sean sesgados (si la variable omitida y las presentes en modelo están correlacionadas)
Especificación del modelo de regresión
Sesgo de la variable omitida
• Verdadero modelo poblacional:
• Modelo estimado:
Fundamentos para la estimación y análisis de datos panel
Sesgo de la variable omitida
• Verdadero modelo poblacional:
• Modelo estimado:
Interpretación pendientes bajo logaritmos
INFERENCIA ESTADÍSTICA
Inferencia estadística: Pruebas de hipótesis sobre los parámetros
 Pruebas individuales:
Prueba t
Nivel de significancia exacto (valor probable o p-value)
Intervalos de confianza
 Pruebas múltiples:
Prueba F
Hipótesis estadísticas
()
()
Propiedades importantes de una prueba de hipótesis1
 Los errores tipo I y tipo II están relacionados. Por lo general una disminución en la
probabilidad de cometer uno da como resultado un incremento en la probabilidad de cometer
otro.
 El tamaño de la región crítica y, por lo tanto, la probabilidad de cometer un error tipo I,

siempre se puede reducir ajustando los valores críticos (o valor crítico)
 Un aumento en el tamaño de la muestra n reducirá α y β de forma simultánea.
 Si la hipótesis nula es falsa, β es un máximo cuando el valor verdadero de un parámetro se

aproxima al valor hipotético. Cuando más grande sea la distancia entre el valor verdadero y el
valor hipotético, más pequeña será β.
Tamaño de la prueba y potencia de la prueba
 α: Alfa, nivel de significancia, tamaño de la prueba, probabilidad de cometer un error tipo I
 β: Beta, probabilidad de cometer un error tipo II.
 (1-α): Nivel de confianza
 (1-β): Potencia de la prueba.
 Potencia de la prueba: probabilidad de rechazar la hipótesis nula cuando la alternativa es

verdadera.
PRUEBAS DE HIPÓTESIS SOBRE LOS PARÁMETROS
 Prueba t
෡
𝛽−𝛽 ∗
t calc.= ෡
𝑆𝐸(𝛽)
Donde:
መ parámetro estimado
𝛽:
𝛽 ∗ : valor de prueba del parámetro
SE(𝛽): መ error estándar del parámetro estimado
Prueba de hipótesis con α fijo:
1. Establecer hipótesis nula y alternativa

2. Elegir un nivel de significancia fijo
3. Seleccionar un estadístico de prueba adecuado y establezca la región crítica con
base en α
4. Rechazar la hipótesis nula si el estadístico de prueba calculado está en la región
crítica. De otra manera, no rechazar.
5. Sacar conclusiones
 Nivel de significancia exacto (valor probable o p-value)
valor-p > α  no rechazar Ho

valor-p < α  rechazar Ho
Prueba de significancia (valor-p):
1. Establecer hipótesis nula y alternativa

2. Elegir un estadístico de prueba adecuado.
3. Calcular valor p con base en los valores calculados del estadístico de prueba
4. Sacar conclusiones
 Intervalos de confianza.
[𝛽መ - t crítico * SE(𝛽),

መ 𝛽መ + t crítico * SE(𝛽)]
መ
 Prueba F
𝑆𝐶𝑅𝑟 −𝑆𝐶𝑅𝑛𝑟
𝑞
F calc. = 𝑆𝐶𝑅𝑛𝑟
𝑛−𝑘−1
Donde:
SCRr: suma del cuadrado de los residuos (modelo restringido)

SCRnr: suma del cuadrado de los residuos (modelo no restringido)
q: número de restricciones
k: números de regresoras
COEFICIENTE DE DETERMINACIÓN
Bondad de ajuste
 Coeficiente de determinación (R2)
R2 = 1-SCR/SCT = SCE/SCT
 Coeficiente de determinación ajustado (𝑅ത 2)
𝑅ത 2 = 1-[SCR/(n-k-1)] / [SCT/(n-1)]
Bondad de ajuste
 Prueba F: forma R2
𝑅2𝑛𝑟 −𝑅2𝑟
𝑞
F calc. = 1−𝑅2𝑛𝑟
𝑛−𝑘−1
VALIDACIÓN DE LOS SUPUESTOS
Validación de supuestos
Las propiedades estadísticas de la estimación por MCO descansan en los siguientes

supuestos:
1. Los datos son una muestra simple aleatoria de una población bien definida.
2. El modelo es lineal en los parámetros.
3. Cada variable explicativa no es una función lineal de las otras y tampoco es constante.
4. El término de error es independiente de las variables en el modelo.
Si el supuesto 4 se cumple se tiene que:

Validación de supuestos
5. El error tiene varianza constante dado cualquier valor de las variables explicativas
6. El error no está correlacionado entre dos unidades t y s (para todo t ≠ s) dado un valor de las
variables explicativas
7. El error está normalmente distribuido con media 0 y varianza 2, N(0, 2)
Si se cumple el supuesto 4, los estimadores del modelos son insesgados. Si se cumplen los supuestos
5 y 6 son eficientes. Si se cumplen los supuestos 4, 5 y 6 los estimadores son MELI.
MODELOS DE REGRESIÓN CON INFORMACIÓN CUALITATIVA
Información cualitativa. Modelación con variables dummy.
• Variables cualitativas: variables que describen información cualitativa. Por ejemplo,
 Género (hombre, mujer)

 Estrato socio-económico (1 – 6)
 Ubicación geográfica (norte, sur, este, oeste)
• Pueden ubicarse del lado de las variable dependiente (modelos de respuesta cualitativa) o
del lado de las variables independientes (modelos con información cualitativa)
Información cualitativa. Modelación con variables dummy.
• Variables binarias o dummy: variables cualitativas con 2 resultados posibles . Por

ejemplo,
 Color (rojo, negro)

 Poseer vehículo (sí, no)
• ¿A cuál de los resultados (evento) se le asigna el valor 1 y a cuál el valor 0?
• Normalmente, el valor 1 está representado por el «nombre de la variable»
• Dummy mal rotulada  «color» (Quién es rojo, ¿1 o 0?)
• Dummy bien rotulada  «rojo» (Rojo es 1)

Incorporación de una única variable explicativa binaria.
• Ejemplo: Modelo para determinar el salario.
Salario = f(educación)
Salario = βo + β1educación + u
¿Qué se espera de β1?
• Y si ahora…
Salario = f(género, educación)

Salario = βo + 0mujer + β1educación + u
¿Qué se espera de 0? (no olvidar condición ceteris paribus)

¿Qué se espera de β1?
Incorporación de una única variable explicativa binaria.
Diferencia salarial debida a la

discriminación (0 <0)
Grupo base y trampa de las variables binarias.
• ¿Por qué utilizar sólo una dummy para incorporar la variable género al modelo y no dos
(hombre y mujer)?
¿Salario = βo + β1mujer + β2hombre+ β3educación + u?
R:/ para no generar colinealidad perfecta.
• Colinealidad perfecta  Trampa de las variables binarias

(hombre + mujer = 1. Hombre es una función lineal perfecta de mujer)
• Grupo base  el grupo contra el que se hacen las comparaciones.
• Grupo base  quién adopta el valor 0 dentro de la variable.

Análisis de políticas
• Ejemplo 1: ¿Existe discriminación salarial entre hombres y mujeres?
• Archivo: salario.wf1
Salario = f(género)
Salario = βo + 0mujer + u, donde:
Salario: ingresos/hora promedio (en USD de 1976)
• reg wage female  prueba de comparación de las medias
• ¿Cuánto gana en promedio un hombre?

• ¿Cuánto gana en promedio una mujer?
• ¿Existe discriminación?
• ¿Es «correcta» la diferencia entre el sueldo de hombres y mujeres? (¿0 es insesgado?)
Análisis de políticas
• Agreguemos algunos controles…
Salario = f(género, educación, experiencia, permanencia)
Salario = βo + 0mujer + β1educación + β2experiencia + β3permanencia + u
Educación: años de educación

Experiencia: años de experiencia
Permanencia: años con el empleador actual
• reg wage female educ exper tenure
• ¿Cuánto menos gana en promedio una mujer?
• ¿Existen diferencias entre el resultado obtenido en le modelo con controles y el modelo de

comparación de medias?
• ¿Cuál es «mejor»?
Análisis de políticas (evaluación de un programa)
• Ejemplo 2: ¿Tener un computador permite un mejor desempeño académico en la

universidad?
• Archivo: gpa.wf1
colGPA = f(PC, hsGPA)
col GPA= βo + 0PC + β1hsGPA + u
colGPA: promedio académico universidad

hsGPA: promedio académico bachillerato
PC: Tiene o no tiene computador (¿qué es 1?)
• A priori, ¿qué esperamos de 0?
• reg colGPA PC hsGPA
• ¿Tener un computador favorece un mejor desempeño académico en la universidad? (¿es

significativo el parámetro?)
Incorporación de varias variable explicativas binarias
• Ejemplo 3: ¿Existe discriminación salarial entre hombres y mujeres según su estado civil?
lsalario= f(hombrecasado, mujercasada, mujersoltera, educ, exper, exper2, permanencia,

permanencia2)
lsalario= βo + β1hombrecasado + β2mujercasada + β3mujersoltera + β4educ

+ β5exper + β6expersq + β7permanencia + β8permanenciasq + u
• ¿Los hombres solteros están considerados en el modelo?
• ¿En promedio gana más una mujer soltera que una casada? ¿Cuánto?
• ¿Es significativa la diferencia de salarios entre mujeres solteras y casadas?

• Cambiemos la base… Ahora será «mujeres casadas»:
lsalario= f(hombrecasado, hombresoltero, mujersoltera, educ, exper, exper2,

permanencia, permanencia2)
lsalario= βo + β1hombrecasado + β2hombresoltero+ β3mujersoltera + β4educ

+ β5exper + β6expersq + β7permanencia + β8permanenciasq + u
• ¿Cuál es el valor del coeficiente de mujeres solteras? ¿conocíamos ese valor?
• ¿Existe discriminación salarial entre las mujeres solteras y las casadas? (¿es significativo
β3)
• Luego, ¿la discriminación salarial entre hombres y mujeres depende de el estado civil de
éstas últimas?
INCORPORACIÓN DE VARIAS VARIABLES EXPLICATIVAS BINARIAS
• En el caso anterior, las variables que interactuaban eran todas dummys. Sin embargo,
también puede existir interacción entre variables binarias y no binarias.
• Establecer interacciones entre variables binarias y no binarias permite considerar

diferencias entre las pendientes de forma tal que podemos evaluar las diferencias en los
rendimientos entre los grupos (hombres y mujeres, por ejemplo)
Salario = (βo + 0mujer) + (β1 + 1mujer)*educación + u
Salario = βo + 0mujer + β1educación

+ 1mujer*educación + u
Gráfico (a): 0<0 y 1<0

Gráfico (b): 0<0 y 1>0
Si 0>0 y 1>0  ¿Gráfico (c)?

• Ejemplo 4: ¿El incremento en los años de educación generan un mayor impacto en el

incremento salarial de los hombres frente a las mujeres ?
Salario = βo + 0mujer + β1educación + 1mujer*educación + u
• ¿Es el rendimiento de la educación el mismo para hombres y mujeres? (¿es significativo

1?)
• Para un mismo nivel de educación, ¿existe diferencia en los promedios salariales de

hombres y mujeres? (¿son conjuntamente significativos 0 y 1?)
MODELOS DE REGRESIÓN DE RESPUESTA BINARIA
(Modelos de Probabilidad)
Naturaleza
 Variables binarias o dicótomas  policótomas o de categoría múltiple
 Modelo de regresión:
• Var. Dependiente cuantitativa  valor esperado de Y en términos de los valores de

las regresoras.
• Var. Dependiente cualitativa  probabilidad de que un acontecimiento suceda
(modelos de probabilidad)
 Algunos métodos para crear modelos de probabilidad para variables de respuesta binaria:
• Modelo lineal de probabilidad (MLP)

• Modelo logit
• Modelo probit
Modelo Lineal de Probabilidad (MLP)
Modelo Logístico (Logit)
Fuente: Brooks (2008)

Modelo Probit
Fuente: Brooks (2008)

Interpretación parámetros
La mayor diferencia entre el Modelo Lineal de Probabilidad y los modelos Logit y Probit es que
el MLP supone efectos marginales constantes en la interpretación de sus pendientes mientras
que los otros implican magnitudes decrecientes de los efectos parciales.
Elección entre modelos Logit y Probit
 Para la mayoría de los casos, los modelos Logit y Probit caracterizan de forma muy
similar la información dado que sus densidades son muy similares.
 Tradicionalmente el Logístico era preferido dado que su función no requiere de la

evaluación de una integral y por tanto los parámetros del modelo podían ser estimados
más rápidamente. Sin embargo, este argumento es irrelevante ante la capacidad
computacional actual y la elección entre uno y otro es cuestión de elección del analista.
Pseudo-R2 (o R2 de McFadden)
Es posible calcular una medida de bondad de ajuste tradicional en términos de SCR, R2, o R2
ajustado, pero en el caso de los modelos de variable de respuesta limitada, ésta deja de tener
una interpretación real. El objetivo de la máxima verosimilitud es maximizar el valor de la
función log-verosimilitud, no la de minimizar la suma de cuadrados de los residuos. (No de
olvidarse que los valores estimados solo serán 0 y 1.)
Notas al pie y referencias
Brooks, C. (2008). Introductory Econometrics for Finance, second edition, Cambridge University
Press, New York
1Spanos, A. (1999) Probability Theory and Statistical Inference: Econometric Modeling with
observational Data. Cambridge University Press, Reino Unido, p.21. (Tomado de Gujarati)
2 Guajarati, D. (2010). Econometría, 5ª edición, McGraw-Hill, México.
Wooldridge, J. (2010). Introducción a la econometría. Un enfoque moderno, 4ª edición, Cengage

Learning, México.
Julián Meléndez
Gerente de Producto Cuantitativo
julian.melendez@SOFTWARE-shop.com

Modelos de Regresión

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Modelos de Regresión

Transféré par

Droits d'auteur :

Formats disponibles

MODELOS DE CORTES TRANSVERSALES

Econometría  “medición económica”

 Regresión  relación entre una variable (dependiente) y otra(s) (independientes)

 Relaciones estadísticas Vs. determinísticas

 Regresión y causalidad: Una relación estadística per se no implica causalidad.

 Regresión Vs. Correlación.

 Función de regresión muestral Vs. Poblacional

 Significado de “lineal” en la regresión.

1. Planteamiento de la teoría o hipótesis

6. Validación (pruebas de hipótesis)

7. Utilización del modelo (control, políticas, pronósticos)

 Disponibilidad de los datos

 Variables Centrales Vs. Periféricas

 Aleatoriedad en el comportamiento humano

 Variables proxi inadecuadas

 Forma funcional incorrecta

 Mínimos Cuadrados Ordinarios (M.C.O)

Fuente: Brooks (2008) Fuente: Brooks (2008)

 Estimadores de MCO para un modelo de regresión lineal simple:

 Precisión (error estándar de la regresión) y errores estándar:

Los estimadores de MCO son MELI (Mejores Estimadores Lineales Insesgados):

 Mejores (más eficientes)

(Consistencia: Conforme el tamaño de la muestra crece, un estimador converge en probabilidad al

Inclusión de variables irrelevantes en el modelo

• La inclusión de variables irrelevantes –sobreespecificación del modelo- no afecta el insesgamiento

Exclusión de variables relevantes en el modelo

Sesgo de la variable omitida

• Verdadero modelo poblacional:

Sesgo de la variable omitida

• Verdadero modelo poblacional:

 El tamaño de la región crítica y, por lo tanto, la probabilidad de cometer un error tipo I,

 Un aumento en el tamaño de la muestra n reducirá α y β de forma simultánea.

 Si la hipótesis nula es falsa, β es un máximo cuando el valor verdadero de un parámetro se

 α: Alfa, nivel de significancia, tamaño de la prueba, probabilidad de cometer un error tipo I

 β: Beta, probabilidad de cometer un error tipo II.

 (1-α): Nivel de confianza

 (1-β): Potencia de la prueba.

 Potencia de la prueba: probabilidad de rechazar la hipótesis nula cuando la alternativa es

Prueba de hipótesis con α fijo:

1. Establecer hipótesis nula y alternativa

 Nivel de significancia exacto (valor probable o p-value)

valor-p > α  no rechazar Ho

Prueba de significancia (valor-p):

1. Establecer hipótesis nula y alternativa

[𝛽መ - t crítico * SE(𝛽),

SCRr: suma del cuadrado de los residuos (modelo restringido)

 Coeficiente de determinación (R2)

 Coeficiente de determinación ajustado (𝑅ത 2)

Las propiedades estadísticas de la estimación por MCO descansan en los siguientes

2. El modelo es lineal en los parámetros.

4. El término de error es independiente de las variables en el modelo.

Si el supuesto 4 se cumple se tiene que:

• Variables cualitativas: variables que describen información cualitativa. Por ejemplo,

 Género (hombre, mujer)

• Variables binarias o dummy: variables cualitativas con 2 resultados posibles . Por

 Color (rojo, negro)

• ¿A cuál de los resultados (evento) se le asigna el valor 1 y a cuál el valor 0?

• Normalmente, el valor 1 está representado por el «nombre de la variable»

• Dummy mal rotulada  «color» (Quién es rojo, ¿1 o 0?)

• Dummy bien rotulada  «rojo» (Rojo es 1)

• Ejemplo: Modelo para determinar el salario.

¿Qué se espera de β1?

Salario = f(género, educación)

¿Qué se espera de 0? (no olvidar condición ceteris paribus)