Vous êtes sur la page 1sur 8

PARTE A.

EJERCICIOS TEÓRICOS

Punto 1 Considere un problema de regresión lineal en el que se tiene una variable de respuesta (𝑦)
continua y 1 variable categórica con 3 niveles.

Donde 𝑥1 = { 1 𝑠𝑖 𝑒𝑣𝑎𝑙𝑢ó 𝑙𝑎 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎 𝑒𝑛 𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 1 0 𝑑.𝑙. 𝑐 } 𝑥2 = { 1 𝑠𝑖 𝑒𝑣𝑎𝑙𝑢ó 𝑙𝑎 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎


𝑒𝑛 𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 2 0 𝑑. 𝑙. 𝑐 } 𝑥3 = { 1 𝑠𝑖 𝑒𝑣𝑎𝑙𝑢ó 𝑙𝑎 𝑟𝑒𝑠𝑝𝑢𝑒𝑠𝑡𝑎 𝑒𝑛 𝑒𝑙 𝑛𝑖𝑣𝑒𝑙 3 0 𝑑.𝑙. 𝑐 }

(a) (0.3/5) Explique los problemas asociados a la estimación por mínimos cuadros del modelo
𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝛽3𝑥3𝑖 + 𝜀𝑖

El problema es de linealidad, independencia lineal.

𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝛽3𝑥3𝑖 + 𝜀𝑖

Veamos nuestro modelo de forma matricial:

1
La matriz presenta problemas de independencia lineal, como es evidente en la primera columna
(Bo). Debido a lo anterior, la matriz XTX no se podrá invertir.

(b) (0.3/5) Halle los estimadores para el modelo 𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝜀𝑖 en términos de los
promedios de 𝑦 para cada uno de los niveles. Tenga en cuenta que:

𝑦𝑖 = 𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + 𝜀𝑖

Entonces,

(𝑋 𝑇 𝑋)𝛽̂ = 𝑋 𝑇 𝑌

(𝑋 𝑇 𝑋)−1 𝑋 𝑇 𝑌

1 −1 −1 𝑦. .
𝑎−𝑐
1 −1 1
𝛽̂ = 𝑎−𝑏−𝑐
( 𝑏 𝑦1.
)( )
𝑎−𝑏 𝑦2.
−1 1 𝑐

̅̅̅̅
𝑦..− 𝑦1.−𝑦2.
𝛽̂ 0 = = ̅̅̅̅
𝑦3.
𝑎−𝑏−𝑐

𝑎−𝑏
−𝑦..+ 𝑦1.( )+𝑦2.
𝛽̂ 1 = 𝑐
= ̅̅̅̅
𝑦1.+ ̅̅̅̅
𝑦3.
𝑎−𝑏−𝑐

𝑎−𝑏
−𝑦..+ 𝑦1.+𝑦2.( )
𝛽̂ 2 = 𝑐
= ̅̅̅̅̅ ̅̅̅̅
𝑦. 2.+ 𝑦3.
𝑎−𝑏−𝑐

𝑎−𝑏
Donde, ( ) =2
𝑐

2
(c) (0.2/5) Ahora considere una variable categórica con 𝑚 niveles Demuestre que los estimadores
del modelo 𝑦𝑖 = 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑚𝑥𝑚 + 𝜀𝑖 son 𝛽 = [ 𝑌̅ 1 𝑌̅ 2 ⋮ 𝑌̅𝑚]

Donde 𝑌̅ 𝑖 corresponde al promedio de la variable de respuesta para cada nivel 𝑖.

Entonces,

𝑦𝑖 = 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑚𝑥𝑚 + 𝜀𝑖

Y si X1 = 1

E[Yi] = E[BiXi]

∑ 𝑌𝑖 ∑ 𝑋𝑖
= 𝐵1
𝑛 𝑛

Donde, ∑ 𝑋𝑖 es el numero de datos de Yi.

Lo anterior, demuestra que los estimadores del modelo 𝑦𝑖 = 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯ + 𝛽𝑚𝑥𝑚 + 𝜀𝑖 son
𝛽 = [ 𝑌̅ 1 𝑌̅ 2 ⋮ 𝑌̅𝑚]

PARTE B. EJERCICIOS PRÁCTICOS

Punto 3 Una compañía petrolera con sede en 180 países está interesado en entender que factores
influyen en el buen desempeño de los presidentes de cada una de sus sedes nacionales. En la
pestaña “Gerentes” del archivo “Datos Tarea 4.xlsx” se encuentra la información de las siguientes
variables de interés para todas sus sedes, donde:
 D: Desempeño del presidente medido en una escala de 0 a 10.
 S: Salario anual del presidente en miles de dólares.
 B: Beneficios otorgados en miles de dólares. Por ejemplo, educación a los hijos, entradas a
eventos culturales, entre otros.
 A: Años de experiencia laboral.
 O: Tamaño de la oficina en metros cuadrados.
 E: Cantidad de empleados de la sede nacional, medido en miles.
 C: Cantidad de cursos de capacitación del banco tomados en el último año.
 V: Cantidad de vicepresidentes en la sede nacional.

(a) (0.2/5) Realice un modelo de regresión lineal con todas las variables, y concluya sobre la
significancia global del modelo y la significancia individual de cada variable.

Estadísticas descriptivas:

3
Partimos del siguiente modelo:

Llevamos acabo la regresión y obtenemos el siguiente cuadro de respuesta (modelo inicial) :

4
Hallamos un AIC igual a:

Encontramos la NO significancia de las variables Cantidad de cursos de capacitación del banco


tomados en el último año (C) y Cantidad de vicepresidentes en la sede nacional (V). Además, el
modelo resulta significativo, explicado mediante el p-value < 2.2e-16.

(b) (0.3/5) A partir de los resultados del literal anterior, determine estadísticamente si es
pertinente remover simultáneamente todas las variables no significativas.

Se procedió a remover las variables no significativas.


Se obtuvo el siguiente modelo (modelo nuevo):

5
Con un AIC de:

Resulta pertinente remover las variables. Se obtiene un nuevo modelo con significancia en todas
sus variables y encontramos un R cuadrado ajustado superior (0.9874).

(c) (0.3/5) Determine cuál de los dos modelos del literal anterior es mejor para predecir la
variable de respuesta, utilizando el criterio del AIC y el 𝑅𝑎𝑑𝑗 2 . Comente las diferencias.

El mejor modelo para predecir la variable de respuesta es el modelo nuevo.


Se lleva acabo un test de F-parcial.
Los resultados fueron los siguientes:

El AIC del modelo nuevo es el menor al del modelo inicial:

Modelo Inicial: Modelo Nuevo:

Además, el 𝑅𝑎𝑑𝑗 2 del modelo nuevo es superior al del modelo inicial:

Modelo Nuevo: Modelo Inicial:

Bajo los dos criterios anteriores, AIC y el 𝑅𝑎𝑑𝑗 2, se argumenta la preferencia por el modelo
Nuevo.

(d) (0.3/5) Utilizando el modelo resultante del literal (b), considera si el valor del desempeño de
un gerente (no el valor medio) superará el 6.5, si devenga un salario de $350.000 dólares, tiene

6
beneficios de $57.000 dólares, tiene 20 años de experiencia, tiene una oficina de 10 metros
cuadrados, la sede nacional tiene 12.000 empleados, ha tomado 3 capacitaciones en el último año
y tiene 4 vicepresidentes.

Usando el modelo Nuevo:

Reemplazamos los parámetros con los valores que el ejercicio estipula, salario de $350.000
dólares, beneficios de $57.000 dólares, 20 años de experiencia, oficina de 10 metros cuadrados,
la sede nacional tiene 12.000 empleados, ha tomado 3 capacitaciones en el último año y tiene 4
vicepresidentes.

Obtenemos el siguiente intervalo de predicción:

Conclusión:
El valor de desempeño de un gerente, bajo los criterios dados, es superiora 6.5.

(e) (0.4/5) Utilizando las variables del modelo resultante del literal (b), encuentre el conjunto de
3 variables que mejor predice la variable de respuesta.

A través del software R Studio, se llevo acabo el método STEPWISE usando el criterio Akaike.

Ultimo step registrado:

7
Resumen asociado a selección de variables:

Conclusión:

Las 3 variables que mejor predicen a la variable de respuesta son:

BSO

B: Beneficios otorgados en miles de dólares. Por ejemplo, educación a los hijos, entradas a
eventos culturales, entre otros.
S: Salario anual del presidente en miles de dólares.
O: Tamaño de la oficina en metros cuadrados.

Vous aimerez peut-être aussi