Vous êtes sur la page 1sur 28

Nombre: Aldo Alejandro Tello Morales

Materia: Estadística Inferencial II

Profesor: Juan Manuel García Silva

Unidad 1

Actividad: Problemario

Tema: Regresión lineal simple y múltiple

1
1. Un estadístico que trabaja para un fabricante estadounidense de automóviles desearía
desarrollar un modelo estadístico para predecir el tiempo de entrega (la cantidad de días
transcurridos entre el pedido de un automóvil y la entrega real del mismo) de los pedidos
de automóviles nuevos. El estadístico piensa que existe una relación lineal entre el
número de opciones pedidas y el tiempo de entrega. Se seleccionó una muestra aleatoria
de 16 automóviles y se obtuvieron los resultados que se presentan a continuación:

Relación del tiempo de entrega con las opciones


ordenadas
Automóvil Número de opciones Tiempo de entrega,
pedidas, X Y (en días)
1 3 25
2 4 32
3 4 26
4 7 38
5 7 34
6 8 41
7 9 39
8 11 46
9 12 44
10 12 51
11 14 53
12 16 58
13 17 61
14 20 64
15 23 66
16 25 70

a) Construya un diagrama de dispersión.

2
b) Utilice el método de mínimos cuadrados para encontrar los coeficientes de
regresión b0 y b1.

Automóvil Opciones X Tiempo Y XY X2 Y2


1 3 25 75 9 625
2 4 32 128 16 1024
3 4 26 104 16 676
4 7 38 266 49 1444
5 7 34 238 49 1156
6 8 41 328 64 1681
7 9 39 351 81 1521
8 11 46 506 121 2116
9 12 44 528 144 1936
10 12 51 612 144 2601
11 14 53 742 196 2809
12 16 58 928 256 3364
13 17 61 1037 289 3721
14 20 64 1280 400 4096
15 23 66 1518 529 4356
16 25 70 1750 625 4900
 192 748 10391 2988 38026

, Dónde:

Sustituimos los valores:

,
Respuesta.- Coeficientes de regresión: b0 = 21.9254 y b1 = 2.06871

3
c) Interprete el significado de la intersección con el eje Y, b0, y la pendiente, b1, de
este problema.

La línea recta que mejor explica la relación entre el número de opciones pedidas y el
tiempo de entrega, está dada por: yi = 21.9254 + 2.06871 xi

Respuesta.- Se interpreta que el tiempo mínimo de entrega es de 21.9254 días y que


por cada punto de incremento en el número de opciones pedidas, se espera un
incremento aprox. en el tiempo de entrega de 2.06871 días.

d) Si se tiene un pedido de un automóvil con 16 opciones, ¿cuántos días predecirá


usted que tardará la entrega?

yi = 21.9254 + 2.06871 (16)= 55.0247

Respuesta.- La entrega tardara aprox. 55 días.

e) Calcule el error estándar de la estimación.

Respuestas.- El error estándar de estimación es de 3.0446.

f) Calcule el coeficiente de determinación, r2, e intérprete su significado en el


problema.

Fuente Suma de Grados de Cuadrado Estadístico


cuadrados libertad medio F
Regresión SSR 1 SMR SSR
SST
Error SSE n -2 SME

Total SST

4
Dónde:

Sustituimos los datos:


SSR = (2.06871) (1415) = 2927.2246
SST = 3057
SSE = 3057 – 2927.2246 = 129.7754
SMR = 2927.2246 / 1 = 2927.2246
SME = 129.7754 / 14 = 9.2696
F = 2927.2246 / 9.2696 = 315.7875

Sustituimos lo valores en tabla ANOVA:


Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 2927.23 1 2927.23 315.80 0.0000
Residuo 129.77 14 9.26932
Total (Corr.) 3057.0 15

Respuesta.- Interpretamos que 95.75% de la variación observada en el tiempo de


entrega esta explicada por el modelo (línea recta), en otras palabras, que existe una
relación significativa entre X y Y, lo cual nos dice que la calidad del ajuste es
satisfactorio.

g) Calcule el coeficiente r2 ajustado y compárelo con el coeficiente de determinación


r2.

Respuesta.- El coeficiente de determinación obtiene un ajuste aprox. De 0.003 lo


cual demuestra que existe una relación estadísticamente significativa entre el
tiempo de entregas y el número de opciones pedidas.

h) Calcule el coeficiente de correlación, r.

5
Respuesta.- El coeficiente de correlación r = 0.9785.

i) Establezca una estimación de intervalo de confianza de 95% del tiempo promedio


de entrega para todos los automóviles pedidos con 16 opciones.

y0 = 55.02476, tα/2 = 0.025 y v = 14. De la tabla T student, t0.975 = 2.14

Respuesta.- El intervalo de confianza de 95%, para el valor x= 16 (opciones de


pedido), el valor promedio para Y (tiempo de entrega) se encuentra entre 53 y 57
días.

j) Establezca una estimación de intervalo de predicción del tiempo de entrega para


un automóvil individual que fue pedido con 16 opciones.

Respuesta.- Se asegura con una confianza del 95%, que el intervalo de predicción
de entrega de un automóvil con 16 opciones está entre 48 y 62 días.

k) Al nivel de significación de 0.05, ¿existe evidencia de que haya una relación lineal
entre el número de opciones y el tiempo de entrega?

Respuesta.- Dado que el valor-P en la tabla ANOVA es menor que 0.05, existe una
relación lineal estadísticamente significativa entre el tiempo de entrega y número de
opciones de pedido con un nivel de confianza del 95.0%.

l) Establezca una estimación de intervalo de confianza de 95% de la pendiente


verdadera.

tα/2 = 0.025 y v = 14. De la tabla T student, t0.975 = 2.14

6
Sb = Error estándar = 0.116

b1 +/- t (Sb) = 2.06871 +/- 2.14 (0.116) = 1.8205 – 2.3170

Respuesta.- El intervalo de confianza de 95% de la pendiente verdadera se


encuentra entre 1.82 y 2.32 días.

m) Lleve a efecto un análisis de residuos de los resultados obtenidos y determine lo


adecuado del ajuste del modelo.

Respuesta.- Analizando el gráfico de residuos, notamos que estos están


distribuidos aleatoriamente y tienen una varianza constante (patrón o serial) lo cual
nos indica que el modelo de ajuste de regresión lineal es el adecuado.

n) Lleve a efecto un análisis de influencia y determine si se debe eliminar del modelo


alguna observación. Si es necesario hacerlo, vuelva a analizar el modelo de
regresión después de haber eliminado la o las observaciones y compare los
resultados con los del modelo original.

7
Respuesta.- Después del análisis del gráfico observado vs. Predicho podemos
asegurar que no hace falta eliminar ninguna observación ya que ésta se adecua
correctamente al modelo de regresión lineal.

o) ¿Qué suposiciones con respecto a la relación entre el número de opciones y el


tiempo de entrega necesitaría hacer el estadístico con el propósito de utilizar este
modelo de regresión para fines de predicción en el futuro?

Respuesta.-

• El tiempo promedio de entrega aumentará proporcionalmente al número de


pedidos.
• En base a la proporcionalidad de los datos se adecua perfectamente el modelo
de regresión lineal al problema.
• Existe una relación estadísticamente significativa entre ambas variables.

8
2. Al dueño de una gran cadena de expendios de helados le gustaría estudiar el efecto de
la temperatura ambiente sobre las ventas de sus productos durante la temporada de
verano. Se seleccionó una muestra aleatoria de 21 días y se obtuvieron los resultados
que se presentan a continuación:

Temperatura Venta por


Día alta diaria Tienda
(°F) (en $000)
1 63 1.52
2 70 1.68
3 73 1.80
4 75 2.05
5 80 2.36
6 82 2.25
7 85 2.68
8 88 2.90
9 90 3.14
10 91 3.06
11 92 3.24
12 75 1.92
13 98 3.40
14 100 3.28
15 92 3.17
16 87 2.83
17 84 2.58
18 88 2.86
19 80 2.26
20 82 2.14
21 76 1.98

a) Construya un diagrama de dispersión.

9
b) Suponiendo que haya una relación lineal, utilice el método de mínimos cuadrados
para encontrar los coeficientes de regresión b0 y b1.

Temperatura Venta por


alta diaria tienda (en
Día XY X2 Y2
(F) $000)
X Y
1 63 1.52 95.76 3969 2.3104
2 70 1.68 117.6 4900 2.8224
3 73 1.8 131.4 5329 3.24
4 75 2.05 153.75 5625 4.2025
5 80 2.36 188.8 6400 5.5696
6 82 2.25 184.5 6724 5.0625
7 85 2.68 227.8 7225 7.1824
8 88 2.9 255.2 7744 8.41
9 90 3.14 282.6 8100 9.8596
10 91 3.06 278.46 8281 9.3636
11 92 3.24 298.08 8464 10.4976
12 75 1.92 144 5625 3.6864
13 98 3.4 333.2 9604 11.56
14 100 3.28 328 10000 10.7584
15 92 3.17 291.64 8464 10.0489
16 87 2.83 246.21 7569 8.0089
17 84 2.58 216.72 7056 6.6564
18 88 2.86 251.68 7744 8.1796
19 80 2.26 180.8 6400 5.1076
20 82 2.14 175.48 6724 4.5796
21 76 1.98 150.48 5776 3.9204
 1751 53.1 4532.16 147723 141.0268

Respuesta.- Coeficientes de regresión: b0 = -2.53499 y b1 = 0.060728

10
c) Interprete el significado de la pendiente b1 de este problema.
Respuesta.- Se puede interpretar que por cada punto porcentual de incremento en
la temperatura (°F), se espera un incremento aprox. en las ventas de 0.060728 ($), de
igual manera si la temperatura decrece la ventas también.

d) Prediga las ventas por tienda para un día en el que la temperatura es de 83° F.

yi = -2.53499 + 0.060728 (83)= 2.50

Respuesta.- Las ventas serán de aprox. 2.50 ($).

e) Calcule el error estándar de la estimación.

Respuestas.- El error estándar de estimación es de 0.1461

f) Calcule el coeficiente de determinación r2, e interprete su significado en este


problema.

Fuente Suma de Grados de Cuadrado Estadístico


cuadrados libertad medio F
Regresión SSR 1 SMR SSR
SST
Error SSE n -2 SME

Total SST

Dónde:
Sustituimos los datos:
SSR = (0.060728) (104.6315) = 6.35406

SST = 6.7597
SSE = 6.7597 – 6.35406 = 0.405601
SMR = 6.35406 / 1 = 6.35406
SME = 6.7597 / 19 = 0.0213474
F = 6.35406/ 0.0213474 = 297.65

11
Sustituimos lo valores en tabla ANOVA:

Fuente Suma de Gl Cuadrado Razón-F Valor-P


Cuadrados Medio
Modelo 6.35406 1 6.35406 297.65 0.0000
Residuo 0.405601 19 0.0213474
Total (Corr.) 6.75966 20

Respuesta.- Interpretamos que 93.99% de la variación observada en el incremento


de ventas esta explicada por el modelo (línea recta), en otras palabras, que existe
una relación significativa entre X y Y, lo cual nos dice que la calidad del ajuste es
satisfactorio.

g) Calcule el coeficiente de correlación, r.

Respuesta.- El coeficiente de correlación r = 0.9596

h) Calcule el coeficiente ajustado r2 y compárelo con el coeficiente de determinación


r2.

Respuesta.- El coeficiente de determinación obtiene un ajuste aprox. De 0.0031%, lo


cual demuestra que existe una relación estadísticamente significativa entre el las
ventas por tienda y el incremento o deceso de la temperatura.

i) Calcule la estadística de Durbin-Watson y, al nivel de significación de 0.05,


determine si existe alguna autocorrelación en los residuos.

12
Estadístico de Durbin-Watson = 1.63907 (P = 0.1520)

Respuesta.- Dado el estadístico DW, nos da un valor-P = 0.1520 el cual es mayor


que 0.05, determinando que no hay indicación de una autocorrelación serial en los
residuos con un nivel de confianza del 95.0%.

j) Basándose en los resultados del inciso (i), ¿a qué conclusiones puede usted llegar
con respecto a la validez del modelo ajustado en el inciso (b)?

Respuesta.-

• A pesar de que si existe un incremento en las ventas de helado debido a la alza


de la temperatura (modelo ajustado inciso b).
• Hay otro factores implícitos en la falta de correlación en los residuos (inciso i)
que afectan al modelo que no están descritos en el problema, como puede ser el
incremento de precio en los helados, la ubicación de la tienda, etc.

k) Establezca una estimación de intervalo de confianza de 95% de las ventas


promedio por tienda para todos los días en los que la temperatura es de 83°F.

y0 = 2.5054, tα/2 = 0.025 y v = 19. De la tabla T student, t0.975 = 2.09

Respuesta.- Con un intervalo de confianza del 95%, para el valor x= 83 (temperatura


°F), el valor promedio para Y (Ventas por tienda) se encuentra entre 1.84 y 2.57 ($)

l) Establezca un intervalo de predicción de 95% para las ventas por tienda en un día
en el cual la temperatura es de 83° F.

Respuesta.- Se asegura con una confianza del 95%, que el intervalo de predicción
de ventas por tienda con 83°F de temperatura están entre 2.19 y 2.52 ($).

13
m) Al nivel de significación de 0.05, ¿existe evidencia de que haya una relación lineal
entre la temperatura ambiental y las ventas?

Respuesta.- Puesto que el valor-P en la tabla ANOVA es menor que 0.05, existe una
relación lineal estadísticamente significativa entre el tiempo de entrega y número de
opciones de pedido con un nivel de confianza del 95.0%.

n) Establezca una estimación de intervalo de confianza de 95% de la pendiente


verdadera.

tα/2 = 0.025 y v = 19. De la tabla T student, t0.975 = 2.09

Sb = Error estándar = 0.00352

b1 +/- t (Sb) = 0.060728 +/- 2.09 (0.00352) = 0.0538 – 0.0681

Respuesta.- El intervalo de confianza de 95% de la pendiente verdadera se


encuentra entre 0.0538 y 0.0681 ($).

o) Explique qué tan diferentes podrían ser los resultados obtenidos si el modelo
estuviera basado en una medida de la temperatura en la escala Celsius (°C).

Respuesta.- No habría ningún tipo de cambio, se modificaría solamente los gráficos


pero el modelo seguiría siendo de regresión lineal, con un mismo incremento
proporcional.

p) Efectúe un análisis de residuos de los resultados obtenidos y determine lo


adecuado del ajuste del modelo.

14
Respuesta.- Dado la aleatoriedad de la ubicación de los puntos en el gráfico
(incluso con los pocos residuos atípicos ubicados), indica que el modelo de
regresión lineal simple se ajusta bien a los datos.

q) Lleve a efecto un análisis de influencia y determine si debería eliminarse del


modelo alguna observación. Si esto es necesario, vuelva a analizar el modelo de
regresión después de eliminar la o las observaciones y compare los resultados con
los obtenidos con el modelo original.

Respuesta.- Después del análisis del gráfico observado vs. Predicho podemos
asegurar que no hace falta eliminar ninguna observación ya que ésta se adecúa
correctamente al modelo de regresión lineal.

15
3. Suponga que una compañía grande de productos de consumo desea medir la
efectividad de los diferentes medios de propaganda en la promoción de sus productos. En
especial, se van a estudiar dos tipos de medios de promoción: propaganda en radio y
televisión y propaganda en periódicos (incluyendo el costo de los cupones de descuento).
Se seleccionó una muestra de 22 ciudades cuya población es aproximadamente igual
para realizar un estudio durante un periodo de prueba de un mes. A cada ciudad se le
asignó un nivel de gastos específico para publicidad en radio y televisión y para publicidad
en periódicos. Se registraron las ventas del producto (en miles de dólares) durante el mes
de prueba, junto con los niveles de gastos de los medios, y se tuvieron los siguientes
resultados:

Problema sobre medios de publicidad

Ventas
Publicidad en radio Publicidad en
(miles
y televisión (miles Periódicos
Ciudad de X1 Y X2 Y X1 X2 X12 X22
de dólares) (miles de dólares)
dólares)
X1 X2
Y
1 973 0 40 0 38920 0 0 1600
2 1,119 0 40 0 44760 0 0 1600
3 875 25 25 21875 21875 625 625 625
4 625 25 25 15625 15625 625 625 625
5 910 30 30 27300 27300 900 900 900
6 971 30 30 29130 29130 900 900 900
7 931 35 35 32585 32585 1225 1225 1225
8 1,177 35 35 41195 41195 1225 1225 1225
9 882 40 25 35280 22050 1000 1600 625
10 982 40 25 39280 24550 1000 1600 625
11 1,628 45 45 73260 73260 2025 2025 2025
12 1,577 45 45 70965 70965 2025 2025 2025
13 1,044 50 0 52200 0 0 2500 0
14 914 50 0 45700 0 0 2500 0
15 1,329 55 25 73095 33225 1375 3025 625
16 1,330 55 25 73150 33250 1375 3025 625
17 1,405 60 30 84300 42150 1800 3600 900
18 1,436 60 30 86160 43080 1800 3600 900
19 1,521 65 35 98865 53235 2275 4225 1225
20 1,741 65 35 113165 60935 2275 4225 1225
21 1,866 70 40 130620 74640 2800 4900 1600
22 1,717 70 40 120190 68680 2800 4900 1600
 26953 950 660 1263940 851410 28050 49250 22700

16
Utilice un paquete de computación y lleve a cabo un análisis de regresión lineal múltiple.
Basándose en los resultados obtenidos:

a) Establezca la ecuación de regresión múltiple.

La ecuación de estimación está dada por:

Mediante las siguientes ecuaciones normalizadas obtenemos el valor de a, b1 y b2

Los sustituimos en las ecuaciones con los valores de la tabla anterior:

26953 = 22 a + b1950 + b2 660


1263940 = a950 + b149250 + b2 28050
851410 = a660 + b128050 + b2 22700
Cuando resolvemos las tres ecuaciones de manera simultánea obtenemos:

a = 156.43, b1 = 13.0807 y b2 = 16.7953

Los sustituimos en ecuación de estimación:

Respuesta.- yi = 156.43 + 13.0807 x1 + 16.7953 x2

b) Interprete el significado de las pendientes en este problema.

Respuesta.- Se puede interpretar que por cada punto porcentual de incremento en


las ventas, se espera un incremento en gastos de publicidad por radio y tv de
13.0807 md y un incremento en gastos de publicidad en periódico de 16.7953 md en
promedio.

c) Prediga las ventas para una ciudad en la cual el costo de la publicidad en radio y
televisión es de $20,000, y el de la publicidad en periódicos es también de
$20,000.

yi = 156.43 + 13.0807 (20) + 16.7953 (20) = 753.98

Respuesta.- Las ventas serán de 753.98 md aprox.

d) Calcule el coeficiente de regresión múltiple r2 e interprete su significado.

17
Y X1 X2 (Y - Ӯ)2 Ẏ (Ẏ - Ӯ)2
973 0 40 63572.744 828.242 157525.085
1,119 0 40 11264.9269 828.242 157525.085
875 25 25 122595.471 903.33 103559.295
625 25 25 360163.651 903.33 103559.295
910 30 30 99310.9254 1052.71 29730.829
971 30 30 64585.2895 1052.71 29730.829
931 35 35 86516.1983 1202.09 531.132
1,177 35 35 2317.10915 1202.09 531.132
882 40 25 117742.562 1099.5405 15774.305
982 40 25 59115.2896 1099.5405 15774.305
1,628 45 45 162299.112 1500.85 76018.044
1,577 45 45 123808.021 1500.85 76018.044
1,044 50 0 32810.3809 810.465 171952.287
914 50 0 96805.8345 810.465 171952.287
1,329 55 25 10787.6557 1295.751 4986.436
1,330 55 25 10996.383 1295.751 4986.436
1,405 60 30 32350.929 1445.131 48397.668
1,436 60 30 44463.4747 1445.131 48397.668
1,521 65 35 87535.2935 1594.511 136437.669
1,741 65 35 266115.295 1594.511 136437.669
1,866 70 40 410706.205 1743.891 269106.439
1,717 70 40 241929.84 1743.891 269106.439
2507793 26953.023 2028038
Dónde:

Ẏ = 156.43 + 13.0807 (X1) + 16.7953 (X2)

Ӯ = 1225.1363

Fuente Suma de Gl Cuadrado Medio Razón-F


Cuadrados
Modelo k
SSR = (Ẏ - Ӯ)2
Residuo n-k-1
SSE = (Y - Ẏ)2
Total (Corr.) n-1
SST = (Y - Ӯ)2

18
Fuente Suma de Gl Cuadrado Razón-F Valor-P
Cuadrados Medio
Modelo 2028038 2 1.01402E6 40.16 0.0000
Residuo 479760 19 25250.5
Total (Corr.) 2507793 21

Respuesta.- El estadístico R-Cuadrada indica que el modelo así ajustado explica


80.8692% de la variabilidad en Y, en otras palabras que si existe una relación
significativa de la variable Y (ventas), con respecto a las variables X (inversión en
publicidad radio, tv y periódico).

e) Lleve a cabo un análisis de residuos y determine lo adecuado del ajuste del


modelo.

Respuesta.- Dado la aleatoriedad de la ubicación de los puntos en el gráfico, indica


que el modelo de regresión múltiple se ajusta bien a los datos.

f) Determine si existe una relación significativa entre las ventas y las dos variables
explicativas (publicidad en radio y televisión y publicidad en periódicos), al nivel
significación de 0.05.

Respuesta.- En base al gráfico de residuos y al valor-P = 0.0000 (tabla ANOVA) el


cual es menor que 0.05, con un nivel de confianza del 95.0%, existe una relación
estadísticamente significativa entre las dos variables.

g) Obtenga el valor P e interprete su significado.

19
Dada la razón-F = 40.16, k = 2, y gl = n – k 1 = 19. t0.975 = 3.52

Por lo tanto, el Valor-P = 0.0000

Respuesta.- Puesto que el valor-P es menor que 0.05, hay indicación de una posible
correlación serial con un nivel de confianza del 95.0%.

h) Determine si cada una de las variables explicativas hace una contribución


significativa al modelo de regresión. Basándose en estos resultados, indique el
modelo de regresión que debería utilizarse en el problema.

Respuesta.- Dados los resultados anteriores, podemos asegurar que ambas


variables hacen una contribución al modelo de regresión. El modelo que más se
adecua al problema es el modelo de regresión lineal múltiple.

i) Establezca una estimación de intervalo de confianza del 95% para la pendiente


poblacional entre las ventas y la publicidad en radio y televisión.

tα/2 = 0.025, 22- k- 1=22- 2- 1= 19. De la tabla T student, t0.975 = 2.09

Pendiente poblacional: yi = 156.43 + 13.0807 x1 + 16.7953 x2

• 156.43 +/- 2.09 (126.758) = -108.495 – 421.354


• 13.0807 +/- 2.09 (1.759) = 9.404 – 16.756
• 16.7953 +/- 2.09 (2.963) = 10.572 – 22.988

20
Error
Parámetro Estimación Estándar Límite Inferior Límite Superior
CONSTANTE 156.43 126.758 -108.495 421.354
P.RADIO Y TV (MIL 13.0807 1.759 9.404 16.756
P. PERIODICOS (MI 16.7953 2.963 10.572 22.988

Respuesta.- Los intervalos de confianza con un 95% para: las ventas se encuentran
entre -108.495 y 421.354, para la inversión en publicidad en radio y tv. Se encuentra
entre 9.404 y 16.756, y para la inversión en publicidad en periódicos se encuentra
entre 10.572 y 22.988. (Todos en miles de dólares).

21
4. El director de operaciones de transmisión de una estación de televisión desea estudiar
la cuestión de las "horas de reserva", tiempo que se les paga a los artistas gráficos
sindicalizados que trabajan en la estación, pero durante el cual realmente no existe
ninguna actividad. Las variables que se van a tomar en cuenta son:
• Horas de reserva (Y): número total de horas de reserva por semana.
• Personal total presente (X1): total por semana de los días-persona trabajados durante
una semana de siete días.
• Horas remotas (X2): número total de horas trabajadas por los empleados en
locaciones fuera de la planta central.

Horas
Personal total Horas
de
Semana reserva presente remotas X1 Y X2 Y X1 X2 X12 X22
X1 X2
Y

1 245 338 414 82810 101430 139932 114244 171396


2 177 333 598 58941 105846 199134 110889 357604
3 271 358 656 97018 177776 234848 128164 430336
4 211 372 631 78492 133141 234732 138384 398161
5 196 339 528 66444 103488 178992 114921 278784
6 135 289 409 39015 55215 118201 83521 167281
7 195 334 382 65130 74490 127588 111556 145924
8 118 293 399 34574 47082 116907 85849 159201
9 116 325 343 37700 39788 111475 105625 117649
0 147 311 338 45717 49686 105118 96721 114244
1 154 304 353 46816 54362 107312 92416 124609
2 146 312 289 45552 42194 90168 97344 83521
3 115 283 388 32545 44620 109804 80089 150544
14 161 307 402 49427 64722 123414 94249 161604
15 274 322 151 88228 41374 48622 103684 22801
16 245 335 228 82075 55860 76380 112225 51984
17 201 350 273 70350 54873 95550 122500 74529
18 183 339 440 62037 80520 149160 114921 193600
19 237 327 475 77499 112575 155325 106929 225625
20 175 328 347 57400 60725 113816 107584 120409
21 152 319 449 48488 68248 143231 101761 201601
22 188 325 336 61100 63168 109200 105625 112896
23 188 322 267 60536 50196 85974 103684 71289

22
24 197 317 235 62449 46295 74495 100489 55225
25 261 315 164 82215 42804 51660 99225 26896
26 232 331 270 76792 62640 89370 109561 72900
 4920 8428 9765 1609350 1833118 3190408 2742160 4090613

Utilice un paquete de computación y lleve a cabo un análisis de regresión lineal múltiple.


Basándose en los resultados obtenidos:

a) Establezca la ecuación de regresión múltiple.

La ecuación de estimación está dada por:

Mediante las siguientes ecuaciones normalizadas obtenemos el valor de a, b1 y b2

Los sustituimos en las ecuaciones con los valores de la tabla anterior:

4920 = 26 a + b1 8428 + b2 9765


1609350 = a8428 + b1 2742160 + b2 3190408
1833118 = a9765 + b13190408 + b2 4090613
Cuando resolvemos las tres ecuaciones de manera simultánea obtenemos:

a = -331.059, b1 = 1.76654 y b2 = -0.139362

Los sustituimos en ecuación de estimación:

Respuesta.- yi = -331.059 + 1.76654 x1 - 0.139362 x2

b) Interprete el significado de las pendientes en este problema.

Respuesta.- Se puede interpretar que con el incremento o reducción de horas de


reserva, se espera una variación en el personal presente de 1.76654 y una
reducción en la horas remotas de 0.139362 en promedio. Por consecuente, se
interpreta que las variables dependientes son completamente ajenas de la variable
independiente.

c) Prediga las horas de reserva para una semana en la que el personal total presente
es de 310 días-persona y las horas remotas son 400.

yi = -331.059 + 1.76654 (310) - 0.139362 (400) = 162.2554


23
Respuesta.- Las horas de reserva serán 160.8236 aprox.

d) Calcule el coeficiente de regresión múltiple r2 e interprete su significado.

Y X1 X2 (Y - Ӯ)2 Ẏ (Ẏ - Ӯ)2

245 338 414 3110.2037 208.3357 364.9954


177 333 598 149.5925 173.8603 236.2509
271 358 656 6686.2021 209.9408 428.9061
211 372 631 473.8981 238.1565 2393.7200
196 339 528 45.8221 194.2149 24.8415
135 289 409 2940.9797 122.4720 4456.7371
195 334 382 33.2837 205.7291 272.1931
118 293 399 5073.8269 130.9318 3398.7755
116 325 343 5362.7501 195.2653 36.4156
147 311 338 1783.4405 171.2306 324.0078
154 304 353 1241.2093 156.7744 1053.4196
146 312 289 1868.9021 179.8259 88.4529
115 283 388 5510.2117 114.7994 5540.0387
161 307 402 796.9781 155.2453 1155.0172
274 322 151 7185.8173 216.7232 755.8330
245 335 228 3110.2037 228.9574 1578.1999
201 350 273 138.5141 249.1842 3594.4071
183 339 440 38.8229 206.4788 297.4928
237 327 475 2281.8965 180.4026 77.9366
175 328 347 202.5157 200.0075 116.1374
152 319 449 1386.1325 169.8937 373.9226
188 325 336 1.5149 196.2409 49.1411
188 322 267 1.5149 200.5572 128.2879
197 317 235 60.3605 196.1841 48.3485
261 315 164 5150.8181 202.5457 177.2874
232 331 270 1829.2045 216.0380 718.6260
56464.6 4919.99519 27689.4
Dónde:

Ẏ = yi = -331.059 + 1.76654 (X1) - 0.139362 (X2)

Ӯ = 189.2308

24
Fuente Suma de Gl Cuadrado Medio Razón-F
Cuadrados
Modelo k
SSR = (Ẏ - Ӯ)2
Residuo n-k-1
SSE = (Y - Ẏ)2
Total (Corr.) n-1
SST = (Y - Ӯ)2

Fuente Suma de Gl Cuadrado Razón-F Valor-P


Cuadrados Medio
Modelo 27689.4 2 13844.7 11.07 0.0004
Residuo 28775.2 23 1251.1
Total (Corr.) 56464.6 25

Respuesta.- El estadístico R-Cuadrada indica que el modelo así ajustado explica


50.8392% de la variabilidad en Y (horas de reserva), en otras palabras que existe
una relación media de la variable Y (horas de reserva), con respecto a las variables
X (personal presente y las horas de reserva).

e) Lleve a cabo un análisis de residuos y determine lo adecuado del ajuste del


modelo.

25
Respuesta.- Dado la aleatoriedad de la ubicación de los puntos en el gráfico
(incluso con los pocos residuos atípicos ubicados), indica que el modelo de
regresión lineal múltiple se ajusta bien a los datos.

f) Grafique los residuos en función del tiempo (en semanas). ¿Existe alguna
evidencia de que haya un patrón en los resultados? Explique su respuesta.

Respuesta.- Inicialmente existe un incremento constante, pero entre 310 y 340


trabajadores se crea un patrón en el que aumenta y decrece cada 10 trabajadores
aprox. Por último, se rompe el patrón aumentando considerablemente, para
nuevamente caer el mismo avance. Por lo que no se detecta un patrón constante.

g) Calcule la estadística de Durbin-Watson.

Respuesta.- Estadístico de Durbin-Watson = 1.7874 (P = 0.2177)

h) Al nivel de significancia del 5%, ¿existe evidencia de autocorrelación positiva en


los residuos?

Respuesta.- Dado el estadístico DW, nos da un valor-P = 0.2177 el cual es mayor


que 0.05, determinando que no hay indicación de una autocorrelación positiva en
los residuos con un nivel de confianza del 95.0%.

i) Obtenga el valor P e interprete su significado.

26
Dada la razón-F = 11.07, k = 2, y gl = n – k 1 = 26 – 2- 1 = 23

El Valor-P = 0.0004

Respuesta.- Puesto que el valor-P es menor que 0.05, hay indicación de una posible
correlación serial con un nivel de confianza del 95.0%.

j) Determine si existe una relación significativa entre las horas de reserva y las dos
variables explicativas (personal total presente y horas remotas), al nivel
significación de 0.05.

Respuesta.- En base al gráfico de residuos y al valor-P = 0.0000 (tabla ANOVA) el


cual es menor que 0.05, con un nivel de confianza del 95.0%, existe una relación
estadísticamente significativa entre las dos variables.

k) Determine si cada una de las variables explicativas hace una contribución


significativa al modelo de regresión. Basándose en estos resultados, indique el
modelo de regresión que debería utilizarse en el problema.

Fuente GL SC Sec. Contribución


Regresión 2 27689 49.04 %
Personal total P. 1 20667 36.60 %
Hrs. Remotas 1 7022 12.44 %
Error 23 28775 50.96 %
Total 26 56465 100.00 %

Respuesta.- Debido a que la variable personal total presente (x1) contribuye al


modelo con un 36.60% (casi la mitad) y la variable de Hrs remotas (x2) sólo
contribuye con un 12.44% debería eliminarse, de esta manera, el modelo de
regresión que debería utilizarse sería el de regresión simple ya que se ajustaría
mejor a los datos.

l) Establezca una estimación de intervalo de confianza del 95% para la pendiente


poblacional entre las horas de reserva semanales y el personal total presente.

tα/2 = 0.025, 26- k- 1=26- 2- 1= 23. De la tabla T student, t0.975 = 2.07

Pendiente poblacional: yi = -331.059 + 1.76654 X1 - 0.139362 X2

• -331.059 +/- 2.07 (116.45) = -571.955 – -90.1628


• 1.76654 +/- 2.07 (0.3790) = 0.98247 – 2.55061

27
• -0.139362 +/- 2.07 (0.0588) = -0.26105 – -0.01767

Error
Parámetro Estimación Estándar Límite Inferior Límite Superior
CONSTANTE -331.059 116.45 -571.955 -90.1628
PERSONAL TOTAL P. 1.76654 0.379023 0.98247 2.55061
HRS REMOTAS -0.139362 0.0588246 -0.26105 -0.0176739

Respuesta.- Los intervalos de confianza con un 95% para: las hrs. De reserva se
encuentran entre -571.955 y -90.1628, para el personal total presente se encuentra
entre 0.98247 y 2.55061 (días-persona), y para las hrs. Remotas se encuentra entre
-0.26105 y -0.017673.

28

Vous aimerez peut-être aussi