Vous êtes sur la page 1sur 16

TAREA 5.

A. Regresión y Correlación Simple


1. Con base en las cifras presentadas por el servicio de rentas internas (SRI), un grupo
de ciudadanos ha expresado su preocupación por que el presupuesto para éste año
no sea utilizado efectivamente. El SRI argumentó que el incremento en el número de
contribuyentes que presentan su declaración de renta explica los problemas del
presupuesto. A continuación se indican datos relevantes (5 puntos)

Declaración de renta Presupuesto del SRI


Año
(en millones) (en miles de millones de dólares)

1 116 6.7

2 116 6.2

3 118 5.4

4 118 5.9

5 120 3.7

6 117 5.9

7 118 4.7

8 121 4.2

a) ¿Cuál es la variable dependiente? ¿Cuál es la variable independiente?


La variable dependiente es el presupuesto.
La variable independiente es la declaración del impuesto a la renta.

b) Dibuje un diagrama de dispersión


PRESUPUESTO DEL SRI SEGÚN
7.5 DECLARACIÓN DE RENTA (durante últimos
ocho años)
Presupuesto del SRI (miles de millones de dólares)

6.5

5.5

4.5

3.5

3
115 116 117 118 119 120 121 122
Declaración de Renta (millones de dólares)

c) Determine el coeficiente de correlación e interprete la magnitud del mismo


∑𝑌 ∑𝑋
𝑎= −𝑏
𝑛 𝑛

Declaración de Presupuesto del


renta SRI
Año (en miles de
(en millones) millones de XY 𝑋2 𝑌2
dólares)
1 116 6,7 777,2 13456 44,89
2 116 6,2 719,2 13456 38,44
3 118 5,4 637,2 13924 29,16
4 118 5,9 696,2 13924 34,81
5 120 3,7 444 14400 13,69
6 117 5,9 690,3 13689 34,81
7 118 4,7 554,6 13924 22,09
8 121 4,2 508,2 14641 17,64
∑ 944 42,7 5026,9 111414 235,53
𝑴𝒆𝒅𝒊𝒂𝒔 ̅ = 𝟏𝟏𝟖
𝑿 ̅ = 𝟓, 𝟑𝟑𝟕𝟓
𝒀
𝑛 ∑ 𝑋𝑌 − ∑ 𝑋 ∑ 𝑌
𝑟=
√[𝑛 ∑ 𝑋 2 − (∑ 𝑋)2 ][𝑛 ∑ 𝑌 2 − (∑ 𝑌)2 ]
8(5026,9) − 944(42,7)
𝑟=
√[8(111414) − 9442 ][8(235,53) − 42,72 ]
−93,6
=
√10727,2
−93,6
=
103,572197
𝑟 = −0,903717
El signo negativo muestra una relación inversa entre declaración de renta y presupuesto

del SRI, lo cual significa que si la declaración de la renta crece el presupuesto del SRI baja.

d) Encuentre la ecuación de regresión y dibújela en el diagrama de dispersión realizado.


𝑦 = 𝑎 + 𝑏𝑥 𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
𝑛(∑ 𝑋𝑌) − ∑ 𝑋(∑ 𝑌)
𝑏=
𝑛(∑ 𝑋 2 ) − (∑ 𝑋)2
8(5026,9) − 944(42,7)
𝑏=
8(111414) − (944)2
40215,2 − 40308.8
𝑏=
891312 − 891136
−93,6
𝑏=
176
𝒃 = −𝟎, 𝟓𝟑𝟏𝟖

Intersección con el eje de Y se determina con la siguiente ecuación:

∑𝑌 ∑𝑋
𝑎= −𝑏 = 𝑌̅ − 𝑏𝑋̅
𝑛 𝑛
𝑎 = 5,3375 − (−0,53181818)(118)
𝒂 = 𝟔𝟖. 𝟎𝟗𝟐𝟎
𝑦 = 68,0920 − 0,5318𝑥
𝒚 = 𝟔𝟖, 𝟎𝟗𝟐𝟎 − 𝟎, 𝟓𝟑𝟏𝟖𝒙

e) Interprete el valor de a y de b de la ecuación de regresión

El valor a representa la intersección de la recta de regresión con el eje Y, en este caso

68,0920. El valor b representa la pendiente de la recta, en este caso negativa

f) Calcule el intervalo de confianza del 95% para el coeficiente de la pendiente ¿de

temperatura?

¿?

2. El director administrativo de una empresa, obtuvo datos sobre 100 empleados

respecto a las pruebas de ingreso que se les practicó en el momento de la

contratación y las calificaciones subsiguientes que recibieron los empleados por

parte del supervisor un año después. Los puntajes del examen oscilaron entre 0 y 10

y la calificación era sobre un sistema de 5 puntos. El director intenta utilizar el


modelo de regresión para predecir la calificación (R) que recibirán con base a un

puntaje en el examen (S). Los resultados son: (5 puntos)

S=522 R=326 SR=17325 S2=28854 y R2=10781

a) ¿Cuál es la variable dependiente? ¿Cuál es la variable independiente?


La variable dependiente es la calificación R (sobre 5).
La variable independiente es el puntaje en el examen S (entre 0 y 10)
b) Dibuje un diagrama de dispersión
No puedo pues carezco de datos para hacerlo.

c) Determine el coeficiente de correlación e interprete la magnitud del mismo


𝑛 ∑ 𝑆𝑅 − ∑ 𝑆 ∑ 𝑅
𝑟=
√[𝑛 ∑ 𝑆 2 − (∑ 𝑆)2 ][𝑛 ∑ 𝑅 2 − (∑ 𝑅)2 ]
100(17325) − (522)(326)
𝑟=
√[100(28854) − (522)2 ][100(10781) − (326)2 ]
1732500 − 170172
r=
√(2885400 − 272484)(1078100 − 106276)
1562328
=
√2612916(971824)
1562328
=
1593516.38798727
𝐫 = 𝟎. 𝟗𝟖𝟎𝟒

Esto indica que existe una relación directa fuete entre la calificación R y el

puntaje del examen S. A mayor puntaje del examen S mayor será la calificación

de R, mientras que a menor puntaje del examen S menor será la calificación del

examen R. También nos muestra que los datos reales no están demasiado

dispersos con respecto a la recta de regresión que se genere.

d) Encuentre la ecuación de regresión y dibújela en el diagrama de dispersión


realizado.
𝑅 = 𝑎 + 𝑏𝑆 𝑅𝑒𝑐𝑡𝑎 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
𝑛(∑ 𝑆𝑅) − ∑ 𝑆(∑ 𝑅)
𝑏=
𝑛(∑ 𝑆 2 ) − (∑ 𝑆)2
100(17325) − 522(326)
𝑏=
100(28854) − (522)2
1732500 − 170172
𝑏=
2885400 − 272484
1562328
𝑏=
2612916
𝒃 = 𝟎, 𝟓𝟗𝟕𝟗

Intersección con el eje de Y se determina con la siguiente ecuación:

∑𝑅 ∑𝑆
𝑎= −𝑏
𝑛 𝑛
326 522
𝑎= − 0,5979
100 100
𝒂 = 𝟎, 𝟏𝟑𝟗𝟎
𝑹 = 𝟎, 𝟏𝟑𝟗𝟎 + 𝟎, 𝟓𝟗𝟕𝟗𝑺

𝑹 = 𝟎, 𝟏𝟑𝟗𝟎 + 𝟎, 𝟓𝟗𝟕𝟗𝑺

e) Interprete el valor de a y de b de la ecuación de regresión

El valor de a, bastante pequeño muestra la intersección con el eje R

El valor b positivo, 0,5979, muestra una pendiente positiva poco inclinada. Ello

indica que a medida que S se incrementa en una unidad, R crece en 0,5979

unidades.

f) Desarrolle e interprete el modelo de regresión lineal. ¿Qué puede predecir el

director respecto a la clasificación de un empleado que obtuvo 7 en el examen?


Realizo cálculos sobre valores posibles que obtienen los alumnos en el examen

usando la ecuación de regresión.

𝑹 = 𝟎, 𝟏𝟑𝟗𝟎 + 𝟎, 𝟓𝟗𝟕𝟗𝑺

𝑅(1) = 0,1390 + 0,5979(1) = 0,1390 + 2,9895


= 0,7369 = 3,1285
𝑅(2) = 0,1390 + 0,5979(2) 𝑅(6) = 0,1390 + 0,5979(6)
= 0,1390 + 1,1958 = 0,1390 + 3,5874
= 1,3348 = 3,7264
𝑅(3) = 0,1390 + 0,5979(3) 𝑅(7) = 0,1390 + 0,5979(7)
= 0,1390 + 1,7937 = 0,1390 + 4,1853
= 1,9327 = 4,3243
𝑅(4) = 0,1390 + 0,5979(4) 𝑅(8) = 0,1390 + 0,5979(8)
= 0,1390 + 2,3916 = 0,1390 + 4,7832
= 2,5306 = 4,9222
𝑅(5) = 0,1390 + 0,5979(5)

S 1 2 3 4 5 6 7 8
R 0,7369 1,3348 1,9327 2,5306 3,1285 3,7264 4,3243 4,9222

Un empleado que obtuvo 7 en el examen obtendrá una calificación de 4,3243.


B. Regresión y Correlación Múltiple

1. Un productor de comida para cerdos desea determinar si existe relación entre la


edad de un cerdo cuando empieza a recibir un complemento alimenticio de recién
creación, el peso inicial del animal y el aumento de peso en un período de una
semana con el complemento alimenticio. La siguiente información es el resultado
de un estudio de ocho lechones. (5 puntos)
X2
X1 Y
# de lechón Edad inicial
Peso inicial (lb) Aumento de peso
(semanas)

1 39 8 7

2 52 6 6

3 49 7 8

4 46 12 10

5 61 9 9

6 35 6 5

7 25 7 3

8 55 4 4

a) Calcule la ecuación de mínimos cuadrados que mejor describa estas tres


variables, planeando las ecuaciones normales

La ecuación de regresión que define el aumento de peso del cerdo según su edad y
peso inicial conforme el complemento alimenticio que recibe es:

𝑌 ′ = 𝑎 + 𝑏1 𝑋1 + 𝑏2 𝑋2
Donde:
𝑌 ′ : 𝑉𝑎𝑙𝑜𝑟 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜 𝑑𝑒𝑙 𝑎𝑢𝑚𝑒𝑛𝑡𝑜 𝑑𝑒 𝑝𝑒𝑠𝑜 𝑑𝑒𝑙 𝑐𝑒𝑟𝑑𝑜
𝑎: 𝑜𝑟𝑑𝑒𝑛𝑎𝑑𝑎 𝑒𝑛 𝑌
𝑋1 𝑦 𝑋2 : 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑑𝑒𝑙 𝑝𝑒𝑠𝑜 (𝑙𝑏)𝑦 𝑒𝑑𝑎𝑑(𝑠𝑒𝑚𝑎𝑛𝑎𝑠)𝑖𝑛𝑖𝑐𝑖𝑎𝑙 𝑑𝑒𝑙 𝑐𝑒𝑟𝑑𝑜
𝑏1 𝑦 𝑏2 : 𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑎𝑠𝑜𝑐𝑖𝑎𝑑𝑎𝑠 𝑎𝑙 𝑝𝑒𝑠𝑜 𝑦 𝑒𝑑𝑎𝑑 𝑑𝑒𝑙 𝑐𝑒𝑟𝑑𝑜, 𝑟𝑒𝑠𝑝𝑒𝑐𝑡𝑖𝑣𝑎𝑚𝑒𝑛𝑡𝑒
Ecuaciones normales:

∑ 𝑌 = 𝑛𝑎 + 𝑏1 ∑ 𝑋1 + 𝑏2 ∑ 𝑋2

∑ 𝑋1 𝑌 = 𝑎 ∑ 𝑋1 + 𝑏1 ∑ 𝑋12 + 𝑏2 ∑ 𝑋1 𝑋2

∑ 𝑋2 𝑌 = 𝑎 ∑ 𝑋2 + 𝑏1 ∑ 𝑋1 𝑋2 + 𝑏2 ∑ 𝑋22
Peso
Edad inicial Aumento
inicial
(semanas) de peso
(lb)
# de
𝑋1 𝑋2 𝑌 𝑋1 𝑌 𝑋2 𝑌 𝑋12 𝑋22 𝑋1 𝑋2
lechón
1 39 8 7 273 56 1521 64 312
2 52 6 6 312 36 2704 36 312
3 49 7 8 392 56 2401 49 343
4 46 12 10 460 120 2116 144 552
5 61 9 9 549 81 3721 81 549
6 35 6 5 175 30 1225 36 210
7 25 7 3 75 21 625 49 175
8 55 4 4 220 16 3025 16 220
∑ 362 59 52 2456 416 17338 475 2673

Planeo las ecuaciones normales para, de acuerdo a ello, hallar la ecuación de regresión
múltiple.
52 = 8𝑎 + 362𝑏1 + 59𝑏2
2456 = 362𝑎 + 17338𝑏1 + 2673𝑏2
416 = 59𝑎 + 2673𝑏1 + 475𝑏2
Resuelvo el sistema de ecuaciones mediante la regla de Cramer para hallar las

constantes de la ecuación de regresión múltiple:

Determinante:

8 362 59
𝐷 = |362 17338 2673|
59 2673 475
17338 2673 362 2673 362 17338
= 8| | − 362 | | + 59 | |
2673 475 59 475 59 2673
= 8(8235550 − 7144929) − 362(171950 − 157707) + 59(967626 − 1022942)
= 8724968 − 5155966 − 3263644
= 305358
52 362 59
𝑁(𝑎) = |2456 17338 2673|
416 2673 475
17338 2673 2456 2673 2456 17338
= 52 | | − 362 | | + 59 | |
2673 475 416 475 416 2673
= 52(8235550 − 7144929) − 362(1166600 − 1111968) + 59(6564888 − 7212608)
= 56712292 − 19776784 − 38215480
= −1279972
8 52 59
𝑁(𝑏1 ) = |362 2456 2673|
59 416 475
2456 2673 362 2673 362 2456
= 8| | − 52 | | + 59 | |
416 475 59 475 59 416
= 8(1166600 − 1111968) − 52(171950 − 157707) + 59(150592 − 144904)
= 437056 − 740636 + 335592
= 32012
8 362 52
𝑁(𝑏2 ) = |362 17338 2456|
59 2673 416
17338 2456 362 2456 362 17338
= 8| | − 362 | | + 52 | |
2673 416 59 416 59 2673
= 8(7212608 − 6564888) − 362(150592 − 144904) + 52(967626 − 1022942)
= 5181760 − 2059056 − 2876432
= 246272

−1279972
𝑎= = −4,1917
305358
32012
𝑏1 = = 0,1048
305358
246272
𝑏2 = = 0,8065
305358
Ecuación de regresión múltiple:

𝒀′ = −𝟒, 𝟏𝟗𝟏𝟕 + 𝟎, 𝟏𝟎𝟒𝟖𝑿𝟏 + 𝟎, 𝟖𝟎𝟔𝟓𝑿𝟐

b) ¿Cuánto se puede esperar que un cerdo aumente de peso en una semana con el

complemento alimenticio, si tenía nueve semanas de edad y pesaba 48 libras?

𝑋1 = 48 𝑙𝑏. 𝑋2 = 9 𝑠𝑒𝑚𝑎𝑛𝑎𝑠
𝒀′ = −𝟒, 𝟏𝟗𝟏𝟕 + 𝟎, 𝟏𝟎𝟒𝟖𝑿𝟏 + 𝟎, 𝟖𝟎𝟔𝟓𝑿𝟐
𝑌 ′ = −4,1917 + 0,1048(48) + 0,8065(9)
= 8.0972𝑙𝑏𝑠.
Se puede esperar que el cerdo aumente 8,0972 lbs.
c) Determine el error estándar de estimación

∑(𝑌 − 𝑌 ′ )2
𝑆𝑒 = √
𝑛−𝑘−1

Donde,

𝑌: 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒 𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒


𝑌 ′ : 𝑣𝑎𝑙𝑜𝑟𝑒𝑠 𝑐𝑜𝑟𝑟𝑒𝑠𝑝𝑜𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠 𝑒𝑠𝑡𝑖𝑚𝑎𝑑𝑜𝑠 𝑐𝑜𝑛 𝑙𝑎 𝑒𝑐𝑢𝑎𝑐𝑖ó𝑛 𝑑𝑒 𝑟𝑒𝑔𝑟𝑒𝑠𝑖ó𝑛
𝑛: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑝𝑢𝑛𝑡𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝑘: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠

# cerdo Y Y’ (Y-Y’)2

1 7 6,3475 0,425756

2 6 6,0969 0,009390

3 8 6,5890 1,990921

4 10 10,3071 0,094310

5 9 9,4596 0,211232

6 5 4,3153 0,468814

7 3 4,0738 1,153046

8 4 4,7983 0,637283

∑ 52 51,9875 4,990753

4,990753
𝑆𝑒 = √
8−2−1

4,990753
𝑆𝑒 = √
5

= √0.9981506
𝑆𝑒 = 0.99907

d) Determine el coeficiente de correlación múltiple e interprete este valor

(𝒀′ ̅ )𝟐
̅ )𝟐 (𝒀 − 𝒀
−𝒀
0,023256 0,25
0,16249 0,25
0,007921 2,25
14,49401 12,25
8,759232 6,25
4,772914 2,25
5,886446 12,25
2,895783 6,25
37,00205 42
̅ )𝟐
(𝒀′ − 𝒀
𝑟=√
̅ )𝟐
(𝒀 − 𝒀

37,00205
𝑟=√
42

𝑟 = 0,9386

Al ser el coeficiente de correlación múltiple un valor muy cercano a uno, ello indica que

los valores originales de la muestra no están muy desviados de los valores que se

calculan con la ecuación de regresión múltiple.

2. Una agencia de turismo en Inglaterra está interesada en el número de turistas que

entran cada semana al país (Y) durante la temporada alta. Se recolectaron los

siguientes datos: (5 puntos)

Turistas (Y): número de turistas que ingresan al país en una semana (en miles)

Cambio(X1): número de libras comprados

Precio (X2): número de libras cobradas por viaje redondo en bus de Londres a

Edimburgo

Promoción (X3): cantidad gastada en promoción del país

Temperatura (X4): temperatura media durante la semana en Edimburgo ( )


Turistas Cambio Precio Temperatura
Promoción (X3)
(Y) (X1) (X2) (X4)
6.9 0.61 40 8.7 15.4

7.1 0.59 40 8.8 15.6

6.8 0.63 40 8.5 15.4

7.9 0.61 35 8.6 15.3

7.6 0.60 35 9.4 15.8

8.2 0.65 35 9.9 16.2

8.0 0.58 35 9.8 16.4

8.4 0.59 35 10.2 16.6

9.7 0.61 30 11.4 17.4

9.8 0.62 30 11.6 17.2

7.2 0.57 40 8.4 17.6

6.7 0.55 40 8.6 16.4

A partir de tal información, se le pide que:

a) Utilice cualquier paquete de software que tenga disponible para determinar la ecuación
de regresión de mejor ajuste para los datos. CAPTE LA IMAGEN DEL RESULTADO
ANOVAa

Suma de Media F
Modelo cuadrados gl cuadrática Sig.

1 Regresión 11,73870 4,00000 2,93468 66,16804 ,00001b


Residuo ,31046 7,00000 ,04435

Total 12,04917 11,00000

a. Variable dependiente: Turistas (Y)


b. Predictores: (Constante), Temperatura (X4), Cambio (X1), Precio (x2), Promoción (X3)
Ecuación de regresión múltiple:

𝒀′ = 𝟓, 𝟗𝟏𝟗 + 𝟑, 𝟓𝟒𝟕𝑿𝟏 − 𝟎, 𝟏𝟕𝟏𝑿𝟐 + 𝟎, 𝟐𝟒𝟑𝑿𝟑 + 𝟎, 𝟐𝟐𝟕𝑿𝟒


b) ¿Cuántos turistas ingresan al país en una semana (en miles) si el cambio fue de

0.55, el precio por el viaje fue 38 libras, la cantidad gastada en la promoción

asciende a 10 libras y la temperatura media de 16º?

𝑋1 = ℒ0,55 𝑋2 = ℒ38 𝑋3 = ℒ10 𝑋4 = 16°


𝑌 ′ = 5,919 + 3,547(0,55) − 0,171(38) + 0,243(10) + 0,227(16)
𝑌 ′ = 5,919 + 1,95085 − 6,498 + 2,43 + 3,632
𝑌 ′ = 7,43385
Ingresan al país en una semana 7434 turistas.

c) Determine el error estándar de estimación.

Acudo a la tabla de resumen del modelo donde en la última columna se encuentra el

error estándar de estimación:

𝑆𝑒 = 0,2106

d) Establezca el coeficiente de correlación múltiple, interprete este valor.

En la misma tabla de resumen hallo en la segunda columna el coeficiente de correlación

múltiple:

𝑟 = 0,987

Esto indica que los datos no se hallan demasiado dispersos de la recta de regresión y

señala una relación positiva (directa) en la mayoría de los casos.

e) Realice una prueba de hipótesis global para verificar si alguno de los coeficientes

de regresión del conjunto es diferente de cero. Utilice el nivel de significación de

0.01. ¿Cuál es su conclusión?

Planteamiento de hipótesis

𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = 𝛽4 = 0 Ninguna de las variables 𝑋𝑖 son explicativas significativas.

𝐻1 : No todas las 𝛽 son cero.


Nivel de significancia ∝ = 0,01

Para esta prueba se aplica la distribución F.

Resumen de la tabla ANOVA:

Estadístico de prueba:

𝑆𝑆𝑅
𝐹= 𝑚
𝑆𝑆𝐸
(𝑛 − 𝑚 − 1)
11,73870/4
𝐹= = 66,168
0,31046/7
Estadístico F crítico

Para m= 4 gl en numerador y n – m -1 = 7 gl en el denominador:

𝐹𝑐 = 7,85

0,01 del área

0 7,85 66,168

Regla de decisión: Se rechaza 𝐻0 𝑠𝑖 𝐹 > 7,85

Decisión: Como 𝐹 = 66,168 es mayor que 7,85 se rechaza 𝐻0 , lo cual significa que

todas o casi todas las variables independientes son significativas, es decir que tienen la

capacidad de explicar la variación de los turistas que llegan al país cada semana.

Vous aimerez peut-être aussi