Académique Documents
Professionnel Documents
Culture Documents
PROGRAMA
1
1. Análisis de la Varianza
Curso 2016/17
Análisis de la Varianza 3
Método: 4 pasos
Análisis de la Varianza 4
Modelo
M
O
V V D
E
L
P1 P2 O
y11 y 21
D
y12 y 22 A
T
O
y1n1 y 2 n2 S
Análisis de la Varianza 5
Análisis de la Varianza 6
Modelo
0
Análisis de la Varianza 7
Estimación medias:
n1 A B
¦ y1 j 51,3
39,4
29,6
47,0
j 1
P1 : o y1x 26,3 25,9
n1 39,0 13,0
48,1 33,1
34,2 22,1
n2 69,8 34,1
¦ y2 j 31,3
45,2
19,5
43,8
j 1
P 2 : o y2x 46,4 24,9
n2 43,1 29,3
Análisis de la Varianza 8
Estimación varianza (residuos)
yij P i uij , uij o N (0, V 2 ) Residuos
A B
8,2 0,3
-3,7 17,7
uij yij P i -16,8 -3,4
-4,1 -16,3
eij yij yix 5,0 3,8
-8,9 -7,2
eij : RESIDUO 26,7 4,8
-11,8 -9,8
2 ni 2,1 14,5
¦¦ eij2 3,3
0,0
-4,4
0,0
i 1 j 1
V 2 : o sˆR2 n
n2 ¦
i
eij 2
0;sˆR 130.95
j 1
Análisis de la Varianza 9
2
ˆ
Varianza residual: R
s
V V
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
2 ni
¦¦ e
i 1 j 1
2
ij
n1 1 2 n2 1 2
sˆR2 sˆ1 sˆ2
n2 n2 n2
Análisis de la Varianza 10
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y2x ) ( P1 P 2 )
( y1x y2x ) ( P1 P 2 ) o tn2
o N (0,1) ¾ 1 1
1 1 ° sˆR
V ° n1 n2
n1 n2 °¿
Análisis de la Varianza 11
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 tn-2
1-D
y1x y2x D/2
t0 o tn2 R. Acept. D/2
1 1
sˆR -tD/2 tD/2
n1 n2
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Análisis de la Varianza 12
Ejemplo: D = 0.05
H 0 : P1 P2 R.R
R.R. t18
H1 : P1 z P 2
0.025
43.1 29.3 0.025
t0 2.69
1 1
11.44 -2.10 2.10
10 10
Análisis de la Varianza 13
Ejemplo: D = 0.01
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 t18
0.99
0.005 0.005
43.1 29.3
t0 2.69 D/2
1 1
11.44 -2.88 2.88
10 10
Análisis de la Varianza 14
Nivel crítico (bilateral)
H 0 : P1 P2 t18
H1 : P1 z P 2
43.1 29.3 0.0074 0.0074
t0 2.69
1 1
11.44 -2.69 2.69
10 10
Análisis de la Varianza 15
Conclusiones (fijado D)
Análisis de la Varianza 16
No rechazar Ho, no implica que Ho sea cierta
Análisis de la Varianza 17
18
Comparación de dos tratamientos con R
19
20
Intervalo de confianza para
la diferencia de medias: P1 P 2
( y1x y2x ) ( P1 P 2 ) tn-2
o t n2
1 1
sˆR D/2
n1 n2 D/2 1-D
-tD/2 tD/2
( y1x y2x ) ( P1 P 2 )
Pr { tD / 2 d d tD / 2 } 1 D
1 1
sˆR
n1 n2
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
Análisis de la Varianza 21
t18
0.025 0.025
-2.10 2.10
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
1 1
P1 P 2 (43.1 29.3) r 2.10 u11.44 u
10 10
P1 P 2 13.8 r 10.74
Análisis de la Varianza 22
Hipótesis de homocedasticidad
V1 V2
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
H 0 : V 12 V 22
H1 : V 12 z V 22
Análisis de la Varianza 23
Distribución F
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
(n1 1) sˆ12 ( n2 1) sˆ22
o F n21 1 o F n22 1
V 12 V 22
F n2 1 sˆ12
1
(n1 1) V 12
F o Fn1 1,n2 1
F n2 12
sˆ22
(n2 1) V 22
Análisis de la varianza 24
Distribución F
F40,40
F20,40
F10,40
F5,40
Análisis de la varianza 25
Algunas distribuciones F
F10,80
F10,40
F10,20
F10,10
Análisis de la varianza 26
Contraste de igualdad de varianzas
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
D/2 1-D D/2
Si H 0 es cierto V 12 V 22 , R.A. Ho
sˆ12 F1-D/2 FD/2
F0 2
o Fn1 1,n2 1
sˆ1
Si F0 >F1D / 2 , FD / 2 @ No se rechaza H 0
Si F0 >F1D / 2 , FD / 2 @ Se rechaza H 0
Análisis de la varianza 27
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
0.025 0.025
sˆ12 154.02 sˆ22 111.7
154.02 0.248 1.37 4.03
F0 1.37
111.7
Análisis de la varianza 28
Tabla F FQ1 ,Q 2 ,D P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.05
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
Grados de libertad del denominador: Q2
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Tabla F FQ1 ,Q 2 ,D P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.025
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
Grados de libertad del denominador: Q2
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
32
Comparación de dos tratamientos con R
33
1.2 K tratamientos
Análisis de la varianza 34
¿Existen diferencias entre las cuatro semillas?
A B C D
229.1 233.4 211.1 270.4
253.7 233.0 223.1 248.6
241.3 219.2 217.5 230.0
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
241.3 202.0 213.7 245.8
242.9 218.7 214.1 245.9
Análisis de la varianza 35
Método: 4 pasos
Análisis de la varianza 36
Modelo
V V V
...
P1 P2 PK
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Análisis de la varianza 38
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Parámetros
Normalidad P1
yij N(Pi,V2) P2
Homocedasticidad
Var [yij] = V2
Independencia
PK
Cov [yij, ykl] = 0 V2
Análisis de la varianza 39
0
Análisis de la varianza 40
Estimación medias: Máxima Verosimilitud
n1
¦ y1 j
j 1
P1 : o y1x
n1
n2 A B C D
¦ y2 j 229.1 233.4 211.1 270.4
j 1 253.7 233.0 223.1 248.6
P 2 : o y 2x 241.3 219.2 217.5 230.0
n2
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
nK 241.3 202.0 213.7 245.8
¦ y Kj 242.9 218.7 214.1 245.9
j 1
P K : o yK x
nK
Análisis de la varianza 41
i 1j 1
V 2 : o sˆR2
nK sˆR2 142.4
Análisis de la varianza 42
Comparación de medias
H 0 : P1 P2 P K
H1 : Al menos una es diferente
Análisis de la varianza 43
Descomposición de la
variabilidad
¦ ¦ yij
yij Pi uij yij y ix ( yij y ix ) : restando y xx ,
n
yij y xx ( y ix y xx ) ( yij y ix )
elevando al cuadrado y sumando para todo i,j
K ni
(donde ¦ ¦ ( y ix y xx )( yij y ix ) 0)
i 1j 1
K ni K ni K ni
2
¦ ¦ ( yij y xx ) ¦ ¦ ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1j 1 i 1j 1
K ni K K ni
2
¦ ¦ ( yij y xx ) ¦ ni ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1 i 1j 1
Análisis de la varianza 44
Variabilidades
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 n-1
i 1j 1
K
VE ¦ ni ( y ix y xx ) 2 K-1
i 1
K ni K ni
2 2
VNE ¦ ¦ ( yij y ix ) ¦ ¦ eij n-K
i 1j 1 i 1j 1
VT VE VNE
n 1 ( K 1) (n K )
Análisis de la varianza 45
Descomposición: ejemplo
y xx 230.4
Datos Medias Residuos
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5
253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7
241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9
254.7 200.0 211.8 250.7
= 242.9 218.7 214.1 245.9
+ 11.8 -18.7 -2.3 4.8
237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9
241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1
-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.5
23.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.7
10.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.9
24.3 -30.4 -18.6 20.3
= 12.5 -11.7 -16.3 15.5
+ 11.8 -18.7 -2.3 4.8
6.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.9
10.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1
yij y xx yi x y xx yij y i x
Análisis de la varianza 46
Variabilidades: ejemplo
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 7645.5 n-1 23
i 1j 1
K
VE ¦ ni ( y i x y xx ) 2 4798.1 K-1 3
i 1
K ni
2
VNE ¦ ¦ eij 2847.4 n-K 20
i 1j 1
Análisis de la varianza 47
Interpretación gráfica de la
descomposición
y1x
y 2x
y ix y xx yij y i x
y 3x
y 4x
y xx yij y xx
Análisis de la varianza 48
Distribución de VE
2 V2
yij o N ( Pi , V ) y i x o N ( Pi , )
ni
V
Si P1 P 2 P K que llamaremos P
V2
yix o N (P , )
Pi ni
2 2 2
§ y1x P · § y 2x P · § y P·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2
¨V / n ¸ ¨V / n ¸ ¨V / n ¸
© 1¹ © 2 ¹ © K ¹
2 2 2
§ y1x y xx · § y 2x y xx · § y y xx ·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2 1
¨ V/ n ¸ ¨ V/ n ¸ ¨ V/ n ¸
© 1 ¹ © 2 ¹ © K ¹
Análisis de la varianza 49
Distribución de VNE
ni
¦ ( yij y ix ) 2
j 1 (ni 1) sˆi2
yij o N ( Pi ,V 2 ) sˆi2 o o F n2 1
ni 1 V 2 i
K ni n n nK
1 2
2
¦ ¦ ( yij y ix ) ¦ ( y1 j y1x ) ¦ ( y2 j y 2x ) ¦ ( y Kj y K x ) 2
2 2
i 1j 1 j 1 j 1 j 1
sˆR2
nK nK
(n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2
nK
Análisis de la varianza 50
Contraste (Análisis de la Varianza)
H 0 : P1 P2 P K
H1 : Al menos una es diferente K
¦ ni ( yi x yxx ) 2
(n K ) sˆR2
x 2
o F n2 K x Si Ho es cierto : i 1
2
o F K2 1
V V
K 2
¦ ni ( y i x y x x )
F0 i 1 o FK 1, n K
2
( K 1) sˆR
F0 d FD No se rechaza H 0
F0 ! FD Se rechaza H 0
Análisis de la varianza 51
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
¦ ni ( y i x y xx ) 2
Tratamient os ¦ ni ( y i x y xx ) 2 K 1 ¦ ni ( y i x y xx ) 2 /( K 1)
( K 1) sˆR2
Residual ¦ ¦ ( yij y i x ) 2 nK sˆ 2
R
Total ¦ ¦ ( yij y xx ) 2 n 1
Análisis de la varianza 52
Tabla de Análisis de la Varianza
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
Análisis de la varianza 53
Análisis de la varianza 54
Intervalos de confianza
Análisis de la varianza 55
260
250
Rendimiento
240
230
220
210
200
A B C D
Semilla
Análisis de la varianza 56
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y 2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y 2x ) ( P1 P 2 )
( y1x y 2x ) ( P1 P 2 ) o t n K
o N (0,1) ¾ 1 1
1 1 ° sˆ R
V ° n1 n2
n1 n2 °¿
Análisis de la varianza 57
Contraste multiples
H 0 : Pi Pj
R.R. R.R
H1 : P i z P j tn-K
1-D
yi x y j x D/2
R. Acept. H0
D/2
tij o tn K
1 1 -tD/2 tD/2
sˆR
ni n j
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Análisis de la varianza 58
Diagnosis del modelo
Modelo
V V V
...
P1 P2 PK
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Análisis de la varianza 61
Residuos:
Normales y homocedásticos
yij Pi uij
uij yij P i eij yij yix
uij o N (0, V 2 )
Residuos
A B C D
-13,8
10,8
14,8
14,4
-3,0
9,0
24,5
2,7
V
-1,6 0,6 3,4 -15,9
11,8 -18,7 -2,3 4,8
-5,7 5,7 -6,5 -15,9
0
-1,6 -16,7 -0,4 -0,1
0,0 0,0 0,0 0,0
Análisis de la varianza 62
Comprobación de la
normalidad
Los residuos deben de tener distribución normal.
Las observaciones originales también, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observación su media y obtener valores con la
misma distribución.
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Análisis de la varianza 63
Análisis de la varianza 64
Gráfico prob. Normal
(ejemplo)
Orden Resid. Probab. Percen. Percen.
i eij (i-0.5)/n N(0,1) N(0,V )
Q-Q plot
1 -18,7 0,021 -2,04 -24,30
2 -16,7 0,063 -1,53 -18,30
3 -15,9 0,104 -1,26 -15,01 30,0
4 -15,9 0,146 -1,05 -12,58
5 -13,8 0,188 -0,89 -10,58
6 -6,5 0,229 -0,74 -8,85 20,0
7 -5,7 0,271 -0,61 -7,28
8 -3,0 0,313 -0,49 -5,83 10,0
Percentiles
9 -2,3 0,354 -0,37 -4,46
10 -1,6 0,396 -0,26 -3,15
0,0
11 -1,6 0,438 -0,16 -1,88
12 -0,4 0,479 -0,05 -0,62
13 -0,1 0,521 0,05 0,62 -10,0
14 0,6 0,563 0,16 1,88
15 2,7 0,604 0,26 3,15 -20,0
16 3,4 0,646 0,37 4,46
17 4,8 0,688 0,49 5,83
-30,0
18 5,7 0,729 0,61 7,28
19 9,0 0,771 0,74 8,85 -30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
20 10,8 0,813 0,89 10,58 Residuos ordenados
21 11,8 0,854 1,05 12,58
22 14,4 0,896 1,26 15,01
23 14,8 0,938 1,53 18,30
24 24,5 0,979 2,04 24,30
Análisis de la varianza 65
99.9
99
Probabilidad
95
80
50
20
5
1
0.1
-30 -20 -10 0 10 20 30
Residuos
Análisis de la varianza 66
Ejemplos
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1
Normal 5
1
No normal
0,1 0,1
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,4 0 3 6 9 12 15
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1 No normal
5
1
No normal
0,1 0,1
0 0,4 0,8 1,2 1,6 2 -3 -1 1 3 5
Análisis de la varianza 67
Comprobación de la homocedasticidad
Herramientas:
- Gráficos de residuos:
·Frente a valores previstos
·Frente a tratamientos (o factor,etc.)
- Contrastes formales:
Bartlett, Cochran, Hartley, Levene
Análisis de la varianza 68
Residuos - Valores previstos
30
20
En este modelo los valores
10
previstos corresponden a
residuos
0
la dispersión aumenta
-10 conforme la media crece.
-20
-30
0 5 10 15
Valores previstos
Análisis de la varianza 69
15
máx.
Residuos
mín.
-5
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Análisis de la varianza 70
Residuos por tratamientos
25
15
máx.
Residuos
mín.
5
máx
-5 3
mín
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Análisis de la varianza 71
Contrastes formales
V2 VK
V1
...
P1 P2 PK
H 0 : V 12 V 22 V K2
H1 : Alguna es distinta
Análisis de la varianza 72
Contrastes formales
Análisis de la varianza 73
0,37 0,37
residuos
residuos
0,17 0,17
-0,03 -0,03
-0,23 -0,23
-0,43 -0,43
0 0,3 0,6 0,9 1,2 1 2 3
99,9
99
Homocedasticidad
probabilidad
95
80
50
20
5
1 Normalidad
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Gráfico probabilista normal
99,9
99
probabilidad
95
80
50
20
5
1
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Análisis de la varianza 75
· 1/x
· log(x)
· x2 (u otras transformaciones xp)
· x
Análisis de la varianza 76
Transformaciones Box-Cox
z ij1,5 p>1
p=1
1
0,5 p<1
0 yij
1
-0,5
-1
yijp 1
z ij
-1,5 p
z ij log yij si p 0
Análisis de la varianza 77
Búsqueda de la
transformación adecuada
0,57
0,37 La dispersión
aumenta al aumentar
residuos
0,17
-0,03 la media
-0,23
-0,43
0 0,3 0,6 0,9 1,2
p<1
Valores previstos
1,6
1,1
0,6
La dispersión
residuos
0,1 disminuye al
-0,4 aumentar la media
-0,9
-1,4
0 4 8 12 16 p>1
valores previstos
Análisis de la varianza 78
p
Elección de la transformación zij yij
Empezar con p=1 (datos sin transformar) y
decidir a partir de los gráficos si p>1 o
p<1.
p 1/ 2 z ij yij
°
° p 0 z ij log yij
° 1
° p 1 / 2 z ij
p 1 o ® yij
° 1
° p 1 z ij
° yij2
°
¯
Análisis de la varianza 79
Independencia
Es la hipótesis fundamental y con diferencia la más
importante de las tres, además es la más difícil de
comprobar.
Análisis de la varianza 80
Aleatorización
Análisis de la varianza 81
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a
los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”
Análisis de la varianza 82
¿Cómo aleatorizar?
Análisis de la Varianza 83
Ejemplos:
Análisis de la Varianza 84
Ejemplo 1: Centeno
Análisis de la Varianza 85
Análisis de la Varianza 86
Intervalos de confianza: Centeno
> source('ICplot.R')
> ICplot(mod, ‘Sem')
250
medias
230
210
A B C D
Sem
Análisis de la Varianza 87
Análisis de la Varianza 88
Diagnosis: Centeno
Standardized residuals
19 19
2
Residuals
0 10
1
0
-1
-20
12 12
10 10
Constant Leverage:
Scale-Location Residuals vs Factor Levels
1.5
Standardized residuals
Standardized residuals
19
19
2
10
12
1.0
1
0
0.5
-1
12
0.0
10
-2
centeno$Sem :
215 220 225 230 235 240 245 C B A D
Análisis de la Varianza 89
Análisis de la Varianza 90
ANOVA Ejemplo 2: Datos de Heyl
Análisis de la Varianza 91
Análisis de la Varianza 92
Comparaciones múltiples: Datos de Heyl
Comparaciones 2 a 2
Análisis de la Varianza 93
Comparaciones 2 a 2
Análisis de la Varianza 94
Diagnosis: Datos de Heyl
Análisis de la Varianza 95
Análisis de la Varianza 96
Ejemplo 3: Combustión de distintos tipos de
fibra
Análisis de la Varianza 97
Análisis de la Varianza 98
Ejemplo 3: Combustión de distintos tipos de
fibra
Comparaciones múltiples. El mayor tiempo de combustión,
significativamente distinto a los anteriores: fibra A. En media
la C es la que tiene menor tiempo de combustión, pero no
significativamente distinta a la B y D.
Análisis de la Varianza 99
Ejemplos:
H 0 : V MICHELSON
2
V NEWCOMB
2
H1 : V MICHELSON
2
z V NEWCOMB
2
1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.
(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?
2
(a) Contrastar (α = 0.05) la hipótesis
H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,
7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar las medias de
los cinco tratamientos con nivel de significación total αT = 0.10.
3
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24
4
2. Diseño de Experimentos
Diseño de experimentos:
Diseños Factoriales
Bloques Aleatorizados
Formas de realizar un experimento
Diseño Experimentos 3
Diseño Experimentos 5
Comandos en R
ARCHIVO TEXTO: venenos.txt
Diseño Experimentos 6
Modelo
Factor 1
1 2 I
y111 y 211 y I 11 yijk P D i E j DE ij uijk
y112 y 212 y I 12
1
•Normalidad
Factor 2
y11m y 21m y I 1m
y121 y 221 y I 21 •Independencia
2
y122 y 222
y I 22 •Homocedasticidad
y12 m y 22 m y I 2m IuJ tratamientos
y1J 1 y2 J 1 y IJ 1 m replicaciones
y1J 2 y2 J 2 y IJ 2
J
n = muIuJ
y1Jm y 2 Jm y IJm
Diseño Experimentos 7
Factor 1
1 2 ... I
1
V V
... V
P D1 E1 DE11 P D 2 E1 DE 21 P D I E1 DE I 1
V V
... V
Factor 2
2
P D1 E 2 DE12 P D 2 E 2 DE 22 P D I E 2 DE I 2
J
V V
... V
P D1 E J DE1J P D 2 E J DE 2 J P D I E J DE IJ
Modelo
yijk P D i E j DE ij uijk
¦iI 1Di 0 ¦ Jj 1 E j 0 ¦i
I
1 DE ij 0, j
¦ Jj 1DE ij 0, i
P : Media global
Di : Efecto del Factor 1 i, i=1,...,I
Ej : Efecto del Factor 2 j, j=1,...,J
DEij: Interacción de niveles ij
uijk : Componente aleatoria N(0,V2), k=1,…m
Diseño Experimentos 9
m J m I m I J m
¦y ijk ¦¦ y
j 1 k 1
ijk ¦¦ y ijk ¦¦¦ y
i 1 j 1 k 1
ijk
k 1 i 1 k 1
y ij x y ixx y x jx y xxx
m mJ mI n
Diseño Experimentos 10
Estimación del modelo
yijk P D i E j DE ij uijk
g.l.=IJm-IJ=IJ(m-1)
Diseño Experimentos 11
Estimación
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
0.41 0.88 0.56 0.61
N 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
E 0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30
O 0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33
Diseño Experimentos 12
Estimación
A
ANTÍDOTO
B C D Medias D̂ i
0,31 0,82 0,43 0,45
0,45 1,10 0,45 0,71
V I 0,46 0,88 0,63 0,66 0,615 0,136
0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61
N
DE ij -0,038
0,36
0,067
0,92
0,032
0,44
-0,061
0,56
0,29 0,61 0,35 1,02
E II 0,40 0,49 0,31 0,71 0,544 0,066
0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67
DE ij -0,060 0,073 -0,080 0,068
O 0,22 0,30 0,23 0,30
0,21 0,37 0,25 0,36
S III 0,18 0,38 0,24 0,31 0,276 -0,202
0,23 0,29 0,22 0,33
Medias 0,21 0,34 0,24 0,33
DE ij 0,098 -0,139 0,048 -0,007
Medias 0,314 0,677 0,389 0,534 0,479
Ê j -0,164 0,198 -0,089 0,056
Diseño Experimentos 13
Diseño Experimentos 14
Residuos
RESIDUOS
ANTÍDOTO
eijk yijk yij x
¦e
A B C D
V
I
-0.103
0.038
-0.060
0.220
-0.128
-0.108
-0.160
0.100 ijk 0
0.048 0.000 0.073 0.050
E 0.018 -0.160 0.163 0.010
k
0.00 0.00 0.00 0.00
N 0.040 0.105 0.065 -0.108
-0.030 -0.205 -0.025 0.353
II
E 0.080 -0.325 -0.065 0.043
-0.090 0.425 0.025 -0.288
Vˆ 2
sˆ 2 ¦¦¦ e 2
ijk
0,022
N 0.00 0.00 0.00 0.00 IJ (m 1)
R
Diseño Experimentos 15
Diseño Experimentos 16
Descomposición de la variabilidad
VT VE ( A) VE ( B) VE ( A u B) VNE
(n 1) ( I 1) ( J 1) ( I 1)( J 1) IJ (m 1)
DATOS MODELO
Diseño Experimentos 17
Variabilidades
I J m
VT ¦¦¦(y
i 1 j 1 k 1
ijk y xxx ) 2
I I
VE ( A) mJ ¦ ( y i xx y xxx ) 2
mJ ¦ (Dˆ i ) 2
i 1 i 1
J I
VE ( B ) mI ¦ ( y x j x y xxx ) 2 mI ¦ ( Eˆi ) 2
j 1 i 1
I J
VE ( A u B ) m¦ ¦ (DE ij ) 2
i 1 j 1
I J m I J m
VNE ¦¦¦(y
i 1 j 1 k 1
ijk y ij x ) 2
¦ ¦ ¦ (e
i 1 j 1 k 1
ijk )2
Diseño Experimentos 18
Descomposición de la
variabilidad
Diseño Experimentos 19
Análisis de la varianza
yijk P D i E j DEij uijk yijk Pˆ Dˆ i Eˆ j DE ij eijk
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) ( yijk y ij x )
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) eijk
I J m I J m I J m
¦¦ ¦ ( y
i 1 j 1 k 1
ijk y xxx ) 2 ¦¦¦ ( y
i 1 j 1 k 1
i xx y xxx ) 2 ¦¦¦ ( y x j x y xxx ) 2
i 1 j 1 k 1
I J m I J m
¦¦¦ ( y ij x y ixx y x j x y xxx ) 2 ¦¦¦ eijk2
i 1 j 1 k 1 i 1 j 1 k 1
I J m I J
¦¦ ¦ ( yijk y xxx )2
i 1 j 1 k 1
mJ ¦ ( y ixx y xxx ) 2 mI ¦ ( y x j x y xxx ) 2
i 1 j 1
I J I J m
m¦¦ ( y ij x y ixx y x j x y xxx ) ¦¦¦ eijk2 2
i 1 j 1 i 1 j 1 k 1
Diseño Experimentos 20
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
Diseño Experimentos 21
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
IJ (m 1)
VE ( A)
Si Ho es cierto, sˆ A2 o E[ sˆ A2 ] V 2
I 1
I
sˆ 2 mJ ¦ ( y i xx y xxx ) 2 I 1
FA A
2
i 1
2
o FI 1; IJ ( m 1)
sˆ R sˆ R
Si FA ! FD Se rechaza Ho
Diseño Experimentos 22
Contraste efecto principal de factor B
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE ( B)
Si Ho es cierto, sˆ 2
o E[ sˆB2 ] V 2
J 1
B
J
2 mI ¦ ( y x j x y xxx ) 2 J 1
sˆ j 1
FB B
2 2
o FJ 1; IJ ( m 1)
sˆ R sˆ R
Si FB ! FD Se rechaza Ho
Diseño Experimentos 23
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJ ( m 1)
sˆR
Si FAB ! FD Se
rechaza
Ho
A y B interaccio nan
Diseño Experimentos 24
Tabla de análisis de la varianza
Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p valor
2
sˆ
mJ ¦ ( y ixx y xxx )
A
2 2
A I 1 sˆ A sˆR2 pA
sˆB2
B mI ¦ ( y x j x y xxx ) 2
J 1 sˆB2 sˆR2 pB
2
sˆ AB
AuB m¦¦ ( yij x y ixx y x j x y xxx ) 2
( I 1)( J 1) 2
sˆ AB sˆR2 p AB
Residual ¦¦¦ e 2
ijk IJ (m 1) sˆR2
Diseño Experimentos 25
Tabla ANOVA
Diseño Experimentos 26
Interpretación
La interacción no es significativa
Diseño Experimentos 27
H 0 : Di Dj R.R. R.R
tIJ(m-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i xx y xxx ½
¾ Dˆ i Dˆ j y i xx y j xx R. Acept. H0
Dˆ j y j xx y xxx ¿
-tD/2 tD/2
V2 V2
Dˆ i Dˆ j o N (D i D j , )
mJ mJ
y i xx y j xx yixx y j xx ! tD / 2 sˆR
2
o t IJ ( m 1)
mJ
2
sˆR
LSD
mJ Se rechaza Ho
Diseño Experimentos 28
Contrastes múltiples: Factor B
H 0 : Ei Ej R.R. R.R
tIJ(m-1)
H1 : E i z E j 1-D
D/2 D/2
Eˆi y xi x y xxx ½
¾ Eˆ i Eˆ j y xi x y x j x R. Acept. H0
Eˆ j y x j x y xxx ¿
-tD/2 tD/2
V2 V2
Eˆi Eˆ j o N ( E i E j , )
mI mI
yxi x y x j x yxix yx j x ! tD / 2 sˆR
2
o t IJ ( m 1)
mI
2
sˆR LSD
mI Se rechaza Ho
Diseño Experimentos 29
Intervalos de confianza
(interacción nula)
sˆR
P D i y i xx r tD / 2
mJ
sˆR
P E i y x j x r tD / 2
mI
Diseño Experimentos 30
Intervalos de Confianza
> source('ICplot.R')
> par(mfrow = c(1,2))
> ICplot(mod_box, 'VEN')
> ICplot(mod_box, 'ANT')
0.7
0.7
0.6
0.6
0.5
medias
medias
0.5
0.4
0.4
0.3
0.3
0.2
I II III A B C D
VEN ANT
Diseño Experimentos 31
Comparaciones Múltiples
Diseño Experimentos 32
Comparaciones Múltiples
Diseño Experimentos 33
Interacción
En este ejemplo NO se debe interpretar
porque no es significativa.
¿Cómo se haría?
Diseño Experimentos 34
Diagnosis: Sobre residuos
Normalidad
Homocedasticidad
Independencia
Diseño Experimentos 35
Diagnosis
Diseño Experimentos 36
Diseño Experimentos 37
Diagnosis: homocedasticidad
Diseño Experimentos 38
Homocedasticidad
Diseño Experimentos 39
Normalidad
Diseño Experimentos 40
Conclusión:Transformar
log y
1/y
Sqrt(y)
Diseño Experimentos 41
Transformación 1/y
Diseño Experimentos 42
Diagnosis: homocedasticidad
datos transformados z=1/y
Diseño Experimentos 43
Homocedasticidad
datos transformados z=1/y
Diseño Experimentos 44
Normalidad
datos transformados z=1/y
Diseño Experimentos 45
Comparaciones múltiples
intervalos de confianza
Diseño Experimentos 46
Diseño Experimentos 47
Ejercicio
Un investigador quiere estudiar el efecto del sexo (H, M) y
tipo de formación (ciencias, letras) en el dominio del inglés
escrito en profesores universitarios. Para ello se analiza el
nº de incorrecciones gramaticales en artículos científicos
enviados a publicación. Para combinación de niveles de los
factores se han elegido al azar tres profesores. En la tabla
se proporciona el nº de fallos detectados en artículos de 15
páginas. ¿Qué conclusiones pueden extraerse?.
Letras Ciencias
Diseño Experimentos 48
Comandos en R
ARCHIVO TEXTO: ciencias.txt
> view(error)
> attach(error)
> names(error)
> error
Diseño Experimentos 49
Estimación
Diseño Experimentos 50
Descomposición variabilidad
Diseño Experimentos 51
Análisis de la Varianza
Diseño Experimentos 52
Interacción:
En este ejemplo es significativa.
Diseño Experimentos 53
Normalidad
Homocedasticidad
Independencia
Diseño Experimentos 54
Diagnosis
Diseño Experimentos 55
Diseño Experimentos 56
Bloques Aleatorizados
Ejemplo de introducción
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23
e 2 8.42 10.15 8.54 6.98 8.93
z 3 18.31 16.84 15.86 14.64 15.96
c 4 10.49 10.52 8.04 10.50 10.34
l 5 9.78 9.59 6.96 8.15 9.24
a 6 9.28 8.84 7.04 6.66 9.46
Diseño Experimentos 58
> fluorita = read.table('fluorita.txt', header = T)
> attach(fluorita)
> FLUO = factor(fluo)
> MEZ = factor(mez)
> fluorita
Diseño Experimentos 59
Modelo
Tratamientos
1 2 I yij P D i E j uij
1 y11 y21 y I 1
•Normalidad
Bloques
2 y12 y22 y I 2
•Independencia
J y1J y2 J y IJ •Homocedasticidad
P : Media global
Di : Efecto del tratamiento i, i=1,...,I ¦iI 1Di 0
Ej : Efecto del bloque j, j=1,2,...,J ¦ Jj 1 E j 0
uij : Componente aleatoria N(0,V2)
Diseño Experimentos 60
Tratamientos
1 2 ... I
1
V V
... V
P D1 E1 P D 2 E1 P D I E1
V V
... V
Bloques
2
P D1 E 2 P D2 E2 P D I E2
J
V V
... V
P D1 E J P D2 E J P DI EJ
Diseño Experimentos 62
Estimación
1 2 I Eˆ j
1 y11 y 21 yI1 y x1 y x1 y xx
2 y12 y 22 yI 2 y x2 y x 2 y xx
J y1J y2 J y IJ yxJ y x J y xx
y 1x y 2x yIx y xx
Dˆ i y 1x y xx y 2 x y xx y I x y xx
Diseño Experimentos 63
Estimación (ejemplo)
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77
e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13
z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59 Ej
c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76
l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99
a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.73
1.15 0.57 -1.34 -0.84 0.46
Di
Diseño Experimentos 64
Residuos: Varianza residual
eij yij Pˆ Dˆ i Eˆ j yij y i x y x j y xx
Fluorita
0% 1% 2% 3% 4%
M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74
¦ ¦ eij2 17.51
sˆR2 0.88
( I 1)( J 1) 20
Diseño Experimentos 65
Estimación
Diseño Experimentos 66
Variabilidades
I J
VT ¦¦ ( y
i 1 j 1
ij y xx ) 2
I
VE (T ) J ¦ ( y i x y xx ) 2
i 1
J VT VE (T) VE (B) VNE
VE ( B ) I ¦ ( y x j y xx ) 2
j 1
I J (n 1) ( I 1) ( J 1) ( I 1)( J 1)
VNE ¦¦ eij2
i 1 j 1
Diseño Experimentos 67
Descomposición de la variabilidad
Diseño Experimentos 68
Análisis de la varianza
¦¦ ( y
i 1 j 1
ij y xx ) 2
¦¦ ( y
i 1 j 1
ix y xx ) ¦¦ ( y x j y xx ) ¦¦ eij2
2
i 1 j 1
2
i 1 j 1
I J I J I J
¦¦ ( y
i 1 j 1
ij y xx ) 2
J ¦ ( y ix y xx ) I ¦ ( y x j y xx ) ¦¦ eij2
i 1
2
j 1
2
i 1 j 1
Diseño Experimentos 69
Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
Diseño Experimentos 70
Contraste sobre tratamientos
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
VNE
sˆR2 o E[ sˆR2 ] V 2
( I 1)( J 1)
VE (Tratamient os)
Si Ho es cierto, sˆT2 o E[ sˆT2 ] V 2
I 1
I
J ¦ ( y i x y xx ) 2 I 1
sˆT2 i 1
FT o FI 1;( I 1)( J 1)
sˆR2 sˆR2
Si FT ! FD Se rechaza Ho
Diseño Experimentos 71
yi1 yi 2 yiJ JP ¦ Jj 1 E j
yix , E[ y i x ] P
J J
V2
y1x , y 2x ,..., y I x o N ( P , )
J
I ª I 2º
J ¦ ( y i x - y xx )2 « J ¦ ( y i x - y xx ) »
y1x y 2x y I x
y xx sˆT2 i 1
E« i 1 » V2
I I 1 « I 1 »
«¬ »¼
Diseño Experimentos 72
Contraste de bloques
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE (Bloques)
Si Ho es cierto, sˆB2 o E[ sˆB2 ] V 2
J 1
J
I ¦ ( y x j y xx ) 2 J 1
sˆB2 j 1
FB o FJ 1;( I 1)( J 1)
sˆR2 sˆR2
Si FB ! FD Se rechaza Ho
Diseño Experimentos 73
sˆB2
2
Bloque I ¦ ( y x j y xx ) J 1 sˆB2 sˆR2 pB
Total ¦ ¦ ( yij y xx ) 2 n -1
Diseño Experimentos 74
Tabla ANOVA
Diseño Experimentos 75
Intervalos de confianza
(ejemplo)
sˆR
P D i y i x r tD / 2
J
Diseño Experimentos 76
Intervalos de Confianza (% Fluorita)
> source('ICplot.R')
> ICplot(mod_flu, "FLUO")
12
medias
11
10
9
0 1 2 3 4
FLUO
Diseño Experimentos 77
12
10
8
1 2 3 4 5 6
MEZ
Diseño Experimentos 78
Contraste multiples: tratamientos
H 0 : Di Dj R.R. R.R
t(I-1)(J-1)
H1 : D i z D j
1-D
Dˆ i y i x y xx ½ D/2 D/2
¾ Dˆ i Dˆ j yix y jx R. Acept. H0
Dˆ j y j x y xx ¿
-tD/2 tD/2
V2 V2
Dˆ i Dˆ j o N (D i D j , )
J J
yi x y j x 2
o t( I 1)( J 1) y i x y j x ! tD / 2 sˆR Se rechaza H 0
2
J
sˆR
J LSD
Diseño Experimentos 79
H 0 : Ei Ej R.R. R.R
t(I-1)(J-1)
H1 : E i z E j
1-D
Eˆi y xi y xx ½° D/2 D/2
¾ Eˆi Eˆ j y xi y x j R. Acept. H0
Eˆ j y x j y xx °¿
-tD/2 tD/2
V2 V2
Eˆi Eˆ j o N ( E i E j , )
I I
yxi yx j 2
o t( I 1)( J 1) y xi y x j ! tD / 2 sˆR Se rechaza H 0
2
I
sˆR
I LSD
Diseño Experimentos 80
Comparación de medias
Fluorita LSD = 1.13
0% 1% 2% 3% 4%
2
LSD tD / 2 sˆR 0% 0 0,58 2,49 1,99 0,69
J 1% 0 1,90 1,40 0,11
2% 0 -0,50 -1,80
2
2.085 u 0.93 u 3% 0 -1,30
6 4% 0
1.13
LSD=1.24
Mezcla 1 2 3 4 5 6
2 1 0,00 3,90 -3,82 2,52 3,76 4,24
LSD tD / 2 sˆR 2 0 6,60 -1,37 -0,14 -0,35
I 3 0 6,34 7,58 8,07
2 4 0 1,23 1,72
2.085 u 0.93 u
5 5 0 0,49
1.24 6 0
Diseño Experimentos 81
-4 -2 0 2
Diseño Experimentos 82
Comparación de medias (Tukey)
95% family-wise confidence level
2-1
4-1
6-1
4-2
6-2
5-3
5-4
6-5
-10 -5 0 5 10
Diseño Experimentos 83
Sin bloques
El % de FLUORITA no es SIGNIFICTIVO.
No se detectan diferencias
La Varianza residual es muy grande (10.6113)
Diseño Experimentos 84
Diagnosis: 2
1.5
Homocedasticidad 1
0.5
0
-0.5
Gráfico de residuos -1
-1.5
2 -2
1.5 0 1 2 3 4 5 6
1 Mezcla
0.5
0 1.6
-0.5 1.2
-1 0.8
residuos
-1.5 0.4
-2 0
0 1 2 3 4 -0.4
Fluorita -0.8
-1.2
-1.6
5 10 15 20
Valores previstos
Diagnosis: normalidad
99.9
99
probabilidad
95
80
50
20
5
1
0.1
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.6
residuos
Diseño Experimentos 86
Diagnosis
Normalidad
Homocedasticidad
Diseño Experimentos 87
Apéndice
Diseño Experimentos 88
Diseños factoriales
(tres factores)
T=NAxNBxNc
B3 Efectos principales 3 A, B , C
B4 Interacciones de orden dos 3
B5 AxB, AxC, BxC
C1 Interacción de orden tres 1.
C2
C3 AxBxC
Diseño Experimentos 91
Datos Factor 1 1
Factor 3
2 ... K
11 22 ...
II
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... K
K
y1111 y1121 y11K 1 y 2111 y 2121 y11K 1 y I 111 y I 121 y I 1K 1
11 y1112 y1122 y11K 2 y 2112 y 2122 y11K 2 y I 112 y I 122 y I 1K 2
y111M y112M y11KM y 211M y 212M y11KM y I 11M y I 12M y I 1KM
Factor 2
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... KK
y1211 y1221 y12 K 1 y 2211 y 2221 y 22 K 1 y I 211 y I 221 y I 2 K1
2 y1212 y1222 y12 K 2 y 2212 y 2222 y 22 K 2 y I 212 y I 222 yI 2K 2
y121M y122M y12 KM y 221M y 222M y 22 KM y I 21M y I 22M y I 2 KM
...
11 22 ...... K
K 11 22 ...
... KK 11 22 ...... K
K
y1J 11 y1J 21 y1JK1 y 2 J 11 y 2 J 21 y 2 JK1 y IJ 11 y IJ 21 y IJK1
JJ y1J 12 y1J 22 y1JK 2 y 2 J 12 y 2 J 22 y 2 JK 2 y IJ 12 y IJ 22 y IJK 2
y1J 1M y1J 2 M y1JKM y 2 J 1M y2 J 2M y 2 JKM y IJ 1M y IJ 2 M y IJKM
Diseño Experimentos 92
Ejemplo: Proceso químico
Tres factores: Concentración
1 4% C-1
Catalizador
Ag
Temperatuta
T-1 300º C
2 6% C-2 Ag+Zn T-2 320º C
3 8% C-3 Zn
4 10%
Variable respuesta: Rendimiento del proceso químico.
CONCENTRACIÓN
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
72.2 65.0 74.4 69.2 75.0 70.7 80.0 73.0
C-1 74.4 71.6 66.3 71.8 78.9 80.6 65.0 74.4
64.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8
CATALIZADOR
Tres replicaciones
Diseño Experimentos 93
Modelo
yijkm P D i E j J k DE ij DJ ik EJ jk DEJ ijk uijkm
¦i 1D i
I
0 ¦ Jj 1DE ij 0, i ¦iI 1DE ij 0, j
¦i 1DJ ik 0, k
I
¦ ¦k 1DJ ik 0, i
K
j 1E j
J
0
¦k 1 EJ jk 0, j
K
¦ ¦ j 1 EJ jk 0, k
J
k 1J k
K
0
I u J u K tratamientos
•Normalidad
uijkm •Independencia M replicaciones
•Homocedasticidad n = IuJuKuM
Diseño Experimentos 94
Medias
yijkm P D i E j J k DE ij DJ ik EJ jk DEJ ijk uijkm
I J K M
¦ ¦ ¦ ¦ yijk
i 1 j 1k 1m 1
y xxxx
IJKM
J K M I K M I J M
¦¦ ¦ yijkm ¦ ¦ ¦ yijkm ¦ ¦ ¦ yijkm
j 1k 1m 1 i 1 k 1m 1 i 1 j 1m 1
y i xxx y x j xx y xx k x
JKM IKM IJM
K M J M I K
¦ ¦ yijkm ¦ ¦ yijkm ¦ ¦ yijkm
k 1m 1 j 1m 1 i 1k 1
y ijxx y ixk x y x jk x
KM JM IM
M
¦ yijkm
m 1
y ijk x
M
Diseño Experimentos 95
1 2 3 4
T-1 68.72 70.49 76.64 76.22 73.02
Temperatura T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6
T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40
C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50
C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23
Diseño Experimentos 96
Estimación del modelo
Pˆ y xxxx
Dˆ i y ixxx y xxxx o I 1
Eˆ j y x j xx y xxxx o J 1
Jˆ k y x x k x y x xx x o K 1
DE ij y ijxx y i xxx y x j xx y xxxx o ( I 1)( J 1)
DJ ik y i x k x y i x xx y xx k x y xx xx o ( I 1)( K 1)
EJ jk y x jk x y x j xx y xxk x y xxxx o ( J 1)( K 1)
DEJ ijk y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx o ( I 1)( J 1)( K 1)
2
2 ¦ ¦ ¦ ¦ eijkm
Vˆ sˆR2 ; eijkm yijkm y ijk x
IJK ( M 1)
Diseño Experimentos 97
Modelo estimado
yijkm
y xxxx y i xxx y xxxx y x j xx y xxxx y xxk x y xxxx
y ijxx y i xxx y x j xx y xxxx
y i xk x y i xxx y xxk x y xxxx
y x jk x y x j xx y xxk x y xxxx
y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx
yijkm y ijk x
Diseño Experimentos 98
Variabilidades
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
JKM ¦ y i xxx y xxxx
2 2
VT VE ( A)
i 1 j 1k 1m 1 i
VE ( B )
IKM ¦ y x j xx y xxxx 2 VE (C ) IJM ¦ y xxk x y xxxx
2
j k
VE ( A u B )
KM ¦ ¦ y ijxx y i xxx y x j xx y xxxx 2
i j
VE ( B u C )
IM ¦ ¦ y x jk x y x j xx y xxk x y xxxx 2
j k
VE ( A u B u C )
M ¦ ¦ ¦ y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx 2
i j k
¦ ¦ ¦ ¦ yijkm y ijk x
2
VNE
i j k m
Diseño Experimentos 99
Grados de libertad
GRADOS DE LIBERTAD
(n 1) ( I 1) ( J 1) ( K 1)
( I 1)( J 1) ( I 1)( K 1) ( J 1)( K 1)
( I 1)( J 1)( K 1) IJK ( M 1)
¦ ¦ ¦ ¦ yijkm y ijk x
2
Residual IJK ( M 1) sˆR2
i j k m
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
2
Total IJKM 1
i 1 j 1k 1m 1
Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt
> quimico = read.table('quimico.txt', header = T)
> attach(quimico)
> CON = factor(con)
> class(con)
> TEMP = factor(temp)
> class(temp)
> CAT = factor(cat)
> class(cat)
> mod_qui = aov(rendim ~ CON*TEMP*CAT )
Descomposición de la
variabilidad
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
I
JKM ¦ ( y ixxx y xxxx ) 2 I 1
sˆ A2 i 1
FA o FI 1; IJK ( M 1)
sˆR2 sˆR2
FI 1; IJK ( M 1)
Si FA d FD No se rechaza Ho
RR
D Si FA ! FD Se rechaza Ho
FD
Diseño Experimentos 106
Contraste interacción AxB
H 0 : DE11 DE12 DE IJ 0
H1 : Algún DE ij es distinto de 0
2 VE ( A u B)
Si Ho es cierto, sˆ AB
( I 1)( J 1)
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJK ( M 1)
sˆR
Si FAB ! FD Se
rechaza
Ho
A y B interaccio nan
Diseño Experimentos 107
Si FABC ! FD Se rechaza Ho
H 0 : Di Dj R.R. R.R
tIJK(M-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i x x x y xx x x ½
Dˆ i Dˆ j y i x x x y j xx x R. Acept. H0
Dˆ j y j xxx y xxxx ¾¿
V2 V2
-tD/2 tD/2
Dˆ i Dˆ j o N (D i D j , )
JKM JKM
yixxx y j xxx 2
o t IJK ( M 1) Si yixx y j xx ! tD / 2 sˆR ,
2 JKM
sˆR
JKM se rechaza Ho
84.00
82.00
80.00
Medias
78.00 Temp - 1
76.00 Temp - 2
74.00
72.00
70.00
0 1 2 3 4
Catalizador
Selección de temperatura y
catalizador.
10
10
residuals(mod_qui)
residuals(mod_qui)
residuals(mod_qui)
5
5
0
0
-5
-5
-5
-10
-10
-10
1.0 2.0 3.0 4.0 1.0 1.4 1.8 1.0 1.5 2.0 2.5 3.0
2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir
la mayor resistencia al desgaste.
2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el …n de
mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas
diferentes. Los resultados del experimento son (archivo rendimiento:txt)
Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110
2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una
probabilidad de error tipo I total, T = 0:03?
2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos cientí…cos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas (archivo error:txt)
Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9
1
Contrastar con nivel de signi…cación 0.05 si los efectos principales y la interacción son signi…cativos.
Tener en cuenta que P (F1;8 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad
1 y 8: Interpretar los resultados.
2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han in‡ado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
signi…cativa.
A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)
2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignado
al azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)
Tratamiento
A B C D
Veneno
I 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
1. ¿Son los venenos y tratamientos signi…cativos? ¿Existe interacción entre el veneno y el tratamiento?
2. Analice los residuos del modelo anterior. ¿Se veri…can las hipótesis básicas del modelo? ¿Qué
transformación de los datos hace que se veri…quen las hipótesis?
3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformación
realizada algún efecto sobre los efectos principales y la interacción?
2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición
(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el
estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):
cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en
cada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias en
la tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5
2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-
cionan una absorción mayor (95%).
2.7. Se ha realizado un diseño experimental para determinar la in‡uencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los
resultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).
Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los
cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra
la tabla de análisis de la varianza del experimento.
3
Tabla 1. Datos y medias entre paréntesis
A B C D Medias Etapa
10.3 10.5 7.2 13.0 1
11.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 2
2.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 1
25.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 2
27.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 1
31.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 2
26.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47
1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias signi…cativas con nivel de signi…cación 0.05.
3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
4
Tabla 4. ANOVA - Etapa 2
Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 162.9 3 54.31 3.35 .0555
Hidrógeno 1076 2 537.9 33.19 .0000
Interacción 94.94 6 15.82 0.976 .9762
Residual 194.5 12 16.21
Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con = 0:05)
2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.
Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura ( = 0:05):
2.9. Cierto Organismo Público (O.P.) encargado de certi…car la composición de aleaciones de metales
preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros
análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres
aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-
atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12
muestras (codi…cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-
tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):
1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado
diferencias entre las aleaciones.
2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar que
veri…can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar para
analizar los datos.
5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son
iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de
la C (11.04 %). Con esta información comparar los resultados de los laboratorios.
2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
Contrastar con = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-
dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor
es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si
no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno
de los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de ‡uorita reduce el coste de fabricación
de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de
pesetas por Tm) se muestran en la siguiente tabla (archivo f luorita2:txt):
5 X
X 3
e2ij = 10:2 y = 10:3
i=1 j=1
2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea signi…cativa con = 0:01: (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).
6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.
A B C yi s^2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13
1. (a) Dar un intervalo del 95 % de con…anza para la varianza del error experimental, 2.
3. Dado 2 , construir un intervalo que cumpla que la probabilidad de que s^2i (la varianza muestral
corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir 2 por su estimador y
con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las
observaciones.
2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de signi…cación 0.05. (La
variabilidad total es 41.90). (archivo ultrasonidos:txt)
1.
a b c Medias
1 11.0 11.4 12.7 11:7
2 9.8 10.8 13.7 11:43
3 7.5 10.6 11.5 9:87
4 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38
7
OTROS EJEMPLOS
2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar los
tensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis grupos
de tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar el
experimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:
I II III
H M H M H M
147 122 156 131 127 110
1 124 142 127 133 122 115
113 136 155 146 153 105
140 108 100 141 114 103
2 130 151 140 125 139 135
112 138 105 139 126 114
En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-
cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-
izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:
En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.
8
A B C
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
Temperatura
9
Medidor 1 Medidor 2 Medidor 3
¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetas
generadas por cada mezclador?
¿Es signi…cativa, con nivel de signi…cación del 5%, la interacción entre medidores y mezcladores?
2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variables
más importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Los
resultados del experimento son los siguientes:
Presión
Temperatura 200 215 230
Baja 90.4 90.7 90.2
Baja 90.2 90.6 90.4
Media 90.1 90.5 89.9
Media 90.3 90.6 90.1
Alta 90.5 90.8 90.4
Alta 90.7 90.9 90.1
10
2.22. Se realiza un experimento para estudiar la in‡uencia de la temperatura de operación y de tres
tipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentran
los resultados obtenidos que se presentan a continuación:
Temperatura
Cristal 100 125 150
580 1090 1392
1 568 1087 1380
570 1085 1386
550 1070 1328
2 530 1035 1312
579 1000 1299
546 1045 867
3 575 1053 904
599 1066 889
2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseño
un experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintas
variedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.
Los resultados obtenidos en gramos fueron los siguientes:
I II III IV V
1 296 357 340 331 348
2 402 390 431 340 320
3 437 334 426 320 296
4 303 319 310 260 242
5 469 405 442 487 394
6 345 342 358 300 308
7 324 339 357 352 220
8 488 374 401 338 320
Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientes
preguntas:
La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir
¿cuál elegiría?
11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto del
terreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendo
la variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestras
de licor de maíz. A continuación se presenta la tabla de los datos.
A B C D
1 89 88 97 94
2 84 77 92 79
3 81 87 87 85
4 87 92 89 84
5 79 81 80 88
El interés principal del experimento era el estudio de la e…cacia de los tres sistemas ¿ha resultado
adecuada la estrategia?
Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.
2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estado
de corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaron
muestras de agua corriente haciendo variar los factores Campus, Tipo de edi…cio y antigüedad del edi…cio.
12
Se midió la concentración de hierro en el agua corriente (mg=dm3 ) y para cada posible combinación de
factores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que se
presentan en la siguiente tabla.
Factor Concentración de Fe
Antigüedad Tipo Campus
Viejo Académico Medford 0,23 0,28
Nuevo Académico Medford 0,36 0,29
Viejo Residencial Medford 0,03 0,06
Nuevo Residencial Medford 0,05 0,02
Viejo Académico Somerville 0,08 0,05
Nuevo Académico Somerville 0,03 0,08
Viejo Residencial Somerville 0,04 0,07
Nuevo Residencial Somerville 0,02 0,06
Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.
13
Regresión
1: Regresión simple I
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
Consumo (litros/100 Km)
6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 2
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 3
yi E 0 E1 xi
E1
yi
1
E0
xi
Regresión Lineal 4
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi
E 0 , E1 ,V 2 : parámetros desconocid os
Regresión Lineal 5
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi V
E 0 E1 xi
Regresión Lineal 6
Hipótesis del modelo
Linealidad
E[yi ]= E0+E1xi
Parámetros
Normalidad
yi|xi N (E0+E1xi,V2)
E0
Homocedasticidad E1
Var [yi|xi] = V2
V2
Independencia
Cov [yi, yk] = 0
Regresión Lineal 7
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
V
Regresión Lineal 8
Estimación
n
M ( E 0 , E1 ) ¦(y
i 1
i E 0 E1 xi ) 2
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) 0 ¦y nEˆ0 Eˆ1 ¦ xi
dE 0
i
i 1
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) xi 0 ¦x y Eˆ0 ¦ xi Eˆ1 ¦ xi2
dE 0
i i
i 1
n n
y Eˆ0 Eˆ1 x ½ ¦ ( yi y )( xi x) ¦ ( xi x) 2
°i1 ˆ i1
n
¾ E
¦x y
i 1
i i n Eˆ0 x Eˆ1 ¦ xi n °
2
¿
n
1
n
cov( xi , yi )
Eˆ1 ; Eˆ0 y Eˆ1 x
var( xi )
Regresión Lineal 9
Regresión Lineal 10
Estimación V2 : máxima verosimilitud
n n 1 n
L( E 0 , E1, V ) log(2S ) log V 2 ¦ ( yi E 0 E1xi ) 2
2 2
2 2 2V i 1
dL n 1 1 n 2
¦ ( yi Eˆ0 Eˆ1xi ) 0
2 2 2 4i 1
dV Vˆ 2Vˆ
n
¦ ( yi Eˆ0 Eˆ1xi ) 2
Vˆ 2 i 1
n
ei yi Eˆ 0 Eˆ1 xi
n ½ n
¦ ei 0 °
° 2
¦ ei2
i 1 i 1
¾ sˆ R
n
n2
¦ ei xi 0°
°
i 1 ¿
Regresión Lineal 11
Estimación
Máxima verosimilitud
1 ª 1 n 2 º½
Max ® exp ¦ (
«¬ 2V 2 i 1 iy E E x ) »¼ ¾
¯ 2S V
n/2 n 0 1 i
¿
Mínimos cuadrados
n
Mín ¦ ( yi E 0 E1 xi ) 2
i 1
Eˆ0 y Eˆ1 x
cov( xi , yi ) ¦i 1 ( xi x )( yi y )
n
Eˆ1
var( xi ) ¦i 1 ( xi x ) 2
n
Regresión Lineal 12
Recta de regresión
Eˆ1
cov( xi , yi )
yˆ Eˆ 0 Eˆ1 x
var( xi )
y
Pendiente
Eˆ1
Eˆ 0 y Eˆ1 x
x
Regresión Lineal 13
Estimación
consumo y peso de automóviles
25
Núm. Obs. Peso Consumo
(i) kg litros/100 km
1 981 11
2 878 12 20
Consumo (litros/100 Km)
3 708 8
4 1138 11
5 1064 13 15
6 655 6
7 1273 14
8 1485 17
9 1366 18 10
10 1351 18
11 1635 20
12 900 10 5
13 888 7
14 766 9
15 981 13
16 729 7 0
17 1034 12 500 700 900 1100 1300 1500 1700
18 1384 17 Peso (Kg)
19 776 12
835 10
cov( xi , yi )
20
1225.2
Eˆ1
21 650 9
22 956
688
12
8
0.0117
var( xi ) 104446.6
23
24 716 7
25 608 7
802 11
Regresión Lineal 14
Residuos
,
yi Eˆ0 Eˆ1 xi ei
,
Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
Regresión Lineal 15
n
¦ ei2
Residuos sˆR2 i 1
; ei yi yˆ i
n2
,
yi Eˆ0 Eˆ1 xi ei
,
Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
Regresión Lineal 16
Ejemplo: estimación
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20
E0 E1 xi ui , V2
28 688 7 8,00 -1,00
29
30
1461
1556
17
15
17,07
18,18
-0,07
-3,18
yi
Regresión Lineal 17
Propiedades de Eˆ1
cov( xi , yi ) 1 n
Ê1 ¦ xi x yi y
s x2 ns x2 i 1 0
1 n 1 n
¦
ns x2 i 1
xi x y i ¦ xi x y
ns x2 i 1
xi x
wi
n
¦ ¨¨
§ xi x ·
¸y w1 y1 w2 y2 wn yn
nsx2
2 ¸ i
i 1 © ns x ¹
1 n
x ¦in 1 wi ¦i 1 xi x 0
ns x2
1 n 1 n
x ¦in 1 wi xi ¦i 1 xi x xi 2 ¦i 1
xi x xi 1 2 ¦in 1 xi x x 1 n
2 ¦i 1
xi x 2 1
ns x2 ns x ns x ns x
2
§ 1 · n 1
x¦ w n
i 1
2
¨¨ 2 ¸¸ ¦i 1 xi x 2
ns x2
i
© ns x ¹
Regresión Lineal 18
y, Eˆ1 son v.a. independientes
§ y1 · ½
¨ ¸ °
1 1 1 §1 1 1 ·¨ y2 ¸ T °
y y1 y2 yn ¨ ¸¨ ¸ a Y
n n n ©n n n¹ °
¨ ¸ °
¨y ¸ °
© n¹
¾
§ y1 · °
¨ ¸
¨ y2 ¸ °
Eˆ1 w1 y1 w2 y2 wn yn w1 w2 wn ¨ ¸ w Y ° T
°
¨ ¸
¨y ¸ °
© n¹ ¿
V2 n
cov( y , Eˆ1 ) a var( Y )w
T
n
¦w
i 1
i 0
Regresión Lineal 19
Distribución de Eˆ1
yi o N ( E 0 E1 xi ,V 2 )
Eˆ1 w1 y1 w2 y2 wn yn o Comb. lineal de normales
E[ Eˆ1 ] E[ w1 y1 w2 y2 wn yn ]
w1 E[ y1 ] w2 E[ y2 ] wn E[ yn ] ( E[ yi ] E 0 E1 xi )
E 0 (¦ wi ) E1 (¦ wi xi ) E1
Var[ Eˆ1 ] Var[ w1 y1 w2 y2 wn yn ]
w12Var[ y1 ] w22Var[ y2 ] wn2 [ yn ] (Var[ yi ] V 2 )
n V2
(¦ wi2 )V 2
ns x2
§ V 2
·
i 1
ˆ
E1 o N ¨¨ E1 , 2 ¸¸
© ns x ¹
Regresión Lineal 20
Parámetro E1 y estimador Eˆ1
Eˆ1 0.0117 litros cada 100km/kg
1.17 litros cada 100km/100 kg
sˆR 1.54
SE ( Eˆ1 ) 0.087
ns X 30 u 3.2 t28
sˆR
E1 Eˆ1 r tD / 2 tn-2
ns x
1-D
E1 1.17 r 2.05 u 0.08 D/2
E1 1.17 r 0.16 .
1.01 d E1 d 1.33 -tD/2 tD/2
-2.05 2.05
Simple Linear Regression 21
sˆR
SE ( Eˆ1 )
ns X
Regresión Lineal 23
Distribución de ŝR2
n
¦ ei2 2
(n 2) sˆR
i 1 o F n2 2
V2 V2
Regresión Lineal 24
Contraste principal de regresión:
¿depende y de x?
H 0 : E1 0
H 1 : E1 z 0
yi yi
yi E 0 E1 xi ui yi E 0 ui
xi xi
H0 es falso H0 es cierto
x e y están relacionados x e y no están relacionados
Regresión Lineal 25
H 1 : E1 z 0 Eˆ1 E1
o N (0,1)
Eˆ1 E1
o tn2
V sˆR
ns x ns x
R.R
Eˆ1 R.R.
t1 ; tn-2
sˆR
1-D
ns x D/2
R. Acept.
t1 ! t n 2;D / 2 Se rechaza Ho
-tD/2 tD/2
Regresión Lineal 26
Ejemplo: D = 0.05
H 0 : E1 0 yˆ i 0.071 0.0117 xi ; sˆR 1.54
R.R. t28 R.R
H 1 : E1 z 0
0.017 0.025 0.025
t0 13.4
1.54 /( 30 u 323.2) …
-2.05 2.05
27
H 0 : E1 0
P-valor H 1 : E1 z 0
H1 : E1 z 0 H 0 : E1 0
Contraste: ordenada en el origen
H0 : E0 0
yˆ i Eˆ0 Eˆ1 xi
H1 : E 0 z 0
V2 x 2
Eˆ0 o N ( E 0 , (1 2 ))
n sx
Eˆ0
t0 2
;
sˆR x
1 2
n sx
t0 ! t n2;D / 2 Se rechaza Ho
Regresión Lineal 29
Regresión Lineal 30
Descomposición de la
variabilidad en regresión
yi E 0 E1 xi ui
yi Eˆ0 Eˆ1 xi , ei
yˆ y yˆ
i i i
yi yˆ ( y yˆ ) (restando y )
i i i
( yi y ) ( yˆ y ) ( y yˆ ) (elevando al cuadrado y sumando)
i i i
n n n
¦ ( yi y ) 2
¦ ( yˆi y ) 2 ¦ ( yi yˆi ) 2
i 1 i 1 i 1
VT VE VNE
Regresión Lineal 31
Coeficiente de determinación R2
n
VE ¦ ( yˆi y ) 2 VT VE VNE
i 1
2 VE
n R
VNE ¦ ( yi yˆ i ) 2 VT
i 1
0 d R2 d 1
n
VT ¦ ( yi y ) 2 Mide el porcentaje de VT que
está explicado por el regresor
i 1
n
yˆ i y Eˆ1 ( xi x ) : VE Eˆ12 ¦ ( xi x ) 2 Eˆ12 ns x2
i 1
Regresión Lineal 32
Coef. determinación
R 2
1 R2 0.80
R2 0.50 R2 0
Regresión Lineal 33
Contraste F
H 0 : E1 0 Eˆ1
yˆ i Eˆ0 Eˆ1 xi
H 1 : E1 z 0
o F12
VE
(Si H o es cierto)
2
V VE VE
F o F1 ,n 2
2
¦in 1 ei2 VNE/(n-2 ) 2
(n 2) sˆR sˆR
o F n22
VNE
V2 V2
V2
VE VNE F ! FD Se rechaza H0
, son independie ntes
V2 V2
Regresión Lineal 34
Contraste F yˆ i Eˆ0 Eˆ1 xi
Rechazo H0
F1,n-2 Acep. H0
Fα
α = 0.05
Regresión Lineal 35
n
H 0 : E1 0 VE ¦ ( yˆ i yi ) 416.8
i 1
H 1 : E1 z 0 sˆR2 2.38
VE 416.8
F 175.1
sˆR2 2.38
F1,28
α = 0.05
175.1 ! 4.2 Se rechaza H 0
4.2
Regresión Lineal 36
Tabla de Análisis de la Varianza
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F
Explicada (VE) ¦ ( yˆ y) 2
1 ¦ ( yˆ y) 2 ¦ ( yˆ i y)2
i i
sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n2 sˆ 2
R
Total (VT) ¦(y i y)2 n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
Análisis de la varianza 37
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F
R2 0.862
Análisis de la varianza 38
Ejemplo: R2 yˆ i 0.071 0.0117xi ;
sˆ R2
15
5
6
1064
655
13
6
12,41
7,61
0,59
-1,61
10
2.38
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05 5
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
0
12 900 10 10,49 -0,49
500 700 900 1100 1300 1500 1700
13 888 7 10,35 -3,35
Peso (Kg)
14 766 9 8,91 0,09 n
15
16
981
729
13
7
11,44
8,48
1,56
-1,48
VE ¦ ( yˆ i y ) 416.8
17 1034 12 12,06 -0,06 i 1
18 1384 17 16,16 0,84
776 12 9,03 2,97 n
¦ ( yi yˆ i ) 66.64
19
20
21
835
650
10
9
9,72
7,55
0,28
1,45
VNE
22 956 12 11,14 0,86 i 1
23
24
688
716
8
7
8,00
8,33
0,00
-1,33 VT VE VNE 483.4
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
416.8
27 1578
688
18
7
18,44
8,00
-0,44
-1,00
R2 86.2%
483.4
28
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión Lineal 39
Regresión con R
ARCHIVO TEXTO: coches.txt
Regresión Lineal 40
Regresión con R: Estimación
Regresión Lineal 41
Gráfico en R
Regresión Lineal 42
Ejemplo 2: Pearson-Lee Data
Estimation with R
Conclusiones Principales
1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
Eˆ1 0.54
2. La relación es positiva: “A madre alta hija alta.”
La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que las
madres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) pero
más bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienen
hijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del
término “regresión”, que indica que los valores extremos de una generación tienden a regresa o
revertir hacia la media en la siguiente.
Regresión
2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo
yi yˆ i
(i) kg litros/100 km
1
2
981
878
11
12
11,44
10,23
-0,44
1,77
ei
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
25
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86 20
1485 17 17,35 -0,35
Consumo (litros/100 Km)
8
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89 15
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56 10
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84 5
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86 0
23 688 8 8,00 0,00 500 700 900 1100 1300 1500 1700
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06 Peso (Kg)
26 802 11 9,34 1,66
0.071 0.0117xi ; sˆ R2
1578 18 18,44 -0,44
yˆ i
27
28
29
688
1461
7
17
8,00
17,07
-1,00
-0,07
2.38
30 1556 15 18,18 -3,18
Regresión Lineal 3
Diagnosis del Modelo
Núm. Obs. Peso Consumo Predicción Residuos
(i) kg litros/100 km
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20
Regresión Lineal 4
Regresión Lineal 5
No linealidad
Regresión Lineal 6
No homocedasticidad
Regresión Lineal 7
No homocedasticidad, ni
linealidad
Regresión Lineal 8
Observaciones atípicas
Regresión Lineal 9
Residuos Aceptables
Regresión Lineal 10
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
120 99,9
99
100
probabilidad
95
80 80
60 50
20
40
5
20 1
0 0,1
-9 -6 -3 0 3 6 9 -6 -4 -2 0 2 4 6
Residuos Residuos
Regresión Lineal 11
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente al regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi E 0 E1 x1i ui
log yi E 0 E1 log x1i ui
Regresión Lineal 12
0 0
xi xi
ei ei
0 0
Normalidad ok Linealidad ok y
Homocedasticidad ok
Regresión Lineal 14
Regresión Lineal 15
Cars: mpg ~ weight
= 0.69 ̂ = 4.34
Regresión Lineal 16
Cars: Figuras
No hay linealidad ni homocedasticidad
Regresión Lineal 17
Cars: cons ~ weight
TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg
Y X
…
Regresión Lineal 18
= 0.79 ̂ = 1.78
Regresión Lineal 19
Cars: Cambio Variable
Mejora la linealidad y homocedasticidad
Regresión Lineal 20
Cars: Normalidad
Normalidad no es problemática
Regresión Lineal 21
Cars: Instrucciones con R
> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)
Regresión Lineal 22
Tabla 2.1
Regresión Lineal 23
Cars: Instrucciones con R
Regresión Lineal 24
Tabla 2.2
Regresión Lineal 25
Forbes (Ejemplo 3)
Ejemplo “Forbes”
En un artículo de 1857 un físico escocés llamado “forbes.txt”
James D. Forbes presentó una serie de experimentos Temp Pres
realizados para estudiar la relación entre presión 1 194.5 20.79
atmosférica y punto de ebullición del agua. Forbes 2 194.3 20.79
3 197.9 22.40
sabía que la altitud podía ser determinada a partir de 4 198.4 22.67
la presión atmosférica medida con un barómetro, con 5 199.4 23.15
menores presiones a medida que aumenta la altitud. A 6 199.9 23.35
7 200.9 23.89
mediados del siglo XIX los barómetros eran 8 201.1 23.99
instrumentos muy frágiles y Forbes pensó que se 9 201.4 24.02
podía sustituir la medidas de la presión con medidas 10 201.3 24.01
11 203.6 25.14
de la temperatura de ebullición del agua. Recogió 12 204.6 26.57
datos de 17 emplazamientos en los Alpes y los 13 209.5 28.49
montes de Escocia. En cada lugar se midió con un 14 208.6 27.76
15 210.7 29.04
barómetro la presión en pulgadas de mercurio (Pres) 16 211.9 29.88
y la temperatura de ebullición del agua en grados 17 212.2 30.06
Fahrenheit (Temp) empleando un termómetro. Los
Weisberg, S. (2005). Applied Linear Regression, 3rd
datos se encuentran en el archivo “forbes.txt” edition. New York: Wiley.
Regresión Lineal 27
Forbes: Conclusiones Modelo Inicial
Regresión Lineal 28
Forbes: Diagnosis
Regresión Lineal 29
Forbes: Instrucciones R
> forbes <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes)
> m <- lm(Pres ~ Temp)
> summary(m)
Regresión Lineal 30
Regresión Lineal 31
Forbes: Modelo 1
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 132.03 -0.2480225
2 194.3 20.79 131.79 131.85 -0.0688990
3 197.9 22.40 135.02 135.08 -0.0537700
4 198.4 22.67 135.55 135.53 0.0187713
5 199.4 23.15 136.46 136.42 0.0331010
6 199.9 23.35 136.83 136.87 -0.0411189
7 200.9 23.89 137.82 137.77 0.0561898
8 201.1 23.99 138.00 137.94 0.0584761
9 201.4 24.02 138.06 138.21 -0.1559337
10 201.3 24.01 138.04 138.12 -0.0844563
11 203.6 25.14 140.04 140.18 -0.1470658
12 204.6 26.57 142.44 141.08 1.3599445
13 209.5 28.49 145.47 145.47 0.0015070
14 208.6 27.76 144.34 144.66 -0.3197358
15 210.7 29.04 146.30 146.54 -0.2428181
16 211.9 29.88 147.54 147.62 -0.0791613
17 212.2 30.06 147.80 147.89 -0.0870083
= 0.995 ̂ = 0.379
Regresión Lineal 32
Forbes : modelo 1
Regresión Lineal 33
Forbes: Modelo 1
Regresión Lineal 34
Forbes: Instrucciones R
> forbes1 <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes1)
> m1 <- lm(100*log10(Pres) ~ Temp)
> summary(m1)
Regresión Lineal 35
Forbes: Instrucciones R (cont)
> forbes1$Lpres <- 100*log10(Pres)
> forbes1$Pred <- predict(m1)
> forbes1$Resid <- residuals(m1)
> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1
Regresión Lineal 36
Forbes: Modelo 2
(ELIMINANDO OBSERVACIÓN Nº 12)
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 131.99 -0.2006699
2 194.3 20.79 131.79 131.81 -0.0224480
3 197.9 22.40 135.02 135.02 0.0089107
4 198.4 22.67 135.55 135.46 0.0837061
5 199.4 23.15 136.46 136.35 0.1025441
6 199.9 23.35 136.83 136.80 0.0305783
7 200.9 23.89 137.82 137.69 0.1323953
8 201.1 23.99 138.00 137.87 0.1355832
9 201.4 24.02 138.06 138.13 -0.0774742
10 201.3 24.01 138.04 138.05 -0.0064475
11 203.6 25.14 140.04 140.10 -0.0586881
12* 204.6 26.57 142.44 140.99 1.4527324
13 209.5 28.49 145.47 145.35 0.1164833
14 208.6 27.76 144.34 144.55 -0.2088168
15 210.7 29.04 146.30 146.42 -0.1224318
16 211.9 29.88 147.54 147.49 0.0466349
17 212.2 30.06 147.80 147.76 0.0401403
Tabla 5.1
Lpres = −41.33 + 0.8911 Temp
(1.003) (0.0049)
La obs. 12 no se ha utilizado en
la estimación del modelo
= 0.9996 ̂ = 0.1136
Regresión Lineal 37
Forbes : modelo 2
Regresión Lineal 38
Forbes: Modelo 2
Regresión Lineal 39
Forbes: Instrucciones R
> # Modelo m2 de Forbes
> out <- abs(residuals(m1)) > 3*0.3792
> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])
> summary(m2)
Regresión Lineal 40
Regresión Lineal 41
FEV (Ejemplo 4)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
Regresión Lineal 42
Regresión Lineal 43
FEV: modelo 1
log(fev) = −2.27 + 0.052 ht
(0.063) (0.0010)
= 0.7956 ̂ = 0.1508
Regresión Lineal 44
FEV: modelo 1
Regresión Lineal 45
5 ht
g( ) = −2.27 + 0.052
log(fev)
FEV: Modelo 1
((0.063)
0.063)) ((0.0010)
0.0010))
= 0.7956
0.7956 ̂ = 0.1508
0.1508
1
Regresión Lineal 46
Tabla 6.2
Regresión Lineal 47
FEV : Instrucciones de R
> # FEV (ejemplo 4)
> dat <- read.table("fev.dat",header=TRUE)
> head(fev) #tabla 6.1
> attach(dat)
> m<-lm(fev~ht) # modelo m inicial
> par(mfrow=c(1,2))
> plot(ht,fev,col="blue") # figura 6.1
> abline(m,col="red",lwd=2)
> plot(ht,residuals(m),col="blue") # figura 6.2
> abline(c(0,0),col="red",lwd=2,lty=2)
> m1 <- lm(log(fev) ~ ht)
> summary(m1) # modelo estimado tabla 6.2
> plot(ht,log(fev),col="blue") # figura 6.3
> abline(m1,col="red",lwd=2) # figura 6.3
> plot(ht,residuals(m1),col="blue") # figura 6.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> par(mfrow=c(1,2)) # figura 6.5 y 6.6
> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")
> qqnorm(residuals(m1),col="blue")
> qqline(residuals(m1),col="red",lty=2,lwd=2)
Regresión Lineal 48
Brains (ejemplo 5)
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos
62 observaciones, 2 variables
Descripción:
Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos y
del cerebro en gramos BrainWt BodyWt
Arctic_fox 44.500 3.385
Owl_monkey 15.499 0.480
Variables: Beaver 8.100 1.350
BrainWt Peso del cerebro (gramos) Cow 423.012 464.983
Gray_wolf 119.498 36.328
BodyWt Peso del Cuerpo (kilogramos) Goat 114.996 27.660
Tabla 7.1
OBJETIVO: Estudiar la relación entre
peso del cerebro y peso del cuerpo.
Fuentes
Allison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutional
correlates. Science, 194, 732-734.
Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley
Regresión Lineal 49
Brains: Transformación
• En la escala original (figura 7.1) no tiene sentido el
modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos
variables (figura 7.2) se aprecia una clara relación lineal
Regresión Lineal 50
Brains: modelo 1
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
(0.096) (0.028)
= 0.9208 ̂ = 0.6943
Regresión Lineal 51
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
= 0.9208 ̂ = 0.6943
Regresión Lineal 52
Tabla 7.2
Regresión Lineal 53
Brains : Instrucciones de R
> brains <- read.table("brains.txt",header=TRUE)
> head(brains) # tabla 7.1
> par(mfrow=c(1,2))
> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1
> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000
> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1
> m <- lm(BrainWt ~ BodyWt)
> abline(m,col="red",lwd=2) # figura 7.1
> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3
> m1 <- lm(log(BrainWt) ~ log(BodyWt))
> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3
> summary(m1) # tabla 7.2
> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)
> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)
Regresión Lineal 54
Regresión Lineal 55
Regresión
3: Regresión Múltiple I
Regresión Lineal 2
Modelo regresión múltiple
yi E 0 E1x1i E 2 x2i E k xki ui ,
ui o N (0, V 2 )
Regresión Lineal 3
Estimación
yi E0 E1 x1i E 2 x2i E k xk i ui , ui o N (0, V 2 )
=
=
⋮
= − ̅ − ̅ −⋯− ̅
¦e 2
i
ei yi yˆ i o sˆR2 i 1
g.l. = n-k-1
n k 1
Regresión Lineal 4
Notación matricial
Y Xβ U
U o N (0, V 2 I )
Regresión Lineal 5
Estimación mínimo-cuadrática
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¨ ¸
¸¨ ¸ ¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
¨y ¸ ¨1 xkn ¹© E k ¹ ¨© en ¸¹
¸¨ ˆ ¸
© n¹ © x1n x2n
Y Xβˆ e
donde el vector e cumple
2 n
e ¦ ei2 es mínimo
i 1
Regresión Lineal 6
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
§1 x11 x21 xk1 · § e1 ·
¨1 x12 x22 xk 2 ¸, e ¨e ¸
X ¨ ¸ ¨ 2 ¸
¨ ¸ ¨ ¸
©1 x1n x2 n xkn ¹ © en ¹
¦1nei 0
° n
°
X Te 0 ® ¦1 ei x1i 0
° n
°¯ ¦1 ei xki 0
Regresión Lineal 7
Mínimos cuadrados
Y Solución MC
x1
Y
e ˆ
YY
x1
x2
ˆ
Y ˆ
Xβ
X Te 0 x2
X T Y X T Xβˆ X T e
X T Y X T Xβˆ βˆ ( X T X) 1 X T Y
Regresión Lineal 8
Matriz de proyección V
Y e (I V)Y
x1 Val. Previstos
ˆ Xβˆ
Y
ˆ
Y VY ˆ X(X T X) 1 X T Y
Y
1 ˆ VY
Y
Residuos
e Y Xβˆ Y VY V X(XT X) 1 XT
(I V)Y Simétrica V=VT
Idempotente VV=V
Regresión Lineal 9
Distribución de probabilidad
de β̂
Y o N ( Xβ, V 2I )
βˆ (X T X)1 X T Y CY (siendo C (X T X)1 X T )
βˆ o Normal
E[βˆ ] CE[Y ] CXβ (X T X)1 X T Xβ β
Var[βˆ ] Var[CY] CVar[Y ]CT
((X T X)1 X T )(V 2I )((X T X)1 X T )T
V 2 (X T X)1 X T X(XT X)1
V 2 (X T X)1
Regresión Lineal 10
Distribución de probabilidad
de β̂
βˆ o N (β, V 2 (X T X) 1 )
Eˆi o N ( E i , V 2 qii )
§ Eˆ 0 · § E0 · § q00 q01 q0 k ·
¨ ¸ ¨E ¸ ¨q
βˆ ¨ Eˆ1 ¸ β ( XT X) 1 q11 q1k ¸
¨ 1¸ Q ¨ 10 ¸
¨ ¸ ¨ ¸ ¨ ¸
¨ Eˆ ¸ © Ek ¹ © qk 0 qk1 qkk ¹
© k¹
dim(Q) (k 1) u (k 1)
Regresión Lineal 11
Residuos
Y Xβˆ e
Observados Previstos Residuos
Regresión Lineal 12
Varianza Residual
e Te ¦in 1 ei2
V2 V2
o F n2 k 1
2 ¦in 1 ei2
sˆR
¦in 1 ei2 n k 1
E[ ] n k 1 2
V2 (n k 1) sˆR
o F n2k 1
¦in 1 ei2 V2
E[ ] V2
n k 1
Regresión Lineal 13
Contraste individual Ei
H 0 : Ei 0
yi E 0 E1x1i E k xki ui
H1 : E i z 0
Eˆi o N ( E i , V 2 qii )
Eˆi E i Eˆ1 E1
o N (0,1) o t n k 1
V qii sˆR qii
Eˆi
ti ; ti ! t n k 1;D / 2 Se rechaza Ho
sˆR qii
Regresión Lineal 14
Contrastes individuales
R.R. R.R
Eˆ 1 tn-k-1
t1 ;
SE ( Eˆ ) 1
1-D D/2
t1 ! t n k 1;D / 2 Se rechaza Ho D/2
R. Acept.
-tD/2 tD/2
Regresión Lineal 15
H 0 : Ei 0
P-valor H1 : E i z 0
n-k-1
… … … … …
SE( )
=
SE( )
Regresión Lineal 17
̂ = 0.1476
Regresión Lineal 18
Modelo en diferencias a la
media
yi Eˆ0 Eˆ1x1i Eˆ k xki ei n
¦ yi
n
nEˆ0 Eˆ1 ¦ x1i Eˆ k
n n
¦ xki ¦ ei
i 1 i 1 i 1 1
Eˆ0 Eˆ1x1 Eˆ k xk
i,
y 0
ˆ Y ~ˆ ~ˆ
Y Xb YY Xb e
Regresión Lineal 19
Modelo en diferencias a la
media
~ ~
Y Xb U
§ y1 y · § y· § E1 · § Eˆ1 ·
¨ ¸ ¨ ¸ ¨ ¸ ¨ ¸
~ ¨ y2 y ¸ ¨ y¸ ¨ E2 ¸ ˆ ¨ Eˆ2 ¸
Y ¨ , Y , b ¨ ¸, b ¨ ¸
¸ ¨¸
¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸
© n
y y ¹ © ¹
y © Ek ¹ © Eˆk ¹
§ x11 x1 x21 x2 xk1 xk ·
¨ ¸
~ ¨ x12 x1
X
x22 x2 xk 2 xk ¸
¨ ¸
¨¨ ¸
© x1n x1 x2n x2 xkn xk ¸¹
~ T ~ 1 ~ T ~ ~ ~
ˆb (X X) X Y bˆ o N (b, σ 2 ( XT X) 1 )
Regresión Lineal 20
Descomposición de la
variabilidad en regresión
Regresión Lineal 21
Coeficiente de determinación R2
Regresión Lineal 22
2
Coef. determinación corregido R
n
VE VT VNE VNE (n k 1) sˆR2 ¦ ( yi y ) 2
R2 1 1 sˆ 2y i 1
VT VT VT (n 1) sˆ y2 n 1
sˆR2 VNE n 1
R2 1 2 1 u
sˆ y VT n k 1
n 1
1 (1 R ) u
2
n k 1
= 1 − (1 − 0.8071) × =0.8065
Regresión Lineal 23
VE Acep. H0
Rechazo H0
2
sˆ
E oV 2 (Si H o es cierto)
k
sˆR2 o V 2 α = 0.05
sˆE2
F o Fk ,n k 1
sˆR2
F ! FD Se rechaza H0 F1,n-2 Fα
Regresión Lineal 24
Contraste F
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
VE 58.436
sˆE2 29.268
H 0 : E1 E2 0 k 2
sˆR2 0.021
H1 : algún E i z 0 sˆE2 29.268
F 1362
F2,651 sˆR2 0.021
α = 0.05
1362 ! 3.01 Se rechaza H 0
sˆE2
Explicada (VE) ¦ ( yˆ i y) 2
k sˆ 2
E sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n k 1 sˆR2
Total (VT) ¦(y i y)
2
n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
Análisis de la varianza 26
Tabla de Análisis de la Varianza
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F
58.536
R2 0.8071
72.526
Análisis de la varianza 27
Regresión Lineal 28
Ejemplo 1: Cars
Depend Regresores
Y X1 X2 X3 X4
Regresión Lineal 29
Datos Resultados n
VE ¦ ( yˆ i y)2 4725.0
Y X1 X2 X3 X4 i 1
n
VNE ¦(y
i 1
i yˆ i ) 2 1037.9
n
VT ¦(y
i 1
i y)2 5762.9
2
1037.9
̂ = =
− −1 386
= 2.7
4725
= = = 81.99
5762.9
Regresión Lineal 30
DIAGNOSIS: residuos ~ regresores
Regresión Lineal 31
Diagnosis
Linealidad Normalidad
Homocedasticidad ok
ok
Regresión Lineal 32
Resumen del modelo
Regresión Lineal 33
Regresión Lineal 34
Conclusiones modelo final
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
̂ = 1.64 = 81.99
Regresión Lineal 35
Regresión Lineal 36
CARS: Todos los modelos
Modelo
1
engine
2
horse
3
weight
4
accel ̂
1 0,032 1,874 76,28 76,22
0,0009
Regresión Lineal 37
Conclusiones Generales
1. El que la relación lineal entre dos variables sea significativa no implica que exista
relación de CAUSALIDAD entre las variables. Se debe interpretar como asociación
entre las variables: los coches con más pesos presentan mayor consumo que los
coches con menos peso.
Regresión Lineal 38
Conclusiones (cont.)
7. La selección del modelo depende del objetivo. Siempre el modelo con más
regresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelos
muy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2
igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos el
modelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluye
además los cc del motor (engine) como regresor con un aumento en R2
despreciable (ahora 81.86%). En este modelo los tres coeficientes son
significativos. Si añadimos la variable accel, llegamos al modelo completo con
R2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y con
ello la variabilidad no explicada. La desviación típica residual también suele
disminuir (hay que tener en cuenta que el denominador de la varianza residual
también disminuye). Los modelos 23, 123 y 1234 tienen una desviación típica
residual muy parecida y próxima a 1.64 litros/100km. La interpretación
(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datos
del peso (weight), potencia (horse), cc (engine) y aceleración (accel) del coche
la distribución de su consumo tiene media la proporcionada por el modelo y
desviación típica 1.64 litros/100km.
Regresión Lineal 39
Regresión Lineal 40
Cerezos negros: Datos
Regresión Lineal 41
Gráficos x-y
Regresión Lineal 42
Primer modelo:cerezos negros
Volumen β0 β1 Diametro β2 Altura Error
Regresión Lineal 43
Diagnosis
Regresión Lineal 44
Transformación
vol | k u altura u diámetro 2
log(vol) | E 0 E1 log(altura) E 2 log(diámetro) error
Regresión Lineal 45
Antes
Ahora
Regresión Lineal 46
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de linealidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
Regresión Lineal 47
Ejemplo 3: Tabaco
Ejemplo “Tabaco” Monóxido de Carbono (CO)
25 observaciones, 3 variables
Variables
alq contenido en alquitrán mg
nico contenido en nicotina mg
co monóxido de carbono CO mg
Regresión Lineal 48
CO ~ nico CO ~ alq
= 91.86 ̂ = 1.413
Regresión Lineal 49
Efecto de la multicolinealidad
(alta correlación entre nico y alq)
Regresión Lineal 50
Regresión con R
Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para D=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)
Regresión Lineal 52
Multicolinealidad
Regresión Lineal 53
Identificación de la multicolinealidad:
Matriz de correlación de los regresores.
Regresión Lineal 54
Gráficos consumo - xi
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
500 1000 1500 2000 0 40 80 120 160 200 240
peso potencia
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
0 2 4 6 8 8 11 14 17 20 23 26
(X 1000)
cilindrada aceleracion
Regresión Lineal 55
Consumo y aceleración
Regresión Lineal 56
Multicolinealidad: efecto en la
varianza de los estimadores
yi E 0 E1x1i E 2 x2i ui
ª§ Eˆ ·º
var «¨¨ 1 ¸¸» X~ T X~ 1V 2 ~T X
X ~ nS XX S XX
§ s12
¨
¨s
s12 ·¸
s22 ¸¹
§ s12
¨
¨r s s
r12 s1s2 ·¸
s22 ¸¹
¬© Eˆ 2 ¹¼ © 12 © 12 1 2
§ 1 r12 ·
¨ 2 2 2 ¸
¨ s1 (1 r12 ) s1 s2 (1 r12 )¸
| S XX | s12 s22 (1 r12
2
) S XX
1
¨ ¸
r12 1
¨ ¸
¨ s s (1 r 2 ) s22 (1 r12
2
) ¸
© 1 2 12 ¹
§ V 2
r12V 2 ·
¨ ¸
ª§ Eˆ1 ·º ¨ ns12 (1 r122 ) 2 ¸
ns1 s2 (1 r12 )
var «¨¨ ¸¸» ¨ ¸
«¬© Eˆ 2 ¹»¼
2
¨ r12V V2 ¸
¨ ns s (1 r122 ) ns2 (1 r12 ) ¸¹
2 2
© 1 2
Regresión Lineal 57
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores E
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresión Lineal 58
Regresión
4. Regresión Múltiple: Variables
Cualitativas y Predicción
Regresión Lineal 2
Variables cualitativas como
regresores
°
Europa
Origen ® Japón
°̄ USA 0 si i JAPON
Z JAP i ®1 si i JAPON
¯
0 si i USA
ZUSA i ®1 si i USA
¯
0 si i EUROPA
Z EUR i ®1 si i EUROPA
¯
Regresión Lineal 3
Variables cualitativas
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEUR
l/100Km cc CV kg segundos
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +
Regresión Lineal 4
Interpretación var. cualitativa
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +
Regresión Lineal 5
E0 + DJAP
xi
Regresión Lineal 6
Modelo estimado (con R)
Regresión Lineal 7
Interpretación
Se introduce en el modelo la variable cualitativa
ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el
modelo se utiliza USA como referencia.
El p-valor del coeficiente asociado a OrigenJAP es
0.1467 >.05, se concluye que no existe diferencia
significativa entre el consumo de los coches
Japoneses y Americanos (manteniendo constante el
peso, cc, pot y acel.)
La misma interpretación para OrigenEUR, no existe
diferencia en el consumo de coches EUR y USA.
Comparando R2 =0.8212 de este modelo con el
anterior R2=0.8199, se confirma que el modelo con
las variables de Origen no suponen una mejora
sensible.
Regresión Lineal 8
Body: Instrucciones con R
# ejemplo1 cars : modelo de regresión
Regresión Lineal 9
Regresión Lineal 11
Estatura Peso
Hombres 177.7cm 78.1 kg
Body Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg
Regresión Lineal 12
Interpretación
8.36 kg
A igualdad de
ESTATURA, la
diferencia de
PESO entre un
hombre y una
mujer es
Figura 2.1. 8.36 kg
Regresión Lineal 13
# figura 2.1
Regresión Lineal 14
FEV (Ejemplo 3)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
Regresión Lineal 15
Modelo de regresión
Log(fev) = E0 + E1 ht + E2 age + DHOM ZHOM + DHOM ZHOM + Error
Regresión Lineal 16
Interpretación
1. Todos los coeficientes son significativamente distintos de cero.
2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%
3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%
4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.
5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.
Regresión Lineal 17
Regresión Lineal 18
Predicción
Media mh|xh Nueva Observ. yh|xh
mh yh
mh
xh xh
ŷ h
xh
Regresión Lineal 19
Predicción de la media mh
(Regresión simple)
mh ŷ h
xh xh
m yˆ r tD / 2 sˆR vhh
h h ŷ h
1 ( xh x ) 2
vhh (1 2
)
n sx
xh
Regresión Lineal 20
Predicción de la media mh
(Regresión multiple)
mh ŷ h
xh xh
m yˆ r tD / 2 sˆR vhh
h h ŷ h
1
vhh (1 (x h x)T S x1 (x h x))
n
xh
Regresión Lineal 21
ŷ h
xh
y yˆ r tD / 2 sˆR 1 vhh
h h
Regresión Lineal 22
Límites de predicción
m yˆ r tD / 2 sˆR vhh
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y yˆ r tD / 2 sˆR 1 vhh
y h h
x
Regresión Lineal 23
Predicción
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Regresión Lineal 24
Intervalos
95% confianza
Int. Confianza Previsto Lim. Inf Lim. Sup
Height=175,Sexo = 1 76.19 75.04 77.33
Height=170,Sexo = 0 64.25 63.03 65.47
Regresión Lineal 25
Predicción: Instrucciones R
# ejemplo 3: fev
> newbody <- data.frame(Height=170,Gender=0)
> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 64.2563 63.03951 65.4731
Regresión Lineal 26
Otros ejemplos con R
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)
> predict(m,newcar,interval="confidence")
fit lwr upr
1 11.84055 11.47096 12.21014
Regresión Lineal 27
APÉNDICE: PREDICCIÓN
Regresión Lineal 28
Predicción de la media mh
(Regresión simple)
mh ŷ h
xh xh
yh o N ( E 0 E1xh , V 2 ) yˆ h Eˆ0 Eˆ1xh y Eˆ1 ( xh x )
mh E 0 E1xh E[ yˆ h ] E[ Eˆ0 Eˆ1xh ] E 0 E1xh mh
var[ yˆ h ] var[ y Eˆ1 ( xh x )]
var[ y ] ( xh x ) 2 var[ Eˆ1 ]
§ ·
¨ V2¨
§
( xh x ) 2 ·¸ ¸ V2 V2
yˆ h o N ¨ mh , ¨1 ¸¸ ( xh x ) 2
¨ n ¨ 2 ¸¸
© ©
sx ¹¹ n nsx2
Regresión Lineal 29
Predicción de la media mh
(Regresión múltiple)
mh ŷ h
yh o N (mh , V 2 )
xh x'h
βˆ T x'h , x'T (1, x1h , x2h , , xkh )
E 0 E1 x1h E k xkh
yˆ h
mh h
T 1
© ¹
T
v
hh x'
h (X X) x 'h
Regresión Lineal 30
Expresión alternativa para vhh
yˆ h y bˆ T (x h x)
var[ yˆ h ] var[ y bˆ T (x h x)] var[ y ] (x h x)T var[bˆ ](x h x)
~T ~
V2 ~ ~ X X
(x h x)T ( XT X) 1 (x h x)V 2 , (S x )
n n
V2
(1 (x h x)T S x1 (x h x))
n
1 xh x vhh 1/ n
vhh (1 (x h x)T S x1 (x h x)) x h z x vhh ! 1 / n
n
Regresión Lineal 31
m yˆ r tD / 2 sˆR vhh
h h
Regresión simple
1 1 ( xh x ) 2
vhh (1 (xh x)T S x1 (xh x)) vhh (1 )
n n s x2
Regresión Lineal 32
Predicción de una nueva
observación yh (Reg.Simple)
yh
ŷ h
mh
xh xh
yˆ h Eˆ0 Eˆ1 xh yh o N (mh , V ) 2
yˆ h o N (mh , V 2 vhh ) mh E 0 E1 xh
e~ y yˆ
h h h
E[e~h ] E[ yh ] E[ yˆ h ] 0
var[ e~h ] var[ yh ] var[ yˆ h ] e~h o N ( 0, V 2 (1 vhh ))
V 2 V 2 vhh
Regresión Lineal 33
xh xh
yˆ h y bˆ T x h yˆ h o N (mh , V 2vhh )
E[e~h ] E[ yh ] E[ yˆ h ] 0
e~h yh yˆ h o ® ~ ] var[ y ] var[ yˆ ] V 2 (1 v )
¯ var[ eh h h hh
~
eh o N ( 0, V (1 vhh ))
2
Regresión Lineal 34
Intervalos de predicción para
una nueva observación yh
e~h o N 0, V 2 (1 vhh )
e~h yh yˆ h ŷ h
yh yˆ h
o N (0,1)
V 1 vhh
yh yˆ h
o tn k 1
sˆR 1 vhh
xh
y yˆ r tD / 2 sˆR 1 vhh
h h
Regresión Lineal 35
Límites de predicción
m yˆ r tD / 2 sˆR vhh
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y yˆ r tD / 2 sˆR 1 vhh
y h h
x
Regresión Lineal 36
Diagnosis: Residuos
Y Xβˆ e
Observados Previstos Residuos
Regresión Lineal 37
V X(X T X) 1 X T
e o Normal
°
® E[e] (I V)E[Y] (I V)Xβ 0
°̄var[e] (I V) var(Y)(I V) V 2 (I V)
e o N (0, V 2 (I V))
ei o N (0, V 2 (1 vii ))
Regresión Lineal 38
Distancia de Mahalanobis
Di2 (x i x)T S x 1 (x i x) (Dist. de Mahalanobis)
x i x Di2 0
Mide la distancia de x i a x ®
¯x i z x Di ! 0
2
1
vii x'Ti ( XT X) 1 x'i (1 (x i x)T S x1 (x i x))
n
vii son los elementos diagonales de la matriz V
V X(X T X) 1 XT
n n n 1
vii ¦ vij v ji ¦ vij2 vii2 vii (1 vii ) ¦ vij2 t 0 d vii d 1
j 1 j 1, j z i j 1, j z i n
Regresión Lineal 39
Residuos estandarizados
ei o N (0, (1 vii )V ) 2
var(ei ) (1 vii )V 2
Residuos estandarizados
ei
ri
sˆR 1 vii
Regresión Lineal 40
Modelos de regresión lineal
REGRESION SIMPLE
1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196
2. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica,
1 atm = 14.7 psi) y de la masa del gas para el árgon.
Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
Estimar los parámetros del modelo y contrastar si el término independiente es signi-
ficativo.
1
(b) Se considera el modelo alternativo
3. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.
4. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:
2
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tensión xi (Tm/cm2 ).
unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154
Se pide:
3
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?
REGRESION MULTIPLE
9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-
ciones de una gestora de inversiones, además se proporciona el número de nuevos préstamos
del mes (x1 ) y el número de préstamos pendientes (x2 ).
n x1 x2 y
1 80 8 2256
2 93 9 2340
3 100 10 2426
4 82 12 2293
5 90 11 2330
6 99 8 2368
7 81 8 2250
8 96 10 2409
9 94 12 2364
10 93 11 2379
11 97 13 2440
12 95 11 2364
13 100 8 2404
14 85 12 2317
15 86 9 2309
16 87 12 2328
4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interés en la fiabilidad de
estos componentes. La medida básica de fiabilidad se denomina rating life, y consiste en el
número de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a esto
se denota por L10. Los modelos teóricos indica que este valor está relacionado con la carga
(P) a la que se somete el rodamiento, el diámetro (D) del rodamiento y el número de bolas
(Z) del mismo, mediante la ecuación:
3
kZ a D b
L10 = .
P
5
(a) Estima el modelo
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) + ui con ui ∼ N(0, σ 2 ),
y realiza los contrastes individuales y el contraste general.
(b) Según el modelo, β 3 = −3. Realiza el contraste
H0 : β 3 = −3
H1 : β 3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parámetros a y b del modelo teórico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 del
segundo fabricante (información en la variable Btype). Estima e interpreta el siguiente
modelo de regresión:
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) +
α2 T2i + γ 2 T2i × log(Zi ) + δ 2 T2i × log(Di ) +
α3 T3i + γ 3 T3i × log(Zi ) + δ 3 T3i × log(Di ) + ui
Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
6
Se pide:
(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.
ŷi = β̂ 0 + β̂ 1 x1i .
15. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es
2 1
1 3
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + β 3 x3i + ui
Realizar el contraste general de regresión con α = 0.01. Seleccionar entre los tres el
modelo más adecuado, justificando la respuesta.
7
17. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43
H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0
(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
18. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
8
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.
19. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
9
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza).
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
20. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
1450 o F 70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
o
1600 F 120 o F
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión
e indicar qué parámetros son significativos para nivel de significación 0.05. Estimar y con-
trastar el modelo anterior empleando las variables originales Ti y ti .
10
Diseño de Experimentos 12 de abril de 2012
Cuestiones
(30 minutos, 4 puntos)
1. Los siguientes datos son medidas de presión (psi) en un muelle a torsión para diferentes configuraciones
entre el extremo del muelle y un punto de apoyo.
La tabla de análisis de la varianza para la comparación de las medias correspondientes a los cinco
niveles determinados por el ángulo (angle) se ha obtenido con R y es la siguiente
Realizar la comparación dos a dos de las medias de los cinco tratamientos (LSD). Interpretar los
resultados de la comparación.
Nota: Para todo el ejercicio utilizad α = 0.05.
Problema
(45 minutos, 6 puntos)
1. Obtén la tabla de análisis de la varianza del experimento y realiza los contrastes con nivel de signifi-
cación 0.05.
2. Calcula el intervalo de confianza (α = 0.05) para la media de cada tratamiento, dibuja el gráfico de
interacciones con los intervalos de confianza correspondientes e interpreta los resultados del experi-
mento.
3. Como se aprecia en la segunda tabla, las varianzas correspondientes a los tratamientos del Baño 2
son parecidas y bastante inferiores a las varianzas de los tratamientos correspondientes al Baño 1.
Llamando σ 21 a la varianza teórica para los datos del baño 1 y σ 22 a la varianza teórica para los datos
del baño 2, realiza el contraste:
H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22
( yij y )2 ni ( y i y )2 ( yij y i )2
i 1 j 1 i 1 i 1 j 1
K ni K ni
( y i y )( yij y i ) i
i 1
( y y ( yij y i ) 0
)·
i 1 j 1 j 1
ni
(y
j 1
ij y i ) 0
Analysis of Variance Table
Response: Tiempo
Df Sum Sq Mean Sq F value Pr(>F)
Lavados 1 202.13 202.13 7.5519 0.008659 **
Bath 1 715.34 715.34 26.7261 5.494e-06 ***
Lavados:Bath 1 166.14 166.14 6.2071 0.016567 *
Residuals 44 1177.68 26.77
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1 1
yij· t 0.05 ·sˆR · yij· 2.01· 26.77· yij· 3.01
44,
2 ni 12
B1 B2
L10 17.067 13.067
L5 16.683 5.242
11·35.92 11·37.31
sˆR21 36.61
11 11
11·14.07 11·19.75
sˆR2 2 16.91
11 11
sˆR21
~ F22,22
sˆR2 2
36.61
2.16
16.91
Fa 0.424
Fb 2.357
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012
1. Sea Y ∈ ℜn el vector de la variable dependiente de un modelo de regresión múltiple, con los regresores
definidos por la matriz X ∈ ℜn×(k+1) , tal que
Y = Xβ + U (1)
donde U ∼ N (0, σ 2 I). Un modelo de regresión múltiple se replica cuando se obtienen dos vectores de
variable respuesta Y1 e Y2 , cada uno de dimensión n, para los mismos regresores (la misma matriz X).
Se ajusta el modelo:
Y ′ = Xβ + U ′ (2)
1 ′
donde Y ′ = 2 (Y1 + Y2 ). Sea β̂ al vector de parámetros estimados para el modelo (1), y β̂ para el
′
modelo (2). Obtener la relación entre V ar(β̂ ) y V ar(β̂), justificando la respuesta.
2. Dos propietarios de un viñedo de Oregon cultivan diferentes variedades de uva con las que fabrican
vino. Durante el proceso de fabricación han recabado diferentes datos con el fin de identificar aquellas
variables que, a juicio de los catadores, producen el mejor vino. En concreto se ha recabado información
sobre la edad de la barrica de roble (x1 : años), el porcentaje del racimos completos utilizados (x2 : %),
la temperatura de fermentación (x3 : o C), y sobre las variables cualitativas Clon de pinot noir, que
puede tomar dos valores (Pommard y Wadenswill), y el tipo de roble empleado en la fabricación de las
barricas que tambien puede tomar dos valores (Allier y Troncais).
Escriba la ecuación del modelo de regresión lineal que permite relacionar la puntuación emitida por
los catadores (y) con los regresores mencionados anteriormente. Interprete los parámetros del modelo.
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012
Durante la producción y el transporte del petróleo, éste se mezcla con agua formando una emulsión. Una
manera de separar los dos lı́quidos es creando un campo eléctrico fuerte, de forma que las gotas de petróleo
crecen y suben a la superficie. Un grupo de investigación de la Universidad de Bergen (Noruega) tomó una
serie de datos para determinar los factores que influı́an en el voltaje requerido para separar la mezcla. Las
siete variables investigadas fueron las siguientes:
x1 : Composición porcentual de la mezcla ( %)
x2 : Salinidad de la emulsión ( %)
x3 : Temperatura de la emulsión (o C)
x4 : Tiempo en reposo desde que se realiza la mezcla (horas)
x5 : Concentración de sulfatante (reduce la tensión superficial)( % en peso)
x6 : Proporción de sustancias quı́micas sulfatantes (Span y Triton)( %)
x7 : Cantidad de sólidos añadidos ( % en peso)
Se prepararon las 19 emulsiones que se muestran en la tabla. Para cada emulsión se midió el voltaje
(kilovoltios por centı́metro) necesario para que se iniciara el proceso de separación, este valor representa la
variable respuesta (y).
DATOS
Experimento y (tensión) x1 x2 x3 x4 x5 x6 x7
1 0,64 40 1 4 0,25 2 0,25 0,5
2 0,80 80 1 4 0,25 4 0,25 2
3 3,20 40 4 4 0,25 4 0,75 0,5
4 0,48 80 4 4 0,25 2 0,75 2
5 1,72 40 1 23 0,25 4 0,75 2
6 0,32 80 1 23 0,25 2 0,75 0,5
7 0,64 40 4 23 0,25 2 0,25 2
8 0,68 80 4 23 0,25 4 0,25 0,5
9 0,12 40 1 4 24 2 0,75 2
10 0,88 80 1 4 24 4 0,75 0,5
11 2,32 40 4 4 24 4 0,25 2
12 0,40 80 4 4 24 2 0,25 0,5
13 1,04 40 1 23 24 4 0,25 0,5
14 0,12 80 1 23 24 2 0,25 2
15 1,28 40 4 23 24 2 0,75 0,5
16 0,72 80 4 23 24 4 0,75 2
17 1,08 60 2,5 13,5 12,125 3 0,50 1,25
18 1,08 60 2,5 13,5 12,125 3 0,50 1,25
19 1,04 60 2,5 13,5 12,125 3 0,50 1,25
El experimento cumple que la matriz de varianzas de los siete regresores es una matriz diagonal, es decir
355, 56 0 0 0 0 0 0
0 2 0 0 0 0 0
0 0 80, 22 0 0 0 0
1 eT e
Sxx = (X X) = 0 0 0 125, 347 0 0 0 .
n
0 0 0 0 0, 889 0 0
0 0 0 0 0 0, 0556 0
0 0 0 0 0 0 0, 5
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012
El modelo estimado es
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).
3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.
MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )
Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)
Residuals:
Min 1Q Median 3Q Max
-0.55684 -0.10684 0.03316 0.10816 0.62316
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Y1 Y2
Y'
2
var ˆ ' ' X T X
2 1
var(Y X ) 2 I
Y Y 1 2I 2I 2I
var(Y ' X ) var 1 2 X var Y1 Y2 X
2 4 4 2
1
var ˆ ' var ˆ
2
y 0 1 x1 2 x2 3 x3 1 z1 2 z2 u
0 , 1 , 2 , 3 , 1 , 2
2
1
2
3
1
2
0
0 0 1
0 2 0 1 2
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012
El modelo estimado es
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).
3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.
MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )
Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)
Residuals:
Min 1Q Median 3Q Max
-0.55684 -0.10684 0.03316 0.10816 0.62316
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto signi…cativo
( = 0; 05):
Para los contrastes individuales hay que comparar con el percentil 0,975 de la distribución t con 11
(19-7-1) grados de libertad que es 2; 20
0;0205
t1 = p = 3; 689 *
0;2086(1=355;56 19)
0;17
t2 = p = 2; 29 *
0;2086(1=2 19)
0;0153
t3 = p = 1; 3078
0;2086(1=80;22 19)
0;0084
t4 = p = 0; 897
0;2086(1=125;34 19)
0;46
t5 = p = 4; 139 *
0;2086(1=0;889 19)
0;52
t6 = p = 1; 17
0;2086(1=0;0556 19)
0;126
t7 = p = 0; 855
0;2086(1=0;5 19)
1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleaoriamente el aparato que se pone
en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para contrastar
si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla ADEVA e
interprete los resultados ( = 0;05):
2 Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de con…anza para la varianza del error experimental.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23
2. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-
abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,
indicando qué efectos son signi…cativos.
3. Construya el grá…co de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-
tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?
1. Obtenga la varianza del estimador del coe…ciente de regresión simple 1 e interprétela en función de
cada uno de los términos de los que depende.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.
Tabla 1: Modelo 1
Tabla 2: Modelo 2
Tabla 3: Modelo 3
Sabiendo que el coe…ciente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justi…cando
la respuesta ¿Se puede a…rmar con un 95 % de con…anza que los regresores x1 y x2 in‡uyen en la variable
respuesta?
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 ; X2 ; X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identi…can a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:
0 1
2;31 0;75 0;75 0;375 0;75
B 0;75 0;5 0;25 0 0:; 5 C
B C
siendo (X 0 X) 1 =B
B 0;75 0;25 0;5 0 0;5 C ; y sbR = 1;9:
C
@ 0;375 0 0 0;25 0 A
0;75 0;5 0;5 0 1
1) Realice los contrastes individuales indicando las variables que in‡uyen signi…cativamente en la pro-
ductividad. Interprete el resultado explicando el signi…cado de cada parámetro. ( = 0; 05):
2) Sabiendo que el coe…ciente de determinación es igual a 0;877, realice el contraste conjunto. ( = 0;05):
donde 01 y 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál será el
valor estimado de 01 y 02 ?:
H0 : 02 =0
Realice el contraste:
H1 : 02 6= 0
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleatoriamente el aparato que se
pone en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para
contrastar si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla
ADEVA e interprete los resultados (α = 0,05).
SOLUCIÓN:
Es un modelo en bloques aleatorizados. El factor es el aparato, con dos niveles (I=2) y el bloque los
enfermos, con 10 niveles (J=10)
La tabla ADEVA es
Se concluye que no existen diferencias significativas entre las mediciones realizadas con los dos aparatos.
Sí existen diferencias significativas entre los enfermos.
2. Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de confianza para la varianza del error experimental.
SOLUCIÓN:
En un modelo con dos factores e interacción se verifica que:
V NE
−→ χ2IJ(m−1) ;
σ2
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
V NE V NE
≤ σ2 ≤ .
χ2IJ(m−1);α/2 χ2IJ(m−1);1−α/2
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
1.
Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23
1. SOLUCIÓN:
2. Se puede hacer mediante un contraste de igualdad de media de dos distribuciones normales,
H0 : µ1 = µ2
H1 : µ1 = µ2
llamando ȳ1 a la media de rendimientos a temperatura 300K e ȳ2 a temperatura 400K , se tiene que
ȳ1 − ȳ2
t= ∼ t10
ŝR 26
siendo
2
6
(yij − ȳi )2
i=1 j=1
ŝ2R = = 9,214
10
sustituyendo se tiene que t = 2,209 que es inferior a t10,0,025 = 2,23 por lo tanto no existen diferencias
significativas para α = 0,05.
3. Modelo de dos factores con interacción, la tabla de analisis de la varianza es
Fuente SS Df Mean Square F-Ratio
Efectos Principales
Temperatura 44.93 1 44.93 45.03**
Presion 3.04 1 3.04 3.05
Interacción
TxP 81.12 1 81.12 81.30**
Los valores de la F obtenidos en la tabla se comparan con F1,8,α=0,05 = 5,32. El efecto principal de la
Temperatura es muy significativo, el efecto principal de la Presión no es significativo y la interacción
es muy significativa.
4.
La interacción es clarísima. Los intevalos de confianza muestra que a la presión de 2 Atm no existen
diferencias significativas entre las dos temperaturas. Sin embargo, a la presión de 1 Atm, el rendimiento
medio a 300K es muy superior que a 400K. Las condiciones óptimas son 1Atm y 300K. La amplitud
de los intervalos de confianza es
1 2 1
t8,α=0,025 × ŝR × = 2,31 × 0,998 × = 1,31
3 3
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
1. Obtenga la varianza del estimador del coeficiente de regresión simple β 1 e interprétela en función de
cada uno de los términos de los que depende.
SOLUCIÓN: (ver libro de la asignatura)
σ2
var(β̂ 1 ) =
ns2X
La varianza del estimador depende de la varianza condicionada de la variable dependiente, del número
de observaciones y de la varianza muestral de la variable independiente. Cuanto mayor el número de
muestras y mayor dispersión del regresor más precisa será la estimación.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.
Tabla 1: Modelo 1
Tabla 2: Modelo 2
Tabla 3: Modelo 3
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
Sabiendo que el coeficiente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justificando
la respuesta ¿Se puede afirmar con un 95 % de confianza que los regresores x1 y x2 influyen en la variable
respuesta?
SOLUCIÓN: R2 el coeficiente de determinación no nos sirve para comparar estos tres modelos, porque
el modelo con más regresores siempre tiene un coeficiente mayor. Para hacer una comparación global de
los modelos en este caso se utiliza R̄2 , el coeficiente de determinación corregido o ajustado, según éste el
mejor modelo es el 3.
En este caso es útil realizar los tres modelos de regresión. Las dos variables muestran una relación lineal
significativa con la variable respuesta, esto se observa en los modelos de regresión simple. En el modelo de
regresión múltiple los contrastes individuales indican que los coeficientes no son significativamente distintos
de cero, pero el contraste conjunto nos dice que al menos uno es dsitinto de cero. Dicho de otra forma: los
dos a la vez no son necesarios, basta con tener un regresor. Eso es debido a la alta correlación entre los dos
regresores.
Si el modelo se quiere para hacer predicciones, el modelo 1 es válido y el preferido en general.
Decidir si influyen o no los regresores y cómo influyen, depende de como se hayan tomado los datos y
del problema concreto. En este caso podemos afirmar que los dos regresores muestran una relación lineal
significativa con la variable respuesta al 95 % de confianza.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 , X2 , X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identifican a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:
2.31 -0.75 -0.75 -0.375 0.75
-0.75 0.5 0.25 0 -0.5
siendo (X X)−1 =
-0.75 0.25 0.5 0 -0.5
; y sR =1.9.
-0.375 0 0 0.25 0
0.75 -0.5 -0.5 0 1
1. Realice los contrastes individuales indicando las variables que influyen significativamente en la pro-
ductividad. Interprete el resultado explicando el significado de cada parámetro. (α=0.05).
2. Sabiendo que el coeficiente de determinación es igual a 0.877, realice el contraste conjunto. (α=0.05).
donde β 01 y β 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál
será el valor estimado de β 01 y β 02 ?
H0 : β 02 = 0
Realice el contraste: .
H1 : β 02 = 0
SOLUCIÓN:
1.
Los contrastes individuales son:
H0 : β i = 0
β
=⇒Si H0 es cierta, ti = √i −→ tn−k−1 . En este caso t16−4−1
H1 : β i = 0 sR qii
3, 73
t1 = √ = 2, 77 > t11;0,025 = 2,2
1, 9 0, 5
0, 229
t2 = − √ = −0, 17
1, 9 0, 5
3, 75
t3 = √ = 3, 94 > t11;0,025 = 2,2
1, 9 0, 25
5, 56
t4 = √ = 2, 92 > t11;0,025 = 2,2
1, 9 1
Todos los regresores resultan significativos a excepción de x2 .
Interpretación de los parámetros :
0 = 4,688 es la ordenada en el origen de los trabajadores que no poseen máster. Tal como está parame-
β
trizado el modelo la referencia son los trabajadores que no poseen máster.
= 3,732;a igualdad del resto de regresores, por cada unidad que aumenta x1 ,la productividad aumenta
β 1
en 3.732 unidades.
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
2 = −0,17;a igualdad del resto de regresores, por cada unidad que aumenta x2 ,la productividad disminuye
β
en 0.17 unidades, aunque este regresor no ha resultado ser significativo.
3 = 3,94;a igualdad del resto de regresores, por cada unidad que aumenta x3 ,la productividad aumenta
β
en 3.94 unidades.
2 = 5,562;existe diferencia significativa entre la productividad de los trabajadores que poseen master y la
α
de los que no poseen master, manteniendo constante el resto de regresores. La productividad es 5.562
unidades superior en los trabajadores que poseen máster.
R2 11
F = = 19, 60 > F4,11;0,05 = 3, 36. =⇒Se rechaza H0 . Alguno o todos los regresores son
1 − R2 4
significativos.
3. Comparando la parametrización del enunciado con la planteada en el apartado 3 se concluye que:
01 = 4, 688, es la estimación de la ordenada en el origen de los trabajadores que no poseen máster
β
02 = 4, 688 + 5, 562 = 10, 25, la ordenada en el origen de los trabajadores que poseen máster.
β
02 ) = var(β
var(β 01 + α 01 ) + var(
2 ) = var(β 01 , α
α2 ) + 2cov(β 2 ) = σ2 (2, 31 + 1 + 2 × 0, 75) = 4, 81σ2 .
1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6
2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.
3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)
Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184
Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza
1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.
2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple
RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6
2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.
SOLUCIÓN:
Ver transparencia 36 del capítulo no 3: Regresión Lineal. de la colección de transparencias de la
asignatura.
3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
SOLUCIÓN:
Los datos indican: n1 = 8, x1 = 3,567, s1 = 0,2886 y n2 = 10, x2 = 3,44, s2 = 0,1888.
(n1 − 1)s1 2 s1 2
(n1 − 1)σ21 σ21 s2 2 σ22 s2 2
Se verifica F(n −1),(n −1) =⇒ −→ F7,9 =⇒ Fa × ≤ ≤ Fb ×
(n2 − 1)s2 2 1 2
s2 2 s1 2 σ21 s1 2
(n2 − 1)σ22 σ22
Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)
Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184
Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza
1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.
SOLUCIÓN: La nueva tabla de la varianza se obtiene sumando los variabilidades correspondientes
a la interacción y reisiduos del modelo del enunciado, de manera que la VNE y sus grados de libertad
se obtienen como
Los demás términos de la tabla no se modifican, de manera que la tabla final es:
FUENTE VARIAB GL VARIANZAS F
TEMP 5100 2 2550.2 1.021
CONC 32794 4 8198.6 3.283
RESIDUAL 57436 23 2497.2
Sólo es significativo el efecto de la CONCENTRACIÓN, pues el límite para α = 0,05 es F4,23 = 2,8 <
3,283
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
La diferencia se debe a que la varianza residual se reduce considerablemente al aumentar los grados
de libertad de los residuos, lo que aumenta los estadísticos F y disminuyen los límites de aceptación
que se obtienen de las tablas.
2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
SOLUCIÓN:
Teniendo en cuenta que la variabilidad total es V T = 5100 + 32794 + 57436 = 95330, la varianza de
la variable respuesta s2y se obtiene de la siguiente forma
95330
s2y = = 3177,6
30
y la varianza del regresor s2x
y la ordenada en el origen
y la varianza residual
71972
ŝ2R = = 2570
28
El contraste de la t es por tanto
β̂ 1
t= √ = 3,014
ŝR /( nsx )
que es significativo para α = 0,05, pues t0,25;28 = 2,05.
3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple
RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
SOLUCIÓN: Y = Xβ + U, siendo cada término
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
33 1 27 0,6 u1
72 1 27 0,6 u2
32 1 27 0,8 u3
131 1 27 0,8 u4
28 1 27 1,0 u5
179 1 27 1,0 u6
59 1 27 1,2 u7
221 1 27 1,2 u8
43 1 27 1,4 u9
195 1 27 1,4 u10
62 1 35 0,6 u11
113 1 35 0,6 u12
54 1 35 0,8 u13
151 1 35 0,8 u14
β0
98 1 35 1,0 u15
= β1 +
147 1 35 1,0 u16
β
176 1 35 1,2 2 u17
211 1 35 1,2 u18
119 1 35 1,4 u19
162 1 35 1,4 u20
77 1 43 0,6 u21
76 1 43 0,6 u22
81 1 43 0,8 u23
125 1 43 0,8 u24
117 1 43 1,0 u25
127 1 43 1,0 u26
146 1 43 1,2 u27
201 1 43 1,2 u28
101 1 43 1,4 u29
184 1 43 1,4 u30
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013
Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.
Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?
Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817, 58 e yT · = 4765, 51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.
2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados (α = 0,01).
b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo. Si se diera este último caso, proponga una solución posible
para ello.
Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.
Modelo en Bloques Aleatorizados: yij = µ + αi + β j + uij . No hay réplicas de cada "tratamiento".
Sólo se quiere determinar qué Método es mejor, el bloque Escenario se incluye sólo por si explica una
porción importante de la Variabilidad Total del CPU-Time.
Se asume: Normalidad, homocedasticidad e independencia.
Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?
Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817,58 e yT · = 4765,51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.
µ + αN ∈ y N· ± sR ·t(I−1)(J−1); α2 √1J → µ + αN ∈ 817,58 ± 1.6426·10 5 t99; α2 √100
1
→ µ + αN ∈ 817,58 ±
405,29·1,96
√
100
;
µ + αN ∈ (738,1432; 897.0168)
2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados. (α = 0,01).
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013
De la Tabla ANOVA se tiene que hay diferencias significativas entre los 4 tipos de pilas.
Con α = 0,01 existen diferencias significativas entre A y B, entre A y C pero no existen diferencias
significativas entre A y D (sí las habría para α = 0,1).
También existen diferencias significativas entre By C y B y D, pero no entre C y D (sí las habría para
α = 0,1).
b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo y si se cumplen o no. Si se diera este último caso, propón
una solución posible para ello.
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013
SOLUCIÓN PROBLEMA
De los contrastes realizados se conclyuye que todas las diferencias son estadísticamente significativas, las
medias son distintas. Por tanto la mayor resistencia a la tracción se produce con velocidad.
Del primer apartado se obtiene la varianza residual del experimento con árido basáltico: s2RB = 9, 5
De la tabla ADEVA del segundo apartado se obtiene la varianza residual del expeirmento con árido
silíceo: s2RS = 9, 5
8 × s2RB
Si H0 es cierta F8,8.
8 × s2RS
8 × s2RB
Es un contraste bilateral. Como = 1 ∈ [F8,8;0,975 ; F8,8;0,025 ] = [0, 22; 4, 43] =⇒ No se puede
8 × s2RS
rechazar H0 .
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013
3. Combinando ambos experimentos se obtiene un experimento con dos factores e interacción: Factor
A: tipo de árido ( 2 niveles); Factor B: tipo de compactación ( 4 niveles) y 3 replicaciones.
La tabla de medias resultante es
Compactación
Estática V. reg V. baja V. muy baja y i••
Basltico 65,3 129,0 97,3 57,3 87,3
Silíceo 67,7 111,0 60,7 41,7 70,3
y •j• 66,5 120 79 49,5 y ••• = 78, 8
2
4
3
Con los datos de la tabla se calcula V E(A × B) = (y ij• − y i•• − y •j• + y ••• )2 = 1145.
i=1 j=1 k=1
Con grados de libertad (I − 1) × (J − 1) = 3
La varianza residual del experimento con dos factores y replicación es:
8 × s2RB + 8 × s2RS
s2R = = 9, 5. Siendo los grados de libertad I × J × (m − 1) = 2 × 4 × (3 − 1) = 16
16
El contraste para determinar la existencia de interacción es:
V E(AB)/3
= 40, 175 > F3,16;0,05 = 3, 24. =⇒ Se rechaza H0 =⇒ La interacción es significativa.
s2R
El gráfico es
Gráfico de Interacción
141 Árido
Basáltico
121 Silíceo
Resistencia
101
81
61
41
1 2 3 4
compactacion
( ) ( )
√ ̂
> mod_simple <- lm( Precio ~ RAM)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 92.51 46.67 1.982 0.0674
RAM 98.11 41.23 2.379 0.0321
---
Residual standard error: 87.47 on 14 degrees of freedom
Multiple R-squared: 0.2879, Adjusted R-squared: 0.2371
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211
̂
( ) ̂ ̂( ̂ )
> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)
(Resto de salida de R eliminada intencionadamente)
Residual standard error: 22.01 on 8 degrees of freedom
Multiple R-squared: 0.9742, Adjusted R-squared: 0.951
F-statistic: 43.23 on 7 and 8 DF, p-value: 9.798e-06
( ) ( )
√ ̂
̂ ( )
( ̅) ( )
( ) ( )
̂ ̂ √
̂ ( )
( ̅) ( )
( ) ( )
̂ ̂ √
√
Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013
Problema
(45 minutos, 6 puntos)
[ ]
−1 = 0,8664 −0,0146
Sxx ; Sxy = [3,48 9,5973]T ; sbR = 2,32 ; sby = 10,83
−0,0146 1,1160
1. Estimar el modelo (en desviaciones a la media) y realizar los contrastes individuales (excluyendo el
del término independiente) y el contraste conjunto. Interpretar los resultados.
2. Con las mismas variables cuantitativas del apartado anterior, se han añadido 60 ensayos de otros dos
laboratorios (30 de cada laboratorio), de forma que resultan en total 90 datos. Se añade al modelo la
variable cualitativa correspondiente. Los resultados son los siguientes:
0,0340 −0,0012 −0,0026 −0,0345 −0,0339
−0,0012 0,0103 0,0002 0,0029 0,0010
(X ′ X)−1 =
−0,0026 0,0002 0,0129 0,0042 0,0024
; sbR = 2, 46 ; sby = 10, 77;
−0,0345 0,0029 0,0042 0,0688 0,0344
−0,0339 0,0010 0,0024 0,0344 0,0672
Interpretar los coeficientes de regresión. Realizar los contrastes individuales y el contraste conjunto e
interpretar los resultados, comparándolos con los del apartado 1.
SOLUCIÓN
Nota: Cada uno de los tres apartados puntúa lo mismo, es decir 2 puntos sobre los 6 puntos del Problema.
Apartado 1)
b = S −1 Sxy = [2,8801 10,6597]
β xx
b = 2, 88 = estimación del incremento promedio de la resistencia cuando X1 se incrementa en una
β 1
unidad, y X2 no varı́a.
b = 10, 65 = estimación del incremento promedio de la resistencia cuando X2 se incrementa en una
β 2
unidad, y X1 no varı́a.
Contraste conjunto:
V N E = (30 − 2 − 1) × 2,322 = 145, 32
V E = 29 × 10, 832 − 145, 32 = 3256, 1
F = (3256, 1/2)/2,322 = 302, 47 > F2,27 (0, 95) = 3, 35
La información conjunta (sin desagregar en la contribución de cada uno) proporcionada por (X1 , X2 )
es relevante para explicar/predecir la resistencia Y
Contrastes individuales:
√
t1 = 3,486/(2, 32 0, 8664/30) = 7, 3 > t27 (0, 975) = 2, 05
La información que proporciona X1 adicional a la proporcionada por X2 es relevante para expli-
car/predecir la resistencia Y
√
t2 = 9, 59/(2, 32 1, 11/30) = 23,82 > t27 (0, 975) = 2, 05
La información que proporciona X2 adicional a la proporcionada por X1 es relevante para expli-
car/predecir la resistencia Y
Apartado 2)
b = 2, 49 = estimación del incremento promedio de la resistencia cuando X1 se incrementa en una
β 1
unidad, y el resto de los factores no varı́a.
b = 10, 83 = estimación del incremento promedio de la resistencia cuando X2 se incrementa en una
β 2
unidad, y el resto de los factores no varı́a.
b 1 = 2, 11 = estimación de la diferencia entre la ordenada en el origen del segundo laboratorio y la del
α
primero.
b 2 = −1, 01 = estimación de la diferencia entre la ordenada en el origen del tercer laboratorio y la del
α
primero.
Contraste conjunto:
V N E = (90 − 4 − 1) × 2,462 = 514, 38
V E = 89 × 10, 772 − 514, 38 = 9809
F = (9809/4)/2,462 = 405, 22F4,85 (0, 95) = 2, 48
Contrastes individuales:
√
t1 = 2,49/(2, 46 0, 0103 = 9, 99 > t85 (0, 975) = 1, 99
La información que proporciona X1 adicional a la proporcionada por X2 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y
Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013
√
t2 = 10, 83/(2, 46 0, 0129 = 38, 78 > t85 (0, 975) = 1, 99
La información que proporciona X2 adicional a la proporcionada por X1 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y
√
t3 = 2,11/(2, 46 0, 0688 = 3, 28 > t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio dos es significativamente distinta de la del laboratorio uno
√
t4 = −1, 01/(2, 46 0, 0672 = −1, 58 < t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio tres no es significativamente distinta de la del laboratorio
uno.
Comparando con los resultados del apartado uno, se observa que los coeficientes de X1 , X2 son similares
ası́ como los valores de la varianza residual sb2R , lo cual indica que tanto los efectos de los factores X1 , X2
sobre la respuesta Y como la varianza del error experimental u (medida de la incertidumbre de la Y dadas
X1 , X2 ) son similares en los tres laboratorios.
Apartado 3)
H0 : α 2 = α 3
H1 : α2 ̸= α3
α2 − α
var(b b 3 ) = α2 (0, 0688 + 0, 0672 − 2 × 0, 0344)
b 2 −b √
α α3
t = sb √0,0688+0,0672−2×0,0344 = (2, 11−)−1, 01))/2, 46 0, 0688 + 0, 0672 − 2 × 0, 0344 = ,4, 9 > t85 (0, 975) =
R
1, 99; se rechaza H0 ; por tanto, la diferencia entre las estimaciones de las ordenadas en el origen de los la-
boratorios dos y tres es estadı́sticamente significativa.
Examen Final - Diseño y Regresión 31 de mayo 2013
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.943998 0.078639 -24.721 < 2e-16
edad 0.023387 0.003348 6.984 7.1e-12
altura 0.042796 0.001679 25.489 < 2e-16
sexo 0.029319 0.011719 2.502 0.0126
fuma -0.046068 0.020910 -2.203 0.0279
---
Residual standard error: 0.1455 on 649 degrees of freedom
Multiple R-squared: 0.8106, Adjusted R-squared: 0.8095
F-statistic: 694.6 on 4 and 649 DF, p-value: < 2.2e-16
REGRESIÓN - Problema
(45 minutos, 6 puntos)
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 Medias
Profesor 1 44 47 33 38 50 41 39 42 45 22 42.3
Profesor 2 43 46 33 37 50 42 39 42 44 44 42
Medias 43.5 46.5 33 37.5 50 41.5 39 42 44.5 44
SOLUCIÓN CUESTIONES:
Cuestión 1:
Donde:
2
10
V E(P rof.) = (y i• − y •• )2 = 0.45. =⇒ g.l. = I − 1 = 1.
i=1 j=1
2
10
2
10
V NE = e2ij = (yij − yi• − y •j + y•• )2 = 2, 05. =⇒
i=1 j=1 i=1 j=1
g.l. = (I − 1)(J − 1) = 9.
El contraste es:
H0 : α1 = α2
.
H1 : α1 = α2
V E(P rof.)/1
Si H0 es cierta =⇒ F0 = = 1, 98 < F1,9;0,05 = 5, 12 =⇒ No se
V NE/9
rechaza H0 =⇒No hay diferencias significativas entre los profesores.
Cuestión 2:
1
2 2
y 1• − y 2• y 2• − y1• m
=m + = (y − y 2• )2 .
2 2 2 1•
El contraste de la t es:
y 1• − y2•
t0 =
→ t2m−2
2
sR m
2
SOLUCIÓN AL PROBLEMA
1. Llamando y i•• , y •j• , y ij• y y •••, a las medias de filas, columnas, tratamien-
tos y media general se tiene que
= y ••• ,
µ
i = y i•• − y ••• ,
α
β j = y •j• − y ••• ,
αβ = y ij• − yi•• − y•j• + y•••
ij
Como los tres efectos son significativos ( para nivel de significación 0.05),
el efecto del suplemento en la longitud de los dientes, depende de la dosis. Al
aumentar la dosis aumenta la longitud. A dosis bajas (0.5 y 1.0), se consigue
mayor longitud con ZN. A dosis altas (2.0) las medias de los dos suplementos
son similares.
2. Llamando µ13 y µ23 a los parámetros que nos dan la longitud media de
los dientes de la cobaya alimentada con ZN con 2 mg y la alimentada con AA
con 2 mg, se pide hacer el contraste
H0 : µ13 = µ23
H1 : µ13 = µ23
2
Llamando LSD = tα/2,54 × sR × 10 = 3.25,
3
30,00
25,00
20,00
15,00 ZN
AA
10,00
5,00
0,00
0,5 1 2
Figure 1:
H0 : µ12 = µ22
H1 : µ12 = µ22
H0 : µ11 = µ21
H1 : µ11 = µ21
4
está dentro de la región de aceptación obtenida con una F27,27 para nivel de
significación 0.05, por lo que se acepta que las dos varianzas experimentales
pueden ser iguales.
5
Solución cuestiones
1
REGRESIÓN - Problema 31 de mayo de 2013
SOLUCIÓN
(45 minutos, 6 puntos)
d=β
CE b βb
0+ I CI
donde:
b = Cov(CE, CI) = rY X2 sY sX2 = 0.75 10 = 2.5
β I
s2CI s2X2 3
y
b = ȳ − β
β b x̄2 = 75 − 2.5x15 = 37.5.
0 I
Para concluir si el conocimiento de inglés es significativo en el conocimiento
de estadı́stica, contrastamos las hipótesis siguientes:
H0 : β I = 0
H1 : β I ̸= 0
Ası́:
b −0
β I
tI = ,
sbR
√
sX2 n
2.5
tI = = 15.95,
6.648
√
3 200
Se compara el valor obtenido con el valor de las tablas (t198;α/2 = 1.96),
como 15.95>1.96, se rechaza la H0 y se concluye que el conocimiento de
inglés es significativo.
1
2. Obtenga el modelo de regresión entre la puntación en el curso de es-
tadı́stica y las demás puntuaciones. Interprete la relación entre el conocimiento
de matemáticas, ingles y cultura general y el conocimiento de estadı́stica
a partir del modelo estimado.
Solución
El modelo que se pide es un modelo de regresión múltiple de la forma:
b x
yb = β b e2 + β
b x
1 e1 + β 2 x 3 e3
βb 1.34
1
bb =
βb −1 0
2 = SXX SXY =
b
β3 0.84
donde:
Cov(y, x1 ) rY X1 sY sX1 0.8x5x10 45
SXY = Cov(y, x2 ) = rY X2 sY sX2 = 0.75x3x10 = 22.5 .
Cov(y, x3) rY X3 sY sX3 0.8x4x10 32
Interpretación:
b = 1.34, Si la puntuación de matemáticas aumenta un punto, la pun-
β 1
tuaciçon de estadı́stica aumenta por término 1.34 puntos manteniendo el
resto constante.
b = 0, Si la puntuación de inglés aumenta un punto, la puntuaciçon de
β 2
estadı́stica no aumenta ningún puntopor término medio manteniendo el
resto constante.
b = 0.84, Si la puntuación de cultura general aumenta un punto, la
β 3
puntuaciçon de estadı́stica aumenta por término 0.84 puntos manteniendo
el resto constante.
3. ¿Son significativos el conocimiento de matemáticas, inglés y cultura gen-
eral en el de estadı́stica? Explique las similitudes o discrepancias entre
este modelo y el modelo de regresión múltiple.
H0 : β i = 0
H1 : β i ̸= 0
sı́:
b −0
β i
ti = √ ,
sbR qii
−1
en donde qii son los elementos de la diagonal principal de la matriz Sxx ,
y sbR la desviación tı́pica residual para el modelo de regresión múltiple,
que es desconocida, y se obtiene a partir de la Variabilidad no explicada
como:
2
45
V N E = V T −V E = ns2y −nbbT sXY = 200x100−200x(1.34 0 0.84) 22.5 =
32
2613.5
V NE 2613.5
sb2R = = = 13.33; sbR = 3.65.Ası́:
n−k−1 196
t1 = 17.8; t2 = 0 y t3 = 6.6. Estos valores se comparan (en valor absoluto)
con t196,α/2 = 1.96.
Resultan significativos el conocimiento de matemáticas y el conocimiento
de cultura general
3
√ ̅ ̂
̂ ̂ ̂
̂
*( )+
̂
Df Sum Sq Mean Sq F value Pr(>F)
pres 1 4 4 2.028e+31 <2e-16 ***
temp 1 4 4 2.028e+31 <2e-16 ***
Residuals 1 0 0
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
̅
̅
( ̅) ( )
( ) ( )
̂ ̂ √
√
Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013
El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche más emblemáti-
cos organizando un evento en el que sus dos pilotos del equipo Ferrari de Fórmula 1, Fernando Alonso y
Felipe Massa, van a hacer pruebas en las que el objetivo es analizar la variable ’consumo (en litros/100 km)’,
para 3 estilos de conducción diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba con
cada estilo de conducción 2 veces, con lo que el número total de datos es 12. Los datos obtenidos se muestran
a continuación:
Consumo Estilo Conducción Piloto
8.561 Agresiva Alonso
12.751 Agresiva Alonso
14.057 Agresiva Massa
13.159 Agresiva Massa
9.731 Normal Alonso
10.343 Normal Alonso
7.997 Normal Massa
7.385 Normal Massa
8.347 Suave Alonso
8.562 Suave Alonso
9.857 Suave Massa
8.140 Suave Massa
Figura 1:
1. Indica qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen. Realiza la tabla ADEVA y extrae las
conclusiones que consideres relevantes (Nivel de significación: 0.1).
2. Construye el gráfico de interacción (incluyendo intervalos, con nivel de significación: 0.1) e indica
cuándo se produce el menor y mayor consumo, así como si es significativamente mayor o menor,
respectivamente que los demás.
3. A la vista de los gráfico de residuos de la Figura 2 indica si la diagnosis del modelo es correcta. En
caso negativo propón posibles soluciones. Construye además un intervalo para la varianza del error.
4. Por último, y para promocionar las buenas características medioambientales del coche que relanza
FIAT, se han realizado mediciones también de las emisiones de CO2. Propón un modelo de regresión
que pudiera tener en cuenta para explicar las emisiones de CO2, tanto el consumo como la influencia
del piloto y de su estilo de conducción.
Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013
2 2
2
2
Standardized residuals
1
1
Residuals
0
−1
12
12
−1
−2
−2
1
1
Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5
2
1
2
2
Standardized residuals
Standardized residuals
1.0
12
0
0.5
−1
12
−2
1
0.0
Estilo :
8 9 10 11 12 13 Suave Normal Agresiva
inglés. Diez estudiantes han realizado las dos pruebas. Los resultados se presentan en la
tabla adjunta.
Se pide:
● Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis que se
asumen.
Es un modelo en bloques: Bloque: "Estudiante", Factor: "TEST". La ecuación del modelo
es:
y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2 . Se asumen las hipótesis de homocedasticidad,
normalidad e independencia.
● Interpretar el resultado.
Tanto el factor "TEST" (que tiene I = 2 niveles) como el bloque "Estudiante" (con J = 10
niveles) resultan significativos (tanto para nivel de significación 0. 05 como para 0. 1), pues
los p-valores que se aparecen en la tabla ADEVA son respectivamente 0.02746 y 8.267·10 −8 ,
ambos menores que 0.05 y también que 0.1.
● Construir la tabla ADEVA si sólo se hubiera tenido en cuenta el factor "TEST" e
indica las consecuencias que esto habría tenido.
Fuente Var. Sum. sq. G.l. Var F-stat
2
TEST 1.404 1 s TEST = 1.404 1.404/9.6152 = 0.1460
2
Residual 171.243+1.83 = 173.073 18 s R = 173.073/18 = 9.6152
Total 1.404+171.243+1.83 = 174.477 20-1=19
Al comparar 0.1460 con la F 1,18;0.05 = 4. 41, al ser 0.1460<4.41 no se rechaza la hipótesis
nula, con lo que se obtendría (erróneamente al no incorporar el bloque) que no hay diferencias
significativas entre los dos tests de inglés. Eso es debido a que se incrementa la residual al haber
incorporado en ésta la variabilidad que en realidad es debida al bloque.
2.) Para un modelo de bloques aleatorizados con 2 niveles para el factor y 2 para el
bloque se tiene que:
y ·· = 4.55; y 1· = 2.75; y ·2 = 3.75.
Un alumno ha obtenido que α 2 = 2 y β 1 = 0.8. ¿Son válidos estos valores para ese
modelo? Justifica tu respuesta.
Nota: y ij es la observación para factor a nivel i-ésimo y bloque a nivel j-ésimo. α i es el
efecto principal asociado al factor, y β j el del bloque.
Modelo en bloques: y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2
La estimación de los α i → α 1 = y 1· − y ·· = 2. 75 − 4. 55 = −1. 8. Entonces, α 2 no puede valer
2 como se indica en el enunciado, sino que debería ser 1.8.
La estimación de los β j → α 2 = y ·2 − y ·· = 3. 75 − 4. 55 = −0. 8. Entonces, β 1 sí es correcto
el valor del enunciado.
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-293.717 -40.719 -0.008 51.541 204.689
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 39.792 48.768 ______ 0.425
x 63.362 9.214 ______ 1.97e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Complete los huecos de la salida de R (donde pone “t value” y “F-statistic”). Obtenga el intervalo de
confianza al 95 % para β0 y β1 . Indique si son significativos teniendo en cuenta los intervalos obtenidos
y teniendo en cuenta la salida de R.
2. La ley de Hooke, que gobierna el comportamiento elástico de un material por debajo del lı́mite elástico
afirma que la relación entre los esfuerzos aplicados (ϑ) y las deformaciones unitarias (ε), es lineal y
se puede aproximar por el modelo:
b i = 9, 6 · 1010 εi .
ϑbi = Ψε
Obtenga la expresión teórica para Ψ b mediante el método de mı́nimos cuadrados. Calcule un intervalo
de confianza al 99 % para el módulo de Young sabiendo que la desviación tı́pica estimada de dicho
estimador es 0, 2 · 1010 P a. El valor que aparece reflejado en la literatura para el módulo de Young es
del bronce es 10, 8 · 1010 Pa, ¿es compatible este valor con el obtenido en el experimento?
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014
1. Contraste si el número de empleados tiene efecto significativo en los beneficios de una empresa (α =
0, 01).
2. Se estima un segundo modelo que incluye adicionalmente el regresor ventas (x2 ) y tiene en cuenta que
la mitad de las empresas pertenecen al sector energético y la otra mitad al sector de las telecomunica-
ciones. Para ello se introduce una variable cualitativa Z que toma el valor 1 si la empresa es del sector
energético y 0 si no lo es. El modelo estimado es:
Interprete los resultados explicando el significado de cada parámetro y compare con los resultados del
apartado anterior. (Nota: En todos los contrastes utilice α = 0, 01).
3. Calcule un intervalo de confianza (95 %) para el valor medio de los beneficios de una empresa del
sector de las telecomunicaciones con x1 = 0, 6 y x2 = 1,8 y para una empresa del sector energético con
las mismas caracterı́sticas ¿Cuál es la diferencia entre los beneficios medios de ambas empresas? ¿Es
significativa esta diferencia?.
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014
Solución cuestiones
Cuestion 1
β̂0 39,792
t value (Intercept): t0 = = 48,768 = 0,8159
Ŝ(β̂0 )
β̂1 63,362
t value x: t1 = = 9,214 = 6,8767
Ŝ(β̂1 )
(n−2)R2 18∗0,7243
F-statistic: F0 = 1−R2
= 1−0,7243 = 47,2884
Cuestion 2
ϑi = Ψεi + ui , ui N (0, σ 2 )
Definimos
n
X
M (Ψ) = (ϑi − Ψεi )2
i=0
Por tanto
n
P
n ϑi εi
∂M (Ψ) X i=0
=2 (ϑi − Ψεi )(−εi ) = 0 ⇒ Ψ̂ = n
∂Ψ
ε2i
P
i=0
i=0
Luego solo hay una ecuación que relaciona los residuos entre sı́, luego hay n-1 residuos independientes
β1 ∈ β̂1 ± tn−1;α/2 ∗ Ŝ(β̂1 ) = 9,6 · 1010 ± 3,2498 ∗ 0,2 · 1010 = (8,95 · 1010 , 10,25 · 1010 ) P a
El valor de la literatura está fuera del intervalo, luego no es compatible con los resultados del experi-
mento (con un 99 % de confianza).
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014
Solución problema
El
contraste general de regresión:
H0 : βi = 0 ∀ i
.
H1 : alguno distinto
V E/3 7071, 73/3
Si H0 cierta F0 = = = 2142, 75
V N E/56 sb2R
puesto que V E = V T − V N E = 7133, 33 − (60 − 3 − 1) × 1,1 = 7071, 73.
F0 > F3,56;0,01 = 4, 13 (se ha tomado de las tablas el valor correspondiente a la F3,60;α=0,01 ). Se rechaza
H0 .
Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos. Los
contrastes individuales indican que son todos significativos.
Regresor número de empleados: En el modelo de regresión múltiple ha salido significativo. Al aumentar
el número de empledados en una unidad, a igualdad de ventas y sector, los beneficios medios aumentan
1,094 unidades.
Regresor ventas: Al aumentar las ventas en una unidad, a igualdad de numero de empleados y sector,
los beneficios medios aumentan 9,923 unidades
Regresor sector: A igualdad de numero de empleados y de ventas, las empresas del sector energético en
promedio tienen mas beneficios (6,833 unidades) que las empreas del sector de las telecomunicaciones.
Todos los regresores en este modelo explican el 99,14 % de la varı́abilidad. (R2 = 0, 9914).
3. Intervalo de confianza/predicción
xTh = [1 0, 6 1, 8 0];
T
ybh = xh β = 20, 3838
b
vhh = xTh (X T X)−1 xh = 0, 0879√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 20, 3838 ± 2 × 1, 1 × 1 + 0,0879
√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 27, 2168 ± 2 × 1, 1 × 1 + 0,0950
𝛼
𝛼
𝛼
mod = aov(y ~ facA * facB)
anova(mod)
var(y)
>> anova(mod)
>> var(y)
0.0639383
𝑦̅𝑖··
𝜇 + 𝛼𝑖
Response: calidad
Df Sum Sq Mean Sq F value Pr(>F)
modo 1 40.5 40.500 1.7482 0.2343
Residuals 6 139.0 23.167
Response: calidad
Df Sum Sq Mean Sq F value Pr(>F)
modo 1 40.5 40.50 9.5294 0.03668 *
entorno 1 72.0 72.00 16.9412 0.01466 *
modo:entorno 1 50.0 50.00 11.7647 0.02654 *
Residuals 4 17.0 4.25
Df Sum Sq Mean Sq F value Pr(>F)
A 3 0.92121 0.30707 13.8056 3.777e-06 ***
B 2 1.03301 0.51651 23.2217 3.331e-07 ***
A:B 6 0.25014 0.04169 1.8743 0.1123
Residuals 36 0.80073 0.02224
𝑦̅𝑖··
𝜎
𝑦̅𝑖·· ~ 𝑁(𝜇 + 𝛼𝑖 , )
√𝑘
𝜇 + 𝛼𝑖
𝑠̂𝑅
𝜇 + 𝛼𝑖 ∈ 𝑦̅𝑖·· ± 𝑡𝛼,𝐼𝐽(𝐾−1) ·
2 √𝑘
Examen Final Diseño de Experimentos y Modelos de Regresión 6/junio/2014
var(e) = (I − V )σ 2
( )−1 ( )
,253 ,201
T
X̃ X̃ sbR =
2
.
,201 ,288
Realiza los contrastes individuales de los dos regresores. ¿Cuanto vale la correlación
b y β
entre β b ?. ¿Cuanto vale la correlación entre log x1 y log x2 ? ¿Si eliminamos el
1 2
b ?¿Cómo?
regresor x2 , afectará el resultado al valor de β 1
Ten en cuenta que la matriz de varianza teórica de los estimadores bb = [βb ,βb ]T es
1 2
σ2 r σ2
n s21 (1−r2 )
−ns 2
1 2 (1−r )
s
,
r σ2 σ2
−ns 2 n s22 (1−r2 )
1 s2 (1−r )
Problema
(45 minutos, 6 puntos)
3. El consumo de un lunes laborable concreto fue 37.5 GWh y la temperatura media del
dı́a igual a 7.4 o C. Obtén el residuo correspondiente y explica si el valor 37.5 GWh es
un dato coherente con las hipótesis del modelo.
Da un intervalo de confianza para el consumo medio previsto para un lunes con tem-
peratura igual a 7.4o C.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014
Cuestión 2:
Los denominados “software OCR” (Optimal Character Recognition) se emplean para la digitalización
de textos a partir de un archivo de imagen de entrada.
Un estudiante de la ETSII pretende estudiar el tiempo de procesamiento que requiere un determinado
software OCR (medido en milisegundos), en función del tamaño de la imagen empleada (medido en Mb).
Para ello, procesa mediante el programa diversas imágenes, midiendo el tiempo de procesamiento para
cada una de ellas. El tamaño (en Mb) de las imágenes procesadas son los siguientes:
5.2 6.3 7.5 8.6 10.0 11.1 12.5 13.0 13.2 14.0
Tras ajustar el modelo de regresión lineal simple, obtiene los siguientes resultados:
� = 0.02 + 12.05 · 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑜𝑜
𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ; 𝑉𝑉𝑉𝑉 = 13500
• El fabricante nos indica que, al incrementar en 1 Mb la imagen, se incrementará el tiempo de
procesamiento en 10 unidades. Sospechamos que el incremento real es mayor que el valor que
nos indica el fabricante. En base al experimento realizado, ¿podemos afirmar que la afirmación
del fabricante es falsa? (𝛼𝛼 = 0.05)
• Calcular un intervalo para el tiempo medio que se tarda en procesar imágenes de 10 Mb,
considerando 𝛼𝛼 = 0.05.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014
Solución Cuestión 1:
Apartado 1
El modelo empleado es el siguiente:
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼𝑖𝑖 + 𝛽𝛽𝑗𝑗 + (𝛼𝛼𝛼𝛼)𝑖𝑖𝑖𝑖 + 𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖
Donde se asumen las siguientes tres hipótesis:
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) siguen una distribución normal.
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) son independientes entre sí.
- La varianza de los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) es constante (homocedasticidad).
Apartado 2
La tabla ADEVA es la siguiente:
Analysis of Variance Table
Response: rend
Df Sum Sq Mean Sq F value Pr(>F)
temp 2 32.000 16.0000 55.172 0.0001372 ***
carb 1 5.333 5.3333 18.391 0.0051576 **
temp:carb 2 10.667 5.3333 18.391 0.0027586 **
Residuals 6 1.740 0.2900
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
De la anterior tabla ADEVA se observa que, con un nivel de confianza del 95%, afecta el factor
Temperatura, el factor Carburante, y la interacción Temperatura*Carburante.
Apartado 3
Para determinar cuál es la mejor combinación de temperatura y carburante, realizamos el gráfico de
interacción (Verde: carburante 1. Rojo: carburante 2).
Del gráfico anterior se deduce que las combinaciones que proporcionan un mayor rendimiento son:
Temperatura 2, con cualquier carburante.
Temperatura 3, con el carburante 1.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014
Solución Cuestión 1:
𝛽𝛽̂1 − 𝛽𝛽1
~𝑡𝑡𝑛𝑛−2
𝑠𝑠̂𝑅𝑅 /√𝑛𝑛 · 𝑆𝑆𝑥𝑥
𝑉𝑉𝑉𝑉 = 𝛽𝛽̂1 · 𝑛𝑛 · 𝑠𝑠𝑥𝑥2 = (12.05)2 · 10 · (2.96)2 = 12720
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑉𝑉𝑉𝑉 − 𝑉𝑉𝑉𝑉 = 777.9
777.9
𝑠𝑠̂𝑅𝑅 = � = 9.86
8
Solución Cuestión 2:
𝑦𝑦�ℎ = 120.52
Realice los contrastes individuales y el contraste general de regresión para el nuevo modelo.
Interprete los resultados. (α = 0,05)
Los residuos metálicos con heterogenidad baja y media, ¿requieren un campo magnético distinto?
Justifı́quelo realizando el contraste oportuno.
3. Se ha realizado un tercer modelo que incluye la heterogeneidad de los residuos metálicos y algunos
regresores, resultando:
ybi = −1, 255 + 0, 820z1i + 0, 517z2i + 0, 170x1i + 0, 460x4i
2
con sb2R = 0, 23, R2 = 69, 22 % y R = 60, 42 %.
V E/6 5,52/6
Si H0 cierta F0 = = = 2,3 puesto que:
sbR
2 0,40
El coeficiente de determinación:
VT 10,32
sb2y = = = 0,5733
n−1 18
{
H0 : β i = 0 ∀ i
H1 : alguno distinto
V E/8 8,02/8
Si H0 cierta F0 = = = 4,36
sbR
2 0,23
puesto que V E = V T − V N E = 10,32 − (19 − 8 − 1) × 0,23 = 8,02
F0 > F8,10;0,05 = 3,07 Se rechaza H0 .
Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos.
Los contrastes individuales indican que el variable correspondiente a la heterogenidad de los residuos
metalicos baja y el regresor x4 son significativos.
Regresor Heterogeneidad de residuos metálicos baja: A igualdad del resto de regresores, existe
diferencia significativa en el campo magnético requerido por los residuos metálicos de hetogeneidad
baja y heteogeneidad alta (que es la referencia). En promedio, los residuos metalicos de heterogeneidad
baja requieren un campo magnetico superior ( 0.82 unidades).
Regresor x4 : Al aumentar en una unidad, manteniendo el resto constante, el campo magnetico
requerido en promedio aumenta en 0.46 unidades.
Todos los regresores en este modelo explican el 77, 71 % de la varı́abilidad. (R2 = 0, 7771).
Comparación
{ residuos de heterogeneidad baja-media:
H0 : α B = α M
.
H1 : αB ̸= αM
bB − α
α bM
Si H0 es cierta, t10
sb (b
αB − α bM )
sb2 (b
αB − αb M ) = sb2 (bαB ) + sb2 (b
αM ) − 2cov(b b M ) = 0,0555 + 0,1001 − 2 × 0,0278 = 0,1
αB , α
bB − α
α bM 0,82 − 0,517
= √ = 0,9582 < t10;0,025 = 2,228
sb (b
αB − α
bM ) 0,1
Por tanto, no se rechaza H0 . No existe diferencia significativa.
2
Modelo: sb2R R2 R No regresores
1 0,40 0,5349 0,3023 6
2 0,23 0, 7771 0,5988 8
3 0,23 0,6922 0,6042 4
A la vista de los resultados, el tercer modelo es el mejor seguido muy de cerca por el modelo 2. La
sb2R es, junto con la del modelo 2, la mas pequeña, y aunque la R2 es mayor la del modelo 2, es lógico
2
porque tiene mas regresores, muchos de ellos no significativos, pero la R del modelo 3 es la mayor, y
contiene un menor número de regresores.
En el primer modelo hay discrepancias entre el contaste general de regresion (no se rechaza H0 ) y
los contrastes individuales (regresor x4 es significativo).
EXÁMENES
Curso 2014/15
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015
R1 R2 R3
A 19, 14, 19 2, 4, 5 7, 9, 9
B 9, 6, 0 17, 12, 8 14, 16, 12
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
ruta 2 40.11 20.056 2.0988 0.1653375
compañia 1 2.00 2.000 0.2093 0.6554873
ruta:compañia 2 387.00 193.500 20.2500 0.0001426 ***
Residuals 12 114.67 9.556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Una cadena de restaurantes de comida rápida desea elegir entre 3 nuevos menús
(A,B,C). Eligen al azar 6 restaurantes de la cadena para participar en el estudio. De
acuerdo con el diseño de bloques al azar, cada restaurante hace la prueba de los 3 nuevos
menús. Cada semana cada restaurante probará uno de los menús, de manera que el tiempo
necesario para realizar el estudio es de tres semanas. El orden en el que cada restaurante
prueba los menus es elegido al azar. En la tabla se proporciona el volumen de ventas para
cada semana.
A B C
R1 31 27 24
R2 31 28 31
R3 45 29 46
R4 21 18 48
R5 42 36 46
R6 32 17 40
La variabilidad explicada por los tres tratamientos es 539, la explicada por los bloques
560 y la residual 543.
Cuestion 1
• Apartado (a)
Se utiliza el siguiente modelo para los datos
H0 : µ 1 = µ 2 = µ 3
H1 : Algn µi distinto
X ni
K X K
X
2
V NE = (yij − ȳi• ) = (ni − 1)ŝ2i = 7 · 1,32 + 9 · 1,82 + 7 · 2,22 = 74,87
i=1 j=1 i=1
K
X
VE = ni (ȳi• − ȳ•• )2 = 8·(5,7−5,8)2 +10·(6,6−5,8)2 +8·(5,0−5,8)2 = 11,58
i=1
ya que
K
P
ni ȳi•
i=1 8 · 5,7 + 10 · 6,6 + 8 · 5,0
ȳ•• = = = 5,83
K
P 8 + 10 + 8
ni
i=1
Tabla anova
FV SC GL VAR F
Factor 11.58 2 5.79 1.78
Residuos 74.87 23 3.26
Total 86.45 25
Como F2,23;0,05 = 3,42, se acepta la hipótesis nula, luego no hay diferencias
entre las medias de los medidores.
• Apartado (b)
Según el apartado anterior µ1 = µ2 = µ3 = µ. Por tanto el intervalo de
confianza lo calculamos a partir de la media de todos los datos
K
P
ni ȳi•
i=1
ȳ•• = ⇒ ȳ•• N(µ, σ 2 /n)
n
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015
K
N(µ, σ 2 /ni )
P
donde n = ni . Efectivamente, como yi•
i=1
K K
1X 1X
E(ȳ•• ) = ni E(ȳi• ) = ni µ = µ
n i=1 n i=1
K K
1 X 2 1X σ2
V ar(ȳ•• ) = 2 ni V ar(ȳi•) = ni σ 2 =
n i=1 n i=1 n
Finalmente
r r
ŝ2R 3,26
µ ∈ ȳ•• ± t(n−k);α/2 = 5,8 ± 2,069 = 5,8 ± 0,73 = (5,07, 6,53)
n 26
Cuestion 2
• Modelo
yijk = µ + αi + βj + αβij + uijk , uijk N(0, σ 2 )
I
X J
X I
X J
X
αi = 0, βj = 0, αβij = 0, αβij = 0,
i=1 j=1 i=1 j=1
Factor: compañia
Nivel: A Nivel: B
15
medias
10
5
0
R1 R2 R3
A 17.333 3.667 8.333
B 5.000 12.333 14.000
R1 R2 R3
A (13.445, 21.222) (-0.222, 7.555) (4.445, 12.222)
B (1.111, 8.888) (8.445, 16.222) (10.111, 17.889)
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015
1.
Fuentes Variabilidades GL Varianzas F
Menús 539 2 269.5 4.96*
Restaurantes 560 5 112.0 2.06
Residuos 543 10 54.3
Total 1642 17
Como F0,05;2,10 = 4,03 existen diferencias significativas entre los tres menús.
Como F0,05;5,10 = 3,33 no existen diferencias significativas entre los seis restaurantes.
Hacemos las comparaciones dos a dos de los tres menús:.
r r
2 2
LSD = t0,025,10 ŝR = 2,23 × 7,4 × = 9,5
J 6
Sólo existen diferencias significativas entre B y C. Teniendo en cuentas las tres medias
33.7 (A), 25.8 (B) y 39.2 (C), el menú C tiene más ventas que el B. No existen diferencias
significativas en las otras comparaciones.
2.
E[yi1 + yi2 + · · · + yiJ ]
E[ȳi• ] =
J
(µ + αi + β1 ) + (µ + αi + β2 ) + · · · + (µ + αi + βJ )
=
J
= µ + αi
pues β1 + β2 + · · · + βJ = 0
3.
w = (ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 )
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015
H0 : µ w = 0
H1 : µ w < 0
Como
w → N(µw , 2σ 2 )
w − µw
t = √ → t10
2ŝR
(ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 ) 19,9
t = √ =√ = 1,9
2ŝR 2 × 7,4
El contraste es unilateral, la región de rechazo es
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 124.093 35.941 3.453 0.00304
TV 24.233 13.627 1.778 0.09325
web 10.446 3.713 2.813 0.01197
𝑦𝑖 = 𝛽0 + 𝛽1 · 𝑥𝑖 + 𝑢𝑖
𝑥𝑖
𝑦𝑖
𝑦̂𝑖
𝑒𝑖
𝑒𝑖 𝑦̂𝑖 )
𝑒𝑖 𝑦̂𝑖
Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015
Se ha realizado un experimento para explicar y predecir una variable física Y en función de una serie
de factores. El número de datos es 60. En primer lugar se analiza la dependencia de Y respecto de la
temperatura. Los resultados de la estimación son los siguientes:
1. Contrastar que la pendiente del modelo 1 es nula y calcular un intervalo de con…anza para 1.
Interpretar el resultado. ( = 0;05)
3. Estudiar el sesgo que introduce en la estimación del efecto de la temparatura el utilizar el modelo del
apartado 1 cuando el modelo verdadero es el del apartado.2. ¿En qué condiciones es nulo el sesgo?
𝐻0 : 𝛽1 = 𝛽2 = 0 ; 𝐻1 : 𝑎𝑙𝑔𝑢𝑛𝑎 𝛽𝑗 ≠ 0
𝐹0 = 4.947 ~𝐹2,17 𝛼
𝛽̂0
𝛽̂1
𝛽̂2
𝑥ℎ = [1 3 20]𝑇
̂
𝑦̂ℎ = 𝛽 𝑥ℎ = [124.1 24.2 10.4] · [1 3 20]𝑇 = 404.7
𝑇
𝐼𝐶(𝑚ℎ ) = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝜈ℎℎ = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝑥ℎ𝑇 · (𝑋 𝑇 · 𝑋)−1 · 𝑥ℎ
2 2
= 404.7 ± 77.9 · 2.11 · √1 + 0.644 = (195.2 , 614.2)
p
1. t = b 1 =b
sR =sx n
b = r Sy ;
1 Sx
1
Sy2 = ( 60 s2R =(1
)(58b r2 )) = 14; 53
Sx = rSy = b 1 = 1; 19
p
t = b 1 =b
sR =sx n = 13; 9 > t0;975 con 58 grados de libertad = 2; 00
b p
Intervalo 1 t58 sbR =sx n (2; 4 3; 2)
El contraste indica que se rechaza la hipótesis nula de que la temperatura no in‡uye sobre la vari-
ablerespuesta, lo cual concuerda con que el intervalo de con…anza para la pendiente no contenga al
cero
2. Contrastes individuales
p p
t1 = b 1 =b
sR q11 = 2;11=(1;005 0;285) = 3; 93; mayor en módulo que t0;975 con 55 grados de
libertad = 2; 005
p p
t2 = b 2 =b
sR q11 = 5;07=(1;005 0;292) = 9; 33 > 2; 005
p p
t3 = b 3 =b
sR q11 = 0;96=(1;005 0;1) = 3; 02 > 2; 005
p p
t4 = b 4 =b
sR q11 = 2;38=(1;005 0;1) = 7; 48 > 2; 005
Contraste conjunto:
s2R
F = (V E=4)=b
Tanto los contrastes individuales como el conjunto resultan signi…cativos. Los resultados del tercer y
cuarto contraste individual indican que hay diferencias signi…cativas entre las ordenadas en el origen
de A-B, y A-C, respectivamente.
Para B frente a C
p
t = (2;38 0;96)=((1;005 (0;1 + 0;1 2 0;05))) = 4; 47 > 2; 005
De este último contraste se deduce que son signii…cativamente distintas las ordenada en el origen para
B y C.
3. Si las regresiones simples entre T y las demás variables son
1 1
P = 0 + 1T + u1
2 2
Z2 = 0 + 1T + u2
3 3
Z3 = 0 + 1T + u3
Y = 0 + 1T + 2P + 2 Z2 + 3 Z3 + u;
obtenemos
1 1 2 2 3 3
Y = 0 + 1T + 2( 0 + 1T + u1 ) + 2( 0 + 1T + u2 ) + 3
3 ( 0 + 1 T + u ) + u;
1 2 3
el coe…ciente de T en la regresión simple que resulta es 1 + 2 1 + 2 1 + 3 1; y el sesgo sería
1 2 3
2 1 + 2 1 + 3 1
que sólo sería nulo en general cuando 11 = 21 = 31 = 0; es decir cuando las correlaciónes entre T y
cada una de las demás variables explicativas sean todas nulas.
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
Carne de ternera,
Carne de buey,
Carne de pollo y
Se desea determinar si el tipo de carne inuye en la cantidad de sodio. Para ello se dispone
de 4 observaciones para cada tipo de de carne, y de la siguiente tabla de Análisis de la Varianza
incompleta:
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 5.91
Residual 54
Total
Se pide:
a) Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis de dicho
modelo,
b) Completar la tabla ADEVA,
c) A la vista de lo anterior enunciar e interpretar las conclusiones que puedan obtenerse
de esta tabla.
NOTA: Tomar = 0;05:
a) Modelo de análisis de la varianza con un factor: yij = i + uij ; con uij ! N (0; 2 ): Y se asumen las
hipótesis de normalidad, homocedasticidad e independencia.
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 26;5953 = 79;785 K 1=3 4;55;91 = 26;595 5.91
b) 2
Residual 54 n K = 12 sbR = V N E=12 = 54=12 = 4;5
Total 79;785 + 54 = 133;785 n 1 = 15
El valor del estadístico F (de la tabla, 5.91) se compara con el valor en tablas para una FK 1;n K;0;05
F3;12;0;05 = 3;49: Y como 5;91 > 3;49 entonces se rechaza la H0 : 1 = 2 = 3 = 4 , frente a la H1 : Alguna es
distinta. Por tanto el factor "tipo de carneresulta signi
cativo. El "tipo de carne"inuye signi
cativamente
en la cantidad de sodio presente.
2. Una empresa que se dedica a la construcción de campos de golf está estudiando la calidad
de varios tipos de césped. Para ello, se mide la distancia recorrida por una pelota de golf
en el campo después de bajar por una rampa (esto se hace para proporcionar a la pelota
una velocidad inicial constante).
El terreno en el que se realizan pruebas dispone tiene mayor pendiente en la dirección
Norte-Sur, por lo que es razonable dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las mismas. En todos
ellos se utilizó el mismo método para la siembra y las mismas cantidades de semilla.
Los datos que se proporcionan en la tabla corresponden a mediciones de las distancias
desde la base de la rampa al punto donde se pararon las pelotas.
En el estudio se incluyeron las variedades de césped siguientes:
Agrostis T. (Césped muy
no y denso, de hojas cortas y larga duración), (A)
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
Agrostis C. (Hoja muy
na, estolonífera. Forma una cubierta muy tupida), (B)
Paspalum N. (Hojas gruesas, bastas y con rizomas. Forma una cubierta poco densa)
(C) y
Paspalum V. (Césped
no, perenne, con rizomas y estolones) (D).
3.5
3.0
2.5
medias
2.0
1.5
1.0
A B C D
CESPED
El cesped tipo "D"es el que da lugar la mayor distancia, y ésta es signi
cativamente mayor que el
resto.
Los intervalos del grá
co vienen dados por:
1;14 0;2744156
1;76 0;2744156
1;38 0;2744156
3;56 0;2744156
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
Se está estudiando la dureza ( kg fuerza) de unas probetas de acero. Se piensa que la dureza depende del
método de medición empleado (M1, M2, M3) y del contenido en carbón activo (1 %, 2 %) de la probeta.
Para ello se ha realizado el experimento (replicado dos veces) que se presenta en la siguiente tabla:
2. Complete el análisis realizando los contrastes y los gráficos que considere convenientes para interpretar
los resultados. Indique los tratamientos (condiciones experimentales) en los que se han obtenido durezas
medias distintas (α = 0, 05).
3. En el informe final del experimento se han escrito una serie de afirmaciones; indique si son verdaderas
o falsas justificando la respuesta a la vista de los resultados anteriores o realizando nuevos cálculos o
gráficos si los considera necesarios.
a) Los tres métodos de medición son equivalentes si se considera un nivel de significación de 0,05.
b) Las probetas con el 2 % de carbón activo presentan por término medio mayor dureza que las que
tienen un 1 % de carbón activo.
c) Al hacer la diagnosis se incumple la hipótesis de homocedasticidad.
d) La varianza del Método 3 de medición es el doble que la correspondiente al Método 1 (α = 0, 05).
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
Solución Problema
1. Es un diseño factorial con dos factores replicado 2 veces. Un factor es el método de medición (3 niveles)
y el otro factor es el contenido en carbón activ o (2 niveles). La ecuación del modelo es
2. Los resultados del experimento se debe interpretar a partir del gráfico de la interacción.
Factor: CAR
300
Nivel: 1%
Nivel: 2%
250
medias
200
150
Factor: MET
La expresión para los intervalos de confianza que se han incluido en el gráfico de la interacción es:
sR
µ + αi + β j + (αβ)ij ∈ y ij ± tα/2 × √ con (1 − α) % de confianza.
2
En particular:
Tratamiento I: M3-1 % sería µ + αi + β j + (αβ)ij ∈ [120,68; 213,32] con 95 % de confianza.
Tratamiento II: M3-2 % sería µ + αi + β j + (αβ)ij ∈ [222,68; 315,33] con 95 % de confianza.
El contraste:
H0 : µT I = µT II
H1 : µT I = µT II
y y 167 − 269
Si H0 es cierta, T I− T II t6 =⇒ |t0 | = = 3,81 > t6;0,025 = 2,45 =⇒Se
1 1 √ 1 1
sR + 716,83 +
nT I nT II 2 2
rechaza H0 .
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
Los tratamientos I( Método3-1 %) y II (Método 3-2 %) son distintos como se puede apreciar en el gráfico,
viendo que los intervalos de confianza no se solapan.
Entre el resto de los tratamientos no existen diferencias estadísticamente significativas.
3. a) Falsa: Al haber interacción, la influencia del método depende del % de carbon. En concreto el M3
proporciona mediciones distintas dependiendo de si las probetas tienen el 1 % o el 2 % de carbón. Es
decir el M3 es capaz de diferencias entre 1 % y 2 % y los otros métodos no.
b) Falsa: Por término media ambas probetas presentan la misma dureza, sólo con el Método 3 se
concluye que las probretas con el 2 % de carbón tienen mayor dureza por término medio que las
probetas con el 1 %.
c) Verdadera: Se calculan los residuos, y al hacer los gráficos de la diagnosis se observan que no
cumple la hipótesis de homocedasticidad.
Contenido en carbón activo
1% 2%
6,5 −7
M1
−6,5 7
Los residuos son:
−9 −14,5
Método M2
9 14,5
−2 −42
M3
2 42
2
Standardized residuals
20
1
Residuals
7
−20
7
−1
−40
−2
11
11
180 200 220 240 260 −1.5 −0.5 0.0 0.5 1.0 1.5
Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5
12
11
12
2
Standardized residuals
Standardized residuals
1.0
7
0
0.5
7
−1
−2
11
0.0
CAR :
180 200 220 240 260 1% 2%
d) Verdadera:
H0 : σ2M3 = 2σ2M1
Si se realiza el contraste
H1 : σ2M3 = 2σ2M1
Se verifica
(nM3 − 1) s2M3
(nM3 − 1)σ2M3
F(nM3 −1);(nM1 −1 ) = F3,3
(nM1 − 1) s2M1
(nM1 − 1)σ2M1
1 s2M3
Si H0 cierta=⇒ σ2M3 = 2σ2M1 =⇒ F(nM3 −1);(nM1 −1 ).
2 s2M1
Se calcula
2
2 2
2
(eM1,jk )2 (eM3,jk )2
j=1 k=1 j=1 k=1
s2M1 = = 60,83; s2M3 = = 1178, 7
nM1 − 1 nM3 − 1
1 s2M3
F0 = = 9,69 ∈ [F3,3;0,975 ; F3,3;0,025 ] = [0,065; 15,44] =⇒ No se puede rechazar H0 .
2 s2M1
H0 : σ2M3 ≥ 2σ2M1
O tambien se puede realizar el contraste:
H1 : σ2M3 < 2σ2M1
1 s2M3
En este caso F0 = = 9,69, y se rechazará H0 cuando F0 < F3,3;0,95 = 1/9,28 = 0,11 =⇒ No se
2 s2M1
puede rechazar H0 .
17 de junio de 2015
Solución:
b. El intervalo solicitado es para una nueva observación no utilizada en la estimación del modelo.
El intervalo es:
p
2 ^h tn k 1 s^R 1 + vhh
siendo ^h el valor previsto para 89 o
2 C y 1 bar (0;1605 +3 0;7912x89
2 3 0;00245x1 = 70;57) y
5;1 0;12 0;05 1
vhh = xTh (X T X) 1 xh = 1 89 1 4 0;12 30;8 0;08 5 4895 = 243957; 56:
0;05 0;08 0;001 1
p
2 70;57 2;052 0;03 1 + 243957; 56 = 70; 57 30;41 ! 2 (40; 16; 100)
17 de junio de 2015
2. Se realizan los tres modelos de regresión simple entre la variable Y, costes de producción
de la primera edición de un best-seller, y las variables explicativas X1, tinta; X2, coste del
papel y X3, coste de las tapas, obteniendo para los contrastes individuales los siguientes
p valores : 0; 002; 0;012 y 0; 04 respectivamente.
A continuación se estima el modelo de regresión múltiple con las tres variables explicativas
mencionadas anteriormente Y^ = ^ 0 + ^ 1 X1 + ^ 2 X2 + ^ 3 X3 siendo los p-valores de los tres
contrastes individuales 0; 001; 0; 01 y 0; 035 y el contraste conjunto de regresión múltiple
H0 : 1 = 2 = 3 = 0 vs H1 : algún i 6= 0 con p valor = 0; 001.
Interprete los resultados presentados anteriormente, utilice = 0;05. (1 punto)
Posteriormente se realiza la diagnosis del modelo. El grá…co de los residuos frente a los
valores observados Y muestra relación entre ellos. Justi…que este comportamiento. (1
punto).
Solución:
Todos los contrastes individuales de los modelos de regresión simple y los contrastes individuales del
modelo de regresión múltiple son signi…cativos, ya que los p valores < = 0;05:El contraste general
de regresión también es signi…cativo p valor < = 0;05:Por lo que no se detecta ninguna incoherencia
. El modelo de regresión múltiple es correcto a falta de la diagnosis.
No tenemos información para estudiar la homocedasticidad y la normalidad de los residuos. Nos dicen
en el enunciado que el grá…co de los residuos frente a los valores observados Y muestra relación entre
ellos, los residuos y el vector Y^ son ortogonales, esa es la razón de que el grá…co que usamos para la
diagnosis sea e vs Y^ (valores previstos), y no e vs Y (valores observados). Por lo que concluimos que
es lógico que aparezca relación entre ellos, como puede observarse a continuación:
e=Y Y^ = Y X^ = Y X(X T X) 1
X T Y = (I V )Y
Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015
1. En primer lugar se realizan las tres regresiones simples: de log(y) frente a log(x1 ); de log(y)
frente a log(x2 ) y de log(y) frente a log(x3 ): En la tabla se proporcionan la media y la
varianza de todas las variables cuantitativas transformadas, y además cov(log(y); log(x1 )) =
0;639; cov(log(y); log(x2 )) = 0;382; cov(log(y); log(x3 )) = 0;505:
1. Se pide calcular para los tres modelos de regresión simple mencionados los estimadores de
los coe…cientes de los modelos de regresión simple así como el coe…ciente de determinación
para cada uno de ellos (R12 ; R22 y R32 ):
log (y) = 01 + 11 log (x1 ) + u1 ;
log (y) = 02 + 12 log (x2 ) + u2 ;
log (y) = 03 + 13 log (x3 ) + u3 :
¿Qué modelo elegiría basándose en el porcentaje de variabilidad explicada por el modelo
considerando que la diagnosis de los 3 modelos es correcta?
b = cov(log(y);log(x1 ))
= 0;639
= 0;9181
11 var(log(x1 )) 0;696
b = log(y) b log(x1 ) = 3;108 0;9181 3;011 = 0;3436
01 11
b = cov(log(y);log(x2 ))
= 0;382
= 0;8233
12 var(log(x2 )) 0;464
b = log(y) b log(x2 ) = 3;108 0;8233 2;952 = 0;6776
02 12
b = cov(log(y);log(x3 ))
= 0;505
= 0;9546
13 var(log(x3 )) 0;529
b = log(y) b log(x3 ) = 3;108 0;9546 3;332 = 0;0727
03 13
2 2
cov(log(y);log(x1 )) 0;639
R12 = (corr(log(y); log(x1 )))2 = std(log(x1 )) std(log(y)) = p p
0;696 0;634
= 0;9253
2 2
cov(log(y);log(x2 )) 0;382
R22 = (corr(log(y); log(x2 )))2 = std(log(x2 )) std(log(y)) = p p
0;464 0;634
= 0;4960
2 2
cov(log(y);log(x3 )) 0;505
R32 = (corr(log(y); log(x3 )))2 = std(log(x3 )) std(log(y)) = p p
0;529 0;634
= 0;7604
simpli…cado, indicando cómo. (Tomar = 0;05). Discutir las diferencias con los resultados
del apartado 1) y comentar a qué pueden deberse.
Y como j 11;0224j >> tn k 1 t153 4 1; 0;05 ' 2 resulta estadísticamente signi…cativa pues se
2
rechaza la H0 : M EJORA = 0:
Ordenada en el origen con MEJORA=0 vale b 0 y con MEJORA=1 sería: b 0 + b M EJORA = b 0
0;355115:
Al pasar de MEJORA=0 a MEJORA=1, el log(Calidad) disminuye 0;355115:
Examen Extraordinario - Diseño y Regresión 26 de junio de 2015
1. Unos estudiantes de Biologı́a están analizando la reducción de una enzima en un reacción quı́mica,
para ello trabajan con tres reacciones diferentes y cinco mezclas.
Reacción
1 2 3 M edias
1 199 124 80 134, 3
2 200 120 78 132, 7
3 198 120 78 132, 7
4 197 122 82 133, 3
5 200 121 80 133, 3
M edias 198, 8 121, 4 79, 6 ȳ.. = 133, 3
Obtenga la tabla ADEVA y concluya qué variables son significativas. Justifique y escriba el modelo
correcto para el experimento realizado.
2 Se estudia la producción de un fármaco, para ello se utilizan dos componentes que se denominan
Componente 1 y Componente 2, cada componente tiene dos niveles, y cada tratamiento tiene dos
réplicas. Los p-valores del efecto principal del Componente 1 (A), del efecto principal de la Componente
2 (B) y la interacción de segundo orden AB son respectivamente p-valor= 0, 999, p-valor= 0, 2378 y
p-valor= 0, 000.
A continuación se presenta la tabla con las medias de los cuatro tratamientos y el gráfico de la
interacción AB.
C1 − 1 C1 − 2
C2 − 1 35 21
C2 − 2 20 34
Se pide:
a) ¿Qué condiciones experimentales son las más favorables para obtener la máxima producción? La
varianza residual del modelo de dos factores es ŝ2R = 1, 04. Utilice α = 0, 05.
b) Estime la V E(A:Componente 1) y la V E(B:Componente 2) considerando únicamente los datos
del gráfico.
𝑠̂𝑦2 = 1473.4 ; 𝑠̂𝑥2 = 26.25 ; 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥𝑦 = 142.96 𝑦̅ = 86.31 ; 𝑥̅ = 16.5
𝑠̂𝑅 = 26.76
𝛽1 𝛼 = 0.05
𝛼 = 0.05
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -68.7562 83.9978 -0.819 0.419
visitas 15.7032 13.7715 1.140 0.263
Zbaja -0.9008 11.0369 -0.082 0.935
Zalta 14.0552 11.3655 1.237 0.226
ninos -12.0809 16.1811 -0.747 0.461
𝛼 = 0.05
EXÁMENES
Curso 2015/16
Examen de Diseño y Regresión, GITI 14 de marzo de 2016
1.) Los propietarios de un hotel rural quieren reducir el gasto en lavandería ya que se han
dado cuenta que con el detergente que utilizan en la actualidad tienen que devolver la ropa
"supuestamente limpia.a la lavandería en demasiadas ocasiones.
Han realizado un experimento para comparar cuatro detergentes de distintas marcas en
tres tipos de manchas distintas y han medido la "blancura"de la ropa después del lavado.
Se pide plantear el modelo más adecuado, indicar su nombre y justi…car la respuesta de la
elección. Indicar el detergente que obtiene mejores resultados, así como el peor. NOTA: La
obtención de un valor mayor signi…ca mayor blancura. Utilizar = 0;05:
El modelo adecuado es un modelo en bloques aleatorizados: se quiere detectar cuál es el detergente más
e…caz, pero el tipo de mancha puede in‡uir en la "blancura"que se obtiene.
2
yij = + i + j + uij ; con uij N (0; );
donde es la media global, i y j los efectos principañes asociados al "factor detergente "bloque mancha- 2
espectivamente. uij es el término de error. Cada yij es la blancura obtenida con detergente i-ésimo para la
mancha j-éisma.
A la vista de la tabla de medias, el mejor detergente en media es el Detergente 3, y el peor el Detergente
4. Ahora vamos a ver si existe diferencia estadísticamente signi…cativa con los demás detergentes.
p
+ 1 2 y 1: t6; 2 3;138 p13 ! + 1 2 46;333 2;447 1;7714 p1 ,
3
entonces + 1 2 46;333 2;5026,
entonces + 1 2 [43;8304; 48;8356]:
p
+ 2 2 y 2: t6; 2 3;138 p13 ! + 2 2 48;333 2;5026, entonces + 2 2 [45;8304; 50;8356]:
p
+ 3 2 y 3: t6; 2 3;138 p13 ! + 3 2 51 2;5026, entonces + 3 2 [48;4974; 53;5026]:
p
+ 4 2 y 4: t6; 2 3;138 p13 ! + 4 2 42;667 2;5026, entonces + 4 2 [40;1644; 45;1696]:
2.) Un grupo de profesores de Primaria sospecha que sus alumnos aprenden de manera más
efectiva con música clásica de fondo a un volumen constante y moderado, y menos efectiva en
silencio o con música cuyo volumen y tipología sea variable.
Por ello eligen 24 alumnos al azar y los dividen de manera aleatoria en tres grupos de ocho
alumnos. Todos ellos estudian en las condiciones descritas un texto durante 30 minutos:
Después se les hace a los alumnos un test sobre el texto con 10 preguntas, y se recogen sus
puntuaciones.
Examen de Diseño y Regresión, GITI 14 de marzo de 2016
a) Indicar de qué modelo se trata y plantear la ecuación del mismo de…niendo qué es cada
término y subíndice, así como las hipótesis que se asumen.
Modelo de análisis de la varianza con un factor.
2
yij = i + uij con uij N (0; ):
Llamaremos a nivel del factor SC: 1, SV: 2, SS: 3. El factor "sonido de fondo"tiene K = 3 niveles.
i = 1; 2; 3. yij son las puntuaciones del alumno j-ésimo que ha estudiado el texto en la condición i (según la
de…nición anterior). i parte predecible, explicada por el modelo. uij término de error.
Se asumen las hipótesis de homocedasticidad, normalidad e independencia.
b) Indicar el número de parámetros a estimar.
Se estiman 1 , 2 , 3 y 2 , que es la varianza del error. Por tanto, se estiman 4 parámetros.
c) Respecto a la diagnosis del modelo se proporcionan los dos grá…cos siguientes y se
realiza un contraste de bondad de ajuste obteniéndose un p-valor de 0.2614. Se pide indicar si
con toda esta información las hipótesis indicadas en a) pueden comprobarse y si se cumplen.
NOTAS: Tomar = 0;05. En el contraste de bondad de ajuste la H0 es que los residuos son
normales, y la H1 que no lo son.
Para comprobar homocedasticidad se utiliza el grá…co proporcionado en el enunciado: residuos frente a
valores previstos, y al no observarse que la dispersión crezca al hacerlo los valores previstos, o decrezca con
ellos (residuos en forma de "trompeta") esto nos permite dar por válida la hipótesis de homocedasticidad.
En cuanto a la hipótesis de normalidad, a la vista del Q-Q plot (puntos bastante alineados al representar
percentiles de los valores muestrales frente a los teóricos (distribución normal correspondiente) y sobre
todo dado que el p-valor proporcionado para el contraste de bondad de ajuste es 0.2614, que es mayor que
cualquiera de los niveles de signi…cación habituales (.01, 0.05 y 0.1) no se rechaza la hipótesis de normalidad.
Independencia: Es la hipótesis fundamental y con diferencia la más importante de las tres, además es la
más difícil de comprobar. Ninguno de los grá…cos mostrados permite comprobar esta hipótesis. Pero en este
sentido la clave está en la aleatorización.
d) Indicar si se necesita algún grá…co o comprobación adicional. En caso a…rmativo indicar
cuáles.
Como se indicaba en c) Respecto a la hipótesis de independencia: Ninguno de los grá…cos mostrados
permite comprobar esta hipótesis. Pero en este sentido la clave está en la aleatorización.
La aleatorización evita que se produzcan errores que sistemáticamente aumenten o disminuyan un con-
junto de medidas por causas no reconocibles: al aleatorizar se reparten estos errores por igual entre los
diferentes tratamientos y se convierten en errores aleatorios, previstos en el modelo.
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016
Método de compresión
Tipo Sustancia 68,63,65 126,128,133 93,101,98 56,59,57
71,66,66 107,110,116 63,60,59 40,41,44
1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)
2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)
3. Indique qué distribución sigue y estime por máxima verosimilitud los parámetros y del
modelo propuesto en el primer apartado. (1 punto)
Nota: Utilice para todos los apartados = 005
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016
Solución:
1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)
Se plantea um modelo con dos factores e interacción. La variable respuesta es la resistencia a la
compresión (psi), los dos factores son: Factor 1-Tipo de Sustancia y Factor 2-Método de compresión.
El modelo matemático es:
X
X
X
X
= = = = 0; con = 2 = 4 = 1 2 3(número de réplicas)
=1 =1 =1 =1
Observando la tabla ADEVA concluimos que el efecto principal "Tipo de Sustancia", el efecto principal
"Método de compresión 2la interacción entre "Tipo-Método"son significativas, ya que los p-valores son
− 005
Como la interacción es significativa, el efecto del primer factor depende del nivel al que esté el segundo
factor (y viceversa). Para poder saber que tratamiento es el que tiene mayor resistencia, menor
resistencia y cúales son distintos calclamos el gráfico de la interacción incluyendo los intervalos de
confianza para las medias de los ocho tratamientos. A continuación se presenta una tabla con las
medias de cada tratamiento.
Método de compresión
Tipo Sustancia 65,33 129 97,33 57,33
67,66 111 60,66 41,66
Calculamos el intervalo de confianza para las medias de cada tratamiento, como se describe a contin-
uación:
r
1
̄ ± (−1);2 ̂
r r r
√ 1 1 1
siendo (−1);2 = 16;0025 = 212; ̂ = 95 y = Por lo tanto, (−1);2 ̂ = 372
3
A continuación se presenta el gráfico de la interacción con las medias de cada uno de los ocho tratamientos
y los respectivos intervalos de confianza.
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016
78
58
38
1 2
Tipo
2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)
Nos piden un intervalo de confianza para 2 así:
PPP
2 (( − 1))̂2
→ 2(−1) ; = → 2(−1) ;
2 2 2
(( − 1))̂2
2 ≤ ≤ 2
2
Y el intervalo para 2 es:
siendo ( − 1) = 16 ̂2 = 95 2 = 69 y 2 = 2885. Por lo tanto el intervalo pedido es:
2 ∈ (53; 22)
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016
3. Indique qué distribución sigue y estime por máxima verosimilitud los parámetros y del
modelo propuesto en el primer apartado. (1 punto)
La distribución de sigue una distribución normal, ya que es una combinación de variables normales,
con esperanza y varianza las siguientes:
→ ( + + + ; 2 )
1
1 − (( −− − − ))2
( ) = √ 2
2
Función de verosimilitud:
1
1 − [( −− − − )]2
2
(111 243 ; 1 1 24 ) = 2
(2)2
Función soporte:
X X X − − − −
( 1 1 24 2 ) = − log 2 − [ ]2
2
XXX PPP
c ) = 0 ⇒ ̂ =
=0⇒2 ( − ̂ − ̂ − ̂ − = ̄
XX
= 0; = 1 2 ⇒ c )=0⇒
( − ̂ − ̂ − ̂ −
XX
̂ = c )=0⇒
( − ̂ − ̂ − ̂ −
P P
̂ = − ̄ = ̄ − ̄
XXX P P
c ) = 0 ⇒ ⇒ ̂ =
= 0 = 1 2 3 4 ⇒ ( −̂−̂ −̂ − −̄ = ̄ −̄
Evaluación Continua 2 Diseño de Experimentos y Regresión 23 de mayo de 2016
ȳ = 124,50, ŝ2y = 4104,27, x̄1 = 105,75, ŝ2x1 = 3201,84, x̄2 = 22,08, ŝ2x2 = 68,63.
Se pide:
En una zona del mar Mediterráneo se han tomado 12 medidas de las concentraciones
de metales pesados en el sedimento (ng/g). Los metales medidos han sido Cd, Pb, Cr, As
y Hg. Para analizar si la concentración de Pb está relacionada con las concentraciones del
resto de metales pesados, se han ajustado diferentes modelos de regresión. Se presentan
los resultados de 4 de ellos, ası́ como las medias y la matriz de varianzas de las variables.
Modelo 1:
lm(formula = Pb ~ Cd)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.75081 10.87684 0.805 0.44
Cd 1.09455 0.09154 11.957 3.02e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Modelo 2:
lm(formula = Pb ~ Cr)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -40.2072 15.1626 -2.652 0.0242 *
Cr 7.4584 0.6462 11.542 4.21e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Modelo 3:
lm(formula = Pb ~ Cd + Cr)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -19.6155 13.4732 -1.456 0.1794
Cd 0.5850 0.2009 2.912 0.0173 *
Cr 3.7244 1.3723 2.714 0.0238 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Modelo 4:
lm(formula = Pb ~ Cd + Cr + As + Hg)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.5137 59.1801 -0.093 0.9284
Cd 0.5967 0.2204 2.708 0.0303 *
Cr 2.2402 1.8726 1.196 0.2705
As 0.6466 0.5310 1.218 0.2628
Hg -0.2422 0.5683 -0.426 0.6828
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1. Cuestión 1
H0 : β1 = β2 = 0
H1 : Algún βi 6= 0
V T = (n − 1)ŝ2y = 45146,97
ŝ2R
R̄2 = 1 − ⇒ ŝ2R = (1 − R̄2 )ŝ2y = 164,17
ŝ2y
V NE = (n − K − 1)ŝ2R = 1477,54
V E = V T − V NE = 43669,43
Por tanto
V E/K VE
F = = ⇒ F0 = 133
V NE/(n − K − 1) K ŝ2R
Como F2,9;0,05 =4.26, se rechaza la hipótesis nula.
b) Hay multicolinealidad cuando los regresores están muy correlacionados:
T
s21 s12 β̂1
= n(β̂12 s21 + β̂22 s22 + 2β̂1 β̂2 s12 )
V E = nb̂ Sxx b̂ = n β̂1 β̂2
s12 s22 β̂2
Despejando
V E − nβ̂12 s21 − nβ̂22 s22
s12 =
2nβ̂1 β̂2
43669,43 − 0,592 (12 − 1)3201,84 − 3,722 (12 − 1)68,63
⇒ s12 = = 397,95
24 · 0,59 · 3,72
Y el coeficiente de correlación
s12
ρ12 = = 0,93
s1 s2
Por tanto, si hay multicolinealidad.
2. Cuestión 2
a) El modelo es
yi = β0 + β1 zD + ui , ui → N(0, σ 2 )
donde zD =1 si el individuo sigue la dieta A, y zD =0 si el individuo sigue la
dieta B. De los datos se tiene que:
H0 : β1 = 0
H1 : β1 6= 0
β̂1
t0 = q = 2,696
ŝ2R /ns2zD
−1
sb2R −1
13,43 3201,84 438,02
b. La matriz de varianzas es: Mβb = S = =
n xx 12 438,02 68,63
0,037 −0,236
−0,236 1,73
El coeficiente de correlación entre los resgresores es:
438,02
rx 1 x 2 = √ √ = 0,93.
3201,84 × 68,63
El coeficiente de correlación entre los estimadores de los parámetros es:
−0,236
rβb1 xβb2 = √ √ = −0,93.
0,037 × 1,73
Se comprueba entonces que rβb1 βb2 = −rx1 x2 .
(Nota.- se podı́a haber hecho teóricamente).
3. El intervalo de predicción para una nueva observación tanto para los modelos de
regresión simple (modelos 1 y 2) como los modelos de regresión múltiple se pueden
escribir:
√
yh ∈ yeh ± t α × sbR × 1 + νhh .
n−k−1;
2
Como se pide hacer la predicción cuando las concentraciones de los regresores coin-
ciden con la media=⇒
1 1 1
Para todos los modelos: yeh = ybh = y h = 124,5. Y además νhh = = = .
n
bh n 12
Lo único que varı́a en los intervalos de predicción de un modelo a otro son los grados
de libertad de la distribución t, y el valor de la bsR .
Modelo 1:
r
1
yh ∈ 124,5 ± 2,23 × 17,18 × 1+ .
12
Modelo 2:
r
1
yh ∈ 124,5 ± 2,23 × 17,75 × 1+ .
12
Modelo 3:
r
1
yh ∈ 124,5 ± 2,26 × 13,43 × 1+ .
12
Modelo 4:
r
1
yh ∈ 124,5 ± 2,36 × 13,8 × 1+ .
12
2
Si se quiere conseguir la mejor predicción, el modelo elegido debe tener mayor R ,
menor bsR y menor intervalo de predicción. Con los datos del problema, el modelo
elegido para cumplir con el objetivo es el modelo 3.
α
(𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) − (𝜇𝐵 − 𝜇𝐶 )
~ 𝑡8,𝛼/2
1 1
𝑠̂𝑅 √𝑛 + 𝑛
𝐵 𝐶
1 1
IC(𝜇𝐵 − 𝜇𝐶 ) = (𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) ± 𝑠̂𝑅 · 𝑡8, 0.05 ·√ +
𝑛𝐵 𝑛𝐶
2
IC(𝜇𝐵 − 𝜇𝐶 ) = (137.70 − 145.54) ± √20.01 · 1.86 · √ = (−13.10, − 2.58)
5
275.51
𝑠̂𝑅2 = = 4.59
60
2 2
𝐼𝐽(𝑚−1)·𝑠̂𝑅 𝐼𝐽(𝑚−1)·𝑠̂𝑅
𝐼𝐶(𝜎 2 ) = ( 2 , 2 ) = (3.3 6.8)
χ𝛼/2 χ1−𝛼/2
2 2 2 2
𝐻0 : 𝜎𝐶1 = 𝜎𝐶3 ; 𝐻1 : 𝜎𝐶1 ≠ 𝜎𝐶3
2
𝑠̂𝐶3
𝐹0 = 2 ~ 𝐹𝑛𝐶3 −1, 𝑛𝐶1 −1
𝑠̂𝐶1
121,53
𝐹0 = 3,391
= 35.83 ~ 𝐹15,15
𝐹𝑎 = 0.35 𝑦 𝐹𝑏 =
2.86 𝐹0
Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC
1 130 155 34 40 20 70
74 180 80 75 82 58
2 150 188 136 122 25 70
159 126 106 115 58 45
3 138 110 174 120 96 104
168 160 150 139 82 60
Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC Medias
1
134.75 57.25 57.50 83.17
2
155.75 119.75 49.50 108.33
3
144.00 145.75 85.50 125.08
Medias 144.83 107.58 64.17 105.53
α
𝑌 = 𝑋𝛽 + 𝑈,
𝑌 = 𝑍𝛽′ + 𝑈′
𝛽̂ 𝑦 𝛽̂ ′ 𝛽̂ ′ = 𝐴−1 𝛽̂ .
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016
1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.
Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:
H0 : 2 = 3;
H0 : 2 6= 3:
b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1
En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016
p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2
2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)
2. Queremos contrastar:
H0 : 2 = 3;
H0 : 2 6= 3;
equivalente a contrastar:
H0 : 2 3 = 0;
H0 : 2 3 6= 0:
p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3
3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:
Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.
La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x
Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:
Solución
1)
V T = 12s2y = 36; 11
Por tanto, al ser el p-valor mayor que el valor estándar de referencia de 0,05,
no resulta signi…cativo el efecto de la dieta.
Para determinar la dieta más e…caz y la menos e…caz en principio se re-
alizarían los contrastes por parejas, pero al no ser signi…cativo el efecto de la
1
dieta, no sería necesario. De todas formas, se presentan a continuación, por
razones pedagógicas.
H0 : i = j
H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t9 bajo H0
El percentil 0,975 de la distribución t con 9 grados de libertad es 2,26
Para dieta 1 frente a dieta 2; t = 1; 18 < 2; 26
Para dieta 1 frente a dieta 3; t = 1; 75 < 2; 26
Para dieta 2 frente a dieta 3; t = 0; 57 < 2; 26
Por tanto, se con…rma que ninguna de las diferencias es signi…cativas.
2) V E(paciente) = 3x[(4:33 3:11)2 + (4; 63 3; 11)2 + (1; 25 3; 11)2 +
(2; 25 3; 11)2 ] = 23; 9
H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t6 bajo H0
El percentil 0,975 de la distribución t con 6 grados de libertad es 2,45
Para dieta 1 frente a dieta 2; t = 3; 00 > 2; 45
Para dieta 1 frente a dieta 3; t = 4; 45 > 2; 45
Para dieta 2 frente a dieta 3; t = 1; 45 > 2; 45
Por tanto, se puede concluir que la dieta más e…caz es la 1 pero no se puede
concluir si la menos e…caz es la 2 o la 3.
3) V E= 2 2
6
2
Los percentiles 0,025 y 0,975 de la distribución con 6 grados de libertad
son 1,23 y 4,45
2 2 2
P( 6;0;025 < V E= < 6;0;975 ) = 0; 95
Transformando las dos desigualdades anteriores, se obtiene que el intervalo
de con…anza es (0,19,2,22)
2
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016
1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.
Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:
H0 : 2 = 3;
H0 : 2 6= 3:
b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1
En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016
p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2
2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)
2. Queremos contrastar:
H0 : 2 = 3;
H0 : 2 6= 3;
equivalente a contrastar:
H0 : 2 3 = 0;
H0 : 2 3 6= 0:
p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3
3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:
Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.
La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x
Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:
n→∞ λ →∞
p → 1/ 2 µ =λ
µ = np σ= λ
σ = np (1 − p)
Normal
µ,σ
α
g.l. 0,995 0,990 0,975 0,950 0,500 0,050 0,025 0,010 0,005
1 ,00004 ,00016 ,00098 ,00393 0,455 3,841 5,024 6,635 7,879
2 ,01002 ,0201 0,051 0,103 1,386 5,991 7,378 9,210 10,60
3 ,0717 0,115 0,216 0,352 2,366 7,815 9,348 11,34 12,84
Tabla χ2 4 0,207 0,297 0,484 0,711 3,357 9,488 11,14 13,28 14,86
5 0,412 0,554 0,831 1,145 4,351 11,07 12,83 15,09 16,75
6 0,676 0,872 1,237 1,635 5,348 12,59 14,45 16,81 18,55
7 0,989 1,239 1,690 2,167 6,346 14,07 16,01 18,48 20,28
8 1,344 1,647 2,180 2,733 7,344 15,51 17,53 20,09 21,95
9 1,735 2,088 2,700 3,325 8,343 16,92 19,02 21,67 23,59
10 2,156 2,558 3,247 3,940 9,342 18,31 20,48 23,21 25,19
11 2,603 3,053 3,816 4,575 10,341 19,68 21,92 24,73 26,76
12 3,074 3,571 4,404 5,226 11,340 21,03 23,34 26,22 28,30
13 3,565 4,107 5,009 5,892 12,340 22,36 24,74 27,69 29,82
14 4,075 4,660 5,629 6,571 13,339 23,68 26,12 29,14 31,32
15 4,601 5,229 6,262 7,261 14,339 25,00 27,49 30,58 32,80
16 5,142 5,812 6,908 7,962 15,338 26,30 28,85 32,00 34,27
17 5,697 6,408 7,564 8,672 16,338 27,59 30,19 33,41 35,72
α 18 6,265 7,015 8,231 9,390 17,338 28,87 31,53 34,81 37,16
19 6,844 7,633 8,907 10,117 18,338 30,14 32,85 36,19 38,58
20 7,434 8,260 9,591 10,851 19,337 31,41 34,17 37,57 40,00
21 8,034 8,897 10,283 11,591 20,337 32,67 35,48 38,93 41,40
22 8,643 9,542 10,982 12,338 21,337 33,92 36,78 40,29 42,80
χ ν, α 23 9,260 10,196 11,689 13,091 22,337 35,17 38,08 41,64 44,18
24 9,886 10,856 12,401 13,848 23,337 36,42 39,36 42,98 45,56
25 10,520 11,524 13,120 14,611 24,337 37,65 40,65 44,31 46,93
26 11,160 12,198 13,844 15,379 25,336 38,89 41,92 45,64 48,29
ν: grados de libertad (g.l.) 27 11,808 12,878 14,573 16,151 26,336 40,11 43,19 46,96 49,65
28 12,461 13,565 15,308 16,928 27,336 41,34 44,46 48,28 50,99
29 13,121 14,256 16,047 17,708 28,336 42,56 45,72 49,59 52,34
30 13,787 14,953 16,791 18,493 29,336 43,77 46,98 50,89 53,67
40 20,707 22,164 24,433 26,509 39,335 55,76 59,34 63,69 66,77
EJEMPLO 50 27,991 29,707 32,357 34,764 49,335 67,50 71,42 76,15 79,49
60 35,534 37,485 40,482 43,188 59,335 79,08 83,30 88,38 91,95
70 43,275 45,442 48,758 51,739 69,334 90,53 95,02 100,43 104,21
P(χ9 ≥ 19,02) = 0,025 80 51,172 53,540 57,153 60,391 79,334 101,88 106,63 112,33 116,32
90 59,196 61,754 65,647 69,126 89,334 113,15 118,14 124,12 128,30
100 67,328 70,065 74,222 77,929 99,334 124,34 129,56 135,81 140,17
120 83,852 86,923 91,573 95,705 119,334 146,57 152,21 158,95 163,65
α
g.l 0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,376 1,963 3,078 6,314 12,706 31,821 63,656 127,321 318,289 636,578
2 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,089 22,328 31,600
Tabla 3 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,214 12,924
4 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,869
6 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
t-Student 7 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
α 20 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
tν,α 25 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689
ν: grados de libertad (g.l.) 28 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660
30 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
EJEMPLO 60 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
70 0,847 1,044 1,294 1,667 1,994 2,381 2,648 2,899 3,211 3,435
80 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
P(t9 ≥ 2,262) = 0,025 90 0,846 1,042 1,291 1,662 1,987 2,368 2,632 2,878 3,183 3,402
100 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
infinito 0,842 1,036 1,282 1,645 1,960 2,327 2,576 2,808 3,091 3,291
0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
Tabla F Fν 1 ,ν 2 ,α ⇒ P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,α ) = α
α=0.05 Grados de libertad del numerador: ν1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30