TEORIAREG

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN
Departamento de ingeniería de organización,

administración de empresas y estadística.
PROGRAMA
1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-

sis de normalidad, independencia y homocedasticidad. Estimación. Contraste
de igualdad de medias. Contraste de igualdad de varianzas. La distribución
F: Comparación de varios tratamientos. Modelo básico. Descomposición de la
variabilidad. Tabla del análisis de la varianza (ADEVA). Contraste de igualdad
de medias. Comparaciones múltiples. Diagnosis de las hipótesis del modelo de
análisis de la varianza. Grá…co probabilista normal. Contrastes de homocedas-
ticidad. Aleatorización.
2. Diseño de experimentos. Modelo con dos factores. Concepto de in-

teracción. Descomposición de la variabilidad. Tabla de análisis de la varianza.
Contraste de igual de medias. Diagnosis de las hipótesis del modelo. El modelo
en bloques aleatorizados. Modelo y estimación. Descomposición de la variabi-
lidad. Tabla de análisis de la varianza.
3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por

máxima verosimilitud (mínimos cuadrados). Distribución de los estimadores.
Contrastes individuales de los parámetros del modelo. Contraste general de
regresión. El coe…ciente de determinación. Multicolinealidad: identi…cación y
sus consecuencias. Predicción en regresión simple. Variables cualitativas como
regresores. Diagnosis del modelo.
1
1. Análisis de la Varianza
Diseño de Experimentos y Modelos de Regresión
Curso 2016/17
1.1 Dos tratamientos

Comparación de dos tratamientos
Se desea comparar dos

A B
tratamientos para
51,3 29,6
39,4 47,0
reducir el nivel de
26,3 25,9 colesterol en la sangre.
39,0 13,0 Se seleccionan 20
48,1 33,1 individuos y se asignan
34,2 22,1 al azar a dos tipos de
69,8 34,1 dietas A y B. La tabla
31,3 19,5 muestra la reducción
45,2 43,8 conseguida después de
46,4 24,9 dos meses.
Análisis de la Varianza 3
Método: 4 pasos
- Definición del modelo de distribución

de probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación
Modelo
M
O
V V D
E
L
P1 P2 O
y11 y 21
D
y12 y 22 A
T
O
y1n1 y 2 n2 S
Modelo: Hipótesis y Parámetros

Hipótesis básicas:
Normalidad Parámetros
yij N(Pi,V2) P1
Homocedasticidad P2
Var [yij] = V2
V2
Independencia
Cov [yij, ykl] = 0
Modelo
yij Pi uij , uij o N (0, V 2 )

Las observaciones se descomponen en:
-Parte predecible Pi
-Parte aleatoria uij
0
Estimación medias:
n1 A B
¦ y1 j 51,3
39,4
29,6
47,0
j 1
P1 : o y1x 26,3 25,9
n1 39,0 13,0
48,1 33,1
34,2 22,1
n2 69,8 34,1
¦ y2 j 31,3
45,2
19,5
43,8
j 1
P 2 : o y2x 46,4 24,9
n2 43,1 29,3
Estimación varianza (residuos)
yij P i uij , uij o N (0, V 2 ) Residuos
A B
8,2 0,3
-3,7 17,7
uij yij P i -16,8 -3,4
-4,1 -16,3
eij yij yix 5,0 3,8
-8,9 -7,2
eij : RESIDUO 26,7 4,8
-11,8 -9,8
2 ni 2,1 14,5
¦¦ eij2 3,3
0,0
-4,4
0,0
i 1 j 1
V 2 : o sˆR2 n
n2 ¦
i
eij 2
0;sˆR 130.95
j 1
2
ˆ
Varianza residual: R
s
V V
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
2 ni
¦¦ e
i 1 j 1
2
ij
n1 1 2 n2 1 2
sˆR2 sˆ1 sˆ2
n2 n2 n2
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y2x ) ( P1 P 2 )
( y1x y2x ) ( P1 P 2 ) o tn2
o N (0,1) ¾ 1 1
1 1 ° sˆR
V ° n1 n2
n1 n2 °¿
Contraste de igualdad de medias
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 tn-2
1-D
y1x y2x D/2
t0 o tn2 R. Acept. D/2
1 1
sˆR -tD/2 tD/2
n1 n2
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Ejemplo: D = 0.05
H 0 : P1 P2 R.R
R.R. t18
H1 : P1 z P 2
0.025
43.1 29.3 0.025
t0 2.69
1 1
11.44 -2.10 2.10
10 10
2.69 ! 2.10 Se rechaza H 0
Ejemplo: D = 0.01
H 0 : P1 P2 R.R
R.R.
H1 : P1 z P 2 t18
0.99
0.005 0.005
43.1 29.3
t0 2.69 D/2
1 1
11.44 -2.88 2.88
10 10
2.69 d 2.88 No se rechaza H 0
Nivel crítico (bilateral)
H 0 : P1 P2 t18
H1 : P1 z P 2
43.1 29.3 0.0074 0.0074
t0 2.69
1 1
11.44 -2.69 2.69
10 10
p valor Pr( t18 ! 2.69) 0.0147

•D = 0.05 > p-valor Se rechaza H0
•D = 0.01 < p-valor No se rechaza H0
Conclusiones (fijado D)
Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que

la diferencia de la diferencia de
medias es medias no es
significativa. O significativa. No hay
simplemente que los evidencia suficiente
tratamientos son para afirmar que las
distintos (tienen medias de los
medias distintas). tratamientos sean
diferentes.
No rechazar Ho, no implica que Ho sea cierta
El resultado |to| d tD/2, (no se rechaza Ho)

no debe interpretarse como que “se ha
demostrado que las dos medias son
iguales”.
No rechazar la hipótesis nula implica que

la diferencia entre las medias P1 - P2 no es
lo suficientemente grande como para ser
detectada con el tamaño muestral dado.
Comparación de dos tratamientos con R
18
19
Comparación de medidas del cuerpo humano por género

Means Conf. Int.
20
Intervalo de confianza para
la diferencia de medias: P1 P 2
( y1x y2x ) ( P1 P 2 ) tn-2
o t n2
1 1
sˆR D/2
n1 n2 D/2 1-D
-tD/2 tD/2
( y1x y2x ) ( P1 P 2 )
Pr { tD / 2 d d tD / 2 } 1 D
1 1
sˆR
n1 n2
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
Ejemplo: intervalo de confianza P1 P 2
t18
0.025 0.025
-2.10 2.10
1 1
P1 P 2 ( y1x y2x ) r tD / 2 sˆR
n1 n2
1 1
P1 P 2 (43.1 29.3) r 2.10 u11.44 u
10 10
P1 P 2 13.8 r 10.74
Hipótesis de homocedasticidad
V1 V2
P1 P2
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
H 0 : V 12 V 22
H1 : V 12 z V 22
Distribución F
y11 ½ y21 ½
y12 °° 2 ¦ ( y1 j y1x ) 2 y22 ° ° 2 ¦ ( y2 j y2x ) 2
sˆ1 sˆ2
¾ n1 1 ¾ ° n2 1
°
y1n1 °
¿ y2 n2 °
¿
(n1 1) sˆ12 ( n2 1) sˆ22
o F n21 1 o F n22 1
V 12 V 22
F n2 1 sˆ12
1
(n1 1) V 12
F o Fn1 1,n2 1
F n2 12
sˆ22
(n2 1) V 22
Análisis de la varianza 24
Distribución F
F40,40
F20,40
F10,40
F5,40
Algunas distribuciones F
F10,80
F10,40
F10,20
F10,10
Contraste de igualdad de varianzas
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
D/2 1-D D/2
Si H 0 es cierto V 12 V 22 , R.A. Ho
sˆ12 F1-D/2 FD/2
F0 2
o Fn1 1,n2 1
sˆ1
Si F0 >F1D / 2 , FD / 2 @ No se rechaza H 0
Si F0 >F1D / 2 , FD / 2 @ Se rechaza H 0
Ejemplo: Contraste de igualdad de varianzas
H 0 : V 12 V 22
H1 : V 12 z V 22 RR RR
0.025 0.025
sˆ12 154.02 sˆ22 111.7
154.02 0.248 1.37 4.03
F0 1.37
111.7
1.37 >0.248,4.03@ No se rechaza H 0
Tabla F FQ1 ,Q 2 ,D P( FQ 1 ,Q 2 t FQ 1 ,Q 2 ,D ) D
D=0.05
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
Grados de libertad del denominador: Q2
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 3.50) 0.05
D=0.025
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30
40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 4.53) 0.025

D=0.01
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 6
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30
40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P( F7,8 t 6.18) 0.01
32
33
1.2 K tratamientos
¿Existen diferencias entre las cuatro semillas?
Se desea comparar el rendimiento de cuatro

semillas A,B,C y D. Un terreno se divide en 24
parcelas similares y se asigna al azar cada semilla
a 6 parcelas.
A B C D
229.1 233.4 211.1 270.4
253.7 233.0 223.1 248.6
241.3 219.2 217.5 230.0
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
241.3 202.0 213.7 245.8
242.9 218.7 214.1 245.9
Método: 4 pasos
- Definición del modelo de distribución de

probabilidad:
·Hipótesis
·Parámetros
- Estimación de los parámetros
- Diagnosis de las hipótesis
- Aplicación
Modelo
V V V
...
P1 P2 PK
y11 y21 yK1

y12 y22 yK 2
...
y1n y2 n y Kn
1 2 K
Hipótesis del modelo
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Modelo: Hipótesis y Parámetros
Hipótesis básicas: Parámetros
Normalidad P1
yij N(Pi,V2) P2
Homocedasticidad

Var [yij] = V2
Independencia
PK
Cov [yij, ykl] = 0 V2
Modelo: Forma alternativa
yij Pi uij , uij o N (0, V 2 )

Las observaciones se descomponen en:
Parte predecible Pi
Parte aleatoria uij
0
Estimación medias: Máxima Verosimilitud
n1
¦ y1 j
j 1
P1 : o y1x
n1
n2 A B C D
¦ y2 j 229.1 233.4 211.1 270.4
j 1 253.7 233.0 223.1 248.6
P 2 : o y 2x 241.3 219.2 217.5 230.0
n2
254.7 200.0 211.8 250.7
237.2 224.3 207.6 230.0
nK 241.3 202.0 213.7 245.8
¦ y Kj 242.9 218.7 214.1 245.9
j 1
P K : o yK x
nK
Estimación varianza (residuos)
yij Pi uij , uij o N (0,V 2 )

uij yij Pi A B
Residuos
C D
-13.8 14.8 -3.0 24.5
eij yij yix 10.8 14.4 9.0 2.7
-1.6 0.6 3.4 -15.9
eij : RESIDUO 11.8 -18.7 -2.3 4.8
-5.7 5.7 -6.5 -15.9
K ni -1.6 -16.7 -0.4 -0.1
¦ ¦ eij2 0.0 0.0 0.0 0.0
i 1j 1
V 2 : o sˆR2
nK sˆR2 142.4
Comparación de medias
La comparación de tratamientos con este modelo

se reduce a comparar las medias P1, P2, ..., PK ,
en primer lugar con el contraste:
H 0 : P1 P2 P K
H1 : Al menos una es diferente
Descomposición de la
variabilidad
¦ ¦ yij
yij Pi uij yij y ix ( yij y ix ) : restando y xx ,
n
yij y xx ( y ix y xx ) ( yij y ix )
elevando al cuadrado y sumando para todo i,j
K ni
(donde ¦ ¦ ( y ix y xx )( yij y ix ) 0)
i 1j 1
K ni K ni K ni
2
¦ ¦ ( yij y xx ) ¦ ¦ ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1j 1 i 1j 1
K ni K K ni
2
¦ ¦ ( yij y xx ) ¦ ni ( y ix y xx ) ¦ ¦ ( yij y ix ) 2
2
i 1j 1 i 1 i 1j 1
Variabilidades
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 n-1
i 1j 1
K
VE ¦ ni ( y ix y xx ) 2 K-1
i 1
K ni K ni
2 2
VNE ¦ ¦ ( yij y ix ) ¦ ¦ eij n-K
i 1j 1 i 1j 1
VT VE VNE
n 1 ( K 1) (n K )
Descomposición: ejemplo
y xx 230.4
Datos Medias Residuos
229.1 233.4 211.1 270.4 242.9 218.7 214.1 245.9 -13.8 14.8 -3.0 24.5
253.7 233.0 223.1 248.6 242.9 218.7 214.1 245.9 10.8 14.4 9.0 2.7
241.3 219.2 217.5 230.0 242.9 218.7 214.1 245.9 -1.6 0.6 3.4 -15.9
254.7 200.0 211.8 250.7
= 242.9 218.7 214.1 245.9
+ 11.8 -18.7 -2.3 4.8
237.2 224.3 207.6 230.0 242.9 218.7 214.1 245.9 -5.7 5.7 -6.5 -15.9
241.3 202.0 213.7 245.8 242.9 218.7 214.1 245.9 -1.6 -16.7 -0.4 -0.1
-1.3 3.0 -19.3 40.0 12.5 -11.7 -16.3 15.5 -13.8 14.8 -3.0 24.5
23.3 2.6 -7.3 18.2 12.5 -11.7 -16.3 15.5 10.8 14.4 9.0 2.7
10.9 -11.2 -12.9 -0.4 12.5 -11.7 -16.3 15.5 -1.6 0.6 3.4 -15.9
24.3 -30.4 -18.6 20.3
= 12.5 -11.7 -16.3 15.5
+ 11.8 -18.7 -2.3 4.8
6.8 -6.1 -22.8 -0.4 12.5 -11.7 -16.3 15.5 -5.7 5.7 -6.5 -15.9
10.9 -28.4 -16.7 15.4 12.5 -11.7 -16.3 15.5 -1.6 -16.7 -0.4 -0.1
yij y xx yi x y xx yij y i x
Variabilidades: ejemplo
Variabilid ades Grados de libertad
K ni
VT ¦ ¦ ( yij y xx ) 2 7645.5 n-1 23
i 1j 1
K
VE ¦ ni ( y i x y xx ) 2 4798.1 K-1 3
i 1
K ni
2
VNE ¦ ¦ eij 2847.4 n-K 20
i 1j 1
7645.5 4798.1 2847.4

23 3 20
Interpretación gráfica de la
descomposición
y1x
y 2x
y ix y xx yij y i x
y 3x
y 4x
y xx yij y xx
Distribución de VE
2 V2
yij o N ( Pi , V ) y i x o N ( Pi , )
ni
V
Si P1 P 2 P K que llamaremos P
V2
yix o N (P , )
Pi ni
2 2 2
§ y1x P · § y 2x P · § y P·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2
¨V / n ¸ ¨V / n ¸ ¨V / n ¸
© 1¹ © 2 ¹ © K ¹
2 2 2
§ y1x y xx · § y 2x y xx · § y y xx ·
¨ ¸ ¨ ¸ ¨ Kx ¸ o F K2 1
¨ V/ n ¸ ¨ V/ n ¸ ¨ V/ n ¸
© 1 ¹ © 2 ¹ © K ¹
Distribución de VNE
ni
¦ ( yij y ix ) 2
j 1 (ni 1) sî2
yij o N ( Pi ,V 2 ) sî2 o o F n2 1
ni 1 V 2 i
K ni n n nK
1 2
2
¦ ¦ ( yij y ix ) ¦ ( y1 j y1x ) ¦ ( y2 j y 2x ) ¦ ( y Kj y K x ) 2
2 2
i 1j 1 j 1 j 1 j 1
sˆR2
nK nK
(n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2
nK
(n K ) sˆR2 (n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2

V2 V2 V2 V2
F n2 1 F n2 1 F n2 1
1 2 K
F n2 K
Contraste (Análisis de la Varianza)
H 0 : P1 P2 P K
H1 : Al menos una es diferente K
¦ ni ( yi x yxx ) 2
(n K ) sˆR2
x 2
o F n2 K x Si Ho es cierto : i 1
2
o F K2 1
V V
K 2
¦ ni ( y i x y x x )
F0 i 1 o FK 1, n K
2
( K 1) sˆR
F0 d FD No se rechaza H 0
F0 ! FD Se rechaza H 0
Tabla de Análisis de la Varianza
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
¦ ni ( y i x y xx ) 2
Tratamient os ¦ ni ( y i x y xx ) 2 K 1 ¦ ni ( y i x y xx ) 2 /( K 1)
( K 1) sˆR2
Residual ¦ ¦ ( yij y i x ) 2 nK sˆ 2
R
Total ¦ ¦ ( yij y xx ) 2 n 1
Suma de Grados de
Fuentes Cuadrados Libertad Varianzas F
Tratamient os 4798.1 3 1599.3 11.2

Residual 2847.4 20 142.4
Total 7645.5 23
Intervalos de confianza para

las medias
2 V2
yij o N ( Pi , V ) y i x o N ( Pi , )
ni
y i x Pi
o N (0,1)
V
R.R. R.R
ni
tn-K
y i x Pi
o tn K 1-D
sˆR D/2 D/2
ni R. Acept. H0
-tD/2 tD/2
sˆ
Piyix rtD / 2 R
n
i
Intervalos de confianza
Semilla Media L. Inferior L. Superior

A 242.9 235.7 250.1
B 218.7 211.4 225.8
C 214.1 206.9 221.3
D 245.9 238.7 253.1
Intervalos de confianza (95%)
260
250
Rendimiento
240
230
220
210
200
A B C D
Semilla
Diferencia de medias: y1x y2x
V V
P1 P2
y11 ½ y21 ½
y12 °° V2 y22 ° ° V2
y1x o N ( P1 , ) y2x o N ( P 2 , )
¾ n1 ¾ ° n2
°
y1n1 °
¿ y2 n2 °
¿
V2 V2 ½
y1x y 2x o N ( P1 P 2 , )
°
n1 n2 °° ( y1x y 2x ) ( P1 P 2 )
( y1x y 2x ) ( P1 P 2 ) o t n K
o N (0,1) ¾ 1 1
1 1 ° sˆ R
V ° n1 n2
n1 n2 °¿
Contraste multiples
H 0 : Pi Pj
R.R. R.R
H1 : P i z P j tn-K
1-D
yi x y j x D/2
R. Acept. H0
D/2
tij o tn K
1 1 -tD/2 tD/2
sˆR
ni n j
t0 d tD / 2 No se rechaza H 0
t0 ! tD / 2 Se rechaza H 0
Diagnosis del modelo
Modelo
V V V
...
P1 P2 PK
y11 y21 yK1

y12 y22 yK 2
...
y1n y2 n y Kn
1 2 K
Normalidad
yij N(Pi,V2)
Homocedasticidad
Var [yij] = V2
Independencia
Cov [yij, ykl] = 0
Residuos:
Normales y homocedásticos
yij Pi uij
uij yij P i eij yij yix
uij o N (0, V 2 )
Residuos
A B C D
-13,8
10,8
14,8
14,4
-3,0
9,0
24,5
2,7
V
-1,6 0,6 3,4 -15,9
11,8 -18,7 -2,3 4,8
-5,7 5,7 -6,5 -15,9
0
-1,6 -16,7 -0,4 -0,1
0,0 0,0 0,0 0,0
Comprobación de la
normalidad
Los residuos deben de tener distribución normal.
Las observaciones originales también, pero cada
grupo con media diferente, por ello es preciso
estimar el modelo para descontar a cada
observación su media y obtener valores con la
misma distribución.
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Gráfico probabilista normal

Es un gráfico X-Y de los Pasos:
residuos frente a los Ordenar los residuos de
percentiles de la
menor a mayor.
distribución normal.
e(1) d e(2) d d e(n)
La idea básica es que Calcular los percentiles
cuando los residuos de la distribución
tienen distribución
normal
normal, los puntos i 0.5
deben formar Yi ) 1 ( ) u sˆR , i 1,2,..., n
n
aproximadamente Representar
una línea recta.
e(i ) , Yi
Gráfico prob. Normal
(ejemplo)
Orden Resid. Probab. Percen. Percen.
i eij (i-0.5)/n N(0,1) N(0,V )
Q-Q plot
1 -18,7 0,021 -2,04 -24,30
2 -16,7 0,063 -1,53 -18,30
3 -15,9 0,104 -1,26 -15,01 30,0
4 -15,9 0,146 -1,05 -12,58
5 -13,8 0,188 -0,89 -10,58
6 -6,5 0,229 -0,74 -8,85 20,0
7 -5,7 0,271 -0,61 -7,28
8 -3,0 0,313 -0,49 -5,83 10,0
Percentiles
9 -2,3 0,354 -0,37 -4,46
10 -1,6 0,396 -0,26 -3,15
0,0
11 -1,6 0,438 -0,16 -1,88
12 -0,4 0,479 -0,05 -0,62
13 -0,1 0,521 0,05 0,62 -10,0
14 0,6 0,563 0,16 1,88
15 2,7 0,604 0,26 3,15 -20,0
16 3,4 0,646 0,37 4,46
17 4,8 0,688 0,49 5,83
-30,0
18 5,7 0,729 0,61 7,28
19 9,0 0,771 0,74 8,85 -30,0 -20,0 -10,0 0,0 10,0 20,0 30,0
20 10,8 0,813 0,89 10,58 Residuos ordenados
21 11,8 0,854 1,05 12,58
22 14,4 0,896 1,26 15,01
23 14,8 0,938 1,53 18,30
24 24,5 0,979 2,04 24,30
99.9
99
Probabilidad
95
80
50
20
5
1
0.1
-30 -20 -10 0 10 20 30
Residuos
Ejemplos
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1
Normal 5
1
No normal
0,1 0,1
-2,6 -1,6 -0,6 0,4 1,4 2,4 3,4 0 3 6 9 12 15
99,9 99,9
99 99
95 95
80 80
50 50
20 20
5
1 No normal
5
1
No normal
0,1 0,1
0 0,4 0,8 1,2 1,6 2 -3 -1 1 3 5
Comprobación de la homocedasticidad
En el proceso de estimación se ha supuesto que los

distintos tratamientos tienen la misma varianza.
Herramientas:
- Gráficos de residuos:
·Frente a valores previstos
·Frente a tratamientos (o factor,etc.)
- Contrastes formales:
Bartlett, Cochran, Hartley, Levene
Residuos - Valores previstos
30
20
En este modelo los valores
10
previstos corresponden a
residuos
0 la media del tratamiento.

-10
-20 Los puntos deben aparecer
-30 dispuestos al azar en una
210 220 230 240 250
valores previstos
banda horizontal alrededor
30
del eje horizontal.
20
Heterocedasticidad: a veces
10
residuos
0
la dispersión aumenta
-10 conforme la media crece.
-20
-30
0 5 10 15
Valores previstos
Residuos por tratamientos

25
15
máx.
Residuos
mín.
-5
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Residuos por tratamientos
25
15
máx.
Residuos
mín.
5
máx
-5 3
mín
-15
-25
A B C D
Semilla
En cada grupo los residuos aparecen esparcidos
con dispersión similar y media cero.
Contrastes formales
V2 VK
V1
...
P1 P2 PK
H 0 : V 12 V 22 V K2
H1 : Alguna es distinta
Contrastes formales
Un ejemplo de este tipo de contrastes formales es el

contraste de Bartlett.
Para el ejemplo de los tipos de semilla se tiene un p-

valor = 0.177>α No se rechaza la hipótesis nula
de homocedasticidad.
Diagnosis: Tres gráficos básicos

0,57 0,57
0,37 0,37
residuos
residuos
0,17 0,17
-0,03 -0,03
-0,23 -0,23
-0,43 -0,43
0 0,3 0,6 0,9 1,2 1 2 3
Valores previstos Tratamientos
99,9
99
Homocedasticidad
probabilidad
95
80
50
20
5
1 Normalidad
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
99,9
99
probabilidad
95
80
50
20
5
1
0,1
-0,33 -0,13 0,07 0,27 0,47
residuos
Transformaciones z=h(y) para estabilizar la

varianza
En la práctica, en la mayoría de los casos, alguna

de las transformaciones siguientes corrige la
heterocedasticidad:
· 1/x
· log(x)
· x2 (u otras transformaciones xp)
· x
Transformaciones Box-Cox
z ij1,5 p>1
p=1
1
0,5 p<1
0 yij
1
-0,5
-1
yijp 1
z ij
-1,5 p
z ij log yij si p 0
Búsqueda de la
transformación adecuada
0,57
0,37 La dispersión
aumenta al aumentar
residuos
0,17
-0,03 la media
-0,23
-0,43
0 0,3 0,6 0,9 1,2
p<1
Valores previstos
1,6
1,1
0,6
La dispersión
residuos
0,1 disminuye al
-0,4 aumentar la media
-0,9
-1,4
0 4 8 12 16 p>1
valores previstos
p
Elección de la transformación zij yij
Empezar con p=1 (datos sin transformar) y
decidir a partir de los gráficos si p>1 o
p<1.
p 1/ 2 z ij yij
°
° p 0 z ij log yij
° 1
° p 1 / 2 z ij
p 1 o ® yij
° 1
° p 1 z ij
° yij2
°
¯
Parar cuando los gráficos estén ok.
Independencia
Es la hipótesis fundamental y con diferencia la más
importante de las tres, además es la más difícil de
comprobar.
La falta de independencia suele ir ligada a factores no

controlados por el experimentador y que influyen en
los resultados introduciendo errores sistemáticos.
La forma más recomendable de evitar errores

sistemáticos consiste en aleatorizar.
Aleatorización
La aleatorización evita que se produzcan

errores que sistemáticamente aumenten o
disminuyan un conjunto de medidas por
causas no reconocibles: al aleatorizar se
reparten estos errores por igual entre los
diferentes tratamientos y se convierten en
errores aleatorios, previstos en el modelo.
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a
los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”
¿Cómo aleatorizar?
Asignar las unidades experimentales al azar a

los distintos tratamientos.
Aleatorizar el orden de ejecución de los
experimentos.
Aleatorizar respecto a cualquier otra variable
que implique diferenciar a los tratamientos.
“La aleatorización es una precaución contra distorsiones
que pueden ocurrir o no ocurrir, y que pudieran ser
serias o no si llegaran a ocurrir”
Comparación de k tratamientos con R
Ejemplos:
- Comparación de k=4 tipos de semilla en la

producción de centeno (centeno.txt).
- Datos obtenidos por Heyl para medir el valor de la
constante de gravitación universal, G, comparación
para k=3 materiales (heyl.txt).
- Influencia del tipo de fibra en el tiempo de
combustión (fibras.txt).
Ejemplo 1: Centeno
ARCHIVO TEXTO: centeno.txt
Tabla ANOVA: Centeno
Intervalos de confianza: Centeno
> source('ICplot.R')
> ICplot(mod, ‘Sem')
250
medias
230
210
A B C D
Sem
Comparaciones Múltiples: Centeno
Diagnosis: Centeno
Residuals vs Fitted Normal Q-Q
Standardized residuals
19 19
2
Residuals
0 10
1
0
-1
-20
12 12
10 10
215 220 225 230 235 240 245 -2 -1 0 1 2
Fitted values Theoretical Quantiles
Constant Leverage:
Scale-Location Residuals vs Factor Levels
1.5
19
19
2
10
12
1.0
1
0
0.5
-1
12
0.0
10
-2
centeno$Sem :
215 220 225 230 235 240 245 C B A D
Fitted values Factor Level Combinations
Ejemplo 2: Datos de Heyl
Datos de las mediciones realizadas para G (x 1011 N m2/kg2)
ANOVA Ejemplo 2: Datos de Heyl
Comparaciones múltiples: Datos de Heyl
El objetivo es saber qué tipo de semilla es mejor.
Comparaciones 2 a 2
Comparaciones 2 a 2
Diagnosis: Datos de Heyl
Ejemplo 3: Combustión de distintos tipos de

fibra
Se ha realizado un experimento para medir el tiempo de

combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.
fibra
Se ha realizado un experimento para medir el tiempo de

combustión de unos retales de cuatro fibras diferentes. En
la tabla siguiente se proporcionan los resultados obtenidos
(en segundos) del modelo.
- ¿Tienen las cuatro fibras igual comportamiento respecto al

tiempo de combustión? Indique el nivel crítico del
contraste.
- ¿Cuál es la fibra que presenta menor tiempo medio de
combustión?.
- Analizar los residuos comprobar las hipótesis del modelo.

fibra
Se rechaza la hipótesis nula de que todas las fibras sean

iguales frente a la alternativa de que alguna es distinta,
con un p-valor de 0.0001016 < α.
fibra
Comparaciones múltiples. El mayor tiempo de combustión,
significativamente distinto a los anteriores: fibra A. En media
la C es la que tiene menor tiempo de combustión, pero no
significativamente distinta a la B y D.

fibra

Análisis de la varianza con R:
comparación de dos tratamientos
Ejemplos:
- Velocidad de la luz: Michelson vs. Newcomb

- Sensores
- Pilas

Ejemplo 1: Michelson
En 1879, el físico norteamericano Albert A. Michelson tomó 100 medidas de la

velocidad de la luz en el aire empleando una modificación del método propuesto
por el físico francés Foucault. Las medidas que tomó se proporcionan a
continuación (en miles de km/s).
En 1882 Simon Newcomb midió el tiempo que una señal luminosa tardaba en recorrer
una distancia de 7.442 metros.
En el fichero Michelson.txt se incorporan los datos obtenidos de ambos experimentos,
en miles de km/s.
Los datos de Michelson y Newcomb fueron tomados con una diferencia de tres años y
con experimentos diferentes. Basándose en los resultados anteriores sobre el
modelo distribucional del que proceden estos datos, responde las siguientes
cuestiones:
- Compare gráficamente los datos de la velocidad de la luz de Newcomb y de
Michelson (diagramas de cajas e histogramas).
- Analice si existen diferencias significativas entre las estimaciones de la velocidad de
la luz obtenidas en ambos experimentos.


Comparación de los métodos de Michelson (M) y Newcomb (N):

Diagnosis: Contraste de Bartlett

Diagnosis: Contraste de Bartlett
Se rechaza la hipótesis nula de igualdad de varianzas
H 0 : V MICHELSON
2
V NEWCOMB
2
H1 : V MICHELSON
2
z V NEWCOMB
2
El rechazo de la hipótesis nula se debe a la presencia de valores

atípicos en el experimento de Newcomb.

Ejemplo 2: Sensores
Una empresa suministra tubos de escape a la industria del automóvil. En el tubo de

escape se coloca un sensor que comunica al ordenador del coche el contenido de
CO en los gases de escape. La empresa dispone de dos tipos de sensores A y B
basados en principios de medición diferentes. Tanto uno como otro se colocan en el
silencioso del tubo de escape. El departamento de I+D de la empresa sospecha que
pueden existir diferencias entre las mediciones efectuadas por los dos tipos de
sensor y decide realizar un experimento. La primera idea consiste en seleccionar 10
sensores del tipo A y otros 10 del tipo B y colocarlos en los tubos de escape de 20
coches distintos.
No obstante un ingeniero de la empresa sugiere que para evitar que la variabilidad
entre coches distintos enmascare los resultados del experimento, se utilicen 10
coches y que en cada uno de ellos se monte un sensor A y otro B ambos colocados
en el silencioso y en dos posiciones cercanas entre sí.
¿Qué procedimiento experimental le parece más adecuado? ¿Por qué?.
Finalmente se opta por el plan experimental propuesto por el ingeniero. El contenido en
partes por millón de CO observado en el experimento fue el que se indica en la
tabla (Sensor.txt):

Ejemplo 2: Sensores

Ejemplo 2: Sensores
No existen diferencias significativas entre los tipos de

sensores A y B

Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad

e independencia.

Ejemplo 2: Sensores
Diagnosis del modelo: Comprobación de la homocedasticidad

mediante el contraste de Bartlett. Alternativa sólo válida para
k=2 tratamientos.

Ejemplo 3: Tiempo de descarga de pilas
Se ha medido el tiempo hasta la descarga de dos marcas de

pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.
Tabla de datos: Energizer Ultracell

1,40 1,56
1,39 1,54
1,35 1,53
1,38 1,54
1,35 1,54
1,36 1,47
1,31 1,49
1,26 1,54
1,37 1,50

Se ha medido el tiempo hasta la descarga de dos marcas de

pilas y se desea contrastar si en base a esta variable las dos
marcas son distintas.

Comparaciones dos a dos del ejemplo PILAS2:

Diagnosis del ejemplo PILAS2:

Contraste de Bartlett para el ejemplo PILAS2:
No se rechaza la hipótesis nula de homocedasticidad

(igualdad de varianzas).

Análisis de la Varianza, comparación de 2 tratamientos
1. Se estudian dos tipos de neumáticos con los resultados siguientes:

Tipo ni xi (Km) sbi (Km)
A 121 27465 2500
B 121 27572 3000
Calcular, con α = 0.01:
σ 21
a) Un intervalo de confianza para σ 22
.
b) Un intervalo de confianza para µ1 − µ2 .
2. Se dispone de rendimientos de dos máquinas. Los resultados de la máquina A son 137.5;

14.07; 106.9; 175.1; 177.3; 120.4; 77.9 y 104.2, mientras que los reultados para la B son: 103.3;
121.7; 98.4; 161.5; 167.8 y 67.3. ¿Son las máquinas iguales? (Suponer que los rendimientos
de ambas máquinas siguen distribuciones normales).
3. Un fabricante de automóviles debe elegir entre un determinado tipo de piezas de acero

suministradas por un proveedor A y otras suministradas por otro proveedor B. Para proceder
a la elección se ha analizado la resistencia a la tracción de las piezas suministradas por ambos
proveedores, tomando una muestra de tamaño 10 de las piezas del primero, y otra de tamaño
12 del segundo. La resistencia media de la muestra de A es de 54000 unidades y la de la
muestra de B es de 49000 unidades, siendo las desviaciones tı́picas muestrales corregidas
sbA = 2100 y sbB = 1900. Las resistencias de las piezas de ambos proveedores se distribuyen
normalmente. Las piezas del proveedor B son más baratas que las del proveedor A, por lo
que estas últimas sólo son rentables si tienen una resistencia media al menos 2000 unidades
mayor que las de B, y la misma variabilidad.
a) ¿A qué proveedor habrı́a que comprar las piezas a la vista de los resultados muestrales?
b) Obtener un intervalo de confianza al 90% para la diferencia de medias de la resistencia
de las piezas de los proveedores A y B.
Análisis de la Varianza, comparación de k tratamientos
1. En una fábrica de automóviles se utiliza una misma planta para el ensamblaje de tres modelos
distintos (A, B y C). Para determinar si los modelos reciben el mismo tratamiento, se ha
realizado un control de calidad a una muestra tomada para cada modelo. El número de
defectos encontrados para cinco vehı́culos del modelo A son 5, 4, 6, 6 y 7; para seis vehı́culos
del modelo B son 7, 8, 6, 7, 6 y 5; y para ocho vehı́culos del modelo C: 9, 7, 8, 9, 10, 11, 10 y
10. Contrastar si existen diferencias en el tratamiento que se da a los distintos modelos.
1
2. Una empresa debe elegir entre cinco procedimientos para fabricar un cierto producto quı́mico.
Se sospecha que existen diferencias entre ellos aunque pequeñas. Para detectar estas diferen-
cias se pretende realizar un experimento a gran escala con el mismo número de observaciones
en cada grupo. Para determinar este tamaño muestral se ha realizado un experimento piloto
con 6 observaciones de cada método y los resultados (medias de cada grupo) han sido los
siguientes:
METODO 1 2 3 4 5
Media 425.6 423.2 418.8 430.2 422.2
y la varianza residual ŝ2R = 198.5.
(a) ¿ Cúal debe ser el tamaño muestral del experimento a gran escala para que el contraste
de análisis de la varianza sea significativo con α = 0.01 si el coeficiente de determinación
es igual al del experimento piloto?.
(b) El método A es el procedimiento habitual y el método D es el que se sospecha propor-
ciona mejor rendimiento. Una hipótesis que se pretende contrastar es H0 : µD = µA ,
frente a la hipótesis alternativa H1 : µD > µA . ¿ Qué condición debe cumplir la difer-
encia entre las medias muestrales de los dos métodos para rechazar H0 con α = 0.01?
3. Se ha realizado un experimento para estudiar el efecto de un único factor con I niveles

en la variable respuesta y con un número diferente de observaciones en cada tratamiento:
n1 , n2 , ..., nI siendo el total n = n1 + n2 + · · · + nI . Llamando yij a la observación j del
tratamiento i, i = 1, ..., I, j = 1, 2, ..., ni e ȳi• la media del tratamiento i. Se desea estimar
la media general ¿cuál de los dos estimadores siguientes
I ∑
∑ ni
∑
I
yij ȳi•
i=1 j=1 i=1
y •• = , ỹ•• =
n I
tiene mı́nima varianza? Realiza la comprobación para el caso I = 5, con ni = 3, 2, 3, 5, 6 el
número de observaciones en cada tratamiento. Asumir que las observaciones son independi-
entes y que se cumple la hipótesis de homocedasticidad.
4. Considere la comparación de dos tratamientos en poblaciones normales. Demuestre que el

contraste t para comparar dos medias es análogo al contraste de la F en Análisis de la
Varianza (suponga n1 = n2 ).
5. Cinco tipos (A, B, C, D y E) de material sintético se han sometido a un ensayo de desgaste.

Para cada tipo de material la prueba se repitio 6 veces. El desgaste medio y la desviación
tı́pica corregida en cada caso es la siguiente:
A B C D E
media xi 14.1 16.3 13.5 14.8 15.3
d. tı́pica ŝi 1.3 1.2 1.4 1.2 1.5
2
(a) Contrastar (α = 0.05) la hipótesis
H0 : µA = µB = µC = µD = µE
frente a la hipótesis alternativa,
H1 : alguna media es distinta de las demás.

(b) Indicar con nivel de confianza 0.95 el material con desgaste menor y qué materiales
tienen desgaste medio, distinto.
(c) Obtener un intervalo de confianza con α = 0.01 para la varianza del error experimental.
6. Se desea comprobar el efecto de un tratamiento térmico sobre la resistencia de un nuevo

material. Se han tomado 15 probetas y se han asignado al azar a los tres tratamientos T1 ,
T2 y T3 obteniendo como medida de resistencia superficial los valores siguientes:
T1 T2 T3
2.65 4.31 4.81
2.67 3.96 5.32
2.46 4.64 4.93
1.90 4.74 5.49
2.62 4.00 4.45
(a) Contrastar mediante el test de análisis de la varianza si existen diferencias significativas

entre los tratamientos térmicos (α = 0.01).
(b) La temperatura del tratamiento 2 es la media de las temperaturas de los otros dos
tratamientos. Si la relación entre la resistencia y la temperatura es lineal, es de esperar
que la media del tratamiento 2 verifique : H0 : µ2 = 12 (µ1 + µ3 ). Hacer el contraste
bilateral de esta hipótesis con α = 0.05. (Nota.- Usar la distribución de y 2 −(y 1 +y 3 )/2,
donde y i es la media de los datos correspondientes al tratamiento Ti ).
7. Un fabricante sospecha que los lotes de materia prima recibidos de un proveedor difieren
significativamente de su contenido en calcio. Elige al azar 5 lotes diferentes y un quı́mico
hace cinco determinaciones del contenido en calcio de cada lote. Los resultados obtenidos
han sido
Lote 1 Lote 2 Lote 3 Lote 4 Lote 5
23.46 23.59 23.51 23.28 23.29
23.48 23.46 23.64 23.40 23.46
23.56 23.42 23.46 23.37 23.37
23.39 23.49 23.52 23.46 23.32
23.40 23.50 23.49 23.29 23.38
La tabla de análisis de la varianza se proporciona a continuación. Comparar las medias de
los cinco tratamientos con nivel de significación total αT = 0.10.
3
Análisis de la varianza
Fuente Variabilidad g.l. Var. Media F Nivel crı́tico
Lote 0.096976 4 0.024244 5.54 0.0036
Residuos 0.08760 20 0.00438
Total 0.184576 24
4
2. Diseño de Experimentos
Diseño de experimentos:
Diseños Factoriales
Bloques Aleatorizados
Formas de realizar un experimento
Diseño Experimentos 3
2.1 Diseños factoriales

(dos factores)
Ejemplo
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
I
V 0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
N 0.36 0.92 0.44 0.56
E 0.29 0.61 0.35 1.02
II
N 0.40 0.49 0.31 0.71
O 0.23 1.24 0.40 0.38
S 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
Se analiza el efecto de tres venenos y cuatro antídotos

en el tiempo de supervivencia de unas ratas.
Comandos en R
ARCHIVO TEXTO: venenos.txt
Modelo
Factor 1
1 2 I
y111 y 211 y I 11 yijk P D i E j DE ij uijk
y112 y 212 y I 12
1
•Normalidad
Factor 2
y11m y 21m y I 1m
y121 y 221 y I 21 •Independencia
2
y122 y 222

y I 22 •Homocedasticidad

y12 m y 22 m y I 2m IuJ tratamientos

y1J 1 y2 J 1 y IJ 1 m replicaciones
y1J 2 y2 J 2 y IJ 2
J
n = muIuJ
y1Jm y 2 Jm y IJm
Factor 1
1 2 ... I
1
V V
... V
P D1 E1 DE11 P D 2 E1 DE 21 P D I E1 DE I 1
V V
... V
Factor 2
2
P D1 E 2 DE12 P D 2 E 2 DE 22 P D I E 2 DE I 2

J
V V
... V
P D1 E J DE1J P D 2 E J DE 2 J P D I E J DE IJ
Modelo
yijk P D i E j DE ij uijk
¦iI 1Di 0 ¦ Jj 1 E j 0 ¦i
I
1 DE ij 0, j
¦ Jj 1DE ij 0, i
P : Media global
Di : Efecto del Factor 1 i, i=1,...,I
Ej : Efecto del Factor 2 j, j=1,...,J
DEij: Interacción de niveles ij
uijk : Componente aleatoria N(0,V2), k=1,…m
Estimación del modelo

P :o 1 Pˆ y xxx
Dˆ i y ixx y xxx
D i :o I 1
Eˆ j y x j x y xxx
E j :o J 1
DE ij y ij x y ixx y x j x y xxx
DE ij :o ( I 1)( J 1)
Vˆ 2 2
sˆR
¦¦¦ eijk2
V 2 :o 1 IJ (m 1)
m J m I m I J m
¦y ijk ¦¦ y
j 1 k 1
ijk ¦¦ y ijk ¦¦¦ y
i 1 j 1 k 1
ijk
k 1 i 1 k 1
y ij x y ixx y x jx y xxx
m mJ mI n
yijk P D i E j DE ij uijk
yijk Pˆ Dˆ i Eˆ j DEij eijk
eijk yijk ( Pˆ Dˆ i Eˆ j DEij ) yijk yij x
g.l.=IJm-IJ=IJ(m-1)
Estimación
ANTÍDOTO
A B C D
0.31 0.82 0.43 0.45
V 0.45 1.10 0.45 0.71
I
0.46 0.88 0.63 0.66
E 0.43 0.72 0.72 0.62
0.41 0.88 0.56 0.61
N 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
II
E 0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
N 0.32 0.82 0.38 0.67
0.22 0.30 0.23 0.30
O 0.21 0.37 0.25 0.36
III
0.18 0.38 0.24 0.31
S 0.23 0.29 0.22 0.33
0.21 0.34 0.24 0.33
Estimación
A
ANTÍDOTO
B C D Medias D̂ i
0,31 0,82 0,43 0,45
0,45 1,10 0,45 0,71
V I 0,46 0,88 0,63 0,66 0,615 0,136
0,43 0,72 0,72 0,62
E Medias 0,41 0,88 0,56 0,61
N
DE ij -0,038
0,36
0,067
0,92
0,032
0,44
-0,061
0,56
0,29 0,61 0,35 1,02
E II 0,40 0,49 0,31 0,71 0,544 0,066
0,23 1,24 0,40 0,38
N Medias 0,32 0,82 0,38 0,67
DE ij -0,060 0,073 -0,080 0,068
O 0,22 0,30 0,23 0,30
0,21 0,37 0,25 0,36
S III 0,18 0,38 0,24 0,31 0,276 -0,202
0,23 0,29 0,22 0,33
Medias 0,21 0,34 0,24 0,33
DE ij 0,098 -0,139 0,048 -0,007
Medias 0,314 0,677 0,389 0,534 0,479
Ê j -0,164 0,198 -0,089 0,056
Dos factores con interacción
Residuos
RESIDUOS
ANTÍDOTO
eijk yijk yij x
¦e
A B C D
V
I
-0.103
0.038
-0.060
0.220
-0.128
-0.108
-0.160
0.100 ijk 0
0.048 0.000 0.073 0.050
E 0.018 -0.160 0.163 0.010
k
0.00 0.00 0.00 0.00
N 0.040 0.105 0.065 -0.108
-0.030 -0.205 -0.025 0.353
II
E 0.080 -0.325 -0.065 0.043
-0.090 0.425 0.025 -0.288
Vˆ 2
sˆ 2 ¦¦¦ e 2
ijk
0,022
N 0.00 0.00 0.00 0.00 IJ (m 1)
R
0.010 -0.035 -0.005 -0.025

O 0.000 0.035 0.015 0.035
III
-0.030 0.045 0.005 -0.015
S 0.020 -0.045 -0.015 0.005
0.00 0.00 0.00 0.00
Descomposición de la variabilidad
VT VE ( A) VE ( B) VE ( A u B) VNE
(n 1) ( I 1) ( J 1) ( I 1)( J 1) IJ (m 1)
DATOS MODELO
Variabilidades
I J m
VT ¦¦¦(y
i 1 j 1 k 1
ijk y xxx ) 2
I I
VE ( A) mJ ¦ ( y i xx y xxx ) 2
mJ ¦ (Dˆ i ) 2
i 1 i 1
J I
VE ( B ) mI ¦ ( y x j x y xxx ) 2 mI ¦ ( Eî ) 2
j 1 i 1
I J
VE ( A u B ) m¦ ¦ (DE ij ) 2
i 1 j 1
I J m I J m
VNE ¦¦¦(y
i 1 j 1 k 1
ijk y ij x ) 2
¦ ¦ ¦ (e
i 1 j 1 k 1
ijk )2
variabilidad
Análisis de la varianza

yijk P D i E j DEij uijk yijk Pˆ Dˆ i Eˆ j DE ij eijk
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) ( yijk y ij x )
yijk y xxx ( y ixx y xxx ) ( y x j x y xxx ) ( y ij x y ixx y x j x y xxx ) eijk
I J m I J m I J m
¦¦ ¦ ( y
i 1 j 1 k 1
ijk y xxx ) 2 ¦¦¦ ( y
i 1 j 1 k 1
i xx y xxx ) 2 ¦¦¦ ( y x j x y xxx ) 2
i 1 j 1 k 1
I J m I J m
¦¦¦ ( y ij x y ixx y x j x y xxx ) 2 ¦¦¦ eijk2
i 1 j 1 k 1 i 1 j 1 k 1
I J m I J
¦¦ ¦ ( yijk y xxx )2
i 1 j 1 k 1
mJ ¦ ( y ixx y xxx ) 2 mI ¦ ( y x j x y xxx ) 2
i 1 j 1
I J I J m
m¦¦ ( y ij x y ixx y x j x y xxx ) ¦¦¦ eijk2 2
i 1 j 1 i 1 j 1 k 1
Contraste de Hipótesis
Si el Veneno no influye, los I niveles son iguales
a efectos de tiempo de supervivencia, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
H1 : Algún D i es distinto de 0
Contraste efecto principal de factor A
H 0 : D1 D 2 DI 0
VNE
sˆR2 o E[ sˆR2 ] V 2
IJ (m 1)
VE ( A)
Si Ho es cierto, sˆ A2 o E[ sˆ A2 ] V 2
I 1
I
sˆ 2 mJ ¦ ( y i xx y xxx ) 2 I 1
FA A
2
i 1
2
o FI 1; IJ ( m 1)
sˆ R sˆ R
Si FA ! FD Se rechaza Ho
Contraste efecto principal de factor B
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE ( B)
Si Ho es cierto, sˆ 2
o E[ sˆB2 ] V 2
J 1
B
J
2 mI ¦ ( y x j x y xxx ) 2 J 1
sˆ j 1
FB B
2 2
o FJ 1; IJ ( m 1)
sˆ R sˆ R
Si FB ! FD Se rechaza Ho
Contraste interacción AxB

H 0 : DE11 DE12 DE IJ 0
H 1 : Algún DE ij es distinto de 0
VE ( A u B)
Si Ho es cierto, sˆ 2
o E[ sˆ AB
2
] V2
( I 1)( J 1)
AB
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJ ( m 1)
sˆR
Si FAB ! FD Se
rechaza

Ho

A y B interaccio nan
Tabla de análisis de la varianza
Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p valor
2
sˆ
mJ ¦ ( y ixx y xxx )
A
2 2
A I 1 sˆ A sˆR2 pA
sˆB2
B mI ¦ ( y x j x y xxx ) 2
J 1 sˆB2 sˆR2 pB
2
sˆ AB
AuB m¦¦ ( yij x y ixx y x j x y xxx ) 2
( I 1)( J 1) 2
sˆ AB sˆR2 p AB
Residual ¦¦¦ e 2
ijk IJ (m 1) sˆR2
Total ¦¦¦ ( y y ijk xxx )2 n 1
Tabla ANOVA
Interpretación
La interacción no es significativa
Se interpreta cada factor por

separado
Contrastes múltiples: Factor A
H 0 : Di Dj R.R. R.R
tIJ(m-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i xx y xxx ½
¾ Dˆ i Dˆ j y i xx y j xx R. Acept. H0
Dˆ j y j xx y xxx ¿
-tD/2 tD/2
V2 V2
Dˆ i Dˆ j o N (D i D j , )
mJ mJ
y i xx y j xx yixx y j xx ! tD / 2 sˆR
2
o t IJ ( m 1)
mJ

2
sˆR
LSD
mJ Se rechaza Ho
Contrastes múltiples: Factor B
H 0 : Ei Ej R.R. R.R
tIJ(m-1)
H1 : E i z E j 1-D
D/2 D/2
Eî y xi x y xxx ½
¾ Eˆ i Eˆ j y xi x y x j x R. Acept. H0
Eˆ j y x j x y xxx ¿
-tD/2 tD/2
V2 V2
Eî Eˆ j o N ( E i E j , )
mI mI
yxi x y x j x yxix yx j x ! tD / 2 sˆR
2
o t IJ ( m 1)
mI

2
sˆR LSD
mI Se rechaza Ho
(interacción nula)
sˆR
P D i y i xx r tD / 2
mJ
sˆR
P E i y x j x r tD / 2
mI
Intervalos de Confianza
> par(mfrow = c(1,2))
> ICplot(mod_box, 'VEN')
> ICplot(mod_box, 'ANT')
0.7
0.7
0.6
0.6
0.5
medias
medias
0.5
0.4
0.4
0.3
0.3
0.2
I II III A B C D
VEN ANT
Comparaciones Múltiples
Comparaciones Múltiples
Interacción
En este ejemplo NO se debe interpretar
porque no es significativa.
¿Cómo se haría?
Diagnosis: Sobre residuos
Normalidad
Homocedasticidad
Independencia
Diagnosis
Diagnosis: homocedasticidad
Homocedasticidad
Normalidad
Conclusión:Transformar
log y
1/y
Sqrt(y)
Transformación 1/y
Diagnosis: homocedasticidad
datos transformados z=1/y
Homocedasticidad
Normalidad
Comparaciones múltiples
intervalos de confianza
Ejercicio
Un investigador quiere estudiar el efecto del sexo (H, M) y
tipo de formación (ciencias, letras) en el dominio del inglés
escrito en profesores universitarios. Para ello se analiza el
nº de incorrecciones gramaticales en artículos científicos
enviados a publicación. Para combinación de niveles de los
factores se han elegido al azar tres profesores. En la tabla
se proporciona el nº de fallos detectados en artículos de 15
páginas. ¿Qué conclusiones pueden extraerse?.
Letras Ciencias
Hombre 8, 6, 13 22, 28,33
Mujer 5,10,6 12,14,9
Comandos en R
ARCHIVO TEXTO: ciencias.txt
> view(error)
> attach(error)
> names(error)
> error
Estimación
Descomposición variabilidad
Análisis de la Varianza
• Considerando nivel de significación 0,05,

los efectos principales y la interacción son SIGNIFICATIVOS
• La interpretación se hace a partir del gráfico de interacción
Interacción:
En este ejemplo es significativa.
Diagnosis: Sobre residuos
Normalidad
Homocedasticidad
Independencia
Diagnosis
Diagnosis: más graficos
Bloques Aleatorizados
Ejemplo de introducción
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23
e 2 8.42 10.15 8.54 6.98 8.93
z 3 18.31 16.84 15.86 14.64 15.96
c 4 10.49 10.52 8.04 10.50 10.34
l 5 9.78 9.59 6.96 8.15 9.24
a 6 9.28 8.84 7.04 6.66 9.46
Se desea estudiar el efecto de la Fluorita en la

reducción del coste energético en la fabricación de
cemento. Se emplean 6 mezclas distintas de materias
primas.
> fluorita = read.table('fluorita.txt', header = T)
> attach(fluorita)
> FLUO = factor(fluo)
> MEZ = factor(mez)
> fluorita
Modelo
Tratamientos
1 2 I yij P D i E j uij
1 y11 y21 y I 1
•Normalidad
Bloques
2 y12 y22 y I 2
•Independencia
J y1J y2 J y IJ •Homocedasticidad
P : Media global
Di : Efecto del tratamiento i, i=1,...,I ¦iI 1Di 0
Ej : Efecto del bloque j, j=1,2,...,J ¦ Jj 1 E j 0
uij : Componente aleatoria N(0,V2)
Tratamientos
1 2 ... I
1
V V
... V
P D1 E1 P D 2 E1 P D I E1
V V
... V
Bloques
2
P D1 E 2 P D2 E2 P D I E2

J
V V
... V
P D1 E J P D2 E J P DI EJ

Pˆ y xx
P :o 1 °
°D :o I 1 °° Dˆ i y i x y xx
° i Eˆ j y x j y xx
Parámetros : ® Estimadore s : ®
° E j :o J 1 °
¦ ¦ eij2
°¯ V 2 :o 1 °Vˆ 2 sˆ 2
°¯ R
( I 1)( J 1)
J I I J
¦ yij ¦ yij ¦ ¦ yij
j 1 i 1 i 1j 1
yix yx j y xx
J I n
yij P D i E j uij eij yij Pˆ Dˆ i Eˆ j

yij Pˆ Dˆ i Eˆ j eij yij y i x y x j y xx
Estimación
1 2 I Eˆ j
1 y11 y 21 yI1 y x1 y x1 y xx
2 y12 y 22 yI 2 y x2 y x 2 y xx

J y1J y2 J y IJ yxJ y x J y xx
y 1x y 2x yIx y xx
Dˆ i y 1x y xx y 2 x y xx y I x y xx
Estimación (ejemplo)
Fluorita
0% 1% 2% 3% 4%
M 1 15.02 11.86 9.94 12.45 13.23 12.50 1.77
e 2 8.42 10.15 8.54 6.98 8.93 8.60 -2.13
z 3 18.31 16.84 15.86 14.64 15.96 16.32 5.59 Ej
c 4 10.49 10.52 8.04 10.50 10.34 9.98 -0.76
l 5 9.78 9.59 6.96 8.15 9.24 8.74 -1.99
a 6 9.28 8.84 7.04 6.66 9.46 8.26 -2.48
11.88 11.30 9.40 9.90 11.19 10.73
1.15 0.57 -1.34 -0.84 0.46
Di
Residuos: Varianza residual
eij yij Pˆ Dˆ i Eˆ j yij y i x y x j y xx
Fluorita
0% 1% 2% 3% 4%
M 1 1.37 -1.21 -1.22 0.79 0.27
e 2 -1.33 0.98 1.27 -0.79 -0.13
z 3 0.84 -0.05 0.88 -0.84 -0.82
c 4 -0.64 -0.02 -0.60 1.36 -0.10
l 5 -0.11 0.28 -0.45 0.24 0.04
a 6 -0.13 0.02 0.12 -0.76 0.74
¦ ¦ eij2 17.51
sˆR2 0.88
( I 1)( J 1) 20
Estimación
Variabilidades
I J
VT ¦¦ ( y
i 1 j 1
ij y xx ) 2
I
VE (T ) J ¦ ( y i x y xx ) 2
i 1
J VT VE (T) VE (B) VNE
VE ( B ) I ¦ ( y x j y xx ) 2
j 1
I J (n 1) ( I 1) ( J 1) ( I 1)( J 1)
VNE ¦¦ eij2
i 1 j 1
Descomposición de la variabilidad
yij P D i E j uij yij Pˆ Dˆ i Eˆ j eij

yij y xx ( y ix y xx ) ( y x j y xx ) ( yij y ix y x j y xx )
yij y xx ( y ix y xx ) ( y x j y xx ) ( yij y ix y x j y xx )
I J I J I J I J
¦¦ ( y
i 1 j 1
ij y xx ) 2
¦¦ ( y
i 1 j 1
ix y xx ) ¦¦ ( y x j y xx ) ¦¦ eij2
2
i 1 j 1
2
i 1 j 1
I J I J I J
¦¦ ( y
i 1 j 1
ij y xx ) 2
J ¦ ( y ix y xx ) I ¦ ( y x j y xx ) ¦¦ eij2
i 1
2
j 1
2
i 1 j 1
Contraste de Hipótesis
Si la Fluorita no influye, los I tratamientos
son iguales a efectos de coste, entonces
D1 D 2 D I ¦iI 1Di 0
H 0 : D1 D 2 DI 0
Contraste sobre tratamientos
H 0 : D1 D 2 DI 0
VNE
sˆR2 o E[ sˆR2 ] V 2
( I 1)( J 1)
VE (Tratamient os)
Si Ho es cierto, sˆT2 o E[ sˆT2 ] V 2
I 1
I
J ¦ ( y i x y xx ) 2 I 1
sˆT2 i 1
FT o FI 1;( I 1)( J 1)
sˆR2 sˆR2
Si FT ! FD Se rechaza Ho
Explicación del contraste

Si Ho es cierto D i 0 yij o N ( P E j , V 2 )
yi1 yi 2 yiJ JP ¦ Jj 1 E j
yix , E[ y i x ] P
J J
V2
y1x , y 2x ,..., y I x o N ( P , )
J
I ª I 2º
J ¦ ( y i x - y xx )2 « J ¦ ( y i x - y xx ) »
y1x y 2x y I x
y xx sˆT2 i 1
E« i 1 » V2
I I 1 « I 1 »
«¬ »¼
Cuando Ho es cierto, sˆT2 y sˆR2 serán parecidas.

Cuando Ho es falso, sˆT2 será mayor que sˆR2 .
Contraste de bloques
H 0 : E1 E2 E J 0
H1 : Algún E j es distinto de 0
VE (Bloques)
Si Ho es cierto, sˆB2 o E[ sˆB2 ] V 2
J 1
J
I ¦ ( y x j y xx ) 2 J 1
sˆB2 j 1
FB o FJ 1;( I 1)( J 1)
sˆR2 sˆR2
Si FB ! FD Se rechaza Ho
Tabla de análisis de la varianza

Fuentes Suma de Grados de
Variabilid ad Cuadrados Libertad. Varianza F p valor
sˆT2
Tratamient o J ¦ ( y i x y xx ) 2 I 1 sˆT2 sˆR2 pT
sˆB2
2
Bloque I ¦ ( y x j y xx ) J 1 sˆB2 sˆR2 pB
Residual ¦ ¦ eij2 ( I 1)( J 1) sˆR2
Total ¦ ¦ ( yij y xx ) 2 n -1
Tabla ANOVA
El tratamiento ( % fluorita) y el bloque ( mezcla) son

SIGNIFICATIVOS.
(ejemplo)
sˆR
P D i y i x r tD / 2
J
Fluorita Medias L.inf. L.Sup.

0% 11.88 11.09 12.68
1% 11.30 10.50 12.10
2% 9.40 8.60 10.19
3% 9.90 9.10 10.69
4% 11.19 10.40 11.99
Intervalos de Confianza (% Fluorita)
> ICplot(mod_flu, "FLUO")
12
medias
11
10
9
0 1 2 3 4
FLUO
Intervalos de Confianza (Mezcla)

> ICplot(mod_flu, "MEZ")
16
14
medias
12
10
8
1 2 3 4 5 6
MEZ
Contraste multiples: tratamientos
t(I-1)(J-1)
H1 : D i z D j
1-D
Dˆ i y i x y xx ½ D/2 D/2
¾ Dˆ i Dˆ j yix y jx R. Acept. H0
Dˆ j y j x y xx ¿
-tD/2 tD/2
V2 V2
J J
yi x y j x 2
o t( I 1)( J 1) y i x y j x ! tD / 2 sˆR Se rechaza H 0
2
J

sˆR
J LSD
Contraste multiples: bloques
H 0 : Ei Ej R.R. R.R
t(I-1)(J-1)
H1 : E i z E j
1-D
Eî y xi y xx ½° D/2 D/2
¾ Eî Eˆ j y xi y x j R. Acept. H0
Eˆ j y x j y xx °¿
-tD/2 tD/2
V2 V2
Eî Eˆ j o N ( E i E j , )
I I
yxi yx j 2
o t( I 1)( J 1) y xi y x j ! tD / 2 sˆR Se rechaza H 0
2
I

sˆR
I LSD
Comparación de medias
Fluorita LSD = 1.13
0% 1% 2% 3% 4%
2
LSD tD / 2 sˆR 0% 0 0,58 2,49 1,99 0,69
J 1% 0 1,90 1,40 0,11
2% 0 -0,50 -1,80
2
2.085 u 0.93 u 3% 0 -1,30
6 4% 0
1.13
LSD=1.24
Mezcla 1 2 3 4 5 6
2 1 0,00 3,90 -3,82 2,52 3,76 4,24
LSD tD / 2 sˆR 2 0 6,60 -1,37 -0,14 -0,35
I 3 0 6,34 7,58 8,07
2 4 0 1,23 1,72
2.085 u 0.93 u
5 5 0 0,49
1.24 6 0
Comparación de medias (Tukey)
95% family-wise confidence level

1-0
2-0
3-0
4-0
2-1
3-1
4-1
3-2
4-2
4-3
-4 -2 0 2
Differences in mean levels of FLUO
Comparación de medias (Tukey)
95% family-wise confidence level
2-1
4-1
6-1
4-2
6-2
5-3
5-4
6-5
-10 -5 0 5 10
Differences in mean levels of MEZ
Sin bloques
El % de FLUORITA no es SIGNIFICTIVO.
No se detectan diferencias
La Varianza residual es muy grande (10.6113)
Diagnosis: 2
1.5
Homocedasticidad 1
0.5
0
-0.5
Gráfico de residuos -1
-1.5
2 -2
1.5 0 1 2 3 4 5 6
1 Mezcla
0.5
0 1.6
-0.5 1.2
-1 0.8
residuos
-1.5 0.4
-2 0
0 1 2 3 4 -0.4
Fluorita -0.8
-1.2
-1.6
5 10 15 20
Valores previstos
Diagnosis: normalidad
99.9
99
probabilidad
95
80
50
20
5
1
0.1
-1.4 -0.9 -0.4 0.1 0.6 1.1 1.6
residuos
Diagnosis
Normalidad
Homocedasticidad
Apéndice
Diseños factoriales
(tres factores)
Diseño con tres factores

Factor A
Factores A, B y C con NA, NB,
A1 A2 A3 A4 A5 A6 Nc niveles.
B1
Nº de Tratamientos
B2
Factor B
T=NAxNBxNc
B3 Efectos principales 3 A, B , C
B4 Interacciones de orden dos 3
B5 AxB, AxC, BxC
C1 Interacción de orden tres 1.
C2
C3 AxBxC
Tratamiento: Cada combinación de niveles de los factores

6 x 5 x 3 = 90
K factores con N1, N2, ..., NK
niveles
x K efectos principale s con N i 1 grados de libertad cada uno
§K ·
x ¨ ¸ interaccio nes de orden 2, con (N i 1 )(N j 1 ) grados
©2¹
de libertad
§K ·
x ¨ ¸ interaccio nes de orden 3, con (N i 1 )(N j 1 )(N k 1 )
©3¹
grados de libertad
...
§K ·
x ¨ ¸ 1 interacció n de orden k, con (N1 1 )(N 2 1 )(N K 1 )
©K ¹
grados de libertad
Datos Factor 1 1
Factor 3
2 ... K
11 22 ...
II
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... K
K
y1111 y1121 y11K 1 y 2111 y 2121 y11K 1 y I 111 y I 121 y I 1K 1
11 y1112 y1122 y11K 2 y 2112 y 2122 y11K 2 y I 112 y I 122 y I 1K 2

y111M y112M y11KM y 211M y 212M y11KM y I 11M y I 12M y I 1KM
Factor 2
11 22 ...... K
K 11 22 ...... K
K 11 22 ...
... KK
y1211 y1221 y12 K 1 y 2211 y 2221 y 22 K 1 y I 211 y I 221 y I 2 K1
2 y1212 y1222 y12 K 2 y 2212 y 2222 y 22 K 2 y I 212 y I 222 yI 2K 2

y121M y122M y12 KM y 221M y 222M y 22 KM y I 21M y I 22M y I 2 KM
...

11 22 ...... K
K 11 22 ...
... KK 11 22 ...... K
K
y1J 11 y1J 21 y1JK1 y 2 J 11 y 2 J 21 y 2 JK1 y IJ 11 y IJ 21 y IJK1
JJ y1J 12 y1J 22 y1JK 2 y 2 J 12 y 2 J 22 y 2 JK 2 y IJ 12 y IJ 22 y IJK 2

y1J 1M y1J 2 M y1JKM y 2 J 1M y2 J 2M y 2 JKM y IJ 1M y IJ 2 M y IJKM
Ejemplo: Proceso químico
Tres factores: Concentración
1 4% C-1
Catalizador
Ag
Temperatuta
T-1 300º C
2 6% C-2 Ag+Zn T-2 320º C
3 8% C-3 Zn
4 10%
Variable respuesta: Rendimiento del proceso químico.
CONCENTRACIÓN
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
72.2 65.0 74.4 69.2 75.0 70.7 80.0 73.0
C-1 74.4 71.6 66.3 71.8 78.9 80.6 65.0 74.4
64.3 61.9 66.5 64.6 64.3 73.4 82.1 78.8
CATALIZADOR
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2

62.5 75.9 70.8 79.2 76.3 83.3 72.3 80.3
C-2 65.8 72.9 63.9 80.1 79.1 88.0 72.4 86.9
71.2 77.8 76.6 75.3 89.0 84.7 75.6 86.3
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
69.0 73.8 69.0 84.5 72.8 94.1 78.4 87.5
C-3 70.3 59.2 68.2 93.7 73.7 87.3 79.9 79.7
68.8 80.8 78.7 80.1 80.7 89.0 80.3 79.5
Tres replicaciones
Modelo
yijkm P D i E j J k DE ij DJ ik EJ jk DEJ ijk uijkm
¦i 1D i
I
0 ¦ Jj 1DE ij 0, i ¦iI 1DE ij 0, j
¦i 1DJ ik 0, k
I
¦ ¦k 1DJ ik 0, i
K
j 1E j
J
0
¦k 1 EJ jk 0, j
K
¦ ¦ j 1 EJ jk 0, k
J
k 1J k
K
0
¦ i DEJ ijk 0, j, k , ; ¦ j DEJ ijk 0, i, k ; ¦k DEJ ijk 0, i, j.

I J K
I u J u K tratamientos
•Normalidad
uijkm •Independencia M replicaciones
•Homocedasticidad n = IuJuKuM
Medias
I J K M
¦ ¦ ¦ ¦ yijk
i 1 j 1k 1m 1
y xxxx
IJKM
J K M I K M I J M
¦¦ ¦ yijkm ¦ ¦ ¦ yijkm ¦ ¦ ¦ yijkm
j 1k 1m 1 i 1 k 1m 1 i 1 j 1m 1
y i xxx y x j xx y xx k x
JKM IKM IJM
K M J M I K
¦ ¦ yijkm ¦ ¦ yijkm ¦ ¦ yijkm
k 1m 1 j 1m 1 i 1k 1
y ijxx y ixk x y x jk x
KM JM IM
M
¦ yijkm
m 1
y ijk x
M
Medias: Proceso químico

Concentración
1 2 3 4
C-1 68.2 68.8 73.8 75.6 71.6
Catalizador C-2 71.0 74.3 83.4 79.0 76.9
C-3 70.3 79.0 82.9 80.9 78.3
69.9 74.1 80.1 78.5 75.6
1 2 3 4
T-1 68.72 70.49 76.64 76.22 73.02
Temperatura T-2 70.99 77.61 83.46 80.71 78.19
69.9 74.1 80.1 78.5 75.6
T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6
1 2 3 4
T-1 T-2 T-1 T-2 T-1 T-2 T-1 T-2
C-1 70.30 66.17 69.07 68.53 72.73 74.90 75.70 75.40
C-2 66.50 75.53 70.43 78.20 81.47 85.33 73.43 84.50
C-3 69.37 71.27 71.97 86.10 75.73 90.13 79.53 82.23
Pˆ y xxxx
Dˆ i y ixxx y xxxx o I 1
Eˆ j y x j xx y xxxx o J 1
Jˆ k y x x k x y x xx x o K 1

DE ij y ijxx y i xxx y x j xx y xxxx o ( I 1)( J 1)

DJ ik y i x k x y i x xx y xx k x y xx xx o ( I 1)( K 1)

EJ jk y x jk x y x j xx y xxk x y xxxx o ( J 1)( K 1)

DEJ ijk y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx o ( I 1)( J 1)( K 1)
2
2 ¦ ¦ ¦ ¦ eijkm
Vˆ sˆR2 ; eijkm yijkm y ijk x
IJK ( M 1)
Modelo estimado
yijkm
y xxxx y i xxx y xxxx y x j xx y xxxx y xxk x y xxxx

y ijxx y i xxx y x j xx y xxxx
y i xk x y i xxx y xxk x y xxxx

y x jk x y x j xx y xxk x y xxxx
y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx
yijkm y ijk x
Variabilidades
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
JKM ¦ y i xxx y xxxx
2 2
VT VE ( A)
i 1 j 1k 1m 1 i
VE ( B )
IKM ¦ y x j xx y xxxx 2 VE (C ) IJM ¦ y xxk x y xxxx
2
j k
VE ( A u B )
KM ¦ ¦ y ijxx y i xxx y x j xx y xxxx 2
i j
JM ¦ ¦ y i xk x y i xxx y xxk x y xxxx

2
VE ( A u C )
i k
VE ( B u C )
IM ¦ ¦ y x jk x y x j xx y xxk x y xxxx 2
j k
VE ( A u B u C )
M ¦ ¦ ¦ y ijk x y ijxx y i xk x y x jk x y i xxx y x j xx y xxk x y xxxx 2
i j k
¦ ¦ ¦ ¦ yijkm y ijk x
2
VNE
i j k m
Grados de libertad
DESCOMPOSI CIÓN DE LA VARIABILID AD

VT VE ( A) VE ( B ) VE (C )
VE ( A u B ) VE ( A u C ) VE ( B u C )
VE ( A u B u C ) VNE
GRADOS DE LIBERTAD
(n 1) ( I 1) ( J 1) ( K 1)
( I 1)( J 1) ( I 1)( K 1) ( J 1)( K 1)
( I 1)( J 1)( K 1) IJK ( M 1)

Tabla ANOVA
FUENTE VARIABILID AD Gr . de Lib. Varianzas F
sˆ A2
JKM ¦ y i xxx y xxxx
2
A I 1 sˆ A2
i sˆR2
B
IKM ¦ y x j xx y xxxx 2 J 1 sˆB2
sˆB2
sˆR2
j
sˆC2
IJM ¦ y xxk x y xxxx
2
C K 1 sˆC2
k sˆR2
2
2
2 sˆ AB
Au B KM ¦ ¦ y ijxx y i xxx y x j xx y xxxx ( I 1)( J 1) sˆ AB
i j sˆR2
2
JM ¦ ¦ y i xk x y i xxx y xxk x y xxxx
2 2 sˆ AC
Au C ( I 1)( K 1) sˆ AC
i k sˆR2
2
2
2 sˆBC
BuC IM ¦ ¦ y x jk x y x j xx y xxk x y xxxx ( J 1)( K 1) sˆBC
j k sˆR2
M ¦ ¦ ¦ ( y ijk x y ijxx y i xk x y x jk x ... 2
2 sˆ ABC
Au B u C i j k
( I 1)( J 1)( K 1) sˆ ABC
... y i xxx y x j xx y xxk x y xxxx ) 2 sˆR2
¦ ¦ ¦ ¦ yijkm y ijk x
2
Residual IJK ( M 1) sˆR2
i j k m
¦ ¦ ¦ ¦ yijkm y xxxx
I J K M
2
Total IJKM 1
i 1 j 1k 1m 1
Instrucciones de R utilizadas
ARCHIVO TEXTO: quimico.txt
> quimico = read.table('quimico.txt', header = T)
> attach(quimico)
> CON = factor(con)
> class(con)
> TEMP = factor(temp)
> class(temp)
> CAT = factor(cat)
> class(cat)
> mod_qui = aov(rendim ~ CON*TEMP*CAT )

Estimación
variabilidad

Contraste efecto principal de factor A
H 0 : D1 D 2 DI 0
I
JKM ¦ ( y ixxx y xxxx ) 2 I 1
sˆ A2 i 1
FA o FI 1; IJK ( M 1)
sˆR2 sˆR2
FI 1; IJK ( M 1)
Si FA d FD No se rechaza Ho
RR
D Si FA ! FD Se rechaza Ho
FD
Contraste interacción AxB
H 0 : DE11 DE12 DE IJ 0
H1 : Algún DE ij es distinto de 0
2 VE ( A u B)
Si Ho es cierto, sˆ AB
( I 1)( J 1)
2
sˆ AB
FAB 2
o F( I 1)( J 1); IJK ( M 1)
sˆR
Si FAB ! FD Se
rechaza

Ho

A y B interaccio nan
Contraste interacción AxBxC
H 0 : DEJ 111 DEJ 112 DEJ IJK 0

H1 : Algún DEJ ijk es distinto de 0
Si Ho es cierto
2
sˆ ABC
FABC 2
o F( I 1)( J 1)( K 1); IJK ( M 1)
sˆR
Si FABC ! FD Se rechaza Ho

Interpretación
El efecto principal del factor concentración
influye significativamente (p-valor =0.0000)
en el rendimiento. Más adelante se
compararán las medias de los cuatro niveles
de este factor. Este factor no interacciona
con ningún otro.
Los efectos principales de catalizador y de
la temperatura son significativos, además
es muy significativa la interacción de los dos
factores (p-valor 0.0064). La comparación
de medias de estos factores debe ser
conjunta.
Contrastes múltiples: Factor A
tIJK(M-1)
H1 : D i z D j
1-D
D/2 D/2
Dˆ i y i x x x y xx x x ½
Dˆ i Dˆ j y i x x x y j xx x R. Acept. H0
Dˆ j y j xxx y xxxx ¾¿
V2 V2
-tD/2 tD/2
JKM JKM
yixxx y j xxx 2
o t IJK ( M 1) Si yixx y j xx ! tD / 2 sˆR ,
2 JKM
sˆR
JKM se rechaza Ho

Interpretación I
EFECTOS PRINCIPALES:
Solo se interpreta la Concentración
> ICplot(mod_qui, "CON")
> TukeyHSD(mod_qui,'CON')
> plot(TukeyHSD(mod_qui,'CON'))
Interacción: Cat. x Temp.

T-1 T-2
C-1 71.95 71.25 71.6
C-2 72.96 80.89 76.9
C-3 74.15 82.43 78.3
73.02 78.19 75.6
Interacción Cat x Temp
84.00
82.00
80.00
Medias
78.00 Temp - 1
76.00 Temp - 2
74.00
72.00
70.00
0 1 2 3 4
Catalizador

Interpretación II
Se interpreta la interacción
Temperatura - Catalizador
> source('interIC.R')
> interIC(mod_quimicos,'temp','cat')
> interIC(mod_quimicos,'cat','temp')
Selección de temperatura y
catalizador.
Las mejores combinaciones

corresponden
a la T2 con K2 o K3.

10
10
10
residuals(mod_qui)
residuals(mod_qui)
residuals(mod_qui)
5
5
0
0
-5
-5
-5
-10
-10
-10
1.0 2.0 3.0 4.0 1.0 1.4 1.8 1.0 1.5 2.0 2.5 3.0
con temp cat

Capítulo 2. Diseño de experimentos
2.1. Se pretende estudiar el efecto que produce los factores (1) Porcentaje de algodón (10%, 20% y 30%)
(2) Tipo de confección (A y B) en la resistencia al desgaste de ciertos tejidos de …bra sintética. Se
ha realizado el siguiente diseño con tres replicaciones (archivo desgaste:txt)
10% 20% 30%

115 120 126
A 112 135 118
133 139 142
107 110 132
B 114 102 114
108 117 125
1. Construir la tabla de Análisis de la Varianza y contrastar la in‡uencia de los dos factores y la

presencia de la interacción.
2. Hacer un contraste de diferencia de medias y decidir el tratamiento más adecuado para conseguir
la mayor resistencia al desgaste.
2.2 En una planta piloto se obtiene un nuevo producto mediante un proceso químico. Con el …n de
mejorar el rendimiento se emplean dos catalizadores distintos y se trabaja con tres temperaturas
diferentes. Los resultados del experimento son (archivo rendimiento:txt)
Temperatura
Catalizador 200 300 400
A 115 125 130 140 110 120
B 115 105 135 145 100 110
1. Contrastar si los factores Temperatura y Catalizador tienen efectos signi…cativos. ( = 0:05)
2. ¿Qué tratamiento se debe utilizar para obtener el mayor rendimiento, si se desea garantizar una
probabilidad de error tipo I total, T = 0:03?
2.3 Un investigador quiere estudiar el efecto de sexo (hombre, mujer) y tipo de formación (ciencias,
letras) en el dominio del inglés escrito en profesores universitarios. Para ello analiza el número de
incorrecciones gramaticales en artículos cientí…cos enviados a publicación. Para cada combinación
de niveles de los factores se han elegido al azar tres profesores. En la tabla se proporciona el número
de fallos detectados en artículos de 15 páginas (archivo error:txt)
Letras Ciencias
Hombre 8, 6, 13 22, 28, 33
Mujer 5, 10, 6 12, 14, 9
1
Contrastar con nivel de signi…cación 0.05 si los efectos principales y la interacción son signi…cativos.
Tener en cuenta que P (F1;8 5:32) = 0:95, siendo F1;8 la distribución F con grados de libertad
1 y 8: Interpretar los resultados.
2.4 Un alumno, como trabajo de la asignatura de estadística, ha comparado tres marcas distintas (A,B,C)
de palomitas de maíz precocinadas. Cada marca puede prepararse friendolas en una sartén (método
1) o en el horno microondas (método 2). El alumno ha realizado un diseño factorial completo 3 2
con cinco replicaciones en cada uno de los seis tratamientos. La variable respuesta medida es el
porcentaje de granos de maíz que no se han in‡ado adecuadamente. Los resultados del experimento
se muestran en la tabla, en cada tratamiento se proporciona la media y entre paréntesis la desviación
típica corregida para las cinco replicaciones. Contrastar si la interacción entre los dos factores es
signi…cativa.
A B C
5.5 3.6 7.5
Sartén
(1,4) (1,8) (2,5)
3.8 3.4 4.3
Horno
(1,3) (0,9) (1,3)
2.5. La tabla muestra el tiempo de supervivencia de grupos de cuatro animales a los que se ha asignado
al azar tres venenos y posteriormente cuatro tratamientos. (archivo venenos:txt)
Tratamiento
A B C D
Veneno
I 0.31 0.82 0.43 0.45
0.45 1.10 0.45 0.71
0.46 0.88 0.63 0.66
0.43 0.72 0.76 0.62
II 0.36 0.92 0.44 0.56
0.29 0.61 0.35 1.02
0.40 0.49 0.31 0.71
0.23 1.24 0.40 0.38
III 0.22 0.30 0.23 0.30
0.21 0.37 0.25 0.36
0.18 0.38 0.24 0.31
0.23 0.29 0.22 0.33
1. ¿Son los venenos y tratamientos signi…cativos? ¿Existe interacción entre el veneno y el tratamiento?
2. Analice los residuos del modelo anterior. ¿Se veri…can las hipótesis básicas del modelo? ¿Qué
transformación de los datos hace que se veri…quen las hipótesis?
3. Calcule la tabla de análisis de la varianza con los datos transformados. ¿Tiene la transformación
realizada algún efecto sobre los efectos principales y la interacción?
2
2.6 Se ha realizado un experimento para estudiar el efecto de la temperatura (T) y tiempo de exposición
(E) sobre la cantidad absorbida de un compuesto químico por un material sumergido en él. En el
estudio se han empleado tres temperaturas (T1, T2, T3) y tres tiempos de exposición (E1, E2, E3):
cada tratamiento se ha replicado tres veces. La cantidad absorbida (mg) del compuesto químico en
cada uno de los 27 experimentos se muestra en la tabla 1 (archivo absorbida:txt) y las medias en
la tabla 2:
Tabla 1: Cantidad Absorbida (mg)
Tiempo de Temperatura
Exposición T1 T2 T3
Tabla 2: Medias de Cantidad Absorbida (mg)
35.5 91.2 70.1
E1 29.7 100.7 64.1
Tiempo de Temperatura
31.5 82.4 70.1
Exposición T1 T2 T3 Medias
E1 32.23 91.43 68.10 63.92
52.5 71.0 79.4
E2 53.60 74.53 77.40 68.51
E2 53.3 77.0 77.7
E3 83.76 87.06 82.83 84.56
55.0 75.6 75.1
Medias 56.53 84.34 76.11 72.33
85.9 87.0 83.0
E3 85.2 86.1 87.0
80.2 88.1 78.5
La tabla 3 corresponde al análisis de la varianza del experimento.
Tabla 3: Tabla de análisis de la varianza

Fuente Suma de Grados de
Variabilidad Cuadrados Libertad Varianzas F p-valor
Temperatura 3673.61 2 1836.80 110.58 0.0000
T. Exposición 2112.65 2 1056.32 63.59 0.0000
Interacción 2704.44 4 676.11 40.70 0.0000
Residual 299.00 18 16.61
Total 8789.7 26
1. (a) Interpreta los resultados del análisis de la varianza.
2. Realiza las comparaciones dos a dos de los nueve tratamientos y elige aquél o aquellos que propor-
cionan una absorción mayor (95%).
3. Comprueba grá…camente la hipótesis de homocedasticidad e interpreta los resultados.
2.7. Se ha realizado un diseño experimental para determinar la in‡uencia de dos factores combinación
de hidrocarburos y cantidad de hidrógeno en el rendimiento de un proceso químico complejo. Se
estudiaron cuatro combinaciones de hidrocarburos (A,B, C y D) y tres niveles en el contenido de
hidrógeno (1,2 y 3). En cada tratamiento se realizaron cuatro réplicas. En la tabla 1 se presentan los
resultados: mejora en tanto por mil respecto a procedimiento estándar (archivo hidrocarburos:txt).
Los números entre paréntesis de la tabla se corresponden con las medias de cada tratamiento, de los
cuatro niveles del factor hidrocarburos y de los tres niveles de hidrógeno. En la tabla 2 se muestra
la tabla de análisis de la varianza del experimento.
3
Tabla 1. Datos y medias entre paréntesis
A B C D Medias Etapa
10.3 10.5 7.2 13.0 1
11.1 8.2 5.3 12.9 1
1 15.3 9.7 12.5 5.3 2
2.1 8.9 19.1 12.0 2
Medias (9.7) (9.325) (11.025) (10.8) (10.213)
25.8 20.6 29.7 17.6 1
25.7 17.1 26.3 12.0 1
2 28.9 21.4 22.4 24.6 2
27.8 17.3 25.9 23.1 2
Medias (27.05) (19.1) (26.075) (19.325) (22.888)
28.5 21.0 30.4 20.5 1
31.2 26.8 26.6 26.2 1
3 24.8 19.4 34.4 27.8 2
26.5 22.2 27.5 21.9 2
Medias (27.75) (22.35) (29.975) (24.1) (25.981)
Medias (21.5) (16.925) (22.275) (18.075)
Tabla 2. ANOVA -
Suma Grados
Fuentes Cuadrados Libertad Var. F p-valor
Hidrocarburos 242.5 3 80.85 5.55 .0031
Hidrógeno 2234 2 1117 76.7 .0000
Interacción 119.3 6 19.88 1.36 .2546
Residual 523.7 36 14.55
Total 3120 47
1. Comparar las medias de los cuatro niveles del factor Hidrocarburo y las de los tres niveles del factor
Hidrógeno. Indica si existen diferencias signi…cativas con nivel de signi…cación 0.05.
2. Elige el tratamiento que proporciona el rendimiento óptimo, justi…cando la respuesta. Da un inter-

valo de con…anza para el valor medio en dichas condiciones con nivel de con…anza del 95%.
3. El experimento se realizó en dos etapas, en una primera etapa se recogieron las 24 observaciones
que se indican en la tabla 1 como etapa 1 y las otras 24 como etapa 2. Los resultados del análisis
de la varianza correspondientes a cada etapa se muestran en las tablas 3 y 4.
Tabla 3. ANOVA - Etapa 1

Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 115.9 3 38.63 6.07 .0093
Hidrógeno 1175.0 2 587.7 92.4 .0000
Interacción 218.4 6 36.39 5.72 .0051
Residual 76.3 12 6.358
Total 1586.0 23
4
Tabla 4. ANOVA - Etapa 2
Suma Grados
Fuentes Cuadrados Libert. Var. F p-valor
Hidrocarburos 162.9 3 54.31 3.35 .0555
Hidrógeno 1076 2 537.9 33.19 .0000
Interacción 94.94 6 15.82 0.976 .9762
Residual 194.5 12 16.21
Total 1528 23
¿Se puede concluir que en las dos etapas la varianza del error experimental es la misma? (Realiza
el contraste con = 0:05)
2.8 Se ha estudiado el efecto de tres hornos diferentes y dos temperaturas (290 o C y 320 o C) en la
duración de cierto componente. Para cada combinación de horno y temperatura se ha replicado
el experimento 3 veces. En la tabla siguiente se proporcionan las medias y desviaciones típicas
(corregidas) de los datos de cada tratamiento.
Temperatura o C
290 o C 320 o C
Media Desv. T. Media Desv. T.
Horno 1 24.56 0.850 18.00 0.265
Horno 2 19.10 1.539 14.40 0.265
Horno 3 18.70 0.458 17.43 0.862
Contrasta si existe interacción entre los factores horno y temperatura ( = 0:05):
2.9. Cierto Organismo Público (O.P.) encargado de certi…car la composición de aleaciones de metales
preciosos, debe seleccionar entre dos Laboratorios al más capacitado para la realización de futuros
análisis de gran precisión. Para tomar la decisión les somete a la siguiente prueba: Prepara tres
aleaciones A, B y C que contienen proporciones distintas de oro. De cada una de ellas envía cu-
atro muestras a cada uno de los dos laboratorios. Así pues, cada laboratorio recibe un lote de 12
muestras (codi…cadas) ordenadas aleatoriamente sin conocer como han sido obtenidas. Los resul-
tados recibidos por el O.P. son (entre paréntesis las medias de las casillas) (archivo laboratorios:txt):
Aleac. A Aleac. B Aleac. C

10.96 11.03 10.95 11.00 11.07 11.01
Lab. I 11.08 11.01 11.04 10.97 10.97 11.03
(11.02) (10.99) (11.02)
10.97 10.96 10.97 10.96 11.02 11.00
Lab. II 10.94 10.95 10.97 10.98 11.01 11.01
(10.955) (10.97) (11.01)
1. Determinar si existen diferencias entre los resultados de los laboratorios y si éstos han encontrado
diferencias entre las aleaciones.
2. Aceptando que los datos cumplen la hipótesis de normalidad, indicar si podemos aceptar que
veri…can el resto de las hipótesis del modelo y en caso negativo que medidas se deben adoptar para
analizar los datos.
5
3. Realizar un test de razón de varianzas para contrastar que las varianzas de los dos laboratorios son
iguales, sabiendo que las tres aleaciones tienen composición distinta. Interpretar el resultado.
4. El O.P. conoce exáctamente el porcentaje en oro de la aleación A (11 %), de la B (11.02 %) y de
la C (11.04 %). Con esta información comparar los resultados de los laboratorios.
2.10 Un laboratorio de Análisis Clínicos ha adquirido un nuevo equipo (B) para medir el colesterol en la
sangre de los enfermos. Para evaluar si el nuevo equipo está ajustado se decide analizar muestras
de 5 enfermos que previamente han sido analizadas con otro equipo (A), dando como resultado
Enfermo 1 2 3 4 5 Media
Equipo A 215 305 247 221 286 254.8
Equipo B 224 312 251 232 295 262.8
Contrastar con = 0:05 existen diferencias entre los dos equipos. (archivo colesterol :txt)
2.11. El análisis de la varianza de un diseño en bloques aleatorizados proporciona los siguientes resulta-
dos: V T = 232, V E(factor) = 156, V E(bloque) = 15 y V N E = 61. El número de niveles del factor
es 5 y el número de bloques 8. Construir la tabla ADEVA. ¿ Cuál sería el resultado del análisis si
no se tiene en cuenta el efecto de los bloques ? Indicar en qué circunstancias es preferible cada uno
de los modelos.
2.12. Se realiza un experimento para estudiar si la presencia de ‡uorita reduce el coste de fabricación
de clinker de cemento en tres tipos diferentes de mezcla. Los resultados del mismo (en miles de
pesetas por Tm) se muestran en la siguiente tabla (archivo f luorita2:txt):
FLUORITA MI MII MIII ȳi

0% 15.4 10.6 17.8 14.6
1% 10.3 5.5 10.9 8.9
2% 7.4 1.2 8.1 5.5
3% 10.7 6.5 9.6 8.9
4% 13.5 11.6 15.5 13.5
ȳ 11.4 7.1 12.4
5 X
X 3
e2ij = 10:2 y = 10:3
i=1 j=1
1. (a) Determinar si el tipo de mezcla y el nivel de ‡uorita añadido in‡uyen signi…cativamente en el

coste de fabricación. Se supone que no existe interacción entre los dos factores.
(b) Contrastar que porcentaje de ‡uorita produce el menor coste del clinker.
2.13 Se ha realizado un experimento con dos factores cada uno de ellos con 3 niveles. El 20% de la
variabilidad total está explicada por la interacción de los dos factores y el 40% de la variabilidad
total es debida a la variabilidad residual. Determinar el número de replicaciones necesarias en cada
tratamiento para que la interacción sea signi…cativa con = 0:01: (Explicar el procedimiento de
cálculo, dejando el resultado indicado en función de las tablas).
6
2.14 Sea un diseño factorial con 4 factores a 3, 4, 2 y 5 niveles. Calcular el número de parámetros totales
correspondientes a efectos principales e interacciones de orden 2, 3 y 4.
2.15 Un centro ha realizado un experimento para mejorar la resistencia a la tensión de ciertos muelles de
acero. En una etapa del proceso el muelle caliente se sumerge en aceite templado. Se han estudiado
tres factores, A (temperatura del acero antes de la inmersión, con tres niveles), B (temperatura del
baño de aceite, dos niveles) y C (concentración de carbono en el acero, dos niveles). El experimento
se ha replicado tres veces. En la tabla se muestra la media y la varianza (corregida) para los tres
datos de cada tratamiento.
A B C yi s^2i
1 1 1 40.2 0.25
1 1 2 61.1 2.68
1 2 1 35.9 2.43
1 2 2 57.1 4.44
2 1 1 49.0 3.49
2 1 2 70.3 7.77
2 2 1 46.7 5.08
2 2 2 67.6 1.03
3 1 1 41.9 4.27
3 1 2 62.7 11.41
3 2 1 37.1 1.33
3 2 2 60.3 6.13
1. (a) Dar un intervalo del 95 % de con…anza para la varianza del error experimental, 2.
2. Indicar si los efectos principales de A, B y C son signi…cativamente distintos de cero.
3. Dado 2 , construir un intervalo que cumpla que la probabilidad de que s^2i (la varianza muestral
corregida de un tratamiento) esté contenido en él sea igual a 0.95. Sustituir 2 por su estimador y
con ayuda de este intervalo, discutir si se puede rechazar la hipótesis de homocedasticidad de las
observaciones.
2.16 Un estudio bioquímico ha valorado la cantidad de tres ácidos (a, b, c) en muestras extraídas a
cuatro terneras (1, 2 ,3 y 4) de la misma raza. El análisis es bastante complejo y la determinación
incluye un error de medida. ¿Se puede aceptar la hipótesis de que los tres ácidos se encuentran
en la misma proporción en cada animal? Realiza el contraste con nivel de signi…cación 0.05. (La
variabilidad total es 41.90). (archivo ultrasonidos:txt)
1.
a b c Medias
1 11.0 11.4 12.7 11:7
2 9.8 10.8 13.7 11:43
3 7.5 10.6 11.5 9:87
4 7.9 7.6 10.1 8:53
Medias 9.05 10.1 12.0 10.38
7
OTROS EJEMPLOS
2.17. Treinta y seis adultos (18 hombres y 18 mujeres) son utilizados en un estudio para comparar los
tensiómetros de tres fabricantes. Los sujetos de cada sexo son asignados de forma aleatoria en seis grupos
de tres cada uno. A tres grupos de cada sexo se les mide la presión de la sangre nada más comenzar el
experimento; a los otros tres grupos se les mide la presión después de diez minutos de descanso.
Los resultados son los siguientes:
I II III
H M H M H M
147 122 156 131 127 110
1 124 142 127 133 122 115
113 136 155 146 153 105
140 108 100 141 114 103
2 130 151 140 125 139 135
112 138 105 139 126 114
Conteste a las siguientes preguntas:
¿Existen diferencias entre los fabricantes en la medida de presión de la sangre?
¿Hay diferencia entre el descanso y el no descanso en la presión en la sangre?
¿Hay diferencia entre hombres y mujeres?
Comprobar si hay interacción entre descanso y sexo.
Comprobar las hipótesis de normalidad, homocedasticidad y homogeneidad.
En el archivo tension.sf3 están la variable respuesta presión y las variables factores descanso, fabri-
cante y sexo.
2.18 Se desea investigar el comportamiento de dos tipos de semilla y de tres tipos diferentes de fertil-
izante. Los resultados serán los diferentes rendimientos para las combinaciones de semillas y fertilizantes.
Se pide contestar a las siguientes preguntas:
¿Existen diferencias entre los fertilizantes?
¿Existen diferentes entre las semillas?
Estudiar si la interacción entre las semillas y fertilizantes es signi…cativa.
Comprobar las hipótesis de normalidad, homocedasticidad e independencia e homocedasticidad.
En el archivo rend.sf3 están la variable respuesta rendimiento y los factores semilla y fertilizante.
8
A B C
1 14.3 18.1 17.6
14.5 17.6 18.2
11.5 17.1 18.9
13.6 17.6 18.2
2 12.6 10.5 15.7
11.2 12.8 17.5
11.0 8.3 16.7
12.1 9.1 16.6
2.19. Se ha realizado un experimento para estudiar la in‡uencia de dos factores en el rendimiento

de un proceso. Estos factores son la temperatura, que puede estar a tres niveles (alta, media y baja), y
el catalizador, que puede ser el catalizador 1 o el catalizador 2. En el archivo rend2.sf3 se presentan los
resultados que se muestran en la siguiente tabla.
Temperatura
Alta Media Baja
Catalizador 1 279 174 397

172 277 348
176 130 434
Catalizador 2 253 252 417

238 367 427
387 323 423
¿De qué modelo se trata?
¿Qué efectos son signi…cativos?
¿Cuál es el tratamiento adecuado para obtener el mayor rendimiento?
2.20. Se ha realizado un experimento para estudiar las fuentes de variabilidad de la resistencia a la

compresión de cemento tipo Portland. El cemento ha sido mezclado con agua por tres obreros diferentes
(mezcladores) durante un tiempo …jo. Después, la resistencia de las probetas generadas ha sido medida
por otros tres obreros diferentes (medidores). Cada mezclador ha generado doce probetas, que se han
dividido en tres grupos de cuatro; cada uno de esos grupos de cuatro ha sido asignado a un medidor.
Los datos obtenidos para la resistencia a la compresión de cada probeta, dados en libras por pulgada
cuadrada, se proporcionan en la tabla siguiente y se encuentran en el archivo portland.sf3.
9
Medidor 1 Medidor 2 Medidor 3
Mezclador 1 5280 4340 4160

5520 4400 5180
4760 5020 5320
5800 6200 4600
Mezclador 2 4420 5340 4180

5280 4880 4800
5580 4960 4600
4900 6200 4480
Mezclador 3 5360 5720 4460

6160 4760 4930
5680 5620 4680
5500 5560 5600
¿Existen diferencias entre las resistencias dadas por los diferentes medidores? ¿y entre las probetas
generadas por cada mezclador?
¿Es signi…cativa, con nivel de signi…cación del 5%, la interacción entre medidores y mezcladores?
¿Se cumplen las hipótesis del modelo?
2.21. Se está estudiando el rendimiento de un proceso químico. Se piensa que las dos variables
más importantes pueden ser la presión y la temperatura. Se seleccionan tres niveles de cada factor. Los
resultados del experimento son los siguientes:
Presión
Temperatura 200 215 230
Baja 90.4 90.7 90.2
Baja 90.2 90.6 90.4
Media 90.1 90.5 89.9
Media 90.3 90.6 90.1
Alta 90.5 90.8 90.4
Alta 90.7 90.9 90.1
Utilizando el archivo proceso. sf3 conteste a las siguientes preguntas:
¿Qué conclusiones se pueden sacar de los datos?
¿Bajo qué condiciones podría operar este proceso?
¿Existe interacción entre temperatura y presión?
Compruebe las hipótesis del modelo.
10
2.22. Se realiza un experimento para estudiar la in‡uencia de la temperatura de operación y de tres
tipos de cristal en la salida de luz de un osciloscopio medidas en lux. En el archivo lux.sf3 se encuentran
los resultados obtenidos que se presentan a continuación:
Temperatura
Cristal 100 125 150
580 1090 1392
1 568 1087 1380
570 1085 1386
550 1070 1328
2 530 1035 1312
579 1000 1299
546 1045 867
3 575 1053 904
599 1066 889
¿Hay diferencia entre las temperaturas?
¿Hay diferencia en el cristal? ¿Cúal es el mejor?
Estudie si existe interacción entre la temperatura y el cristal.
2.22 Para comprobar la diferencia de rendimientos entre las distintas variedades de avena se diseño
un experimento con ocho variedades distintas. Como el terreno donde fueron plantadas las distintas
variedades estaba en pendiente se pensó que podría afectar la situación de la planta en su rendimiento.
Los resultados obtenidos en gramos fueron los siguientes:
I II III IV V
1 296 357 340 331 348
2 402 390 431 340 320
3 437 334 426 320 296
4 303 319 310 260 242
5 469 405 442 487 394
6 345 342 358 300 308
7 324 339 357 352 220
8 488 374 401 338 320
Si no se tiene en cuenta el efecto de las diferentes condiciones del terreno, conteste a las siguientes
preguntas:
¿Existen diferencias entre las variedades?
¿Cúal es la mejor y la peor?
La variedad ocho es autóctona y la más empleada. La cinco es la más cara. Si tuvierá que elegir
¿cuál elegiría?
Haga un contraste de las hipótesis del modelo: normalidad, homocedasticidad, homogeneidad e

independencia.
11
Conteste todas las preguntas anteriores si se introduce la variable que tiene en cuenta el efecto del
terreno.
2.23. Se desea comparar cuatro procedimientos de obtención de la penicilina (A, B, C y D); siendo
la variable respuesta producción en kg.
Una materia prima, licor de maíz, se tiene en cuenta en el experimento. Se dispone de cinco muestras
de licor de maíz. A continuación se presenta la tabla de los datos.
A B C D
1 89 88 97 94
2 84 77 92 79
3 81 87 87 85
4 87 92 89 84
5 79 81 80 88
¿Cómo afectan los procedimientos y la materia prima?
¿Cuál es el mejor procedimiento y materia prima?
Realice la diagnosis del modelo
En el archivo penicili.sf3 se encuentra la variable respuesta cantidad, el factor tratamiento y el bloque

mezcla.
2.24. En 1986 IBM realizó una serie de experimentos en varios de sus sistemas para investigar el
comportamiento de nuevos algoritmos para incorporar en la librería de funciones matemáticas de su
compilador FORTRAN. En el archivo fortran.sf3 se encuentran el tiempo empleado por llamada para
la ejecución (dado en s) de cinco funciones escalares, que se proporcionan en la siguiente tabla. El
tiempo se ha promediado en 10000 argumentos seleccionados aleatoriamente en los intervalos de interés
([- , ],...). Las ejecuciones se llevaron a cabo en tres sistemas IBM diferentes (4331, 4361 y 4341). Se
proporcionan también los nombres de las funciones escalares consideradas.
Función Sistema IBM

4331 4361 4341
EDUM 9,90 3,07 4,88
ACOS CIRC [ ; ] 179,62 33,28 33,23
SEN LINEAL [ ; ] 105,72 24,13 27,08
EXP LINEAL [ 16; 16] 254,82 39,14 37,46
D2DUM 13,47 4,63 5,72
El interés principal del experimento era el estudio de la e…cacia de los tres sistemas ¿ha resultado
adecuada la estrategia?
Realice la diagnosis del modelo y proponga posibles soluciones si detecta algún problema.
2.25 Unos alumnos de la universidad de Tu¤s (Massachussets, E.U.A.), preocupados por el estado
de corrosión de las tuberías de su universidad, decidieron realizar el siguiente experimento. Tomaron
muestras de agua corriente haciendo variar los factores Campus, Tipo de edi…cio y antigüedad del edi…cio.
12
Se midió la concentración de hierro en el agua corriente (mg=dm3 ) y para cada posible combinación de
factores se tomaron dos observaciones. En el archivo corrosio.sf3 se muestran los resultados que se
presentan en la siguiente tabla.
Factor Concentración de Fe
Antigüedad Tipo Campus
Viejo Académico Medford 0,23 0,28
Nuevo Académico Medford 0,36 0,29
Viejo Residencial Medford 0,03 0,06
Nuevo Residencial Medford 0,05 0,02
Viejo Académico Somerville 0,08 0,05
Nuevo Académico Somerville 0,03 0,08
Viejo Residencial Somerville 0,04 0,07
Nuevo Residencial Somerville 0,02 0,06
Identi…que el modelo de que se trata, estime sus parámetros y realice la diagnosis.
Si no se cumplieren las hipótesis del modelo indique qué podría hacerse para remediarlo.
Estudie las interacciones e interprete las que resulten signi…cativas.
13
Regresión
1: Regresión simple I
Regresión simple
consumo y peso de automóviles
Núm. Obs. Peso Consumo
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20
Consumo (litros/100 Km)
6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 2
Regresión simple
(i) kg litros/100 km 25
1 981 11
2 878 12
3 708 8
4 1138 11
5 1064 13 20

6 655 6
7 1273 14
8 1485 17
9 1366 18 15
10 1351 18
11 1635 20
12 900 10
13 888 7
14 766 9
10
15 981 13
16 729 7
17 1034 12
18 1384 17 5
19 776 12
20 835 10
21 650 9
22 956 12
0
23 688 8
24 716 7 500 700 900 1100 1300 1500 1700
25 608 7
26 802 11 Peso (Kg)
27 1578 18
E 0 E 1 xi u i , u i o N (0, V 2 )
28 688 7
29
30
1461
1556
17
15
yi
Regresión Lineal 3
Ecuación de una recta
yi E 0 E1 xi
E1
yi
1
E0
xi
Regresión Lineal 4
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi
E 0 , E1 ,V 2 : parámetros desconocid os
Regresión Lineal 5
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi
E 0 E1 x
xi V
E 0 E1 xi
Regresión Lineal 6
Linealidad
E[yi ]= E0+E1xi
Parámetros
Normalidad
yi|xi N (E0+E1xi,V2)
E0
Homocedasticidad E1
Var [yi|xi] = V2
V2
Independencia
Cov [yi, yk] = 0
Regresión Lineal 7
Modelo
yi E 0 E 1 xi u i , ui o N (0, V 2 )
yi : Variable dependiente
xi : Variable independiente
ui : Parte aleatoria
V
Regresión Lineal 8
Estimación
n
M ( E 0 , E1 ) ¦(y
i 1
i E 0 E1 xi ) 2
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) 0 ¦y nEˆ0 Eˆ1 ¦ xi
dE 0
i
i 1
n
dM
¦ ( yi Eˆ0 Eˆ1 xi ) xi 0 ¦x y Eˆ0 ¦ xi Eˆ1 ¦ xi2
dE 0
i i
i 1
n n
y Eˆ0 Eˆ1 x ½ ¦ ( yi y )( xi x) ¦ ( xi x) 2
°i1 ˆ i1
n
¾ E
¦x y
i 1
i i n Eˆ0 x Eˆ1 ¦ xi n °
2
¿
n
1
n
cov( xi , yi )
Eˆ1 ; Eˆ0 y Eˆ1 x
var( xi )
Regresión Lineal 9
Estimación: máxima verosimilitud

1 ª 1 n 2º
l ( E 0 , E1, V 2 ) exp
« 2 i ¦1 ( yi E 0 E1xi ) »
2S n / 2 V n ¬ 2V ¼
L( E 0 , E1, V 2 ) log l ( E 0 , E1, V 2 )
n n 1 n
log(2S ) log V 2 2 ¦ ( yi E 0 E1xi ) 2
2 2 2V i 1
dL 1 n
¦ ( yi Eˆ0 Eˆ1xi ) 0 ¦ yi nEˆ0 Eˆ1 ¦ xi
dE 0 V i 12
dL 1 n
¦ ( yi Eˆ0 Eˆ1xi ) xi 0 ¦ xi yi Eˆ0 ¦ xi Eˆ1 ¦ xi2
dE 0 V 2 i 1
n n
2
y Eˆ0 Eˆ1 x ½ ¦ ( yi y )( xi x) ¦ ( xi x )
°i 1
Eˆ1 i 1
Eˆ0 x Eˆ1 ¦ xi2 n ¾°
n
¦ xi yi n n n
i 1 ¿
cov( xi , yi )
Eˆ1 ; Eˆ0 y Eˆ1 x
var( xi )
Regresión Lineal 10
Estimación V2 : máxima verosimilitud
n n 1 n
L( E 0 , E1, V ) log(2S ) log V 2 ¦ ( yi E 0 E1xi ) 2
2 2
2 2 2V i 1
dL n 1 1 n 2
¦ ( yi Eˆ0 Eˆ1xi ) 0
2 2 2 4i 1
dV Vˆ 2Vˆ
n
¦ ( yi Eˆ0 Eˆ1xi ) 2
Vˆ 2 i 1
n
ei yi Eˆ 0 Eˆ1 xi
n ½ n
¦ ei 0 °
° 2
¦ ei2
i 1 i 1
¾ sˆ R
n
n2
¦ ei xi 0°
°
i 1 ¿
Estimación
Máxima verosimilitud
1 ª 1 n 2 º½
Max ® exp ¦ (
«¬ 2V 2 i 1 iy E E x ) »¼ ¾
¯ 2S V
n/2 n 0 1 i
¿
Mínimos cuadrados
n
Mín ¦ ( yi E 0 E1 xi ) 2
i 1
Eˆ0 y Eˆ1 x
cov( xi , yi ) ¦i 1 ( xi x )( yi y )
n
Eˆ1
var( xi ) ¦i 1 ( xi x ) 2
n
Recta de regresión
Eˆ1
cov( xi , yi )
yˆ Eˆ 0 Eˆ1 x
var( xi )
y
Pendiente
Eˆ1
Eˆ 0 y Eˆ1 x
x
Estimación
25
(i) kg litros/100 km
1 981 11
2 878 12 20
3 708 8
4 1138 11
5 1064 13 15
6 655 6
7 1273 14
8 1485 17
9 1366 18 10
10 1351 18
11 1635 20
12 900 10 5
13 888 7
14 766 9
15 981 13
16 729 7 0
17 1034 12 500 700 900 1100 1300 1500 1700
18 1384 17 Peso (Kg)
19 776 12
835 10
cov( xi , yi )
20
1225.2
Eˆ1
21 650 9
22 956
688
12
8
0.0117
var( xi ) 104446.6
23
24 716 7
25 608 7
802 11
Eˆ0 y Eˆ x 11.87 0.0117 u 1017.7

26
27
28
1578
688
18
7 1 0.071
29 1461 17
30 1556 15
Residuos
,
yi Eˆ0 Eˆ1 xi ei
,

Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
n
¦ ei2
Residuos sˆR2 i 1
; ei yi yˆ i
n2
,
yi Eˆ0 Eˆ1 xi ei
,

Valor observado Valor Previsto Residuo
ei
yi
yˆ i Eˆ 0 Eˆ1 xi
xi
Ejemplo: estimación
Núm. Obs. Peso Consumo Predicción Residuos
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
E0 E1 xi ui , V2
28 688 7 8,00 -1,00
29
30
1461
1556
17
15
17,07
18,18
-0,07
-3,18
yi
Propiedades de Eˆ1
cov( xi , yi ) 1 n
Ê1 ¦ xi x yi y
s x2 ns x2 i 1 0
1 n 1 n
¦
ns x2 i 1
xi x y i ¦ xi x y
ns x2 i 1
xi x
wi
n
¦ ¨¨
§ xi x ·
¸y w1 y1 w2 y2 wn yn
nsx2
2 ¸ i
i 1 © ns x ¹
1 n
x ¦in 1 wi ¦i 1 xi x 0
ns x2
1 n 1 n
x ¦in 1 wi xi ¦i 1 xi x xi 2 ¦i 1
xi x xi 1 2 ¦in 1 xi x x 1 n
2 ¦i 1
xi x 2 1
ns x2 ns x ns x ns x
2
§ 1 · n 1
x¦ w n
i 1
2
¨¨ 2 ¸¸ ¦i 1 xi x 2
ns x2
i
© ns x ¹
y, Eˆ1 son v.a. independientes
§ y1 · ½
¨ ¸ °
1 1 1 §1 1 1 ·¨ y2 ¸ T °
y y1 y2 yn ¨ ¸¨ ¸ a Y
n n n ©n n n¹ °
¨ ¸ °
ÿ ¸ °
© n¹
¾
§ y1 · °
¨ ¸
¨ y2 ¸ °
Eˆ1 w1 y1 w2 y2 wn yn w1 w2 wn ¨ ¸ w Y ° T
°
¨ ¸
ÿ ¸ °
© n¹ ¿
V2 n
cov( y , Eˆ1 ) a var( Y )w
T
n
¦w
i 1
i 0
Distribución de Eˆ1
yi o N ( E 0 E1 xi ,V 2 )
Eˆ1 w1 y1 w2 y2 wn yn o Comb. lineal de normales
E[ Eˆ1 ] E[ w1 y1 w2 y2 wn yn ]
w1 E[ y1 ] w2 E[ y2 ] wn E[ yn ] ( E[ yi ] E 0 E1 xi )
E 0 (¦ wi ) E1 (¦ wi xi ) E1
Var[ Eˆ1 ] Var[ w1 y1 w2 y2 wn yn ]
w12Var[ y1 ] w22Var[ y2 ] wn2 [ yn ] (Var[ yi ] V 2 )
n V2
(¦ wi2 )V 2
ns x2
§ V 2
·
i 1
ˆ
E1 o N ¨¨ E1 , 2 ¸¸
© ns x ¹
Parámetro E1 y estimador Eˆ1
Eˆ1 0.0117 litros cada 100km/kg
1.17 litros cada 100km/100 kg
sˆR 1.54
SE ( Eˆ1 ) 0.087
ns X 30 u 3.2 t28
sˆR
E1 Eˆ1 r tD / 2 tn-2
ns x
1-D
E1 1.17 r 2.05 u 0.08 D/2
E1 1.17 r 0.16 .
1.01 d E1 d 1.33 -tD/2 tD/2
-2.05 2.05
Simple Linear Regression 21
Desviación típica de Eˆ1
sˆR
SE ( Eˆ1 )
ns X
La precisión en la estimación de la pendiente

mejora si:
1. La Desv. Típica residual es pequeña
2. La muestra n es grande
3. Los valores de x tienen mucha dispersión

Distribución de Ê 0
V2
x y o N ( E 0 E1 x , )
n
V2
x Eˆ1 o N ( E1 , )
ns x2
x y , Eˆ1 son independie ntes
½
Eˆ0 y Eˆ1 x o Normal °
°° § V 2
§ x 2
··
E[ Eˆ0 ] E[ y ] x E[ Eˆ1 ] E 0 ¾ Eˆ0 o N ¨¨ E 0 , ¨¨1 2 ¸¸ ¸¸
° © n © sx ¹ ¹
V 2
§ x 2
·
var[ Eˆ0 ] ¨¨1 2 ¸¸ °
n © s x ¹ °¿
Distribución de ŝR2
yi E 0 E1xi ui yi Eˆ0 Eˆ1xi ei

ui o N (0, V 2 )
¦in 1ui2 ¦in 1 ei2 ¦ ei 0
o F n2 o F n2 2 ®
V2 V2 ¯¦ ei xi 0
n
¦ ei2 2
(n 2) sˆR
i 1 o F n2 2
V2 V2
Contraste principal de regresión:
¿depende y de x?
H 0 : E1 0
H 1 : E1 z 0
yi yi
yi E 0 E1 xi ui yi E 0 ui
xi xi
H0 es falso H0 es cierto
x e y están relacionados x e y no están relacionados
Contraste sobre la pendiente

V
H 0 : E1 0 yˆ i Eˆ0 Eˆ1 xi Eˆ1 o N ( E1 ,
ns x
)
H 1 : E1 z 0 Eˆ1 E1
o N (0,1)
Eˆ1 E1
o tn2
V sˆR
ns x ns x
R.R
Eˆ1 R.R.
t1 ; tn-2
sˆR
1-D
ns x D/2
R. Acept.
t1 ! t n 2;D / 2 Se rechaza Ho
-tD/2 tD/2
Ejemplo: D = 0.05
H 0 : E1 0 yˆ i 0.071 0.0117 xi ; sˆR 1.54
R.R. t28 R.R
H 1 : E1 z 0
0.017 0.025 0.025
t0 13.4
1.54 /( 30 u 323.2) …
-2.05 2.05
13.4 ! 2.05 Se rechaza H 0

El peso influye significativamente en el consumo
27
H 0 : E1 0
P-valor H 1 : E1 z 0
α = 0.05 Area Azul = p-valor
P-valor ≤ α P-valor > α

Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E1 z 0 H 0 : E1 0
Contraste: ordenada en el origen
H0 : E0 0
yˆ i Eˆ0 Eˆ1 xi
H1 : E 0 z 0
V2 x 2
Eˆ0 o N ( E 0 , (1 2 ))
n sx
Eˆ0
t0 2
;
sˆR x
1 2
n sx
t0 ! t n2;D / 2 Se rechaza Ho
Modelo estimado y contrastes

Dependiente (y) ~ Independiente (x)
Estimate Stand Error t value Pr(>|t|)
Intercept SE( )
=
SE( )
Regressor SE( )
=
SE( )
Dependiente (Consumo) ~ Independiente (Peso)

Intercept -0.07126 0.945148 -0.075 0.943246
Peso 0.01173 0.000887 13.23 0.000000
variabilidad en regresión
yi E 0 E1 xi ui
yi Eˆ0 Eˆ1 xi , ei

yˆ y yˆ
i i i
yi yˆ ( y yˆ ) (restando y )
i i i
( yi y ) ( yˆ y ) ( y yˆ ) (elevando al cuadrado y sumando)
i i i
n n n
¦ ( yi y ) 2
¦ ( yî y ) 2 ¦ ( yi yî ) 2
i 1 i 1 i 1
VT VE VNE
Coeficiente de determinación R2
n
VE ¦ ( yî y ) 2 VT VE VNE
i 1
2 VE
n R
VNE ¦ ( yi yˆ i ) 2 VT
i 1
0 d R2 d 1
n
VT ¦ ( yi y ) 2 Mide el porcentaje de VT que
está explicado por el regresor
i 1
n
yˆ i y Eˆ1 ( xi x ) : VE Eˆ12 ¦ ( xi x ) 2 Eˆ12 ns x2
i 1
Coef. determinación
R 2
1 R2 0.80
R2 0.50 R2 0
Contraste F
H 0 : E1 0 Eˆ1
yˆ i Eˆ0 Eˆ1 xi
H 1 : E1 z 0
o F12
VE
(Si H o es cierto)
2
V VE VE
F o F1 ,n 2
2
¦in 1 ei2 VNE/(n-2 ) 2
(n 2) sˆR sˆR
o F n22
VNE
V2 V2
V2
VE VNE F ! FD Se rechaza H0
, son independie ntes
V2 V2
Contraste F yˆ i Eˆ0 Eˆ1 xi
E[VE ] V 2 (Si H o es cierto)

H 0 : E1 0
E[ sˆR2 ] V 2
H 1 : E1 z 0
VE
F 2
o F1,n 2 F ! FD Se rechaza H0
sˆR
Rechazo H0
F1,n-2 Acep. H0
Fα
α = 0.05
Contraste F yˆ i Eˆ0 Eˆ1 xi
n
H 0 : E1 0 VE ¦ ( yˆ i yi ) 416.8
i 1
H 1 : E1 z 0 sˆR2 2.38
VE 416.8
F 175.1
sˆR2 2.38
F1,28
α = 0.05
175.1 ! 4.2 Se rechaza H 0
4.2
Suma de Grados de
FUENTES Cuadrados Libertad Varianzas F
Explicada (VE) ¦ ( yˆ y) 2
1 ¦ ( yˆ y) 2 ¦ ( yˆ i y)2
i i
sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n2 sˆ 2
R
Total (VT) ¦(y i y)2 n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
Suma de Grados de
Explicada (VE) 416.8 1 416.8 175.1

Residual (VNE) 66.64 28 2.38
Total (VT) 483.4 29
R2 0.862
Ejemplo: R2 yˆ i 0.071 0.0117xi ;
Núm. Obs. Peso Consumo Predicción Residuos 25

1 981 11 11,44 -0,44
20
2 878 12 10,23 1,77

3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
sˆ R2
15
5
6
1064
655
13
6
12,41
7,61
0,59
-1,61
10
2.38
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05 5
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
0
12 900 10 10,49 -0,49
500 700 900 1100 1300 1500 1700
13 888 7 10,35 -3,35
Peso (Kg)
14 766 9 8,91 0,09 n
15
16
981
729
13
7
11,44
8,48
1,56
-1,48
VE ¦ ( yˆ i y ) 416.8
17 1034 12 12,06 -0,06 i 1
18 1384 17 16,16 0,84
776 12 9,03 2,97 n
¦ ( yi yˆ i ) 66.64
19
20
21
835
650
10
9
9,72
7,55
0,28
1,45
VNE
22 956 12 11,14 0,86 i 1
23
24
688
716
8
7
8,00
8,33
0,00
-1,33 VT VE VNE 483.4
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
416.8
27 1578
688
18
7
18,44
8,00
-0,44
-1,00
R2 86.2%
483.4
28
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión con R
ARCHIVO TEXTO: coches.txt
Regresión con R: Estimación
Gráfico en R
Ejemplo 2: Pearson-Lee Data
Estimation with R

Conclusiones Principales
1. Hay una relación muy significativa entre la altura de las
hijas y la altura de la madre (p-valor es prácticamente 0)
Eˆ1 0.54
2. La relación es positiva: “A madre alta hija alta.”
3. La desviación típica de la pendiente (standard error) es

SE ( Eˆ1 ) 0.0259 E1 0.54 r 1.96 u 0.0254
0.49 d E1 d 0.590
4. La estatura de la madre solo explica el 24% de la estatura

de la hija (R-squared = 0.24)
5. Dada la estatura de la madre se puede predecir la estatura

de la hija con un error medio de 5.75 cm (sR).

“Regresión” a la media
La recta de regresión (línea roja) tiene pendiente menor que 1 (línea azul) , lo que significa que las
madres altas tienden a tener hijas que son más altas que la media (pues la pendiente es positiva) pero
más bajas que ellas (porque la pendiente es menor que uno). De forma similar, las madres bajas tienen
hijas más bajas , pero más altas que sus madres. Este resultado resultó sorprendente y es el origen del
término “regresión”, que indica que los valores extremos de una generación tienden a regresa o
revertir hacia la media en la siguiente.
Regresión
2: Regresión simple II (Diagnosis y
Transformaciones)
Diagnosis del Modelo
La estimación está basada en las

siguientes hipótesis:
Linealidad
yi
Normalidad
E 0 E1 x
Homocedasticidad
Independencia xi
¾ Observaciones Atípicas (muy perjudiciales)

Las hipótesis se comprueban con los RESIDUOS
Regresión Lineal 2
Análisis de los Residuos

yi yˆ i
1
2
981
878
11
12
11,44
10,23
-0,44
1,77
ei
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
25
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86 20
1485 17 17,35 -0,35
8
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89 15
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56 10
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84 5
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86 0
23 688 8 8,00 0,00 500 700 900 1100 1300 1500 1700
24 716 7 8,33 -1,33
25 608 7 7,06 -0,06 Peso (Kg)
26 802 11 9,34 1,66
0.071 0.0117xi ; sˆ R2
1578 18 18,44 -0,44
yˆ i
27
28
29
688
1461
7
17
8,00
17,07
-1,00
-0,07
2.38
30 1556 15 18,18 -3,18
Regresión Lineal 3
1 981 11 11,44 -0,44 25
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59 20

6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35 15
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49 10
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48 5
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
0
20 835 10 9,72 0,28
21 650 9 7,55 1,45 500 700 900 1100 1300 1500 1700
22 956 12 11,14 0,86 Peso (Kg)
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión Lineal 4

1 981 11 11,44 -0,44
2 878 12 10,23 1,77
3 708 8 8,23 -0,23
4 1138 11 13,28 -2,28
5 1064 13 12,41 0,59
6 655 6 7,61 -1,61
7 1273 14 14,86 -0,86
8 1485 17 17,35 -0,35
9 1366 18 15,95 2,05
10 1351 18 15,78 2,22
11 1635 20 19,11 0,89
12 900 10 10,49 -0,49
13 888 7 10,35 -3,35
14 766 9 8,91 0,09
15 981 13 11,44 1,56
16 729 7 8,48 -1,48
17 1034 12 12,06 -0,06
18 1384 17 16,16 0,84
19 776 12 9,03 2,97
20 835 10 9,72 0,28
21 650 9 7,55 1,45
22 956 12 11,14 0,86
23 688 8 8,00 0,00
24 716 7 8,33 -1,33
2
yˆ i 0.071 0.0117xi ; sˆ R 2.38
25 608 7 7,06 -0,06
26 802 11 9,34 1,66
27 1578 18 18,44 -0,44
28 688 7 8,00 -1,00
29 1461 17 17,07 -0,07
30 1556 15 18,18 -3,18
Regresión Lineal 5
No linealidad
Regresión Lineal 6
No homocedasticidad
Regresión Lineal 7
No homocedasticidad, ni
linealidad
Regresión Lineal 8
Observaciones atípicas
Regresión Lineal 9
Residuos Aceptables
Normalidad de los Residuos
Herramientas de comprobación:
Histograma de residuos
Gráfico de probabilidad normal (Q-Q plot)
Contrastes formales (Kolmogorov-Smirnov)
Ejemplo de coches
120 99,9
99
100
probabilidad
95
80 80
60 50
20
40
5
20 1
0 0,1
-9 -6 -3 0 3 6 9 -6 -4 -2 0 2 4 6
Residuos Residuos
Comprobación de la linealidad
y homocedasticidad
Ambas hipótesis se comprueban
conjuntamente mediante gráficos de los
residuos
Frente a valores previstos
Frente al regresor.
En muchas ocasiones se corrige la falta
de linealidad y la heterocedasticidad
mediante transformación de las variables.
log yi E 0 E1 x1i ui
log yi E 0 E1 log x1i ui
Residuos – Regresor o Val.Previstos
Lineal y homocedástico No lineal y homocedástico

ei ei
0 0
xi xi
ei ei
0 0
Lineal y no homocedástico xi No lineal y no homocedástico xi

Coches (ejemplo 1): Consumo ~ Peso
Normalidad ok Linealidad ok y
Homocedasticidad ok
Cars (Ejemplo 2): mpg ~ weight

DESCRIPCIÓN: Datos de 391 coches (archivo:cars.txt) con
información del siete variables: consumo (mpg), cc (engine),
potencia (horse), peso (weight), tiempo de aceleración (accel),
origen del coche (origin, 1=USA, 2=UE, 3=Japón) y número de
cilindros (cylinders)
OBJETIVO: Estimar el modelo de

regresión simple entre el consumo
(mpg) y el peso (weight)
Cars: mpg ~ weight
mpg = 49.20 − 0.0076 weight

(0.802) (0.00025)
= 0.69 ̂ = 4.34
Cars: Figuras
No hay linealidad ni homocedasticidad
Figura 2.1 Figura 2.2
Cars: cons ~ weight
TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg
Y X
…
Cars: cons ~ weight

TRANSFORMACIÓN: En lugar de medir el consumo en
millas por galón (mpg), vamos a cambiar a “litros cada
100 km (cons)”
cons = 235.1/mpg
cons = −0.7689 + 0.0040 weight

(0.3298) (0.00011)
= 0.79 ̂ = 1.78
Cars: Cambio Variable
Mejora la linealidad y homocedasticidad
Cars: Normalidad
Normalidad no es problemática
Cars: Instrucciones con R
> cars<-read.table("cars.txt",header=TRUE) % LEE EL ARCHIVO CARS.TXT

> attach(cars) % AÑADE LAS VARIABLES DEL CONJUNTO DE DATOS cars A LA MEMORIA
> mod_cars<-lm(mpg ~ weight) % ESTIMA EL MODELO DE REGRESIÓN SIMPLE (MOD_CARS)
> par(mfrow=c(1,2)) % DIVIDE LA PANTALLA GRÁFICA EN 1 FILA Y 2 COLUMNAS (ver FIGURAs 2.1 2.2)
> plot(weight,mpg,pch=19,col="blue") % DIBUJA Figura 2.1

> abline(mod_cars,col="red",lwd=2) % AÑADE Linea roja A la figura 2.1
> plot(weight,residuals(mod_cars),pch=19,col="blue",ylab="residuos") % DIBUJA Figura 2.2

> abline(c(0,0),col="red",lty=2,lwd=2) > summary(mod_cars) % Línea roja de la figura 2.2
> summary(mod_cars) % MUESTRA Resumen del modelo de regresión
Tabla 2.1
> cons <- 235.1/mpg % cambio variable

> m2 <- lm(cons ~ weight) % nuevo modelo
> plot(weight,cons,pch=19,col="blue") % Figuras 2.3 y 2.4

> abline(m2,col="red",lwd=2)
> plot(weight,residuals(m2),pch=19,col="blue",ylim=c(-10,10))
> abline(c(0,0),col="red",lwd=2,lty=2)
> abline(c(-5,0),col="red",lwd=2,lty=2)
> hist(residuals(m2),xlab="residuos",col="red",nclas=20) % figuras 2.5 y 2.6

> qqnorm(residuals(m2),col="blue",pch=19)
> qqline(residuals(m2),col="red",lwd=2,lty=2)
> summary(m2) % resumen del modelo m2 (tabla 2.2)
Tabla 2.2
Forbes (Ejemplo 3)
Ejemplo “Forbes”
En un artículo de 1857 un físico escocés llamado “forbes.txt”
James D. Forbes presentó una serie de experimentos Temp Pres
realizados para estudiar la relación entre presión 1 194.5 20.79
atmosférica y punto de ebullición del agua. Forbes 2 194.3 20.79
3 197.9 22.40
sabía que la altitud podía ser determinada a partir de 4 198.4 22.67
la presión atmosférica medida con un barómetro, con 5 199.4 23.15
menores presiones a medida que aumenta la altitud. A 6 199.9 23.35
7 200.9 23.89
mediados del siglo XIX los barómetros eran 8 201.1 23.99
instrumentos muy frágiles y Forbes pensó que se 9 201.4 24.02
podía sustituir la medidas de la presión con medidas 10 201.3 24.01
11 203.6 25.14
de la temperatura de ebullición del agua. Recogió 12 204.6 26.57
datos de 17 emplazamientos en los Alpes y los 13 209.5 28.49
montes de Escocia. En cada lugar se midió con un 14 208.6 27.76
15 210.7 29.04
barómetro la presión en pulgadas de mercurio (Pres) 16 211.9 29.88
y la temperatura de ebullición del agua en grados 17 212.2 30.06
Fahrenheit (Temp) empleando un termómetro. Los
Weisberg, S. (2005). Applied Linear Regression, 3rd
datos se encuentran en el archivo “forbes.txt” edition. New York: Wiley.
Forbes: Modelo Inicial

Temp Pres Pred Resid
1 194.5 20.79 20.639 0.1511552
2 194.3 20.79 20.534 0.2557337
3 197.9 22.40 22.417 -0.0166790
4 198.4 22.67 22.678 -0.0081252
5 199.4 23.15 23.201 -0.0510176
6 199.9 23.35 23.462 -0.1124638
7 200.9 23.89 23.985 -0.0953562
8 201.1 23.99 24.090 -0.0999347
9 201.4 24.02 24.247 -0.2268024
10 201.3 24.01 24.195 -0.1845131
11 203.6 25.14 25.397 -0.2571657
12 204.6 26.57 25.920 0.6499419
13 209.5 28.49 28.482 0.0077692
14 208.6 27.76 28.012 -0.2516277
15 210.7 29.04 29.110 -0.0697017
Pres = −81.06 + 0.523 Temp 16
17
211.9
212.2
29.88
30.06
29.737
29.894
0.1428274
0.1659597
(2.05) (0.010)
= 0.994 ̂ = 0.233 Tabla 3.1
Forbes: Conclusiones Modelo Inicial
• Según la figura y el valor R-cuadrado (0.994) el ajuste es

muy bueno.
• Comparando los valores Previstos con los Observados

(Pred) observamos que las diferencias (residuos) son
pequeñas ( ̂ = 0.233)
• Los dos parámetros del modelo son muy significativos

(entre paréntesis se proporcionan las desv. típicas.
estimadas de los parámetros estimados)
Forbes: Diagnosis
En el gráfico de residuos frente al regresor se observa:
• La mayoría de las observaciones muestran no-linealidad

• Existe una observación atípica
Forbes: Instrucciones R
> forbes <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes)
> m <- lm(Pres ~ Temp)
> summary(m)
Forbes: Instrucciones R (cont)

> forbes$Pred <- predict(m)
> forbes$Resid <- residuals(m)
> print(forbes,digits=4,print.gap=3) % proporciona tabla 3.1
Figuras 3.1 y 3.2

> par(mfrow=c(1,2))
> plot(Temp,Pres,pch=19,col="blue",xlab="Temperatura",
ylab="Presión")
> abline(m,col="red",lwd=2)
> plot(Temp,residuals(m),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
> abline(c(0,0),lty=2,lwd=2,col="red")
Forbes: Modelo 1
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 132.03 -0.2480225
2 194.3 20.79 131.79 131.85 -0.0688990
3 197.9 22.40 135.02 135.08 -0.0537700
4 198.4 22.67 135.55 135.53 0.0187713
5 199.4 23.15 136.46 136.42 0.0331010
6 199.9 23.35 136.83 136.87 -0.0411189
7 200.9 23.89 137.82 137.77 0.0561898
8 201.1 23.99 138.00 137.94 0.0584761
9 201.4 24.02 138.06 138.21 -0.1559337
10 201.3 24.01 138.04 138.12 -0.0844563
11 203.6 25.14 140.04 140.18 -0.1470658
12 204.6 26.57 142.44 141.08 1.3599445
13 209.5 28.49 145.47 145.47 0.0015070
14 208.6 27.76 144.34 144.66 -0.3197358
15 210.7 29.04 146.30 146.54 -0.2428181
16 211.9 29.88 147.54 147.62 -0.0791613
17 212.2 30.06 147.80 147.89 -0.0870083
Lpres = −42.16 + 0.8956 Temp

(3.34) (0.016) Tabla 4.1
= 0.995 ̂ = 0.379
Forbes : modelo 1

• Existe una observación claramente atípica
• Se ha corregido la falta de linealidad en el resto de las
observaciones.
Forbes: Modelo 1
• Se ha realizado la transformación logarítmica de la presión

para corregir la falta de linealidad (da igual utilizar
logaritmos neperianos o decimales, se ha multiplicado por
100 para evitar números muy pequeños en las
estimaciones, no tiene efecto en el análisis)
• La observación atípica tiene mucha influencia en la
estimación del modelo, se aprecia como los residuos del
resto de las observaciones no tienen media cero.
• Por lo demás el ajuste es muy bueno como se ve en la
gráfica y en la tabla 4.1, los valores previstos se parecen
mucho a los observados (los residuos son pequeños)
• Conviene eliminar la observación atípica y recalcular.
> forbes1 <- read.table(“forbes.txt”,header=TRUE)
> attach(forbes1)
> m1 <- lm(100*log10(Pres) ~ Temp)
> summary(m1)
Forbes: Instrucciones R (cont)
> forbes1$Lpres <- 100*log10(Pres)
> forbes1$Pred <- predict(m1)
> forbes1$Resid <- residuals(m1)
> print(forbes1,digits=4,print.gap=3) % proporciona tabla 4.1
Figuras 4.1 y 4.2

> par(mfrow=c(1,2))
> plot(Temp,100*log10(Pres),pch=19,col="blue",xlab="Temperatura“)
> abline(m1,col="red",lwd=2)
> plot(Temp,residuals(m1),pch=19,col="blue",ylab="Residuos",
xlab="Temperatura")
Forbes: Modelo 2
(ELIMINANDO OBSERVACIÓN Nº 12)
Temp Pres Lpres Pred Resid
= 100 × log 1 194.5 20.79 131.79 131.99 -0.2006699
2 194.3 20.79 131.79 131.81 -0.0224480
3 197.9 22.40 135.02 135.02 0.0089107
4 198.4 22.67 135.55 135.46 0.0837061
5 199.4 23.15 136.46 136.35 0.1025441
6 199.9 23.35 136.83 136.80 0.0305783
7 200.9 23.89 137.82 137.69 0.1323953
8 201.1 23.99 138.00 137.87 0.1355832
9 201.4 24.02 138.06 138.13 -0.0774742
10 201.3 24.01 138.04 138.05 -0.0064475
11 203.6 25.14 140.04 140.10 -0.0586881
12* 204.6 26.57 142.44 140.99 1.4527324
13 209.5 28.49 145.47 145.35 0.1164833
14 208.6 27.76 144.34 144.55 -0.2088168
15 210.7 29.04 146.30 146.42 -0.1224318
16 211.9 29.88 147.54 147.49 0.0466349
17 212.2 30.06 147.80 147.76 0.0401403
Tabla 5.1
Lpres = −41.33 + 0.8911 Temp
(1.003) (0.0049)
La obs. 12 no se ha utilizado en
la estimación del modelo
= 0.9996 ̂ = 0.1136
Forbes : modelo 2

• No existen observaciones atípicas (las líneas rojas se
encuentran a ±2 ̂ )
• No se observa ninguna anomalía grave en el qqplot..
Forbes: Modelo 2
• Se ha realizado la transformación logarítmica de la presión

para corregir la falta de linealidad y se ha eliminado la
observación 12 (el propio Forbes indica en su artículo que
se trataba de un error de medida)
• Comparando el modelo 1 y 2, no se aprecian grandes
cambios en los parámetros estimados , .
• La desviación típica residual se ha reducido
considerablemente de uno a otro, pasando de 0.379 a
0.113, y como consecuencia las desviaciones típicas de los
parámetros.
• El análisis de los residuos no indican ninguna desviación
importante de las hipótesis del modelo
> # Modelo m2 de Forbes
> out <- abs(residuals(m1)) > 3*0.3792
> m2 <- lm(100*log10(Pres[!out]) ~ Temp[!out])
> summary(m2)
Forbes 2: Instrucciones R (cont)

> # Tabla 5.1
> P_Lpres =c(predict(m2)[1:11],NA,predict(m2)[12:16])
> P_Lpres[12] = -41.334683 + 0.891110*Temp[12]
> forbes2 <- forbes1
> forbes2$Pred <- P_Lpres
> forbes2$Resid <- 100*log10(Pres)-P_Lpres
> print(forbes2,digits=5,print.gap=3)
> # Figuras 5.1 y 5.2

> par(mfrow=c(1,2))
> plot(Temp[!out],residuals(m2),pch=19,col="blue",ylab="Residuos",
+ xlab="Temperatura",ylim=c(-.5,.5))
> abline(c(-.22,0),lty=2,lwd=2,col="red")
> abline(c(+.22,0),lty=2,lwd=2,col="red")
>
> qqnorm(residuals(m2),ylim=c(-.2,.2),pch=19,col="blue")
> qqline(residuals(m2),col="red",lty=2,lwd=2)
FEV (Ejemplo 4)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
654 observaciones, 5 variables
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston

(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
FEV: Modelo Inicial

• Tanto en el gráfico de dispersión de FEV y altura (ht)
como en el de los residuos del modelo de regresión
simple se observa la relación no-lineal entre las dos
variables y la heterocedasticidad.
FEV: modelo 1
log(fev) = −2.27 + 0.052 ht
(0.063) (0.0010)
= 0.7956 ̂ = 0.1508
FEV: modelo 1
5 ht
g( ) = −2.27 + 0.052
log(fev)
FEV: Modelo 1
((0.063)
0.063)) ((0.0010)
0.0010))
= 0.7956
0.7956 ̂ = 0.1508
0.1508
1
• Se ha realizado la transformación logarítmica de la variable

respuesta (fev) y se ha corregido la falta de linealidad y la
heterocedasticidad como se ve en las figuras 6.3 y 6.4
• El histograma y el qqplot (figura 6.5 y 6.6) no muestran
grandes desviaciones de la normalidad.
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• Existe una relación muy significativa entre log(fev) y ht
(altura). Un incremento de un pulgada en la estatura supone
un aumento de la capacidad pulmonar del 5% (este
resultado cambiará al considerar otras variables)
• La altura explica un 79% (R2) de la variabilidad del log(fev).
FEV: Modelo m1 con R
Tabla 6.2
FEV : Instrucciones de R
> # FEV (ejemplo 4)
> dat <- read.table("fev.dat",header=TRUE)
> head(fev) #tabla 6.1
> attach(dat)
> m<-lm(fev~ht) # modelo m inicial
> par(mfrow=c(1,2))
> plot(ht,fev,col="blue") # figura 6.1
> abline(m,col="red",lwd=2)
> plot(ht,residuals(m),col="blue") # figura 6.2
> m1 <- lm(log(fev) ~ ht)
> summary(m1) # modelo estimado tabla 6.2
> plot(ht,log(fev),col="blue") # figura 6.3
> abline(m1,col="red",lwd=2) # figura 6.3
> plot(ht,residuals(m1),col="blue") # figura 6.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> par(mfrow=c(1,2)) # figura 6.5 y 6.6
> hist(residuals(m1),col="red",nclass=20,xlab="Residuos")
> qqnorm(residuals(m1),col="blue")
> qqline(residuals(m1),col="red",lty=2,lwd=2)
Brains (ejemplo 5)
Ejemplo “Brains” Peso del cuerpo y cerebro de mamiferos
Descripción:
Para 62 especies de mamíferos se proporciona el peso medio del cuerpo en kilogramos y
del cerebro en gramos BrainWt BodyWt
Arctic_fox 44.500 3.385
Owl_monkey 15.499 0.480
Variables: Beaver 8.100 1.350
BrainWt Peso del cerebro (gramos) Cow 423.012 464.983
Gray_wolf 119.498 36.328
BodyWt Peso del Cuerpo (kilogramos) Goat 114.996 27.660
Tabla 7.1
OBJETIVO: Estudiar la relación entre
peso del cerebro y peso del cuerpo.
Fuentes
Allison, T. and Cicchetti, D. (1976). Sleep in mammals: Ecology and constitutional
correlates. Science, 194, 732-734.
Weisberg, S. (2005). Applied Linear Regression, 3rd edition. New York: Wiley
Brains: Transformación
• En la escala original (figura 7.1) no tiene sentido el
modelo de regresión lineal.
• Haciendo las transformación logarítmica de las dos
variables (figura 7.2) se aprecia una clara relación lineal
Brains: modelo 1
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
(0.096) (0.028)
= 0.9208 ̂ = 0.6943
log(BrainWt) = 2.13 + 0.752 log(BodyWt)
Brains (0.096) (0.028)
= 0.9208 ̂ = 0.6943
• La relación entre el logaritmo de peso del cuerpo y el

logaritmo del peso del cerebro es lineal como se ve en las
figuras 7.3 y 7.4
• Existen algunas observaciones atípicas pero se puede
comprobar que al eliminarlas los resultados no cambian
sustancialmente.
• El log del peso del cuerpo explica el 92% (R2) de la
variabilidad del log del peso del cerebro.
Brains: Modelo m1 con R
Tabla 7.2
Brains : Instrucciones de R
> brains <- read.table("brains.txt",header=TRUE)
> head(brains) # tabla 7.1
> par(mfrow=c(1,2))
> plot(BodyWt,BrainWt,col="blue",xlim=c(-1000,9000)) # figura 7.1
> sel = BrainWt>1000 # selecciona observaciones con peso del cerebro >1000
> text(BodyWt[out],BrainWt[out]-300,labels=brains[out,1]) # etiquetas 7.1
> m <- lm(BrainWt ~ BodyWt)
> abline(m,col="red",lwd=2) # figura 7.1
> plot(log(BodyWt),log(BrainWt),col="blue") # Figura 7.2 y 7.3
> m1 <- lm(log(BrainWt) ~ log(BodyWt))
> abline(m1,col="red",lwd=2) # linea en figura 7.2 y 7.3
> summary(m1) # tabla 7.2
> plot(log(BodyWt),residuals(m1),col="blue",ylim=c(-4,4)) # figura 7.4
> abline(c(0,0),col="red",lty=2,lwd=2)
> abline(c(-2*.6943,0),col="red",lty=2,lwd=2)
> abline(c(+2*.6943,0),col="red",lty=2,lwd=2)
Funciones R para Regresión Simple
• m <- lm(y~x) Estima el modelo y (variable

dependiente) y x (regresor).
El modelo lo guarda en m
• summary(m) Modelo estimado
• plot(m) Diagnosis
• coef(m) Da los coeficientes
• residuals(m) Residuos del modelo
• fitted(m) Da los valores predichos
• deviance(m) Suma de residuos al cuadrado
• predict(m) Hace predicciones
• anova(m) Tabla ANOVA
Regresión
3: Regresión Múltiple I
Ejemplo regresión múltiple
Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error

Y X1 X2 X3 X4
Consumo Cilindrada Potencia Peso Aceleración
l/100Km cc CV kg segundos
15 4982 150 1144 12
16 6391 190 1283 9
24 5031 200 1458 15
9 1491 70 651 21
11 2294 72 802 19
17 5752 153 1384 14
... ... ... ... ...
Var. dependientes Var. Independientes

o respuesta o regresores
Regresión Lineal 2
Modelo regresión múltiple
yi E 0 E1x1i E 2 x2i E k xki ui ,
ui o N (0, V 2 )
E 0 , E1, E 2 ,, E k , V 2 : parámetros desconocidos

Linealidad Homocedasticidad
E[yi] = E0+ E1x1i+}+ Ekxki Var [yi|x1 ,...,xk] = V2
Normalidad Independencia
yi| x1 ,...,xk Normal Cov [yi, yk] = 0
Regresión Lineal 3
Estimación
yi E0 E1 x1i E 2 x2i E k xk i ui , ui o N (0, V 2 )
=
=
⋮
= − ̅ − ̅ −⋯− ̅
yi Eˆ0 Eˆ1 x1i Eˆk xki ei

yˆ i Eˆ0 Eˆ1 x1i Eˆk xki
yˆ i Eˆ0 Eˆ1 x1i Eˆk xki
n
¦e 2
i
ei yi yˆ i o sˆR2 i 1
g.l. = n-k-1
n k 1
Regresión Lineal 4
Notación matricial
§ y1 · §1 x11 x21 xk1 ·§ E 0 · § u1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ E1 ¸ ¨ u 2 ¸

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
ÿ ¸
© n¹
¨1
© x1n x2n xkn ¸¹¨© E k ¸¹ ¨© u n ¸¹
Y Xβ U
U o N (0, V 2 I )
Regresión Lineal 5
Estimación mínimo-cuadrática
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·
¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¨ ¸
¸¨ ¸ ¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¹© E k ¹ ¨© en ¸¹
¸¨ ˆ ¸
© n¹ © x1n x2n
Y Xβˆ e
donde el vector e cumple
2 n
e ¦ ei2 es mínimo
i 1
Regresión Lineal 6
Para que ||e||2 sea mínimo, e tiene que ser
perpendicular al espacio vectorial generado las
columnas de X
§1 x11 x21 xk1 · § e1 ·
¨1 x12 x22 xk 2 ¸, e ë ¸
X ¨ ¸ ¨ 2 ¸
¨ ¸ ¨ ¸
©1 x1n x2 n xkn ¹ © en ¹
¦1nei 0
° n
°
X Te 0 ® ¦1 ei x1i 0
° n
°¯ ¦1 ei xki 0
Regresión Lineal 7
Mínimos cuadrados
Y Solución MC
x1
Y
e ˆ
YY
x1
x2
ˆ
Y ˆ
Xβ
X Te 0 x2
X T Y X T Xβˆ X T e
X T Y X T Xβˆ βˆ ( X T X) 1 X T Y
Regresión Lineal 8
Matriz de proyección V
Y e (I V)Y
x1 Val. Previstos
ˆ Xβˆ
Y
ˆ
Y VY ˆ X(X T X) 1 X T Y
Y
1 ˆ VY
Y
Residuos
e Y Xβˆ Y VY V X(XT X) 1 XT
(I V)Y Simétrica V=VT
Idempotente VV=V
Regresión Lineal 9
Distribución de probabilidad
de β̂
Y o N ( Xβ, V 2I )
βˆ (X T X)1 X T Y CY (siendo C (X T X)1 X T )
βˆ o Normal
E[βˆ ] CE[Y ] CXβ (X T X)1 X T Xβ β
Var[βˆ ] Var[CY] CVar[Y ]CT
((X T X)1 X T )(V 2I )((X T X)1 X T )T
V 2 (X T X)1 X T X(XT X)1
V 2 (X T X)1
Distribución de probabilidad
de β̂
βˆ o N (β, V 2 (X T X) 1 )
Eî o N ( E i , V 2 qii )
§ Eˆ 0 · § E0 · § q00 q01 q0 k ·
¨ ¸ Ë ¸ ¨q
βˆ ¨ Eˆ1 ¸ β ( XT X) 1 q11 q1k ¸
¨ 1¸ Q ¨ 10 ¸
¨ ¸ ¨ ¸ ¨ ¸
¨ Eˆ ¸ © Ek ¹ © qk 0 qk1 qkk ¹
© k¹
dim(Q) (k 1) u (k 1)
Residuos
Y Xβˆ e

Observados Previstos Residuos
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¸ ¨ ¸¨ ¸
¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n
ei yi ( Eˆ0 Eˆ1x1i Eˆ k xki )
Varianza Residual
e Te ¦in 1 ei2
V2 V2
o F n2 k 1
2 ¦in 1 ei2
sˆR
¦in 1 ei2 n k 1
E[ ] n k 1 2
V2 (n k 1) sˆR
o F n2k 1
¦in 1 ei2 V2
E[ ] V2
n k 1
Contraste individual Ei
H 0 : Ei 0
yi E 0 E1x1i E k xki ui
H1 : E i z 0
Eî o N ( E i , V 2 qii )
Eî E i Eˆ1 E1
o N (0,1) o t n k 1
V qii sˆR qii
Eî
ti ; ti ! t n k 1;D / 2 Se rechaza Ho
sˆR qii
Contrastes individuales
H 0 : Ei 0 yˆ i Eˆ0 Eˆ1 x1i Eˆk xki

H1 : E i z 0
→ , ( )
Eî E i
ti o t n k 1
SE ( Eî )
R.R. R.R
Eˆ 1 tn-k-1
t1 ;
SE ( Eˆ ) 1
1-D D/2
t1 ! t n k 1;D / 2 Se rechaza Ho D/2
R. Acept.
-tD/2 tD/2
H 0 : Ei 0
P-valor H1 : E i z 0
α = 0.05 Area Azul = p-valor
n-k-1
P-valor ≤ α P-valor > α

Con α=0.05
0 05 ““x”” influye Con α=0.05 “x” NO influye
significativamente en “y” significativamente en “y”
H1 : E i z 0 H 0 : Ei 0
Dependiente (y) ~ Independientes (x1, x2,..,xk)

Intercept SE( )
=
SE( )
SE( )
=
SE( )
SE( )
=
SE( )
… … … … …
SE( )
=
SE( )

Dependiente (log(fev)) ~ Independientes (ht (estatura) , age (edad) )
Intercept −1.9711 0.07833 −25.16 0.00000
ℎ 0.04399 0.001647 26.71 0.00000
0.01981 0.003181 6.23 0.00000
log(fev) = −1.97 + 0.0439 ht + 0.0198 age

(0.078) (0.0016) (0.0031)
̂ = 0.1476
Modelo en diferencias a la
media
yi Eˆ0 Eˆ1x1i Eˆ k xki ei n
¦ yi
n
nEˆ0 Eˆ1 ¦ x1i Eˆ k
n n
¦ xki ¦ ei
i 1 i 1 i 1 1
Eˆ0 Eˆ1x1 Eˆ k xk
i,
y 0
yˆ i Eˆ0 Eˆ1x1i Eˆ k xki

yˆ i y Eˆ1 ( x1i x1 ) Eˆ k ( xki xk )
§ yˆ1 y · § x11 x1 x21 x2 xk1 xk ·§ Eˆ1 ·
¨ ¸ ¨ ¸¨ ¸
¨ 2
yˆ y ¸ ¨ x12 x1 x22 x2 xk 2 xk ¸¨ Eˆ 2 ¸
¨ ¸ ¨ ¸¨ ¸
¨ ¸ ¨ ¸¨ ¸
¨ yˆ y ¸ ¨x x x2n x2 xkn xk ¸¹¨© Eˆ k ¸¹
© n ¹ © 1n 1
ˆ Y ~ˆ ~ˆ
Y Xb YY Xb e
Modelo en diferencias a la
media
~ ~
Y Xb U
§ y1 y · § y· § E1 · § Eˆ1 ·
¨ ¸ ¨ ¸ ¨ ¸ ¨ ¸
~ ¨ y2 y ¸ ¨ y¸ ¨ E2 ¸ ˆ ¨ Eˆ2 ¸
Y ¨ , Y , b ¨ ¸, b ¨ ¸
¸ ¨¸
¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸ ¨¨ ¸¸
© n
y y ¹ © ¹
y © Ek ¹ © Eˆk ¹
§ x11 x1 x21 x2 xk1 xk ·
¨ ¸
~ ¨ x12 x1
X
x22 x2 xk 2 xk ¸
¨ ¸
¨¨ ¸
© x1n x1 x2n x2 xkn xk ¸¹
~ T ~ 1 ~ T ~ ~ ~
ˆb (X X) X Y bˆ o N (b, σ 2 ( XT X) 1 )
variabilidad en regresión
yi Eˆ0 Eˆ1x1i Eˆ k xki ei

yi yˆ i ei (Restando y )
( yi y ) ( yˆ i y ) ei
¦in 1 ( yi y ) 2 ¦in 1 ( yˆ i y ) 2 ¦in 1 ei2

VT VE VNE
Coeficiente de determinación R2
log(fev) = −1.97 + 0.0439 ht + 0.0198 age

(0.078) (0.0016) (0.0031)
n
VE ¦ ( yˆ
i 1
i y)2 58.536
VE 58.536
n R2 0.8071
VNE ¦(y
i 1
i yˆ i ) 2
13.990 VT 72.526
VT 58.536 13.990 72.526

0 d R2 d 1
Mide el porcentaje de VT que
está explicado por los regresores
2
Coef. determinación corregido R
n
VE VT VNE VNE (n k 1) sˆR2 ¦ ( yi y ) 2
R2 1 1 sˆ 2y i 1
VT VT VT (n 1) sˆ y2 n 1
sˆR2 VNE n 1
R2 1 2 1 u
sˆ y VT n k 1
n 1
1 (1 R ) u
2
n k 1
= 1 − (1 − 0.8071) × =0.8065
Contraste general de regresión.

yi E 0 E1x1i E k xki ui
H 0 : E1 E 2 E k 0
H1 : alguno es distinto de 0
VE Acep. H0
Rechazo H0
2
sˆ
E oV 2 (Si H o es cierto)
k
sˆR2 o V 2 α = 0.05
sÊ2
F o Fk ,n k 1
sˆR2
F ! FD Se rechaza H0 F1,n-2 Fα
Contraste F
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
VE 58.436
sÊ2 29.268
H 0 : E1 E2 0 k 2
sˆR2 0.021
H1 : algún E i z 0 sÊ2 29.268
F 1362
F2,651 sˆR2 0.021
α = 0.05
1362 ! 3.01 Se rechaza H 0
3.01 P-valor = 0.00000…


Suma de Grados de
sÊ2
Explicada (VE) ¦ ( yˆ i y) 2
k sˆ 2
E sˆR2
Residual (VNE) ¦(y i yˆ i ) 2 n k 1 sˆR2
Total (VT) ¦(y i y)
2
n 1
R2
VE ¦ i
( ˆ
y y ) 2
VT ¦(y i y)2
log(fev) = −1.97 + 0.0439 ht + 0.0198 age, ̂ = 0.1476
(0.078) (0.0016) (0.0031)
Suma de Grados de
Explicada (VE) 58.536 2 29.268 1362

Residual (VNE) 13.990 651 0.0215
Total (VT) 72.526 653
58.536
R2 0.8071
72.526
Resumen de estimación con R
Ejemplo 1: Cars
Depend Regresores
Y X1 X2 X3 X4
= −1.05 + 0.0058 engine + 0.0369 horse +

+ 0.0020 weight + 0.0813 accel
Valores Previstos y Residuos

= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
Datos Resultados n
VE ¦ ( yˆ i y)2 4725.0
Y X1 X2 X3 X4 i 1
n
VNE ¦(y
i 1
i yˆ i ) 2 1037.9
n
VT ¦(y
i 1
i y)2 5762.9
2
1037.9
̂ = =
− −1 386
= 2.7
4725
= = = 81.99
5762.9
DIAGNOSIS: residuos ~ regresores
Diagnosis
Linealidad Normalidad
Homocedasticidad ok
ok
Resumen del modelo
Resumen del modelo (sin aceleración)
Conclusiones modelo final
= −1.05 + 0.0058 engine + 0.0369 horse + 0.0020 weight + 0.0813 accel
̂ = 1.64 = 81.99
1. No se aprecian desviaciones importantes de las hipótesis básicas del

modelo: linealidad, homocedasticidad y normalidad.
2. Se observa relación lineal significativa entre el consumo de los coches y su

peso (weight), potencia (horse) y centímetros cúbicos (engine). (Los p-
valores son menores que 0.05 en elmodelos). Los coeficientes estimados
son positivos, lo que significa que el aumento de cualquiera de las variables
independientes incrementa el consumo del vehículo. Con las cuatro
variables se explica el 81.99 % de la variabilidad del consumo.
Conclusiones modelo final (cont)

3. En el modelo de cuatro regresores el parámetro asociado a aceleración no es
significativo. La inclusión de la variable “aceleración” no mejora
significativamente el modelo. Eso no implica que no exista relación lineal entre
aceleración y consumo (la regresión simple entre estas variables indican relación
significativa con coeficiente negativo).
4. El coeficiente asociado al peso es 0.0020, es muy significativo. Para

interpretarlo es necesario tener en cuenta las unidades: un aumento de una libra
en el peso del coche manteniendo constante el resto de las variables produce un
aumento del consumo de 0.002 litros/100 km. (Esto implica que un regresor se
puede cambiar manteniendo el resto constante, lo que sólo es posible en los
estudios experimentales.) El resto de los coeficientes se interpreta similarmente.
CARS: Todos los modelos
Modelo
1
engine
2
horse
3
weight
4
accel ̂
1 0,032 1,874 76,28 76,22
0,0009
2 0,085 2,002 72,94 72,87

0,0026
3 0,004 1,780 78,55 78,49

0,0001
4 -0,663 3,380 22,70 22,50

0,062
12 0,0202 0,036 1,775 78,78 78,67

0,0019 0,0053
13 0,01313 0,00251 1,715 80,18 80,08

0,0023 0,0002872
14 0,03215 0,0048 1,877 76,28 76,16

0,00108 0,041
23 0,0351 0,0026 1,650 81,67 81,58

0,00432 0,00019
24 0,1027 0,336 1,892 75,90 75,78

0,0035 0,048
34 0,00379 -0,1689 1,734 79,75 79,65

0,0001147 0,0351
123 0,0052 0,0299 0,00225 1,643 81,86 81,72

0,0025 0,005 0,0002
124 0,01765 0,0539 0,2282 1,723 80,05 79,89

0,0019 0,0063 0,0459
134 0,01006 0,0027 -0,0986 1,704 80,50 80,35

0,0026 0,000298 0,039
234 0,04113 0,0025 0,0639 1,648 81,75 81,61

0,0063 0,00022 0,0489
1234 0,00587 0,03695 0,002018 0,0813 1,640 81,99 81,80

0,0026 0,0065 0,00031 0,049
Conclusiones Generales
1. El que la relación lineal entre dos variables sea significativa no implica que exista
relación de CAUSALIDAD entre las variables. Se debe interpretar como asociación
entre las variables: los coches con más pesos presentan mayor consumo que los
coches con menos peso.
2. Cuando se añaden o eliminan variables de un modelo los coeficientes del resto

cambian. Eso es debido a la correlación entre los regresores. Cuando estas
correlaciones son altas los coeficientes pueden cambiar mucho, incluso de signo.
Esto se puede apreciar en el coeficiente de la variable accel, cuyo efecto sobre el
cosnumo depende del resto de las variables en el modelo. La alta correlación
entre los regresores hace muy difícil interpretar el significado de los
coeficientes, a este problema se le denomina MULTICOLINEALIDAD.
Conclusiones (cont.)
7. La selección del modelo depende del objetivo. Siempre el modelo con más
regresores tiene el mayor R2. Utilizando el “R2 corregido” hay tres modelos
muy parecidos 23, 123 y 1234. El mejor modelo con un regresor es el 3, con R2
igual al 78.55%, al incluir la pontencia (horse) como nuevo regresor tenemos el
modelo 23 cuyo R2 sólo aumenta un 3%, hasta 81.67%. El modelo 123, incluye
además los cc del motor (engine) como regresor con un aumento en R2
despreciable (ahora 81.86%). En este modelo los tres coeficientes son
significativos. Si añadimos la variable accel, llegamos al modelo completo con
R2 igual a 81.99%. El coeficiente de la última variable no es significativo.
8. Al ir incluyendo regresores en un modelo los residuos van disminuyendo y con
ello la variabilidad no explicada. La desviación típica residual también suele
disminuir (hay que tener en cuenta que el denominador de la varianza residual
también disminuye). Los modelos 23, 123 y 1234 tienen una desviación típica
residual muy parecida y próxima a 1.64 litros/100km. La interpretación
(aproximada) es la siguiente (con el modelo 1234): si nos proporcionan los datos
del peso (weight), potencia (horse), cc (engine) y aceleración (accel) del coche
la distribución de su consumo tiene media la proporcionada por el modelo y
desviación típica 1.64 litros/100km.
Ejemplo 2: Cerezos Negros

Se desea construir un
modelo de regresión para
obtener el volumen de
madera de una “cerezo
negro” en función de la
altura del tronco y del
diámetro del mismo a un
metro sobre el suelo. Se
ha tomado una muestra
de 31 árboles. Las
unidades de longitudes
son pies y de volumen
pies cúbicos.
Cerezos negros: Datos
Árbol Diametro Altura Volumen Árbol Diametro Altura Volumen

1 8,3 70 10,30 17 12,9 85 33,80
2 8,6 65 10,30 18 13,3 86 27,40
3 8,8 63 10,20 19 13,7 71 25,70
4 10,5 72 16,40 20 13,8 64 24,90
5 10,7 81 18,80 21 14,0 78 34,50
6 10,8 83 19,70 22 14,2 80 31,70
7 11,0 66 15,60 23 14,5 74 36,30
8 11,0 75 18,20 24 16,0 72 38,30
9 11,1 80 22,60 25 16,3 77 42,60
10 11,2 75 19,90 26 17,3 81 55,40
11 11,3 79 24,20 27 17,5 82 55,70
12 11,4 76 21,00 28 17,9 80 58,30
13 11,4 76 21,40 29 18,0 80 51,50
14 11,7 69 21,30 30 18,0 80 51,00
15 12,0 75 19,10 31 20,6 87 77,00
16 12,9 74 22,20
Gráficos x-y
1. Se aprecia relación entre las dos variables y el volumen

2. El gráfico del volumen versus diámetro presenta ligera curvatura
3. El gráfico del volumen versus altura presenta clara heterocedasticidad
Primer modelo:cerezos negros
Volumen β0 β1 Diametro β2 Altura Error
Diagnosis
Indicios de falta de linealidad
Transformación
vol | k u altura u diámetro 2
log(vol) | E 0 E1 log(altura) E 2 log(diámetro) error
Diagnosis (modelo transformado)
Antes
Ahora
Interpretación
Se comprueba gráficamente que la distribución
de los residuos es compatible con las hipótesis
de linealidad y homocedasticidad.
El volumen está muy relacionada con la altura y
el diámetro del árbol (R2= 97.77%)
El modelo estimado
log(Vol) = -6.6 + 1.12 log(Alt) + 1.98 log(Diam.) + Error
es compatible con la ecuación vol=k u Alt uDiam2

La desviación típica residual es sR=0.081 que
indica que el error relativo del modelo en la
predicción del volumen es del 8.1%.
Ejemplo 3: Tabaco
Ejemplo “Tabaco” Monóxido de Carbono (CO)
Descripción: Se proporciona la producción de monóxido de

carbono (co) y el contenido de nicotina (nico) y alquitrán
(alq) en 25 marcas diferentes de cigarrillos americanos.
Fuente: Mendenhall, William, and Sincich, Terry (1992),

Statistics for Engineering and the Sciences (3rd ed.), New
York: (Original source: Federal Trade Commission, USA)
Variables
alq contenido en alquitrán mg
nico contenido en nicotina mg
co monóxido de carbono CO mg
Objetivo: Estudiar la relación entre CO con alquitrán

y nicotina
CO ~ nico CO ~ alq
= 85.74 ̂ = 1.828 = 91.68 ̂ = 1.397
= 91.86 ̂ = 1.413
Efecto de la multicolinealidad
(alta correlación entre nico y alq)
El coeficiente de la variable “nico” cambia de

12.39 a -2.36.
En el modelo con dos regresores, el
coeficiente de la variable “nico” no es
significativo.
Los standard errors de los coeficientes en el
= 0.9537 modelo de dos regresores han aumentado
considerablemente respecto a los de
regresión simple. El de “nico” pasa de 1.05 a
3.78. El cambio para “alq” es mayor.
Los estadísticos t se han reducido (debido al
aumento de los standards errors)
La desviación típica residual del modelo con
dos regresores es mayor que en el modelo
de regresión simple “CO ~ alq”
Regresión con R
Interpretación (inicial)
Contraste F=438 (p-valor=0.0000) Alguno de
los regresores influye significativamente en el
consumo.
Contrastes individuales:
La potencia y el peso influyen significativamente (p-
valor=0.0000)
Para D=0.05, la cilindrada y la aceleración también
tienen efecto significativo (p-valor < 0.05)
El efecto de cualquier regresor es “positivo”, al
aumentar cualquiera de ellos aumenta la variable
respuesta: consumo.
Los regresores explican el 82 % de la variabilidad
del consumo (R2 = 0.8197)
Multicolinealidad
Cuando la correlación entre los

regresores es alta.
Presenta graves inconvenientes:
Empeora las estimaciones de los efectos de
cada variable Ei: aumenta la varianza de las
estimaciones y la dependencia de los
estimadores)
Dificulta la interpretación de los parámetros
del modelo estimado (ver el caso de la
aceleración en el ejemplo).
Identificación de la multicolinealidad:
Matriz de correlación de los regresores.
Gráficos consumo - xi
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
500 1000 1500 2000 0 40 80 120 160 200 240
peso potencia
24 24
20 20
consumo
consumo
16 16
12 12
8 8
4 4
0 0
0 2 4 6 8 8 11 14 17 20 23 26
(X 1000)
cilindrada aceleracion
Consumo y aceleración
Multicolinealidad: efecto en la
varianza de los estimadores
yi E 0 E1x1i E 2 x2i ui
ª§ Eˆ ·º
var «¨¨ 1 ¸¸» X~ T X~ 1V 2 ~T X
X ~ nS XX S XX
§ s12
¨
¨s
s12 ·¸
s22 ¸¹
§ s12
¨
¨r s s
r12 s1s2 ·¸
s22 ¸¹
¬© Eˆ 2 ¹¼ © 12 © 12 1 2
§ 1 r12 ·
¨ 2 2 2 ¸
¨ s1 (1 r12 ) s1 s2 (1 r12 )¸
| S XX | s12 s22 (1 r12
2
) S XX
1
¨ ¸
r12 1
¨ ¸
¨ s s (1 r 2 ) s22 (1 r12
2
) ¸
© 1 2 12 ¹
§ V 2
r12V 2 ·
¨ ¸
ª§ Eˆ1 ·º ¨ ns12 (1 r122 ) 2 ¸
ns1 s2 (1 r12 )
var «¨¨ ¸¸» ¨ ¸
«¬© Eˆ 2 ¹»¼
2
¨ r12V V2 ¸
¨ ns s (1 r122 ) ns2 (1 r12 ) ¸¹
2 2
© 1 2
Consecuencias de la
multicolinealidad
Gran varianza de los estimadores E
Cambio importante en las
estimaciones al eliminar o incluir
regresores en el modelo
Cambio de los contrastes al eliminar
o incluir regresores en el modelo.
Contradicciones entre el contraste F
y los contrastes individuales.
Regresión
4. Regresión Múltiple: Variables
Cualitativas y Predicción
Variables cualitativas como

regresores
Consumo Cilindrada Potencia Peso Aceleración Origen
15 4982 150 1144 12 Europa
16 6391 190 1283 9 Japón
24 5031 200 1458 15 USA
9 1491 70 651 21 Europa
11 2294 72 802 19 Japón
17 5752 153 1384 14 USA
12 2294 90 802 20 Europa
17 6555 175 1461 12 USA
18 6555 190 1474 13 USA
12 1147 97 776 14 Japón
16 5735 145 1360 13 USA
12 1868 91 860 14 Europa
9 2294 75 847 17 USA
... ... ... ... ... ...
Regresión Lineal 2
Variables cualitativas como
regresores

°
Europa
Origen ® Japón
°̄ USA 0 si i JAPON
Z JAP i ®1 si i JAPON
¯
0 si i USA
ZUSA i ®1 si i USA
¯
0 si i EUROPA
Z EUR i ®1 si i EUROPA
¯
Consumo = E0 + E1 CC + E2 Pot + E3 Peso +
+ E4 Acel + DJAP ZJAP + DUSA ZUSA + Error
Regresión Lineal 3
Variables cualitativas
Consumo Cilindrada Potencia Peso Aceleración ZJAP ZUSA ZEUR
15 4982 150 1144 12 0 0 1
16 6391 190 1283 9 1 0 0
24 5031 200 1458 15 0 1 0
9 1491 70 651 21 0 0 1
11 2294 72 802 19 1 0 0
17 5752 153 1384 14 0 1 0
12 2294 90 802 20 0 0 1
17 6555 175 1461 12 0 1 0
18 6555 190 1474 13 0 1 0
12 1147 97 776 14 1 0 0
16 5735 145 1360 13 0 1 0
12 1868 91 860 14 0 0 1
9 2294 75 847 17 0 1 0
... ... ... ... ... ... ... ...
Regresión Lineal 4
Interpretación var. cualitativa
• Coches europeos: ZJAP = 0 y ZUSA = 0 REFERENCIA

Consumo = E0 + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
• Coches japoneses: ZJAP =1 y ZUSA = 0

Consumo = E0 + DJAP + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
• Coches americanos: ZJAP =0 y ZUSA = 1

Consumo = E0 + DUSA + E1 CC + E2 Pot + E3 Peso + E4 Acel + Error
Regresión Lineal 5
Interpretación del modelo

Americanos
y
Europeos Ref.
E0 +
DUSA Japoneses
E0
E0 + DJAP
xi
Regresión Lineal 6
Modelo estimado (con R)
Regresión Lineal 7
Interpretación
Se introduce en el modelo la variable cualitativa
ORIGEN del vehículo (USA=1, EUR=2,JAP=3). En el
modelo se utiliza USA como referencia.
El p-valor del coeficiente asociado a OrigenJAP es
0.1467 >.05, se concluye que no existe diferencia
significativa entre el consumo de los coches
Japoneses y Americanos (manteniendo constante el
peso, cc, pot y acel.)
La misma interpretación para OrigenEUR, no existe
diferencia en el consumo de coches EUR y USA.
Comparando R2 =0.8212 de este modelo con el
anterior R2=0.8199, se confirma que el modelo con
las variables de Origen no suponen una mejora
sensible.
Regresión Lineal 8
Body: Instrucciones con R
# ejemplo1 cars : modelo de regresión
> cars <- read.table("cars.txt",header=TRUE)

> attach(cars)
> cons <- 235.1/mpg # transformamos la variable

> Origen <- factor(origin,labels=c("USA","EUR","JAP"))
# la instrucción “factor()” es necesaria
# para introducir en el modelo de
# regresión una variable cualitativa
> m <- lm(cons ~ engine + horse + weight+ accel + Origen)
> summary(m)
Regresión Lineal 9
Modelo de regresión con

variables cualitativas
En general, para considerar una variable
cualitativa con r niveles, se introducen en
la ecuación r-1 variables ficticias
0 i nivel 1 0 i nivel 2 0 i nivel r 1
z1i ®1 i nivel 1, z 2i ®1 i nivel 2, , z r 1i ®1 i nivel r 1
¯ ¯ ¯
Y el nivel r no utilizado es el que actúa de
referencia
yi E 0 E1 x1i E k xki
D 1 z1i D 2 z 2i D r 1 z r 1,i ui

variable cualitativa
Ejemplo: Body
Nombre: Body (Cuerpo Humano) Exploring Relationships in Body
Dimensions
507 Observaciones, 25 Variables
Descripción: Este ejemplo contiene 21 medidas del cuerpo humano, además

de la edad, peso, altura y género (mujeres = 0, hombres =1) de 507
individuos de los que 247 son hombres y 260 mujeres. Los datos fueron
recogidos entre personas que acudía frecuentemente al gimnasio en USA,
la mayoría de ellos entre 20 y 40 años.
Fuente: Exploring Relationships in Body Dimensions, Grete Heinz,Louis J.

Peterson,Roger W. Johnson , Carter J. Kerk, Journal of Statistics
Education Volume 11, Number 2 (2003),
www.amstat.org/publications/jse/v11n2/datasets.heinz.html
OBJETIVO: Relación entre el peso y altura diferenciando entre

hombres y mujeres.
Estatura Peso
Hombres 177.7cm 78.1 kg
Body Mujeres 164.9cm 60.6 kg
Diferencia 12.8 cm 17.5 kg
Weight = E0 + E1 Height + DHOM ZHOM + Error
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Interpretación
8.36 kg
A igualdad de
ESTATURA, la
diferencia de
PESO entre un
hombre y una
mujer es
Figura 2.1. 8.36 kg
Body: Instrucciones con R

# body : modelo de regresión
> body <- read.table("body.txt",header=TRUE)

> attach(body)
> m.body<-lm(Weight~Height+Gender)
> summary(m.body)
# figura 2.1
> plot(Height,Weight,col=Gender+2) # Gender +2 asigna el color rojo (2)

# a mujeres y el verde (3) a los hombres
> abline(c(-56.949,0.7129),col = "red",lwd=2) # linea de regresión de mujeres
> abline(c(-56.949+8.3659,0.7129),col = "green",lwd=2) # regresión hombres
FEV (Ejemplo 3)
Ejemplo “Fev” Forced Expiratory Volume (FEV)
Descripción: Es una muestra de 654 jóvenes entre 3 y 19 años recogidos en Boston

(USA) a finales de los 70. Se desea ver la relación entre la capacidad pulmonar (FEV) y
fumar. En este primer análisis estudiaremos la relación entre FEV y la estatura. En la
lección de regresión múltiple estudiaremos el efecto del tabaco.
Fuente:
Rosner, B. (1999), Fundamentals of Biostatistics, 5th Ed., Pacific Grove, CA: Duxbury
age fev ht sex smoke
Variables 1 9 1.708 57.0 0 0
2 8 1.724 67.5 0 0
age años del individuo 3 7 1.720 54.5 0 0
fev variable continua en litros 4 9 1.558 53.0 1 0
ht variable continua, estatura en pulgadas 5 9 1.895 57.0 1 0
6 8 2.336 61.0 0 0
sex cualitativa (mujer=0, hombre=1) ...
smoke cualitativa (No-fumador=0, fumador=1)
Tabla 6.1
Modelo de regresión
Log(fev) = E0 + E1 ht + E2 age + DHOM ZHOM + DHOM ZHOM + Error
Log(fev) = -1.9 + 0.042ht + 0.023age + 0.029 ZHOM – 0.046 ZFUM + Error
Interpretación
1. Todos los coeficientes son significativamente distintos de cero.
2. A igualdad del resto de las variables, un aumento de 1cm en la
Estatura produce un incremento en fev del 4.2%
3. A igualdad del resto de las variables, un aumento de 1 año en la
Edad produce un incremento en fev del 2.3%
4. A igualdad del resto de las variables, los hombres tienen un 2.9%
más de fev que las mujeres.
5. A igualdad del resto de las variables, los fumadores tienen un
4.6% menos de fev que los no-fumadores.
IMPORTANTE: El objetivo del estudio era cuantificar el efecto de

fumar en la capacidad pulmonar de los jóvenes, el restos de las
variables del modelo son necesarias (imprescindibles) para
detectar el efecto, aunque juegan un papel secundario.
fev: Instrucciones con R

# ejemplo 3: fev
> pulmon <- read.table("fev.dat",header=TRUE)
> attach(pulmon)
> m.pulmon <- lm(log(fev) ~ ht + age + sex + smoke)
> summary(m.pulmon)
# sex es una variable que toma valores 0,1

# 0 mujeres
# 1 hombres
#
# smoke es una variable 0,1, también 0 no fumador,
# y 1 fumador
#
# Cuando son variables 0,1 no es necesario convertirlas
# en variables CUALITATIVAS o FACTOR utilizando la
# instrucción
# genero=factor(sex,labels=c(“Mujer”,”Hombre”))
Predicción
Media mh|xh Nueva Observ. yh|xh
mh yh
mh
xh xh
ŷ h
xh
Predicción de la media mh
(Regresión simple)
mh ŷ h
xh xh
m yˆ r tD / 2 sˆR vhh
h h ŷ h
1 ( xh x ) 2
vhh (1 2
)
n sx
xh
(Regresión multiple)
mh ŷ h
xh xh
h h ŷ h
1
vhh (1 (x h x)T S x1 (x h x))
n
xh
Intervalos de predicción para

una nueva observación yh
ŷ h
xh
y yˆ r tD / 2 sˆR 1 vhh
h h
Límites de predicción
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y h h
x
Predicción
Weight = -56.9 + 0.713 Height + 8.366 ZHOM + Error
Peso predicho para el PESO MEDIO de hombre de 175cm
Pred_Weight = -56.9 + 0.713 x 175 + 8.366x 1 = 76.18 kg
Peso predicho para la media de la distribución del peso de las

mujeres de 170cm de estatura
Pred_Weight = -56.9 + 0.713 x 170 + 8.366x 0 = 64.25 kg
Intervalos
95% confianza
Int. Confianza Previsto Lim. Inf Lim. Sup
Height=175,Sexo = 1 76.19 75.04 77.33
Height=170,Sexo = 0 64.25 63.03 65.47
Int. Predicción Previsto Lim. Inf Lim. Sup

Height=175,Sexo = 1 76.19 58.85 93.51
Height=170,Sexo = 0 64.25 49.92 81.59
Predicción: Instrucciones R
# ejemplo 3: fev
> newbody <- data.frame(Height=170,Gender=0)
> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 64.2563 63.03951 65.4731

> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 64.2563 46.92133 81.59128

> predict(m.body,newbody,interval="confidence")
fit lwr upr
1 76.18717 75.04465 77.32969

> predict(m.body,newbody,interval="prediction")
fit lwr upr
1 76.18717 58.85725 93.5171
Otros ejemplos con R
> newcar <- data.frame(horse=130,engine=180,accel=12,Origen="USA", weight=3000)
> predict(m,newcar,interval="confidence")
fit lwr upr
1 11.84055 11.47096 12.21014
> newboy <- data.frame(ht=160,age=17,sex=1,smoke=0)

> predict(m.pulmon,newboy,interval="confidence")
fit lwr upr
1 5.33023 5.041005 5.619455
> newcars <- data.frame(horse=c(130,140,150)
+ ,engine=c(180, 185, 190)
+ ,accel=c(10,11,12)
+ ,Origen=c("USA","JAP","EUR")
+ ,weight=c(3000,2000,2500))
> pred.w.clim <- predict(m,newcars,interval="confidence")
> pred.w.clim
fit lwr upr
1 11.67788 11.197035 12.15872
2 10.13996 9.440399 10.83952
3 11.62928 11.027327 12.23123
APÉNDICE: PREDICCIÓN
(Regresión simple)
mh ŷ h
xh xh
yh o N ( E 0 E1xh , V 2 ) yˆ h Eˆ0 Eˆ1xh y Eˆ1 ( xh x )
mh E 0 E1xh E[ yˆ h ] E[ Eˆ0 Eˆ1xh ] E 0 E1xh mh
var[ yˆ h ] var[ y Eˆ1 ( xh x )]
var[ y ] ( xh x ) 2 var[ Eˆ1 ]
§ ·
¨ V2¨
§
( xh x ) 2 ·¸ ¸ V2 V2
yˆ h o N ¨ mh , ¨1 ¸¸ ( xh x ) 2
¨ n ¨ 2 ¸¸
© ©
sx ¹¹ n nsx2
(Regresión múltiple)
mh ŷ h
yh o N (mh , V 2 )
xh x'h
βˆ T x'h , x'T (1, x1h , x2h , , xkh )
E 0 E1 x1h E k xkh
yˆ h
mh h
E [ yˆ h] E[βˆ T x'h ] E[βˆ T ]x'h βT x'h

β x'h
T
var[ yˆ h ] var[βˆ T x'h ] T

x'
h var[ βˆ T ]x'h
T 1
T
x 'h V 2 vhhV 2
yˆ h o N §¨ mh , V 2vhh ·¸
x' h (X X)
T 1
© ¹
T
v
hh x'
h (X X) x 'h
Expresión alternativa para vhh
yˆ h y bˆ T (x h x)
var[ yˆ h ] var[ y bˆ T (x h x)] var[ y ] (x h x)T var[bˆ ](x h x)
~T ~
V2 ~ ~ X X
(x h x)T ( XT X) 1 (x h x)V 2 , (S x )
n n
V2
(1 (x h x)T S x1 (x h x))
n
1 xh x vhh 1/ n
vhh (1 (x h x)T S x1 (x h x)) x h z x vhh ! 1 / n
n
Intervalos de confianza para la

media mh

yˆ h o N mh , V 2 vhh
yˆ h mh ŷ h
o N (0,1)
V vhh
yˆ h mh
o tn k 1
sˆR vhh xh
h h
Regresión simple
1 1 ( xh x ) 2
vhh (1 (xh x)T S x1 (xh x)) vhh (1 )
n n s x2
Predicción de una nueva
observación yh (Reg.Simple)
yh
ŷ h
mh
xh xh
yˆ h Eˆ0 Eˆ1 xh yh o N (mh , V ) 2
yˆ h o N (mh , V 2 vhh ) mh E 0 E1 xh
e~ y yˆ
h h h
E[e~h ] E[ yh ] E[ yˆ h ] 0
var[ e~h ] var[ yh ] var[ yˆ h ] e~h o N ( 0, V 2 (1 vhh ))
V 2 V 2 vhh
Predicción de una nueva

observación yh (Reg. Múltiple)
yh
ŷ h
mh
xh xh
yˆ h y bˆ T x h yˆ h o N (mh , V 2vhh )
E[e~h ] E[ yh ] E[ yˆ h ] 0
e~h yh yˆ h o ® ~ ] var[ y ] var[ yˆ ] V 2 (1 v )
¯ var[ eh h h hh
~
eh o N ( 0, V (1 vhh ))
2
Intervalos de predicción para
una nueva observación yh
e~h o N 0, V 2 (1 vhh )
e~h yh yˆ h ŷ h
yh yˆ h
o N (0,1)
V 1 vhh
yh yˆ h
o tn k 1
sˆR 1 vhh
xh
h h
Límites de predicción
yˆ Eˆ0 Eˆ1 x1 Eˆ k xk h h
y h h
x
Diagnosis: Residuos
Y Xβˆ e

Observados Previstos Residuos
§ y1 · §1 x11 x21 xk1 ·§ Eˆ0 · § e1 ·

¨ ¸ ¨ ¸¨ ¸ ¨ ¸
¨ y2 ¸ ¨1 x12 x22 xk 2 ¸¨ Eˆ1 ¸ ¨ e2 ¸
¨ ¸ ¨ ¸ ¨ ¸¨ ¸
¨ ¸
¨ ¸ ¨ ¸ ¨ ¸
ÿ ¸ ¨1 xkn ¸¹¨© Eˆ k ¸¹ ¨© en ¸¹
© n¹ © x1n x2n
ei yi ( Eˆ0 Eˆ1x1i Eˆ k xki )
Distribución de los residuos

Y o N ( Xβ, V 2 I ) e (I V)Y
V X(X T X) 1 X T
e o Normal
°
® E[e] (I V)E[Y] (I V)Xβ 0
°̄var[e] (I V) var(Y)(I V) V 2 (I V)
e o N (0, V 2 (I V))
ei o N (0, V 2 (1 vii ))
Distancia de Mahalanobis
Di2 (x i x)T S x 1 (x i x) (Dist. de Mahalanobis)
x i x Di2 0
Mide la distancia de x i a x ®
¯x i z x Di ! 0
2
1
vii x'Ti ( XT X) 1 x'i (1 (x i x)T S x1 (x i x))
n
vii son los elementos diagonales de la matriz V
V X(X T X) 1 XT
n n n 1
vii ¦ vij v ji ¦ vij2 vii2 vii (1 vii ) ¦ vij2 t 0 d vii d 1
j 1 j 1, j z i j 1, j z i n
Residuos estandarizados
ei o N (0, (1 vii )V ) 2
var(ei ) (1 vii )V 2
Cuando xi está próximo a x vii | 1 / n var(ei ) | V 2
Cuando xi está lejos de x vii | 1 var(ei ) | 0 ei | 0
Residuos estandarizados
ei
ri
sˆR 1 vii
Modelos de regresión lineal
REGRESION SIMPLE
1. La tabla muestra los mejores tiempos mundiales en Juegos Olı́mpicos hasta 1976 en carrera
masculina para distintas distancias.
y: tiempo (sg) 9.9 19.8 44.26 103.5 214.9 806.4 1658.4 7795
x: distancia (m) 100 200 400 800 1500 5000 10000 42196
(a) Estimar la regresión lineal de y sobre x y calcular la varianza residual y el coeficiente

de correlación.
(b) Obtener intervalos de confianza para la pendiente y varianza residual (α = 0.01).
(c) Analizar si la relación lineal es adecuada, transformando las variables si es necesario.
(d) Supóngase que en aquellas Olimpiadas hubiera existido una carrera de 500 metros.
Estimar el tiempo previsto para el record olı́mpico en dicha carrera, dando un intervalo
de confianza con α = 0.05.
2. Según la ecuación de los gases ideales, la presión ejercida por un gas a volumen y temperatura
constante es proporcional a la masa. Se puede utilizar el siguiente procedimiento para estimar
el peso molecular de un gas. Se almacena el gas en un recipiente de volumen constante, y se va
soltando poco a poco gas, variando la presión, pero manteniendo la temperatura constante.
En la tabla adjunta se proporcionan mediciones de la presión (con respecto a la atmosférica,
1 atm = 14.7 psi) y de la masa del gas para el árgon.
Presión (psi) Masa (g)

52 1.028
49 0.956
44 0.880
39 0.793
34 0.725
29 0.645
25 0.593
21 0.526
19 0.500
19 0.442
11 0.373
0 0.210
(a) Para estimar el peso molecular del árgon a partir de los datos, se propone el siguiente
modelo de regresión
Pi = β 0 + β 1 mi + ui con ui ∼ N(0, σ 2 ).
Estimar los parámetros del modelo y contrastar si el término independiente es signi-
ficativo.
1
(b) Se considera el modelo alternativo
Pi = αmi + ui , con ui ∼ N(0, σ 2 ).

Obtener el estimador de máxima verosimilitud del parámetro α, ası́ como su varianza.
(c) Realizar el contraste H0 : α = 50 frente a H1 : α 6= 50 con nivel de significación 0.05.
(d) Para el segundo modelo, obtener un intervalo de predicción para la presión cuando la
masa es igual a 1 gramo.
(e) Obtener la varianza del estimador de E[Ph |mh ], es decir del valor medio de la presión
Ph para una masa dada mh con ambos modelos. Si el modelo verdadero fuese el del
primer apartado, ¿qué efecto tendrı́a sobre la predicción adoptar el modelo alternativo?
3. Sir Francis Galton (1877) estudió la relación entre la estatura de una persona (y) y la estatura
de sus padres (x) obteniendo las siguientes conclusiones:
(a) Existı́a una correlación positiva entre las dos variables.

(b) Las estaturas de los hijos cuyos padres medı́an más que la media era, en promedio,
inferior a la de sus progenitores, mientras que los padres con estatura inferior a la
media en promedio tenı́an hijos más altos que ellos, calificando este hecho como de
”regresión” a la media.
Contrastar (α = 0.05) estas dos conclusiones con la ecuación ŷ = 17.8 + 0.91x resultante de
estimar un modelo de regresión lineal entre las variables (en cm.) descritas anteriormente
para una muestra de tamaño 100 si la desviación tı́pica (estimada) de β̂ 1 es 0.04.
4. La ley de Hubble sobre la expansión del universo establece que dadas dos galaxias la ve-
locidad de desplazamiento de una respecto a la otra es v = Hd, siendo d su distancia y H
la constante de Hubble. La tabla proporciona la velocidad y la distancia de varias galaxias
respecto a la Via Láctea. Se pide:
Galaxia Distancia Velocidad

(millones años luz) (103 Km/s)
Virgo 22 1.21
Pegaso 68 3.86
Perseo 108 5.15
Coma Berenices 137 7.56
Osa Mayor 1 255 14.96
Leo 315 19.31
Corona Boreal 390 21.56
Géminis 405 23.17
Osa Mayor 2 700 41.83
Hidra 1100 61.14
Tabla: Distancia y velocidad de desplazamiento de las distintas galaxias a la Via Lactea.
2
Nota: Obsérvese que según el modelo de Hubble la regresión debe pasar por el origen.
Tómese 1 año luz = 300 000 Km/seg x 31 536 000 seg = 9.46 1012 Km.
(a) Estimar por regresión la constante de Hubble.

(b) Como T = d/v = d/Hd = 1/H, la inversa de la constante de Hubble representa la
edad estimada del Universo. Construir un intervalo de confianza del 95% para dicha
edad .
5. Para establecer la relación entre el alargamiento en mm (Y ) producido en un cierto material

plástico sometido a tracción y la tensión aplicada en toneladas por cm2 (X) se realizaron 10
experimentos cuyos resultados se muestran en la tabla
xi 0.20 0.50 0.60 0.70 0.90 1.00 1.20 1.50 1.60 1.70
yi 23 20 33 45 67 52 86 74 98 102
Tabla: Alargamiento yi (mm) producidos por la tensión xi (Tm/cm2 ).
(a) Ajustar el modelo de regresión lineal E(Y |x) = β 0 + β 1 x y contrastar (α = 0.01) la

hipótesis de que, en promedio, por cada Tm/cm2 de fuerza aplicada es de esperar un
alargamiento de 50 milı́metros, sabiendo que la desviación tı́pica residual vale 10.55.
(b) Si el lı́mite de elasticidad se alcanza cuando x = 2.2 Tm/cm2 , construir un intervalo
de confianza al 95% para el alargamiento medio esperado en ese punto.
(c) Teniendo en cuenta que el alargamiento esperado cuando la fuerza aplicada es nula
debe ser nulo también, estimar el nuevo modelo E [Y |x] = βx con los datos anteriores
¿Cuál es el sesgo del estimador del parámetro de la pendiente si se estima según el
modelo del apartado 1?
6. Estimar por mı́nimos cuadrados los parámetros a y b de la ecuación y = a + bx2 con la

muestra de tres puntos siguientes (y, x) : (3, -1); (4, 0); (6,1).
7. La ecuación de regresión entre las ventas de un producto y y su precio x es ŷ = 320 − 1.2x,

ŝR = 2 y ŝy = 4. Si el número de datos ha sido n = 50, contrastar H0 : β 1 = −1 frente a la
alternativa H1 : β 1 < −1.
8. Se estudia la relación entre el tiempo de reparación (minutos) de ordenadores personales y

el número de unidades reparadas en ese tiempo por un equipo de mantenimiento con los
resultados mostrados en la siguiente tabla
unidades reparadas 1 3 4 6 7 9 10
tiempo de reparación 23 49 74 96 109 149 154
Se pide:
3
(a) Construir la recta de regresión para prever el tiempo de reparación y utilizarla para
construir un intervalo de confianza (α = 0.01) para el tiempo medio de reparación de
8 unidades.
(b) Construir un intervalo de confianza (α = 0.01) del tiempo de reparación para un lote
de 14 unidades.
(c) Si los tiempos de reparación fuesen medias de 10 datos. ¿Cual serı́a la recta de regresión?
REGRESION MULTIPLE
9. En la tabla se muestran los costes financieros mensuales en miles de euros (y) de 16 delega-
ciones de una gestora de inversiones, además se proporciona el número de nuevos préstamos
del mes (x1 ) y el número de préstamos pendientes (x2 ).
n x1 x2 y
1 80 8 2256
2 93 9 2340
3 100 10 2426
4 82 12 2293
5 90 11 2330
6 99 8 2368
7 81 8 2250
8 96 10 2409
9 94 12 2364
10 93 11 2379
11 97 13 2440
12 95 11 2364
13 100 8 2404
14 85 12 2317
15 86 9 2309
16 87 12 2328
(a) Estima la ecuación de regresión
yi = β 0 + β 1 x1i + β 2 x2i + ui con ui ∼ N(0, σ 2 )
incluyendo la varianza del modelo.

(b) Realizar los contrastes individuales e interpretar los coeficientes.
(c) Realiza el contraste general de regresión o contraste de la F. Proporciona el p-valor.
(d) Proporciona la tabla con valores previstos y residuos.
(e) Comprueba las hipótesis del modelo.
4
10. Los fabricantes que utilizan rodamientos en sus productos tienen interés en la fiabilidad de
estos componentes. La medida básica de fiabilidad se denomina rating life, y consiste en el
número de revoluciones que soporta el 90% de los rodamientos antes de la fractura, a esto
se denota por L10. Los modelos teóricos indica que este valor está relacionado con la carga
(P) a la que se somete el rodamiento, el diámetro (D) del rodamiento y el número de bolas
(Z) del mismo, mediante la ecuación:
3
kZ a D b

L10 = .
P
Se desea comprobar experimentalmente esta ecuación, para lo cual se realizó un experimento

con rodamientos de distintos fabricantes y tipos. Los datos se encuentran en el archivo
(ballbearing.txt), en la tabla 1 se muestra los 10 primeros datos. La información que contiene
es la siguiente:
Com: Codigo de empresa 1, 2, and 3

N: Número de ensayo (en cada empresa)
Year: Año del ensayo NA = No disponible
NB : Número de Rodamiento
P: Carga
Z: Número de bolas
D: Diámetro
L10: Percentil 10
L50: Percentil 50
Slope: Parámetro de la distribución Weibull
Btype: Tipo de rodamiento 1, 2, y 3 in la empresa 2; 0 en los demás casos.
Com N Year NB P Z D L10 L50 Slope Btype

1 1 1936 24 4240 8 .68750 19.200 84.50 1.27 0
1 2 1937 20 4240 8 .68750 26.200 74.20 1.81 0
1 3 1937 14 4240 8 .68750 11.100 68.10 1.04 0
1 4 1937 19 4240 8 .68750 11.800 66.80 1.09 0
1 5 1937 18 4240 8 .68750 13.500 79.40 1.06 0
1 6 1938 21 2530 9 .50000 5.800 25.70 1.27 0
1 7 1938 28 4240 8 .68750 18.300 44.70 2.10 0
1 8 1938 27 4240 8 .68750 5.620 73.20 0.73 0
1 9 1940 20 4240 8 .68750 15.800 82.70 1.14 0
1 10 1940 22 4240 8 .68750 8.700 41.60 1.20 0
··· ··· ··· ··· ··· ··· ··· ··· ··· ··· ···
5
(a) Estima el modelo
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) + ui con ui ∼ N(0, σ 2 ),
y realiza los contrastes individuales y el contraste general.
(b) Según el modelo, β 3 = −3. Realiza el contraste
H0 : β 3 = −3
H1 : β 3 6= −3
Proporciona el p-valor del contraste.
(c) Da un intervalo de confianza para los parámetros a y b del modelo teórico.
(d) Se definen las variables ficticias T2 y T3 para identificar los rodamientos tipo 2 y 3 del
segundo fabricante (información en la variable Btype). Estima e interpreta el siguiente
modelo de regresión:
log(L10i ) = β 0 + β 1 log(Zi ) + β 2 log(Di ) + β 3 log(Pi ) +
α2 T2i + γ 2 T2i × log(Zi ) + δ 2 T2i × log(Di ) +
α3 T3i + γ 3 T3i × log(Zi ) + δ 3 T3i × log(Di ) + ui
(e) Compara el modelo del apartado 1 con el modelo del apartado 4.
11. La matriz de varianzas de tres variables estandarizadas es la siguiente

 
1 0.8 0.6
 0.8 1 0.2 
0.6 0.2 1
Calcular la ecuación de regresión de la primera variable respecto a las otras dos.
12. Dos variables x1 y x2 tienen la siguiente matriz de varianzas

1 0.5
0.5 1
y las regresiones simples con y son ŷ = 0.75x1 ; ŷ = 0.6x2 . Calcular la regresión múltiple
entre y y las dos variables x1 , x2 sabiendo que la variable y tiene media cero y varianza
unidad.
13. Para establecer la relación entre el voltaje de unas baterı́as y la temperatura de fun-
cionamiento se han hecho unos experimentos cuyos resultados se muestran en la siguiente
tabla
Baterı́a 1 2 3 4 5 6 7 8
Temperatura 10 10 20 20 30 30 40 40
Voltaje 7.2 7.7 7.3 7.4 7.7 9.4 9.3 10.8
6
Se pide:
(a) Contrastar la hipótesis (α = 0.05) de que no existe relación lineal entre el voltaje y la
temperatura.
(b) Las lecturas 1,3,5 y 7 fueron realizadas con unas baterı́as de Cadmio y las 2,4, 6 y 8 con
baterı́as de Zinc. Introducir en el análisis anterior una variable cualitativa que tenga
en cuenta los dos tipos de baterı́as y contrastar si es significativa al 95%.
(c) Dar un intervalo de confianza para el voltaje de una baterı́a de Cadmio que va a trabajar
a 35◦ centı́grados. (Utilizar el modelo estimado en el apartado 2).
(d) Comprobar que se cumplen las hipótesis del modelo construido en los apartados ante-
riores.
14. La variable y se relaciona con las variables x1 y x2 según el modelo E(y) = β 0 + β 1 x1 + β 2 x2 ;

no obstante se estima el siguiente modelo de regresión que no incluye la variable x2
ŷi = β̂ 0 + β̂ 1 x1i .
Justificar en qué condiciones el estimador β̂ 1 es centrado.
15. Se efectúa una regresión con dos variables explicativas E[y] = β 0 + β 1 x1 + β 2 x2 . La matriz
de varianzas de x1 y x2 es

2 1
1 3
¿Cuál de los dos estimadores β̂ 1 y β̂ 2 tendrá menor varianza?
16. Con los datos de la tabla, se pide:
x -2 -2 -1 -1 0 0 1 1 2 2 3 3
y 1.1 1.3 2.0 2.1 2.7 2.8 3.4 3.6 4.0 3.9 3.8 3.6
(a) Estimar un modelo de regresión simple con y como variable dependiente y x como
regresor. Indicar si el modelo es apropiado, justificando la respuesta.
(b) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + ui
y realizar el contraste H0 : β 2 = 0.
(c) Estimar el modelo
yi = β 0 + β 1 xi + β 2 x2i + β 3 x3i + ui
Realizar el contraste general de regresión con α = 0.01. Seleccionar entre los tres el
modelo más adecuado, justificando la respuesta.
7
17. Una de las etapas de fabricación de circuitos impresos requiere perforar las placas y recubrir
los orificios con una lámina de cobre mediante electrólisis. Una caracterı́stica esencial del
proceso es el grosor de la capa de cobre. Se han realizado 12 experimentos para evaluar
el efecto de 7 variables, X1 : Concentración de Cobre, X2 : Concentración de Cloruro, X3 :
Concentración de Ácido, X4 : Temperatura, X5 : Intensidad, X6 : Posición y X7 : Superficie
de la placa. Cada variable se ha estudiado a dos niveles. Las condiciones experimentales y
los resultados de cada experimento se muestran en la tabla.
X1 X2 X3 X4 X5 X6 X7 Y
1 1 -1 1 1 1 -1 2.13
1 -1 1 1 1 -1 -1 2.15
-1 1 1 1 -1 -1 -1 1.67
1 1 1 -1 -1 -1 1 1.53
1 1 -1 -1 -1 1 -1 1.49
1 -1 -1 -1 1 -1 1 1.78
-1 -1 -1 1 -1 1 1 1.80
-1 -1 1 -1 1 1 -1 1.93
-1 1 -1 1 1 -1 1 2.19
1 -1 1 1 -1 1 1 1.61
-1 1 1 -1 1 1 1 1.70
-1 -1 -1 -1 -1 -1 -1 1.43
Responder a las siguientes preguntas aplicando el modelo de regresión múltiple: matriz

identidad de 8 × 8.
(a) Estimar el modelo de regresión múltiple
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x3i + β 4 x4i + β 5 x5i + β 6 x6i + β 7 x7i + ui .
Obtener la descomposición de la variabilidad del modelo y realizar el contraste
H0 : β 1 = β 2 = β 3 = β 4 = β 5 = β 6 = β 7 = 0
frente a la hipótesis alternativa H1 : algún β j es distinto de cero.
(b) Realizar cada uno de los contrastes individuales e indicar qué variables tienen efecto
significativo.
(c) Eliminar del modelo del apartado 1 todas las variables no significativas. Estimar el
modelo y contrastar sus coeficientes. Interpretar los resultados del experimento.
18. El molibdeno se añade a los aceros para evitar su oxidación, pero en instalaciones nucleares
presenta el inconveniente de ser el causante de gran parte de los productos radioactivos. Se
ha realizado un experimento para determinar el grado de oxidación del acero en función del
porcentaje de molibdeno. Además se ha tenido en cuenta el efecto del tipo de refrigerante
utilizado (R1 , R2 ). Los resultados se muestran en la tabla.
8
Molibdeno (%)
Refrig. 0.5% 1% 1.5% 2% Medias
R1 26.2 23.4 20.3 23.3 23.3
R2 34.8 31.7 29.4 26.9 30.7
R1 33.2 31.3 28.6 29.3 30.6
R2 43.0 40.0 31.7 33.3 37.0
Media 34.3 31.6 27.5 28.2 30.4
(a) Escribir un modelo de regresión que incluya el porcentaje de molibdeno y el tipo de re-
frigerante como regresores; estimar el modelo e indicar qué parámetros son significativos
(α = 0.05)).
(b) Los experimentos relativos a las dos primeras filas se realizaron en un tipo de instalación
y los correspondientes a las dos últimas en otra distinta. Escribir un nuevo modelo que
incluya este aspecto. Comprobar que este nuevo regresor está incorrelado con los dos
anteriores. Estimar el nuevo modelo.
(c) Demostrar que en un modelo con los regresores incorrelados, la eliminación de uno
de ellos no influye en el valor de los estimadores β̂ i , (i 6= 0) restantes. ¿ Influye en
la varianza residual y en los contrastes ? Explicar este efecto en función de que el
parámetro β del regresor eliminado sea o no nulo.
19. Sea x1 la altura del tronco de un árbol y x2 el diámetro del mismo en su parte inferior. El
volumen y del tronco de árbol puede ser calculado aproximadamente con el modelo
yi = αx1i x22i + ui ,
según el cual, el volumen del tronco es proporcional al volumen de un cono con las medidas
x1i , x2i , siendo α el parámetro (desconocido) de proporcionalidad, más una componente
de error aleatorio ui . La tabla siguiente contiene los datos (en metros y metros cúbicos)
correspondientes a una muestra aleatoria de 15 troncos de una variedad de pino.
Obs. x1i x2i yi

1 10,1 0,117 0,062
2 11,3 0,130 0,085
3 20,4 0,142 0,204
4 14,9 0,193 0,227
5 23,8 0,218 0,470
6 19,5 0,236 0,484
7 21,6 0,257 0,623
8 22,9 0,269 0,722
9 19,8 0,297 0,821
10 26,8 0,328 1,280
11 21,0 0,351 1,034
12 27,4 0,376 1,679
13 29,0 0,389 2,073
14 27,4 0,427 2,022
15 31,7 0,594 4,630
9
(a) Estimar α por máxima verosimilitud suponiendo que las variables ui tienen distribución
normal de media cero, con la misma varianza e independientes.
(b) Un tronco tiene una altura de 20 metros y un diametro de 0.25 metros, dar un intervalo
de predicción de su volumen (95% de confianza).
(c) En el análisis de los residuos se observa que la varianza de los errores crece con el
volumen del tronco. Para obtener homocedasticidad se propone el siguiente modelo
transformado utilizando logaritmos neperianos,
log yi = β 0 + β 1 log x1i + β 2 log x2i + ui
Contrastar (nivel de significación 0.05) si estos dos valores son aceptables.

(d) Con este modelo, dar un intervalo de predicción (95% de confianza) para el volumen
del tronco del apartado 2.
20. Ciertas propiedades del acero se mejoran sumergiéndolo a alta temperatura (T0 = 1525
o
F ) en un baño templado de aceite (t0 = 95 o F ). Para determinar la influencia de las
temperaturas del acero y del baño de aceite en las propiedades finales del material se han
elegido tres valores de la temperatura del acero y tres del baño de aceite,
 
 1450 o F  70 o F
Temperatura acero (T ) 1525 o F Temperatura aceite (t) 95 o F
o
1600 F 120 o F
 
y se han realizado los siguientes experimentos:
x1i 0 0 0 0 -1 1 -1 1 0 0 -1 1
x2i 0 0 0 0 -1 -1 1 1 -1 1 0 0
yi 49.2 49.4 47.0 49.5 28.2 88.6 54.9 31.3 59.2 43.6 41.9 58.0
dónde se ha utilizado la siguiente transformación (para simplificar cálculos)
Ti − 1525 ti − 95
x1i = y x2i = .
75 25
Estimar el modelo de regresión
yi = β 0 + β 1 x1i + β 2 x2i + β 3 x1i x2i + ui
e indicar qué parámetros son significativos para nivel de significación 0.05. Estimar y con-
trastar el modelo anterior empleando las variables originales Ti y ti .
10
Diseño de Experimentos 12 de abril de 2012
Cuestiones
(30 minutos, 4 puntos)
1. Los siguientes datos son medidas de presión (psi) en un muelle a torsión para diferentes configuraciones
entre el extremo del muelle y un punto de apoyo.
La tabla de análisis de la varianza para la comparación de las medias correspondientes a los cinco
niveles determinados por el ángulo (angle) se ha obtenido con R y es la siguiente
Realizar la comparación dos a dos de las medias de los cinco tratamientos (LSD). Interpretar los
resultados de la comparación.
Nota: Para todo el ejercicio utilizad α = 0.05.
2. Obtener la descomposición de la variabilidad (análisis de la varianza) en el modelo de un factor,

justificando cada paso. Indicar por qué se anula el término correspondiente al doble producto en el
segundo miembro de la igualdad.
Diseño de Experimentos 12 de abril de 2012
Problema
En un estudio realizado en la Universidad Virginia Tech, se desea comprobar el efecto de añadir un

producto quı́mico quelante (Carboximetil Celulosa, CMC) como parte del acabado ignı́fugo de tejidos de
algodón con el fin de retardar su tiempo de combustión. El tejido de algodón en estudio se ha lavado en dos
soluciones distintas: Baño 1 con CMC y Baño 2 sin CMC. Para estudiar si la intensidad de lavado influye
en el resultado, se ha hecho el experimento con cinco lavados y diez lavados. En cada caso se utilizaron 12
telas, que posteriormente se quemaron, midiendose los tiempos de combustión (segundos) que se muestran
en la tabla.
Lavados Baño 1 Baño 2

5 13.7 23.0 15.7 6.2 5.4 5.0
25.5 15.8 14.8 4.4 5.0 3.3
14.0 29.4 9.7 16.0 2.5 1.6
14.0 12.3 12.3 3.9 2.5 7.1
10 27.2 16.8 12.9 18.2 8.8 14.5
14.9 17.1 13.0 14.7 17.1 13.9
10.8 13.5 25.5 10.6 5.8 7.3
14.2 27.4 11.5 17.7 18.3 9.9
La media y la varianza corregida para cada tratamiento es:
Lavados Baño Media Varianza

5 1 16.68 35.92
5 2 5.24 14.07
10 1 17.07 37.31
10 2 13.07 19.75
1. Obtén la tabla de análisis de la varianza del experimento y realiza los contrastes con nivel de signifi-
cación 0.05.
2. Calcula el intervalo de confianza (α = 0.05) para la media de cada tratamiento, dibuja el gráfico de
interacciones con los intervalos de confianza correspondientes e interpreta los resultados del experi-
mento.
3. Como se aprecia en la segunda tabla, las varianzas correspondientes a los tratamientos del Baño 2
son parecidas y bastante inferiores a las varianzas de los tratamientos correspondientes al Baño 1.
Llamando σ 21 a la varianza teórica para los datos del baño 1 y σ 22 a la varianza teórica para los datos
del baño 2, realiza el contraste:
H0 : σ 21 = σ 22
H1 : σ 21 6= σ 22
Nota: Utilizad α = 0.05.

1 1 1 1
LSD  t 0.05 ·sˆR ·   2.09· 1.16· 
20,
2 ni n j ni n j
yij  i  uij  yij  y i  ( yij  y i ) : restando y  
 y ij
,
n
yij  y   ( y i  y  )  ( yij  y i )
elevando al cuadrado y sumando para todo i, j
K ni
(donde  ( y i  y  )( yij  y i )  0)
i 1 j 1
K ni K ni K ni
 ( yij  y  )2    ( y i  y  )2   ( yij  yi )2

i 1 j 1 i 1 j 1 i 1 j 1
K ni K K ni
 ( yij  y  )2   ni ( y i  y  )2   ( yij  y i )2
i 1 j 1 i 1 i 1 j 1
Variabilidades Grados de libertad

K ni
VT   ( yij  y  ) 2 n -1
i 1 j 1
K
VE   ni ( y i  y  ) 2 K -1
i 1
K ni K ni
VNE   ( yij  y i ) 2   eij 2 n-K
i 1 j 1 i 1 j 1
K ni K  ni

 ( y i  y  )( yij  y i )    i
i 1 
( y  y   ( yij  y i  )   0
)·
i 1 j 1 j 1 
ni
(y
j 1
ij  y i ) 0
Analysis of Variance Table
Response: Tiempo
Df Sum Sq Mean Sq F value Pr(>F)
Lavados 1 202.13 202.13 7.5519 0.008659 **
Bath 1 715.34 715.34 26.7261 5.494e-06 ***
Lavados:Bath 1 166.14 166.14 6.2071 0.016567 *
Residuals 44 1177.68 26.77
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
1 1
yij·  t 0.05 ·sˆR ·  yij·  2.01· 26.77·  yij·  3.01
44,
2 ni 12
B1 B2
L10 17.067 13.067
L5 16.683 5.242
11·35.92  11·37.31
sˆR21   36.61
11  11
11·14.07  11·19.75
sˆR2 2   16.91
11  11
sˆR21
~ F22,22
sˆR2 2
36.61
 2.16
16.91
Fa 0.424
Fb 2.357
2o Examen Parcial Diseño de Experimentos y Regresión 21 de mayo de 2012
Cuestiones (30 minutos, 4 puntos)
1. Sea Y ∈ ℜn el vector de la variable dependiente de un modelo de regresión múltiple, con los regresores
definidos por la matriz X ∈ ℜn×(k+1) , tal que
Y = Xβ + U (1)
donde U ∼ N (0, σ 2 I). Un modelo de regresión múltiple se replica cuando se obtienen dos vectores de
variable respuesta Y1 e Y2 , cada uno de dimensión n, para los mismos regresores (la misma matriz X).
Se ajusta el modelo:
Y ′ = Xβ + U ′ (2)
1 ′
donde Y ′ = 2 (Y1 + Y2 ). Sea β̂ al vector de parámetros estimados para el modelo (1), y β̂ para el
′
modelo (2). Obtener la relación entre V ar(β̂ ) y V ar(β̂), justificando la respuesta.
2. Dos propietarios de un viñedo de Oregon cultivan diferentes variedades de uva con las que fabrican
vino. Durante el proceso de fabricación han recabado diferentes datos con el fin de identificar aquellas
variables que, a juicio de los catadores, producen el mejor vino. En concreto se ha recabado información
sobre la edad de la barrica de roble (x1 : años), el porcentaje del racimos completos utilizados (x2 : %),
la temperatura de fermentación (x3 : o C), y sobre las variables cualitativas Clon de pinot noir, que
puede tomar dos valores (Pommard y Wadenswill), y el tipo de roble empleado en la fabricación de las
barricas que tambien puede tomar dos valores (Allier y Troncais).
Escriba la ecuación del modelo de regresión lineal que permite relacionar la puntuación emitida por
los catadores (y) con los regresores mencionados anteriormente. Interprete los parámetros del modelo.
Problema (45 minutos, 6 puntos)
Durante la producción y el transporte del petróleo, éste se mezcla con agua formando una emulsión. Una
manera de separar los dos lı́quidos es creando un campo eléctrico fuerte, de forma que las gotas de petróleo
crecen y suben a la superficie. Un grupo de investigación de la Universidad de Bergen (Noruega) tomó una
serie de datos para determinar los factores que influı́an en el voltaje requerido para separar la mezcla. Las
siete variables investigadas fueron las siguientes:
x1 : Composición porcentual de la mezcla ( %)
x2 : Salinidad de la emulsión ( %)
x3 : Temperatura de la emulsión (o C)
x4 : Tiempo en reposo desde que se realiza la mezcla (horas)
x5 : Concentración de sulfatante (reduce la tensión superficial)( % en peso)
x6 : Proporción de sustancias quı́micas sulfatantes (Span y Triton)( %)
x7 : Cantidad de sólidos añadidos ( % en peso)
Se prepararon las 19 emulsiones que se muestran en la tabla. Para cada emulsión se midió el voltaje
(kilovoltios por centı́metro) necesario para que se iniciara el proceso de separación, este valor representa la
variable respuesta (y).
DATOS
Experimento y (tensión) x1 x2 x3 x4 x5 x6 x7
1 0,64 40 1 4 0,25 2 0,25 0,5
2 0,80 80 1 4 0,25 4 0,25 2
3 3,20 40 4 4 0,25 4 0,75 0,5
4 0,48 80 4 4 0,25 2 0,75 2
5 1,72 40 1 23 0,25 4 0,75 2
6 0,32 80 1 23 0,25 2 0,75 0,5
7 0,64 40 4 23 0,25 2 0,25 2
8 0,68 80 4 23 0,25 4 0,25 0,5
9 0,12 40 1 4 24 2 0,75 2
10 0,88 80 1 4 24 4 0,75 0,5
11 2,32 40 4 4 24 4 0,25 2
12 0,40 80 4 4 24 2 0,25 0,5
13 1,04 40 1 23 24 4 0,25 0,5
14 0,12 80 1 23 24 2 0,25 2
15 1,28 40 4 23 24 2 0,75 0,5
16 0,72 80 4 23 24 4 0,75 2
17 1,08 60 2,5 13,5 12,125 3 0,50 1,25
18 1,08 60 2,5 13,5 12,125 3 0,50 1,25
19 1,04 60 2,5 13,5 12,125 3 0,50 1,25
El experimento cumple que la matriz de varianzas de los siete regresores es una matriz diagonal, es decir
355, 56 0 0 0 0 0 0
 

 0 2 0 0 0 0 0 

 0 0 80, 22 0 0 0 0 
1 eT e  
Sxx = (X X) =  0 0 0 125, 347 0 0 0 .
n  

 0 0 0 0 0, 889 0 0 

 0 0 0 0 0 0, 0556 0 
0 0 0 0 0 0 0, 5
El modelo estimado es
ybi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7 ,
con varianza residual sb2R = 0, 2086.
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).
2. Realice el constraste general de regresión (α = 0, 05) y calcule el coeficiente de determinación del

modelo.
3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.
MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )
Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)
Residuals:
Min 1Q Median 3Q Max
-0.55684 -0.10684 0.03316 0.10816 0.62316
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 0.3282 on 13 degrees of freedom

Multiple R-squared: 0.8643, Adjusted R-squared: 0.8122
F-statistic: 16.56 on 5 and 13 DF, p-value: 3.086e-05
 
var ˆ   2  X T X 
1
Y1  Y2
Y'
2
 
var ˆ '   '  X T X 
2 1
var(Y X )   2 I
Y Y  1  2I   2I  2I
var(Y ' X )  var  1 2 X   var Y1  Y2 X   
 2  4 4 2
  1
var ˆ '  var ˆ
2
 

 0 Pommard (Referencia)  0 Allier (Referencia)

z1  z2 
 1 Wadenswill  1 Troncais
y 0  1 x1  2 x2  3 x3  1 z1   2 z2  u
0 , 1 , 2 , 3 , 1 ,  2
2
y ˆ0  ˆ1 x1  ˆ2 x2  ˆ3 x3  ˆ1 z1  ˆ 2 z2  e

ˆ0 , ˆ1 , ˆ2 , ˆ3 , ˆ1 , ˆ 2
 1

2

3
 1
 2
 0
0 0  1
0   2 0  1   2
El modelo estimado es
ybi = 0, 6081 − 0, 0205x1 + 0, 1700x2 − 0, 0153x3 − 0, 0084x4 + 0, 4600x5 + 0, 5200x6 − 0, 1267x7 ,
con varianza residual sb2R = 0, 2086.
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto significativo
(α = 0, 05).
2. Realice el constraste general de regresión (α = 0, 05) y calcule el coeficiente de determinación del

modelo.
3. Tras la diagnosis del modelo se consideró la opción de introducir como regresores los productos x1 x2 y
x1 x5 . El modelo resultante, únicamente con los regresores significativos, aparece en la tabla siguiente
(modelo B). Elija razonadamente entre el modelo inicial y el modelo B.
Una de las variables que pueden controlar los técnicos en el proceso de separación es x5 (sulfatante).
Explique el efecto conjunto de las variables x1 y x5 , teniendo en cuenta que x1 varı́a de 40 a 80 y x5
entre 2 y 4.
MODELO B
mod bergenB=lm(y ∼ x1 + x2 + x5 + x1 ∗ x2 + x1 ∗ x5 )
Call:
lm(formula = y ~ x1 + x2 + x5 + x1 * x2 + x1 * x5)
Residuals:
-0.55684 -0.10684 0.03316 0.10816 0.62316
Coefficients:
(Intercept) -2.933158 0.926881 -3.165 0.007460 **
x1 0.035083 0.014664 2.392 0.032543 *
x2 0.640000 0.172971 3.700 0.002670 **
x5 1.180000 0.259457 4.548 0.000547 ***
x1:x2 -0.007833 0.002735 -2.864 0.013290 *
x1:x5 -0.012000 0.004102 -2.925 0.011823 *
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Segundo Examen Parcial de Diseño de Experimentos y Regresión 21 de mayo de 2012
1. Realice los constrastes individuales e indique cuales de los siete regresores tienen un efecto signi…cativo
( = 0; 05):
Para los contrastes individuales hay que comparar con el percentil 0,975 de la distribución t con 11
(19-7-1) grados de libertad que es 2; 20
0;0205
t1 = p = 3; 689 *
0;2086(1=355;56 19)
0;17
t2 = p = 2; 29 *
0;2086(1=2 19)
0;0153
t3 = p = 1; 3078
0;2086(1=80;22 19)
0;0084
t4 = p = 0; 897
0;2086(1=125;34 19)
0;46
t5 = p = 4; 139 *
0;2086(1=0;889 19)
0;52
t6 = p = 1; 17
0;2086(1=0;0556 19)
0;126
t7 = p = 0; 855
0;2086(1=0;5 19)
VE =VT V N E = 19 s2y 11 sb2R = 19 0;5432 11 0;2086 = 8; 03
2. Realice el constraste general de regresión ( = 0; 05) y calcule el coe…ciente de determinación del

modelo.
Contraste conjunto F = (V E=7)=b s2R = 5; 4992 > F7;11 = 3; 01: Se rechaza H0 :
8;03
R2 = V E=V T = = 0; 7781:
10;32
1
R2
Otra posibilidad es a partir del contraste de la F, F = 7 = 5; 4992 =) R2 =
2
1
(1 R )
19 7 1
F
= 0;7778:
11
+F
7
3. Mejor el modelo B. Diagnosis adecuada, R2 mayor y sb2R menor.
La interpretación:
Examen Final Diseño de Experimentos y Regresión 8 de junio de 2012
1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleaoriamente el aparato que se pone
en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para contrastar
si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla ADEVA e
interprete los resultados ( = 0;05):
Aparato 1 Aparato 2 Medias

Enfermo 1 12.46 12.06 12.26
Enfermo 2 9.39 10.50 9.94
Enfermo 3 10.39 10.17 10.28
Enfermo 4 10.53 12.78 11.65
Enfermo 5 12.21 11.61 11.91
.
Enfermo 6 11.60 11.86 11.73
Enfermo 7 9.35 8.13 8.74
Enfermo 8 11.95 10.81 11.38
Enfermo 9 8.91 9.59 9.25
Enfermo 10 12.07 13.32 12.7
Medias 10.89 11.08 10.98
2 Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de con…anza para la varianza del error experimental.
Se ha realizado un experimento para estudiar la in‡uencia sobre el rendimiento (Y ) de un proceso químico,

de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la presión y
dos también (300K y 400K) para la temperatura, realizándose tres replicaciones para cada combinación de
factores. En tabla se muestran los resultados:
Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23
1. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la in‡uencia de la

Temperatura sobre el rendimiento, sin incluir la Presión en el análisis.
2. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-
abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,
indicando qué efectos son signi…cativos.
3. Construya el grá…co de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-
tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?
Nota. Utilice = 0;05 en todos los contrastes.

1. Obtenga la varianza del estimador del coe…ciente de regresión simple 1 e interprétela en función de
cada uno de los términos de los que depende.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.
Tabla 1: Modelo 1
Tabla 2: Modelo 2
Tabla 3: Modelo 3
Sabiendo que el coe…ciente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justi…cando
la respuesta ¿Se puede a…rmar con un 95 % de con…anza que los regresores x1 y x2 in‡uyen en la variable
respuesta?
Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 ; X2 ; X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identi…can a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:
ybi = 4;688 + 3;732x1i 0;229x2i + 3;751x3i + 5;562z2i ,
0 1
2;31 0;75 0;75 0;375 0;75
B 0;75 0;5 0;25 0 0:; 5 C
B C
siendo (X 0 X) 1 =B
B 0;75 0;25 0;5 0 0;5 C ; y sbR = 1;9:
C
@ 0;375 0 0 0;25 0 A
0;75 0;5 0;5 0 1
1) Realice los contrastes individuales indicando las variables que in‡uyen signi…cativamente en la pro-
ductividad. Interprete el resultado explicando el signi…cado de cada parámetro. ( = 0; 05):
2) Sabiendo que el coe…ciente de determinación es igual a 0;877, realice el contraste conjunto. ( = 0;05):
3) Si se escribe el modelo en la siguiente forma alternativa,
yi = 01 z1i + 02 z2i + 1 x1i + 2 x2i + 3 x3i + ui ,
donde 01 y 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál será el
valor estimado de 01 y 02 ?:
H0 : 02 =0
Realice el contraste:
H1 : 02 6= 0
1. Para comparar las mediciones de la tensión arterial realizadas con dos aparatos, se decide tomar la
tensión a 10 enfermos con un aparato en cada brazo (se selecciona aleatoriamente el aparato que se
pone en cada brazo). Los resultados se presentan en la tabla siguiente. Proponga un modelo para
contrastar si existen diferencias entre las mediciones realizadas con los dos aparatos; obtenga la tabla
ADEVA e interprete los resultados (α = 0,05).
Aparato 1 Aparato 2 Medias

Enfermo 1 12.46 12.06 12.26
Enfermo 2 9.39 10.50 9.94
Enfermo 3 10.39 10.17 10.28
Enfermo 4 10.53 12.78 11.65
Enfermo 5 12.21 11.61 11.91
.
Enfermo 6 11.60 11.86 11.73
Enfermo 7 9.35 8.13 8.74
Enfermo 8 11.95 10.81 11.38
Enfermo 9 8.91 9.59 9.25
Enfermo 10 12.07 13.32 12.7
Medias 10.89 11.08 10.98
SOLUCIÓN:
Es un modelo en bloques aleatorizados. El factor es el aparato, con dos niveles (I=2) y el bloque los
enfermos, con 10 niveles (J=10)
La tabla ADEVA es
Se concluye que no existen diferencias significativas entre las mediciones realizadas con los dos aparatos.
Sí existen diferencias significativas entre los enfermos.
2. Para el modelo de diseño experimental con dos factores e interacción, deduzca la expresión del intervalo
de confianza para la varianza del error experimental.
SOLUCIÓN:
En un modelo con dos factores e interacción se verifica que:
V NE
−→ χ2IJ(m−1) ;
σ2
siendo I y J respectivamente los niveles de los dos factores y m el número de replicaciones.

Una expresión alternativa es
IJ(m − 1) s2R
−→ χ2IJ(m−1) .
σ2
Se puede deducir que la expresión del intervalo con confianza (1 − α) % es:
V NE V NE
≤ σ2 ≤ .
χ2IJ(m−1);α/2 χ2IJ(m−1);1−α/2
Se ha realizado un experimento para estudiar la influencia sobre el rendimiento (Y ) de un proceso químico,

de la Presión y Temperatura de trabajo. Se han tomado dos niveles (1 Atm y 2 Atm) para la Presión y
dos también (300K y 400K) para la Temperatura, realizándose tres replicaciones para cada combinación de
factores. En tabla se muestran los resultados:
1.
Presión
1 Atm 2 Atm
Temperatura 300 K 11.12 10.33 11.11 5.60 4.46 3.88
400 K 1.19 1.27 2.89 4.39 6.31 7.23
2. Inicialmente se consideró como único factor de análisis la Temperatura. Estudie la influencia de la

Temperatura sobre el rendimiento, sin incluir la Presión en el análisis.
3. En un estudio posterior se decidió considerar conjuntamente los dos factores. Sabiendo que la vari-
abilidad explicada por el factor Presión es 3.04, construya una nueva tabla de análisis de la varianza,
indicando qué efectos son significativos.
4. Construya el gráfico de interacción entre Presión y Temperatura, utilícelo para interpretar los resul-
tados del apartado 2. ¿Existen condiciones experimentales óptimas que maximicen el rendimiento?
Nota. Utilice α =0.05 en todos los contrastes.
1. SOLUCIÓN:
2. Se puede hacer mediante un contraste de igualdad de media de dos distribuciones normales,
H0 : µ1 = µ2
H1 : µ1 = µ2
llamando ȳ1 a la media de rendimientos a temperatura 300K e ȳ2 a temperatura 400K , se tiene que
ȳ1 − ȳ2
t= ∼ t10
ŝR 26
siendo

2
6
(yij − ȳi )2
i=1 j=1
ŝ2R = = 9,214
10
sustituyendo se tiene que t = 2,209 que es inferior a t10,0,025 = 2,23 por lo tanto no existen diferencias
significativas para α = 0,05.
3. Modelo de dos factores con interacción, la tabla de analisis de la varianza es
Fuente SS Df Mean Square F-Ratio
Efectos Principales
Temperatura 44.93 1 44.93 45.03**
Presion 3.04 1 3.04 3.05
Interacción
TxP 81.12 1 81.12 81.30**
Residual 7.98 8 0.997

Total 137.07 11
Los valores de la F obtenidos en la tabla se comparan con F1,8,α=0,05 = 5,32. El efecto principal de la
Temperatura es muy significativo, el efecto principal de la Presión no es significativo y la interacción
es muy significativa.
4.
La interacción es clarísima. Los intevalos de confianza muestra que a la presión de 2 Atm no existen
diferencias significativas entre las dos temperaturas. Sin embargo, a la presión de 1 Atm, el rendimiento
medio a 300K es muy superior que a 400K. Las condiciones óptimas son 1Atm y 300K. La amplitud
de los intervalos de confianza es

1 2 1
t8,α=0,025 × ŝR × = 2,31 × 0,998 × = 1,31
3 3
1. Obtenga la varianza del estimador del coeficiente de regresión simple β 1 e interprétela en función de
cada uno de los términos de los que depende.
SOLUCIÓN: (ver libro de la asignatura)
σ2
var(β̂ 1 ) =
ns2X
La varianza del estimador depende de la varianza condicionada de la variable dependiente, del número
de observaciones y de la varianza muestral de la variable independiente. Cuanto mayor el número de
muestras y mayor dispersión del regresor más precisa será la estimación.
2. Para estudiar el efecto de dos regresores x1 y x2 sobre una variable respuesta y, se han estimado tres
modelos diferentes de regresión que se representan en las Tablas 1 a 3.
Tabla 1: Modelo 1
Tabla 2: Modelo 2
Tabla 3: Modelo 3
Sabiendo que el coeficiente de correlación entre x1 y x2 es 0.954, elija el modelo más adecuado justificando
la respuesta ¿Se puede afirmar con un 95 % de confianza que los regresores x1 y x2 influyen en la variable
respuesta?
SOLUCIÓN: R2 el coeficiente de determinación no nos sirve para comparar estos tres modelos, porque
el modelo con más regresores siempre tiene un coeficiente mayor. Para hacer una comparación global de
los modelos en este caso se utiliza R̄2 , el coeficiente de determinación corregido o ajustado, según éste el
mejor modelo es el 3.
En este caso es útil realizar los tres modelos de regresión. Las dos variables muestran una relación lineal
significativa con la variable respuesta, esto se observa en los modelos de regresión simple. En el modelo de
regresión múltiple los contrastes individuales indican que los coeficientes no son significativamente distintos
de cero, pero el contraste conjunto nos dice que al menos uno es dsitinto de cero. Dicho de otra forma: los
dos a la vez no son necesarios, basta con tener un regresor. Eso es debido a la alta correlación entre los dos
regresores.
Si el modelo se quiere para hacer predicciones, el modelo 1 es válido y el preferido en general.
Decidir si influyen o no los regresores y cómo influyen, depende de como se hayan tomado los datos y
del problema concreto. En este caso podemos afirmar que los dos regresores muestran una relación lineal
significativa con la variable respuesta al 95 % de confianza.
Una empresa está estudiando la productividad de sus 16 empleados. Para ello analiza tres variables
cuantitativas X1 , X2 , X3 y si poseen o no Máster profesional (1= No máster, 2 =Máster), que se modela
a través de dos variables z1 y z2 que identifican a No Máster y Máster respectivamente. A partir de los
datos de productividad de todos los empleados para un año se ha estimado el siguiente modelo de regresión
múltiple:
yi = 4.688 + 3.732x1i − 0.229x2i + 3.751x3i + 5.562z2i ,
 
2.31 -0.75 -0.75 -0.375 0.75
 -0.75 0.5 0.25 0 -0.5 
 
siendo (X X)−1 =
 -0.75 0.25 0.5 0 -0.5 
 ; y sR =1.9.
 -0.375 0 0 0.25 0 
0.75 -0.5 -0.5 0 1
1. Realice los contrastes individuales indicando las variables que influyen significativamente en la pro-
ductividad. Interprete el resultado explicando el significado de cada parámetro. (α=0.05).
2. Sabiendo que el coeficiente de determinación es igual a 0.877, realice el contraste conjunto. (α=0.05).
3. Si se escribe el modelo en la siguiente forma alternativa,
yi = β 01 z1i + β 02 z2i + β 1 x1i + β 2 x2i + β 3 x3i + ui ,
donde β 01 y β 02 son las ordenadas en el origen para los dos niveles de la variable cualitativa, ¿cuál
será el valor estimado de β 01 y β 02 ?

H0 : β 02 = 0
Realice el contraste: .
H1 : β 02 = 0
SOLUCIÓN:
1.
Los contrastes individuales son:
H0 : β i = 0
β
=⇒Si H0 es cierta, ti = √i −→ tn−k−1 . En este caso t16−4−1
H1 : β i = 0 sR qii
3, 73
t1 = √ = 2, 77 > t11;0,025 = 2,2
1, 9 0, 5
0, 229
t2 = − √ = −0, 17
1, 9 0, 5
3, 75
t3 = √ = 3, 94 > t11;0,025 = 2,2
1, 9 0, 25
5, 56
t4 = √ = 2, 92 > t11;0,025 = 2,2
1, 9 1
Todos los regresores resultan significativos a excepción de x2 .
Interpretación de los parámetros :
0 = 4,688 es la ordenada en el origen de los trabajadores que no poseen máster. Tal como está parame-
β
trizado el modelo la referencia son los trabajadores que no poseen máster.
= 3,732;a igualdad del resto de regresores, por cada unidad que aumenta x1 ,la productividad aumenta
β 1
en 3.732 unidades.
2 = −0,17;a igualdad del resto de regresores, por cada unidad que aumenta x2 ,la productividad disminuye
β
en 0.17 unidades, aunque este regresor no ha resultado ser significativo.
3 = 3,94;a igualdad del resto de regresores, por cada unidad que aumenta x3 ,la productividad aumenta
β
en 3.94 unidades.
2 = 5,562;existe diferencia significativa entre la productividad de los trabajadores que poseen master y la
α
de los que no poseen master, manteniendo constante el resto de regresores. La productividad es 5.562
unidades superior en los trabajadores que poseen máster.
2. El coeficiente de determinación R2 = 0,877. El contraste general de regresión es:

H0 : β 1 = β 2 = β 3 = α2 = 0
H1 : alguno distinto de 0
VE
Si H0 es cierta, k −→ Fk,n−k−1 . En términos de R2 ,esta expresión es
V NE
n−k−1
R2 11
F = = 19, 60 > F4,11;0,05 = 3, 36. =⇒Se rechaza H0 . Alguno o todos los regresores son
1 − R2 4
significativos.
3. Comparando la parametrización del enunciado con la planteada en el apartado 3 se concluye que:
01 = 4, 688, es la estimación de la ordenada en el origen de los trabajadores que no poseen máster
β
02 = 4, 688 + 5, 562 = 10, 25, la ordenada en el origen de los trabajadores que poseen máster.
β
El contraste que piden es

H0 : β 02 = 0
H1 : β 02 = 0
02 = β
Como β 01 + α
2 , se verifica que
02 ) = var(β
var(β 01 + α 01 ) + var(
2 ) = var(β 01 , α
α2 ) + 2cov(β 2 ) = σ2 (2, 31 + 1 + 2 × 0, 75) = 4, 81σ2 .
Por lo tanto, si H0 es cierta,

β
β 10, 24
t = 02 −→ t11 =⇒ t = √02 = √ = 2, 45 > t11;0,025 = 2,2, se rechaza H0

sR 4, 81 1, 9 4, 81
var(β 02 )
Examen Final Diseño de Experimentos y Regresión 6 de julio de 2012
1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6
La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),

61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores más rápidos.
2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.
3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)
Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184
Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza
1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.
2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple
RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
1. Cuando un lenguaje de alto nivel es compilado, el tiempo de ejecución depende del compilador. Un
ingeniero de software desea comparar tres compiladores (A, B y C), para ello ha seleccionado 5 pro-
gramas muy distintos, cada uno de los cuales ha sido compilado por los tres compiladores. Los tiempos
de CPU resultantes han sido:
1 2 3 4 5 Medias
A 122.9 147.4 189.6 200.9 307.3 193.6
B 113.8 135.1 173.8 199.3 296.6 183.7
C 131.2 152.8 192.7 219.8 318.9 203.1
Medias 122.7 145.1 185.3 206.7 307.6
La variabilidad total es 62899.2 y su descomposición es 937.2 (Variabilidad Explicada por Compilador),

61868.9 (Variabilidad Explicada por el Programa) y 93.2 (Variabilidad no Explicada).
Indica qué compilador es el más rápido, justificando la respuesta. Da un intervalo de confianza (95 %)
para la diferencia de las medias entre los dos compiladores más rápidos.
SOLUCIÓN:
La tabla de Análisis de la Varianza es:
F. V. G.L. Var. o CM Contraste F
VE(compilador) 937.2 2 468.6 40.22 Significativo >F2,8,α=0,05
VE(programa) 61868.9 4 15467.23 1327.66 Significativo >F4,8,α=0,05
VNE 93.2 8 11.65
VT 62899.2 14
Existen diferenciassignificativas entre los Compiladores. Para saber cuáles son los mas rápidos es
necesario realizar los contrastes dos a dos:

H0: µi = µj √
.Se rechaza H0 si |yi. − yj. | > t8;0,025 × sR × 15 + 15 = 2,306 × 11,65 × 15 + 15 = 4,98.
H0: µi = µj
Todos los compiladores son significativamente distintos entre si. Los dos mas rápidos son el compilador
A y el B
El intervalo de confianza es:
µA − µB ∈ 9,5 ± 4,98 = [4,52; 14,48] con una confianza del 95 %.
2. En un modelo de regresión múltiple, explica paso a paso como se obtiene la fórmula de la covarianza
entre dos estimadores β̂ i y β̂ j para i =
j. Indica en cada paso qué hipótesis básica del modelo estás
utilizando.
SOLUCIÓN:
Ver transparencia 36 del capítulo no 3: Regresión Lineal. de la colección de transparencias de la
asignatura.
3. Para determinar el valor de un cierto parámetro nuclear se han realizado 8 experimentos, el valor
medio de las medidas ha sido 3.567 con una desviación típica corregida igual a 0.2886. El valor medio
se corresponde de forma aceptable con el valor esperado, pero la desviación típica obtenida se considera
excesiva. En una revista científica los resultados que proporcionan los autores y que obtuvieron con 10
experimentos son de una media igual a 3.44 y una desviación típica corregida igual a 0.1888. Aceptando
normalidad, proporciona un intervalo de confianza para el cociente de las dos varianzas, con α = 0,05.
Explica, justificando la respuesta, cómo se obtienen los dos valores necesarios de la tabla de la F.
SOLUCIÓN:
Los datos indican: n1 = 8, x1 = 3,567, s1 = 0,2886 y n2 = 10, x2 = 3,44, s2 = 0,1888.
(n1 − 1)s1 2 s1 2
(n1 − 1)σ21 σ21 s2 2 σ22 s2 2
Se verifica F(n −1),(n −1) =⇒ −→ F7,9 =⇒ Fa × ≤ ≤ Fb ×
(n2 − 1)s2 2 1 2
s2 2 s1 2 σ21 s1 2
(n2 − 1)σ22 σ22
Siendo Fa = F7,9;0,975 y Fb = F7,9;0,025 .

El valor Fb = F7,9;0,025 = 4,20 se obtiene directamente de las tablas
1 1
El valor Fa = F7,9;0,975 = = = 0,2075.
F9,7;0,025 4,82
Sustituyendo en la expresión del intervalo:
0,18882 σ22 0,18882 σ22
0,2075 × ≤ ≤ 4,20 × =⇒ [0,09 ≤ ≤ 1,8228] con confianza 95 %.
0,28862 σ21 0,28862 σ21
Staphylococcus Aureus (SA) es una bacteria resistente a la penicilina y sensible únicamente a un an-
tibiótico denominado vancomicina. Para determinar si un paciente está infectado con dicha bacteria es
preciso realizar un cultivo de una muestra sanguínea en el laboratorio en un gel con tryptone. El protocolo
actual recomienda que el cultivo se realice a 35 grados centígrados con una concentración de tryptone del
1 %. Si la bacteria está presente aparece en el cultivo y es fácilmente detectable a simple vista. Se ha realiza-
do un experimento para establecer la temperatura y concentración de tryptone óptimos para el crecimiento
de la bacteria. En la tabla se muestra el resultado de un experimento factorial replicado, donde se incluye
la temperatura de incubación, 27, 35 y 43 grados centígrados, y la concentración de Tryptone 0.6, 0.8, 1.0,
1.2 y 1.4 ( % en peso), la variable respuesta (Recuento) es el número de colonias de bacterias observadas en
cada cultivo (por ejemplo, un valor de 62 significa 62 millones de colonias por mililitro)
Concentración
0.6 0.8 1.0 1.2 1.4
27o 33 72 32 131 28 179 59 221 43 195
Temp 35o 62 113 54 151 98 147 176 211 119 162
43o 77 76 81 125 117 127 146 201 101 184
Se ha analizado el experimento como un diseño de dos factores con interacción obteniéndose la siguiente
tabla de análisis de varianza
1. Teniendo en cuenta el p-valor de la interacción, se decide eliminar este término de la tabla de la análisis
de la varianza. Construye la nueva tabla de la varianza de dos factores sin interacción e indica si con el
nuevo modelo los efectos principales de TEMP y CONC son significativos (utiliza α = 0,05). Explica
a qué se debe la diferencia de los resultados obtenidos.
SOLUCIÓN: La nueva tabla de la varianza se obtiene sumando los variabilidades correspondientes
a la interacción y reisiduos del modelo del enunciado, de manera que la VNE y sus grados de libertad
se obtienen como
V NE = 883 + 56553 = 57436

gl = 8 + 15 = 23
Los demás términos de la tabla no se modifican, de manera que la tabla final es:
FUENTE VARIAB GL VARIANZAS F
TEMP 5100 2 2550.2 1.021
CONC 32794 4 8198.6 3.283
RESIDUAL 57436 23 2497.2
Sólo es significativo el efecto de la CONCENTRACIÓN, pues el límite para α = 0,05 es F4,23 = 2,8 <
3,283
La diferencia se debe a que la varianza residual se reduce considerablemente al aumentar los grados
de libertad de los residuos, lo que aumenta los estadísticos F y disminuyen los límites de aceptación
que se obtienen de las tablas.
2. La correlación entre Recuento y Concentración es igual a 0.495. Estima el modelo de regresión simple
entre la variable respuesta Recuento y la variable independiente Concentración. Contrasta si existe
relación lineal significativa entre las dos variables (utiliza α = 0,05 y ten en cuenta que la media
aritmética de los 30 valores de la variable respuesta es 117.33 millones de colonias por mililitro)
SOLUCIÓN:
Teniendo en cuenta que la variabilidad total es V T = 5100 + 32794 + 57436 = 95330, la varianza de
la variable respuesta s2y se obtiene de la siguiente forma
95330
s2y = = 3177,6
30
y la varianza del regresor s2x
6 × (0,6 − 1)2 + 6 × (0,8 − 1)2 + 6 × (1 − 1)2 + 6 × (1,2 − 1)2 + 6 × (1,4 − 1)2

s2x = = 0,08
30
Utilizando lo anterior y el coeficiente de correlación, se puede obtener el estimador de la pendiente

sxy sy 3177,6
β̂ 1 = 2 = r = 0,495 = 98,65
sx sx 0,08
y la ordenada en el origen
β̂ 0 = ȳ − β̂ 1 x̄ = 117,33 − 98,65 × 1 = 18,67
La variabilidad no explicada, VNE, de regresión simple se obtiene como
V E = 0,4952 × 95330 = 23358

V NE = V T − V E = 95330 − 23358 = 71972
y la varianza residual
71972
ŝ2R = = 2570
28
El contraste de la t es por tanto
β̂ 1
t= √ = 3,014
ŝR /( nsx )
que es significativo para α = 0,05, pues t0,25;28 = 2,05.
3. Escribe de manera específica, utilizando los datos del problema, el vector Y y la matriz X correspon-
dientes al modelo de regresión múltiple
RECUENT Oi = β 0 + β 1 T EM Pi + β 2 CONCi + ui
Explica, justificando la respuesta, si en este modelo y con estos datos se pueden dar problemas de
multicolinealidad.
SOLUCIÓN: Y = Xβ + U, siendo cada término
     
33 1 27 0,6 u1
 72   1 27 0,6   u2 
     
 32   1 27 0,8   u3 
     
 131   1 27 0,8   u4 
     
 28   1 27 1,0   u5 
     
 179   1 27 1,0   u6 
     
 59   1 27 1,2   u7 
     
     
 221   1 27 1,2   u8 
     
 43   1 27 1,4   u9 
     
 195   1 27 1,4   u10 
     
 62   1 35 0,6   u11 
     
 113   1 35 0,6   u12 
     
 54   1 35 0,8   u13 
     
 151   1 35 0,8    u14 
    β0  
 98   1 35 1,0   u15 
 =   β1  +  
 147   1 35 1,0   u16 
    β  
 176   1 35 1,2  2  u17 
     
 211   1 35 1,2   u18 
     
 119   1 35 1,4   u19 
     
 162   1 35 1,4   u20 
     
 77   1 43 0,6   u21 
     
     
 76   1 43 0,6   u22 
     
 81   1 43 0,8   u23 
     
 125   1 43 0,8   u24 
     
 117   1 43 1,0   u25 
     
 127   1 43 1,0   u26 
     
 146   1 43 1,2   u27 
     
 201   1 43 1,2   u28 
     
 101   1 43 1,4   u29 
184 1 43 1,4 u30
Examen de Diseño y Regresión, GITI y GIQ 4 de abril de 2013
1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de su

estado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que el
tradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo de
metodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-
ente CPU-Time (en segundos) para cada combinación de Método y Escenario.
Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.
Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?
F.V Sum. cuadrados G.l. Var F

Método 7,79426·108
Escenario 99 163761,0
Residual
Total 8,119·108
Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817, 58 e yT · = 4765, 51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.
2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados (α = 0,01).
Figura 1. Tabla ADEVA

Figura 2. Comparaciones dos a dos
b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo. Si se diera este último caso, proponga una solución posible
para ello.
Figura 3. Diagnosis del modelo.


Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistencia
a la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.
En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos de
compactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos ha
repetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tres
datos de cada tratamiento:
Compactación
Estática V. reg V. baja V. muy baja
y i· 65,3 129,0 97,3 57,3
s2i 6,33 13,0 16,33 2,33
Tabla 1: Medias y varianzas corregidas de los tratamientos con asfalto basáltico

1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,
en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción
(α = 0, 05).
2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)
pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:
Compactación
y i· 67,7 111,0 60,7 41,7
s2i 8,33 21,0 4,33 4,33
Tabla 2: Medias y varianzas de los tratamientos con asfalto silíceo
La tabla ADEVA para los datos correspondientes al asfalto silíceo es:
Tabla 3: Análisis de la varianza con asfalto silíceo
a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintas

en el asfalto silíceo.
b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos
(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).
3. Se decide combinar la información recogida en los dos e•xperimentos, los detallados en los apartados 1
y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factores
tipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinación
de factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).
1.) El estudio de la observabilidad de un sistema eléctrico es un paso previo a la estimación de su

estado, y resulta crucial para cualquier Centro de Control de un sistema eléctrico, con el fin de garantizar
la seguridad del sistema.
Unos investigadores del Laboratorio de Estadística de la ETSII-UPM han desarrollado un nuevo método
(alternativo al que tradicionalmente se ha utilizado) para estudiar la observabilidad.
Han realizado pruebas para determinar si el nuevo método es computacionalmente más rápido que el
tradicional. Para ello han usado un sistema eléctrico tipo, que se suele utilizar para probar este tipo de
metodologías. En este sistema tipo han aplicado ambos Métodos (Tradicional y Nuevo) en 100 situaciones
distintas para el sistema eléctrico (denominadas Escenarios), obteniendo un valor para la variable dependi-
ente CPU-Time para cada combinación de Método y Escenario.
Indique qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen.
Modelo en Bloques Aleatorizados: yij = µ + αi + β j + uij . No hay réplicas de cada "tratamiento".
Sólo se quiere determinar qué Método es mejor, el bloque Escenario se incluye sólo por si explica una
porción importante de la Variabilidad Total del CPU-Time.
Se asume: Normalidad, homocedasticidad e independencia.
Complete la tabla ADEVA que se muestra a continuación e indique si existen diferencias significativas
entre los métodos. ¿Existen diferencias significativas entre los escenarios considerados?
F.V Sum. cuadrados G.l. Var F

7.79426·10 8
Método 7.79426·108 2-1=1 7.79426·10 8 1.6426·10 5
= 4745.1
163761
Escenario 16212339 99 163761.0 1.6426·10 5
= 0.997
Residual 16261661 (I-1)(J-1)=1·99 1.6426·10 5
Total 8.119·108 199
Sabiendo que las medias de los CPU Time correspondientes al nuevo (N) método y el tradicional (T)
son respectivamente y N· = 817,58 e yT · = 4765,51, construya los intervalos de confianza para la media
de cada método e indique cuál es el mejor.

µ + αN ∈ y N· ± sR ·t(I−1)(J−1); α2 √1J → µ + αN ∈ 817,58 ± 1.6426·10 5 t99; α2 √100
1
→ µ + αN ∈ 817,58 ±
405,29·1,96
√
100
;
µ + αN ∈ (738,1432; 897.0168)
µ + αT ∈ y T · ± sR ·t(I−1)(J−1); α2 √1J → µ + β N ∈ (4686,1; 4844,9)
2.) Un estadístico, preocupado por el diferente resultado que le dan cuatro tipos de pilas diferentes,
decide realizar un experimento para comparar la duración por unidad de coste (DUC, medidas en minutos
por dólar) de esas pilas.
Para ello compra cuatro pilas de cada tipo (de diferentes lotes), las ordena de modo aleatorio y mide
el tiempo durante el cual suministran corriente eléctrica a un aparato. Los tipos de pila se denominan
respectivamente tipos 1, 2, 3 y 4.
A continuación se muestran la tabla ADEVA y los resultados de las comparaciones dos a dos correspon-
dientes a la estimación del modelo con un factor.
a) Interprete los resultados. (α = 0,01).
Figura 1. Tabla ADEVA
De la Tabla ANOVA se tiene que hay diferencias significativas entre los 4 tipos de pilas.
Figura 2. Comparaciones dos a dos
Con α = 0,01 existen diferencias significativas entre A y B, entre A y C pero no existen diferencias
significativas entre A y D (sí las habría para α = 0,1).
También existen diferencias significativas entre By C y B y D, pero no entre C y D (sí las habría para
α = 0,1).
b) A la vista de los gráficos que se muestran a continuación realice la diagnosis del modelo, indicando
claramente si se cumplen las hipótesis del modelo y si se cumplen o no. Si se diera este último caso, propón
una solución posible para ello.
Figura 3. Diagnosis del modelo.
HOMOCEDASTICIDAD: Gráfico de residuos frente a valores previstos: no se observa forma de "trompe-

ta", no hay heterocedasticidad. Además, en el gráfico de residuos frente a nivel del factor se ha de comprobar
que el cociente entre el rango de los residuos para el nivel de factor en que éste sea máximo (pilas tipo A en
este caso) y el caso en que este sea mínimo (pilas tipo D en este caso) no sea superior a 3 (aprox).
NORMALIDAD: Q-Q plot, o contraste de la Chi-cuadrado o el de Kolmogorov. Aunque el tamaño de
muestra no es grande en este caso podemos considerar aceptable lo que observamos, aunque para mayor
seguridad al respecto habría que pasar uno de los contrastes mencionados.
INDEPENDENCIA: Se ha de suponer que el experimento se ha llevado a cabo en las condiciones de
aleatorización adecuadas.

Un alumno de la Universidad de Arizona ha realizado un experimento factorial para medir la resistencia
a la tracción (psi) del asfalto. Los asfaltos utilizan habitualmente dos tipos de áridos: basálticos o silíceos.
En un primer momento ha utilizado un asfalto con árido basáltico y ha considerado cuatro métodos de
compactación (estático, velocidad regular, velocidad baja y velocidad muy baja). Con cada uno de ellos ha
repetido el experimento 3 veces. En la Tabla 1 se muestran la media y la varianza (corregida) para los tres
datos de cada tratamiento:
Compactación
y i· 65,3 129,0 97,3 57,3
s2i 6,33 13,0 16,33 2,33
Tabla 1: Medias y varianzas corregidas de los tratamientos con árido basáltico

1. Contraste si el tipo de compactación influye significativamente en la resistencia a la tracción e indique,
en caso afirmativo, el método de compactación que proporciona una mayor resistencia a la tracción
(α = 0, 05).
2. Se ha realizado un experimento similar al anterior (cuatro métodos de compactación, tres replicaciones)
pero utilizando asfalto silíceo. En el análisis se han obtenido los siguientes resultados:
Compactación
y i· 67,7 111,0 60,7 41,7
s2i 8,33 21,0 4,33 4,33
Tabla 2: Medias de los tratamientos con asfalto silíceo
La tabla ADEVA para los datos correspondientes al asfalto silíceo es:
Tabla 3: Análisis de la varianza con asfalto silíceo
a) Indique qué metodos de compactación producen resistencias a la tracción significativamente distintas

en el asfalto silíceo.
b) Contraste si las varianzas experimentales de los modelos correspondientes a los asfaltos basálticos
(apartado 1) y silíceos (apartado 2) son iguales (α = 0, 05).
3. Se decide combinar la información recogida en los dos experimentos, los detallados en los apartados 1
y 2 respectivamente. Con esta información contraste si existe interacción significativa entre los factores
tipo de árido y compactación, dibuje el gráfico de la interacción e interprétela. Indique qué combinación
de factores es la más adecuada para conseguir la máxima resistencia a la tracción (α = 0, 05).
SOLUCIÓN PROBLEMA
1.- Se obtiene la siguiente tabla ADEVA:
S.C. G.L. Var. Contraste

VE 9668.67 3 3222,89 339,25
VNE 76 8 9,5
VT 9744,67 11
donde se han calculado

4

4
3
s2i
(ni − 1)
i=1
VE = (y i• − y •• )2 = 9668, 67 y s2R = = 9, 5.
n−4
i=1 j=1
Como F0 = 339, 25 > F3,8;0,05 = 4, 07 =⇒Se rechaza H0 =⇒El método de compactación influye signi-
ficativamente en la resistencia la tracción.
Para determinar qué método proporciona una mayor resistencia se realizan los contrastes múltiples:

H0 : µi = µj
.
H1 : µi = µj

Se rechaza H0 si y i• − yj• > t8;α/2 × sR × 13 + 13 = 2, 30 × 3, 08 23 = 5, 78.
De los contrastes realizados se conclyuye que todas las diferencias son estadísticamente significativas, las
medias son distintas. Por tanto la mayor resistencia a la tracción se produce con velocidad.
2. De la tabla ADEVA se obtiene s2R = 9, 5 con 8 grados de libertad

H0 : µi = µj
a) Se realizan los contrastes .
H1 : µi = µj

Se rechaza H0 si y i• − yj• > t8;α/2 × sR × 13 + 13 = 2, 30 × 3, 08 23 = 5, 78.
Todos los métodos de compactación son distirntos.
b) Se realiza el contraste

H0 : σ 2B = σ 2S
.
H1 : σ 2B = σ 2S
Del primer apartado se obtiene la varianza residual del experimento con árido basáltico: s2RB = 9, 5
De la tabla ADEVA del segundo apartado se obtiene la varianza residual del expeirmento con árido
silíceo: s2RS = 9, 5
8 × s2RB
Si H0 es cierta F8,8.
8 × s2RS
8 × s2RB
Es un contraste bilateral. Como = 1 ∈ [F8,8;0,975 ; F8,8;0,025 ] = [0, 22; 4, 43] =⇒ No se puede
8 × s2RS
rechazar H0 .
3. Combinando ambos experimentos se obtiene un experimento con dos factores e interacción: Factor
A: tipo de árido ( 2 niveles); Factor B: tipo de compactación ( 4 niveles) y 3 replicaciones.
La tabla de medias resultante es
Compactación
Estática V. reg V. baja V. muy baja y i••
Basltico 65,3 129,0 97,3 57,3 87,3
Silíceo 67,7 111,0 60,7 41,7 70,3
y •j• 66,5 120 79 49,5 y ••• = 78, 8
2
4
3
Con los datos de la tabla se calcula V E(A × B) = (y ij• − y i•• − y •j• + y ••• )2 = 1145.
i=1 j=1 k=1
Con grados de libertad (I − 1) × (J − 1) = 3
La varianza residual del experimento con dos factores y replicación es:
8 × s2RB + 8 × s2RS
s2R = = 9, 5. Siendo los grados de libertad I × J × (m − 1) = 2 × 4 × (3 − 1) = 16
16
El contraste para determinar la existencia de interacción es:
V E(AB)/3
= 40, 175 > F3,16;0,05 = 3, 24. =⇒ Se rechaza H0 =⇒ La interacción es significativa.
s2R
El gráfico es
Gráfico de Interacción
141 Árido
Basáltico
121 Silíceo
Resistencia
101
81
61
41
1 2 3 4
compactacion
La mayor resistencia se produce con Árido Basáltico-Compactación 2 ( v. regular), que es significastiva-

mente distinta de Árido Silíceo-Compactación
2 ( v. regular)
como se comprueba al hacer el contraste:.
1 1 2
|y BR − ySR | > t16;α/2 × sR × 3 + 3 = 2, 12 × 3, 08 3 = 5, 33. =⇒ 129 − 111 > 5, 33.
> mod_simple <- lm( Precio ~ RAM)
Coefficients:
(Intercept) 92.51 46.67 1.982 0.0674
RAM 98.11 41.23 2.379 0.0321
---
F-statistic: 5.661 on 1 and 14 DF, p-value: 0.03211



> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)

Coefficients:
(Intercept) 53.664 47.676 1.126 0.284
RAM 72.184 10.582 6.822 2.87e-05
DiscoDuro 10.496 1.151 9.120 1.84e-06
Pantalla -3.264 5.953 -0.548 0.594
Z3G 117.888 13.609 8.663 3.04e-06
––-



> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)

(Resto de salida de R eliminada intencionadamente)
( ) ( )
√ ̂


> mod_simple <- lm( Precio ~ RAM)
Coefficients:
(Intercept) 92.51 46.67 1.982 0.0674
RAM 98.11 41.23 2.379 0.0321
---

̂
> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G)

Coefficients:
(Intercept) 53.664 47.676 1.126 0.284
RAM 72.184 10.582 6.822 2.87e-05
DiscoDuro 10.496 1.151 9.120 1.84e-06
Pantalla -3.264 5.953 -0.548 0.594
Z3G 117.888 13.609 8.663 3.04e-06
––-

( ) ̂ ̂( ̂ )
> mod_multiple <- lm(Precio ~ RAM + DiscoDuro + Pantalla + Z3G + X5 + X6 + X7)
(Resto de salida de R eliminada intencionadamente)
( ) ( )
√ ̂

̂ ( )
( ̅) ( )
( ) ( )
̂ ̂ √
̂ ( )
( ̅) ( )
( ) ( )
̂ ̂ √
√
Segundo Examen Parcial - Diseño y Regresión 20 de mayo 2013
Problema
En el departamento de I + D + i de una empresa se está investigando la influencia de dos variables

cuantitativas (X1 , X2 ) sobre la resistencia de un material (Y ). Se han realizado 30 ensayos en un laboratorio.
Los resultados se resumen como sigue:
[ ]
−1 = 0,8664 −0,0146
Sxx ; Sxy = [3,48 9,5973]T ; sbR = 2,32 ; sby = 10,83
−0,0146 1,1160
1. Estimar el modelo (en desviaciones a la media) y realizar los contrastes individuales (excluyendo el
del término independiente) y el contraste conjunto. Interpretar los resultados.
2. Con las mismas variables cuantitativas del apartado anterior, se han añadido 60 ensayos de otros dos
laboratorios (30 de cada laboratorio), de forma que resultan en total 90 datos. Se añade al modelo la
variable cualitativa correspondiente. Los resultados son los siguientes:
ybi = 1, 18 + 2, 49x1i + 10, 83x2i + 2, 11z2i − 1, 01z3i
 
0,0340 −0,0012 −0,0026 −0,0345 −0,0339
 −0,0012 0,0103 0,0002 0,0029 0,0010 
 
(X ′ X)−1 =
 −0,0026 0,0002 0,0129 0,0042 0,0024 
 ; sbR = 2, 46 ; sby = 10, 77;
 −0,0345 0,0029 0,0042 0,0688 0,0344 
−0,0339 0,0010 0,0024 0,0344 0,0672
Interpretar los coeficientes de regresión. Realizar los contrastes individuales y el contraste conjunto e
interpretar los resultados, comparándolos con los del apartado 1.
3. ¿Es significativa la diferencia entre el promedio de la respuesta para los laboratorios 2 y 3?
Nota: Utilizar α = 0, 05 en todos los contrastes.

SOLUCIÓN
Nota: Cada uno de los tres apartados puntúa lo mismo, es decir 2 puntos sobre los 6 puntos del Problema.
Apartado 1)
b = S −1 Sxy = [2,8801 10,6597]
β xx
b = 2, 88 = estimación del incremento promedio de la resistencia cuando X1 se incrementa en una
β 1
unidad, y X2 no varı́a.
β 2
unidad, y X1 no varı́a.
Contraste conjunto:
V N E = (30 − 2 − 1) × 2,322 = 145, 32
V E = 29 × 10, 832 − 145, 32 = 3256, 1
F = (3256, 1/2)/2,322 = 302, 47 > F2,27 (0, 95) = 3, 35
La información conjunta (sin desagregar en la contribución de cada uno) proporcionada por (X1 , X2 )
es relevante para explicar/predecir la resistencia Y
√
t1 = 3,486/(2, 32 0, 8664/30) = 7, 3 > t27 (0, 975) = 2, 05
La información que proporciona X1 adicional a la proporcionada por X2 es relevante para expli-
car/predecir la resistencia Y
√
t2 = 9, 59/(2, 32 1, 11/30) = 23,82 > t27 (0, 975) = 2, 05
La información que proporciona X2 adicional a la proporcionada por X1 es relevante para expli-
car/predecir la resistencia Y
Apartado 2)
β 1
unidad, y el resto de los factores no varı́a.
β 2
unidad, y el resto de los factores no varı́a.
b 1 = 2, 11 = estimación de la diferencia entre la ordenada en el origen del segundo laboratorio y la del
α
primero.
b 2 = −1, 01 = estimación de la diferencia entre la ordenada en el origen del tercer laboratorio y la del
α
primero.
Contraste conjunto:
V N E = (90 − 4 − 1) × 2,462 = 514, 38
V E = 89 × 10, 772 − 514, 38 = 9809
F = (9809/4)/2,462 = 405, 22F4,85 (0, 95) = 2, 48
√
t1 = 2,49/(2, 46 0, 0103 = 9, 99 > t85 (0, 975) = 1, 99
La información que proporciona X1 adicional a la proporcionada por X2 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y
√
t2 = 10, 83/(2, 46 0, 0129 = 38, 78 > t85 (0, 975) = 1, 99
La información que proporciona X2 adicional a la proporcionada por X1 , Z2 , Z3 es relevante para
explicar/predecir la resistencia Y
√
t3 = 2,11/(2, 46 0, 0688 = 3, 28 > t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio dos es significativamente distinta de la del laboratorio uno
√
t4 = −1, 01/(2, 46 0, 0672 = −1, 58 < t85 (0, 975) = 1, 99
La ordenada en el origen para el laboratorio tres no es significativamente distinta de la del laboratorio
uno.
Comparando con los resultados del apartado uno, se observa que los coeficientes de X1 , X2 son similares
ası́ como los valores de la varianza residual sb2R , lo cual indica que tanto los efectos de los factores X1 , X2
sobre la respuesta Y como la varianza del error experimental u (medida de la incertidumbre de la Y dadas
X1 , X2 ) son similares en los tres laboratorios.
Apartado 3)
H0 : α 2 = α 3
H1 : α2 ̸= α3
α2 − α
var(b b 3 ) = α2 (0, 0688 + 0, 0672 − 2 × 0, 0344)
b 2 −b √
α α3
t = sb √0,0688+0,0672−2×0,0344 = (2, 11−)−1, 01))/2, 46 0, 0688 + 0, 0672 − 2 × 0, 0344 = ,4, 9 > t85 (0, 975) =
R
1, 99; se rechaza H0 ; por tanto, la diferencia entre las estimaciones de las ordenadas en el origen de los la-
boratorios dos y tres es estadı́sticamente significativa.
Examen Final - Diseño y Regresión 31 de mayo 2013
REGRESIÓN - Cuestiones (30 minutos, 4 puntos)

1. En 1980 se realizó un estudio en EEUU para determinar si fumar reduce la capacidad
pulmonar de los jovenes. Los participantes (654 en total) fueron chicos y chicas entre
9 y 19 años, la mayorı́a de los cuales (589) eran no fumadores. La capacidad pulmonar
utilizada es el volumen en litros expulsado por un individuo durante el primer segundo
en una expiración forzada y se denomina FVE (forced expiratory volume). Se incluye
el modelo de regresión entre la variable FVE (en logaritmos) y los regresores edad,
estatura, sexo (0 mujer, 1 hombre) y fuma (0 No, 1 Sı́).
Coefficients:
(Intercept) -1.943998 0.078639 -24.721 < 2e-16
edad 0.023387 0.003348 6.984 7.1e-12
altura 0.042796 0.001679 25.489 < 2e-16
sexo 0.029319 0.011719 2.502 0.0126
fuma -0.046068 0.020910 -2.203 0.0279
---
F-statistic: 694.6 on 4 and 649 DF, p-value: < 2.2e-16
La matriz de varianzas de los estimadores es la siguiente
[,1] [,2] [,3] [,4] [,5]

[1,] 6.18e-03 1.55e-04 -1.27e-04 1.39e-04 4.22e-05
[2,] 1.55e-04 1.12e-05 -4.36e-06 5.04e-06 -2.08e-05
[3,] -1.27e-04 -4.36e-06 2.82e-06 -4.28e-06 1.81e-06
[4,] 1.39e-04 5.04e-06 -4.28e-06 1.37e-04 2.01e-05
[5,] 4.22e-05 -2.08e-05 1.81e-06 2.01e-05 4.37e-04
¿Cómo influye el hábito de fumar en la capacidad pulmonar? ¿Cómo influye la estatura?

¿Quién tiene mayor capacidad pulmonar, los hombres o las mujeres?
Sabiendo que la estimación de la media es m̂h = xTh β̂, calcule var(m̂h ) y, a partir de
este resultado, obtenga un intervalo de confianza (95 %) para la capacidad pulmonar
(en logaritmos) de una mujer de 18 años que no fuma y mide 170 cm.
2 Se ha estimado con n = 20 observaciones la ecuación de regresión
ŷi = 1,4205 + 0,1422x1 + 0,2908x2
siendo la matriz de varianzas de los regresores SXX , las covarianzas entre cada regresor
y la variable dependiente SXY , y la varianza de la variable dependiente s2Y los siguientes:
( ) ( )
9,57 −0,423 1 T 1,239
SXX = , SXY = X̃ Ỹ = , s2Y = 0,2667
−0,423 0,293 n 0,0251
Realiza el contraste general de regresión con α = 0,05 y calcula el coeficiente de deter-
minación.
REGRESIÓN - Problema
El examen de ingreso en un colegio consistió en tres pruebas: matemáticas, inglés y

cultura general. Para ensayar la capacidad del examen para predecir el papel de los alumnos
en un curso de estadı́stica, los datos de una muestra de 200 estudiantes fueron reunidos y
analizados. Se definen las variables, siendo:
Y : Puntuación en el curso de estadı́stica
X1 : Puntuación en la prueba de matemáticas
X2 : Puntuación en la prueba de inglés
X3 : Puntuación en la prueba de cultura general
se obtuvieron los siguientes resultados:
ȳ = 75; sy = 10; x̄1 = 24; sx1 = 5; x̄2 = 15; sx2 = 3; x̄3 = 36; sx3 = 4;
ry,x1 = 0,9; ry,x2 = 0,75; ry,x3 = 0,8; rx1,x2 = 0,7; rx1,x3 = 0,7; rx2,x3 = 0,85;
1. Estime el modelo de regresión simple entre el conocimiento de estadı́stica y el de inglés.

¿Es significativo dicho conocimiento?
2. Obtenga el modelo de regresión entre la puntación en el curso de estadı́stica y las demás

puntuaciones. Interprete la relación entre el conocimiento de matemáticas, inglés y
cultura general y el conocimiento de estadı́stica a partir del modelo estimado. Justifique
la respuesta.
Nota: utilice la matriz
 
0,0851 −0,0536 −0,0402
−1
Sxx =  −0,0536 0,4342 −0,2299 
−0,0402 −0,2299 0,2443
3. ¿Son significativos el conocimiento de matemáticas, inglés y cultura general en el de

estadı́stica?
Explique las similitudes o discrepancias entre el modelo de regresión múltiple (apartado
2) y el modelo de regresión simple (apartado 1).
Nota: utilice α = 0,05.
DISEÑO DE EXPERIMENTOS - Cuestiones

1) La Fundación José Antonio Artigas y Sanz va a conceder una beca de estudios en

la Universidad de Columbia para realizar un Master. A ella optan en su fase final 10
alumnos. Para ello se les evalúa en cinco materias diferentes, por lo que la nota máxima
que pueden obtener es de 50 puntos. Para que el proceso sea lo más transparente y
justo posible, dos profesores evalúan dichos exámenes. A continuación se muestran los
resultados de las correcciones de los dos profesores para cada alumno.
A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 Medias
Profesor 1 44 47 33 38 50 41 39 42 45 22 42.3
Profesor 2 43 46 33 37 50 42 39 42 44 44 42
Medias 43.5 46.5 33 37.5 50 41.5 39 42 44.5 44
El tribunal organizador ha dispuesto de un tercer profesor para el caso en que existan

discrepancias significativas. ¿Tiene que actuar el tercer profesor? Justifique la respuesta.
2) Para un modelo de análisis de la varianza con un factor en el que se tienen dos

tratamientos (I = 2), demuestre que el contraste de la F para la hipótesis nula
H0 : µ1 = µ2 = µ frente a la alternativa (alguna es distinta), es equivalente a rea-
lizar el contraste de la t.
DISEÑO DE EXPERIMENTOS - Problema

En un experimento con cobayas se ha estudiado el efecto en el crecimiento de los dientes
de añadir un suplemento de vitamina C en la alimentación de los animales. Se emplearon dos
tipos de suplementos: Zumo de Naranja (ZN) y Ácido Ascórbico (AA) y tres dosis diferentes
(0.5, 1.0 y 2.0 miligrámos). A cada combinación de los dos factores se asignaron 10 cobayas.
La variable respuesta es la longitud media de los dientes de la cobaya. Los resultados del
experimento se analizaron como un modelo de dos factores con interacción. La tabla de
análisis de la varianza es:
Response: LONG
VITAMIN 1 205.35 205.35 15.572 0.0002312 ***
DOSIS 2 2426.43 1213.22 92.000 < 2.2e-16 ***
VITAMIN:DOSIS 2 108.32 54.16 4.107 0.0218603 *
Residuals 54 712.11 13.19
la tabla de medias
0.5 1.0 2.0
OJ 13.23 22.70 26.06
VC 7.98 16.77 26.14
y la de desviaciones tı́picas
0.5 1.0 2.0
ZN 4.46 3.91 2.66
AA 2.75 2.52 4.80
1. El modelo de diseño de dos factores con interacción es
yijk = µ + αi + β j + (αβ)ij + uijk
con uijk variables aleatorias con distribución normal de media cero y varianza σ 2 , αi
mide el efecto del tipo de suplemento, β j el efecto de la dosis y (αβ)ij la interacción.
Con la información disponible estima cada uno de los parámetros del modelo. Interpreta
los resultados del análisis estadı́stico.
2. ¿Existen diferencias significativas entre las longitudes medias de los dientes de las co-
bayas que han sido alimentadas con un suplemento de 2 mg de ZN y las que han
sido alimentadas con 2 mg de AA? Justifica la respuesta utilizando un contraste de
hipótesis. Repite el contraste y contesta a las siguientes preguntas: ¿Existen diferencias
significativas entre las longitudes medias de los dientes de las cobayas que han sido
alimentadas con un suplemento de 1 mg de ZN y las que han sido alimentadas con 1
mg de AA? ¿Existen diferencias significativas entre las longitudes medias de los dientes
de las cobayas que han sido alimentadas con un suplemento de 0.5 mg de ZN y las que
han sido alimentadas con 0.5 mg de AA?
Haz la representación gráfica que consideres adecuada para explicar este efecto.
3. Contrasta si la varianza del error experimental de los datos correspondientes a nivel
ZN es distinta que los AA con α = 0,05.
DISEÑO DE EXPERIMENTOS: 31 de mayo de 2013
SOLUCIÓN CUESTIONES:
Cuestión 1:
Es un modelo en bloques aleatorizados donde el factor es el profesor y la

varaible bloque los alumnos.
La descomposición de la variabilidad es:
V T = V E(P rof.) + V E(Al.) + V N E
Donde:
2
10
V E(P rof.) = (y i• − y •• )2 = 0.45. =⇒ g.l. = I − 1 = 1.
i=1 j=1

2
10
2
10
V NE = e2ij = (yij − yi• − y •j + y•• )2 = 2, 05. =⇒
i=1 j=1 i=1 j=1
g.l. = (I − 1)(J − 1) = 9.
El contraste es:

H0 : α1 = α2
.
H1 : α1 = α2
V E(P rof.)/1
Si H0 es cierta =⇒ F0 = = 1, 98 < F1,9;0,05 = 5, 12 =⇒ No se
V NE/9
rechaza H0 =⇒No hay diferencias significativas entre los profesores.
Cuestión 2:
En el caso de un factor con dos tratamientos siendo n1 = n2 = m,

VE
el contraste de la F es: F = 12 , donde
sR
2 m
VE = (y i• − y•• )2 = m[(y 1• − y •• )2 + (y2• − y •• )2 ] =
i=1 j=1 2 2
y1• + y 2• y 1• + y 2•
=m y 1• − ( ) + y 2• − ( ) ,
2 2
siendo
y1• + y 2•
y •• = .
2
Operando:
2 2
2y1• − y 1• − y 2• 2y2• − y 1• − y2•
VE =m + =
2 2
1
2 2
y 1• − y 2• y 2• − y1• m
=m + = (y − y 2• )2 .
2 2 2 1•
Por lo que el constraste de F quedaría

m  2
(y1• − y 2• )2 . y − y
F0 = 2 =  1•
2•  → F1,2m−2 .
s2R s 2
R m
El contraste de la t es:
y 1• − y2•
t0 =
→ t2m−2
2
sR m
Por lo que (t0 )2 = F0

Considerando las variables, se verifica siempre que (tg )2 = F1,g .
Por lo tanto ambos contrastes son equivalentes.
2
SOLUCIÓN AL PROBLEMA
1. Llamando y i•• , y •j• , y ij• y y •••, a las medias de filas, columnas, tratamien-
tos y media general se tiene que
= y ••• ,
µ
i = y i•• − y ••• ,
α

β j = y •j• − y ••• ,

αβ = y ij• − yi•• − y•j• + y•••
ij
la media general es 18.81 y el valor de las estimaciones de los parámetros

restantes se muestran la figura siguiente:
Como los tres efectos son significativos ( para nivel de significación 0.05),
el efecto del suplemento en la longitud de los dientes, depende de la dosis. Al
aumentar la dosis aumenta la longitud. A dosis bajas (0.5 y 1.0), se consigue
mayor longitud con ZN. A dosis altas (2.0) las medias de los dos suplementos
son similares.
2. Llamando µ13 y µ23 a los parámetros que nos dan la longitud media de
los dientes de la cobaya alimentada con ZN con 2 mg y la alimentada con AA
con 2 mg, se pide hacer el contraste
H0 : µ13 = µ23
H1 : µ13 = µ23

2
Llamando LSD = tα/2,54 × sR × 10 = 3.25,
|y 13• − y 23• | = |26.06 − 26.14| < LSD
no existen diferencias significativas en las longitudes medias de los dientes de

las cobayas con 2 mg de ZN y las alimentadas con 2 mg de AA.
3
30,00
25,00
20,00
15,00 ZN
AA
10,00
5,00
0,00
0,5 1 2
Figure 1:
Se repite el contaste para los otros valores de la dosis
H0 : µ12 = µ22
H1 : µ12 = µ22
|y 12• − y 22• | = |22.70 − 16.77| > LSD

sí existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 1 mg de ZN y las alimentadas con 1 mg de AA.
H0 : µ11 = µ21
H1 : µ11 = µ21
|y11• − y 21• | = |13.23 − 7.98| > LSD

sí existen diferencias significativas en las longitudes medias de los dientes de las
cobayas con 0.5 mg de ZN y las alimentadas con 0.5 mg de AA.
La representación gráfica es el gráfico de interacción que se ha obtenido en
el apartado 1.
3. Llamando s2R,ZN y s2R,AA a las varianzas residuales correspondientes a los
tratamientos ZN y AA, se tiene que
4.462 + 3.912 + 2.662

s2R,ZN = = 14.085
3
2.752 + 2.522 + 4.802
s2R,AA = = 12.318
3
y su cocientes
14.085
F = = 1.14
12.318
4
está dentro de la región de aceptación obtenida con una F27,27 para nivel de
significación 0.05, por lo que se acepta que las dos varianzas experimentales
pueden ser iguales.
5
Solución cuestiones
1) Todos los contrastes individuales resultan significativos con α = 0, 05.

El promedio de capacidad pulmonar de los fumadores es, a igualdad del
resto de los factores, 0,046 unidades menor (porcentualmente) que el de los no
fumadores.
Si la estatura se incrementa en una unidad, el promedio de la capacidad
pulmonar se incrementa (porcentualmente) 0,042 unidades. Este incremento es
el mismo para hombres, mujeres, fumadores y no fumadores.
El promedio de capacidad pulmonar de los hombres es, a igualdad del resto
de los factores, 0,0293 unidades mayor (porcentualmente) que el de las mujeres.
b h = sb2 ν hh
b h ) = xTh var(β)x
var(m R
T
[ ]
xh = 1 18 170 0 0
 
−1, 94
 0, 023 
[ ] 
bh =
Predicción puntual m b
xTh β = 1 18 170 0 0  0, 042  =
 
 0, 029 
−0, 046
5, 65;
Intervalo para nueva observación:

√ √ √
mb h ±t649 sbR 1 + ν hh = m
b h ±t649 sb2R + sb2R ν hh = 5, 65±1, 96 0, 0212 + 0, 027 =
(5, 30; 6, 16)
[ ]
[ ] 1, 239
2) V E = nβS b xy = 20 0, 1422 0, 2908 = 3, 67
0, 0251
V N E = V T − V E = 20s2y − V E = 1, 664;
sb2R = V N E/(20 − 1 − 2) = 0, 098
s2R = 18, 74 > F2,17 = 3, 59; se rechaza H0
F = (V E/2)/b
R2 = V E/V T = 0, 688
1
REGRESIÓN - Problema 31 de mayo de 2013
SOLUCIÓN
1. Estime el modelo de regresión simple entre el conocimiento de estadı́stica

y el de inglés. Â¿Es significativo dicho conocimiento?
El modelo que se pide es un modelo de regresión simple de la forma:
d=β
CE b βb
0+ I CI
donde:
b = Cov(CE, CI) = rY X2 sY sX2 = 0.75 10 = 2.5
β I
s2CI s2X2 3
y
b = ȳ − β
β b x̄2 = 75 − 2.5x15 = 37.5.
0 I
Para concluir si el conocimiento de inglés es significativo en el conocimiento
de estadı́stica, contrastamos las hipótesis siguientes:
H0 : β I = 0
H1 : β I ̸= 0
Ası́:
b −0
β I
tI = ,
sbR
√
sX2 n
en donde la desviación tı́pica residual para el modelo de regresión simple

es desconocida, y se obtiene a partir de la Variabilidad no explicada como:
b 2 ns2 = 200x100 − 2.52 x200x9 = 8750
V N E = V T − V E = ns2y − β I x2
V NE 8750
sb2R = = = 44.19; sbR = 6.648.
n−2 198
Por lo tanto:
2.5
tI = = 15.95,
6.648
√
3 200
Se compara el valor obtenido con el valor de las tablas (t198;α/2 = 1.96),
como 15.95>1.96, se rechaza la H0 y se concluye que el conocimiento de
inglés es significativo.
1
2. Obtenga el modelo de regresión entre la puntación en el curso de es-
tadı́stica y las demás puntuaciones. Interprete la relación entre el conocimiento
de matemáticas, ingles y cultura general y el conocimiento de estadı́stica
a partir del modelo estimado.
Solución
El modelo que se pide es un modelo de regresión múltiple de la forma:
b x
yb = β b e2 + β
b x
1 e1 + β 2 x 3 e3
   
βb 1.34
1
bb = 
βb  −1  0 
2  = SXX SXY =
b
β3 0.84
donde:
       
Cov(y, x1 ) rY X1 sY sX1 0.8x5x10 45
SXY = Cov(y, x2 ) = rY X2 sY sX2  = 0.75x3x10 = 22.5 .
Cov(y, x3) rY X3 sY sX3 0.8x4x10 32
Interpretación:
b = 1.34, Si la puntuación de matemáticas aumenta un punto, la pun-
β 1
tuaciçon de estadı́stica aumenta por término 1.34 puntos manteniendo el
resto constante.
b = 0, Si la puntuación de inglés aumenta un punto, la puntuaciçon de
β 2
estadı́stica no aumenta ningún puntopor término medio manteniendo el
resto constante.
b = 0.84, Si la puntuación de cultura general aumenta un punto, la
β 3
puntuaciçon de estadı́stica aumenta por término 0.84 puntos manteniendo
el resto constante.
3. ¿Son significativos el conocimiento de matemáticas, inglés y cultura gen-
eral en el de estadı́stica? Explique las similitudes o discrepancias entre
este modelo y el modelo de regresión múltiple.
H0 : β i = 0
H1 : β i ̸= 0
sı́:
b −0
β i
ti = √ ,
sbR qii
−1
en donde qii son los elementos de la diagonal principal de la matriz Sxx ,
y sbR la desviación tı́pica residual para el modelo de regresión múltiple,
que es desconocida, y se obtiene a partir de la Variabilidad no explicada
como:
2
 
45
V N E = V T −V E = ns2y −nbbT sXY = 200x100−200x(1.34 0 0.84) 22.5 =
32
2613.5
V NE 2613.5
sb2R = = = 13.33; sbR = 3.65.Ası́:
n−k−1 196
t1 = 17.8; t2 = 0 y t3 = 6.6. Estos valores se comparan (en valor absoluto)
con t196,α/2 = 1.96.
Resultan significativos el conocimiento de matemáticas y el conocimiento
de cultura general
3
√ ̅ ̂
̂ ̂ ̂
̂
*( )+
̂
pres 1 4 4 2.028e+31 <2e-16 ***
temp 1 4 4 2.028e+31 <2e-16 ***
Residuals 1 0 0
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
̅
̅
( ̅) ( )
( ) ( )
̂ ̂ √
√
Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013
El grupo FIAT ha decidido promocionar el relanzamiento de uno de sus modelos de coche más emblemáti-
cos organizando un evento en el que sus dos pilotos del equipo Ferrari de Fórmula 1, Fernando Alonso y
Felipe Massa, van a hacer pruebas en las que el objetivo es analizar la variable ’consumo (en litros/100 km)’,
para 3 estilos de conducción diferentes: Suave, Normal y Agresiva. Cada piloto ha realizado la prueba con
cada estilo de conducción 2 veces, con lo que el número total de datos es 12. Los datos obtenidos se muestran
a continuación:
Consumo Estilo Conducción Piloto
8.561 Agresiva Alonso
12.751 Agresiva Alonso
14.057 Agresiva Massa
13.159 Agresiva Massa
9.731 Normal Alonso
10.343 Normal Alonso
7.997 Normal Massa
7.385 Normal Massa
8.347 Suave Alonso
8.562 Suave Alonso
9.857 Suave Massa
8.140 Suave Massa
Figura 1:
1. Indica qué modelo de análisis resulta adecuado para este propósito razonando la respuesta, así como
la ecuación de dicho modelo y las hipótesis que se asumen. Realiza la tabla ADEVA y extrae las
conclusiones que consideres relevantes (Nivel de significación: 0.1).
2. Construye el gráfico de interacción (incluyendo intervalos, con nivel de significación: 0.1) e indica
cuándo se produce el menor y mayor consumo, así como si es significativamente mayor o menor,
respectivamente que los demás.
3. A la vista de los gráfico de residuos de la Figura 2 indica si la diagnosis del modelo es correcta. En
caso negativo propón posibles soluciones. Construye además un intervalo para la varianza del error.
4. Por último, y para promocionar las buenas características medioambientales del coche que relanza
FIAT, se han realizado mediciones también de las emisiones de CO2. Propón un modelo de regresión
que pudiera tener en cuenta para explicar las emisiones de CO2, tanto el consumo como la influencia
del piloto y de su estilo de conducción.
Examen Final, Diseño y Regresión, GITI y GIQ 28 de junio de 2013
Residuals vs Fitted Normal Q−Q
2 2
2
2
1
1
Residuals
0
−1
12
12
−1
−2
−2
1
1
8 9 10 11 12 13 −1.5 −0.5 0.0 0.5 1.0 1.5
Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5
2
1
2
2
1.0
12
0
0.5
−1
12
−2
1
0.0
Estilo :
8 9 10 11 12 13 Suave Normal Agresiva
Figura 2: Diagnosis del modelo

1.) Se ha realizado un experimento para estudiar la dificultad de dos tests de nivel de
inglés. Diez estudiantes han realizado las dos pruebas. Los resultados se presentan en la
tabla adjunta.
Se pide:
● Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis que se
asumen.
Es un modelo en bloques: Bloque: "Estudiante", Factor: "TEST". La ecuación del modelo
es:
y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2 . Se asumen las hipótesis de homocedasticidad,
normalidad e independencia.
● Interpretar el resultado.
Tanto el factor "TEST" (que tiene I = 2 niveles) como el bloque "Estudiante" (con J = 10
niveles) resultan significativos (tanto para nivel de significación 0. 05 como para 0. 1), pues
los p-valores que se aparecen en la tabla ADEVA son respectivamente 0.02746 y 8.267·10 −8 ,
ambos menores que 0.05 y también que 0.1.
● Construir la tabla ADEVA si sólo se hubiera tenido en cuenta el factor "TEST" e
indica las consecuencias que esto habría tenido.
Fuente Var. Sum. sq. G.l. Var F-stat
2
TEST 1.404 1 s TEST = 1.404 1.404/9.6152 = 0.1460
2
Residual 171.243+1.83 = 173.073 18 s R = 173.073/18 = 9.6152
Total 1.404+171.243+1.83 = 174.477 20-1=19
Al comparar 0.1460 con la F 1,18;0.05 = 4. 41, al ser 0.1460<4.41 no se rechaza la hipótesis
nula, con lo que se obtendría (erróneamente al no incorporar el bloque) que no hay diferencias
significativas entre los dos tests de inglés. Eso es debido a que se incrementa la residual al haber
incorporado en ésta la variabilidad que en realidad es debida al bloque.
2.) Para un modelo de bloques aleatorizados con 2 niveles para el factor y 2 para el
bloque se tiene que:
y ·· = 4.55; y 1· = 2.75; y ·2 = 3.75.
 
Un alumno ha obtenido que α 2 = 2 y β 1 = 0.8. ¿Son válidos estos valores para ese
modelo? Justifica tu respuesta.
Nota: y ij es la observación para factor a nivel i-ésimo y bloque a nivel j-ésimo. α i es el
efecto principal asociado al factor, y β j el del bloque.
Modelo en bloques: y ij = μ + α i + β j + u ij , u ij → NIID0, σ 2 
 
La estimación de los α i → α 1 = y 1· − y ·· = 2. 75 − 4. 55 = −1. 8. Entonces, α 2 no puede valer
2 como se indica en el enunciado, sino que debería ser 1.8. 

La estimación de los β j → α 2 = y ·2 − y ·· = 3. 75 − 4. 55 = −0. 8. Entonces, β 1 sí es correcto
el valor del enunciado.
Evaluación Continua 2 Diseño de Experimentos y Regresión 19 de mayo de 2014
1. En un análisis de regresión simple utilizando el modelo yi = β0 + β1 xi + ui ,

ui N (0, σ 2 ), se ha obtenido la siguiente salida con R:
Call:
lm(formula = y ~ x)
Residuals:
-293.717 -40.719 -0.008 51.541 204.689
Coefficients:
(Intercept) 39.792 48.768 ______ 0.425
x 63.362 9.214 ______ 1.97e-06 ***
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1

Multiple R-squared: 0.7243,Adjusted R-squared: 0.709
F-statistic: _______ on 1 and 18 DF, p-value: 1.969e-06
Complete los huecos de la salida de R (donde pone “t value” y “F-statistic”). Obtenga el intervalo de
confianza al 95 % para β0 y β1 . Indique si son significativos teniendo en cuenta los intervalos obtenidos
y teniendo en cuenta la salida de R.
2. La ley de Hooke, que gobierna el comportamiento elástico de un material por debajo del lı́mite elástico
afirma que la relación entre los esfuerzos aplicados (ϑ) y las deformaciones unitarias (ε), es lineal y
se puede aproximar por el modelo:
ϑi = Ψεi + ui , ui N (0, σ),
donde Ψ, la constante de proporcionalidad, se denomina módulo de Young (P a), y es caracterı́stico

de cada material. En la práctica, el módulo de Young se determina mediante un ensayo de tracción,
sometiendo al material a diferentes deformaciones, midiendo esfuerzos y ajustando una recta por
mı́nimos cuadrados que pasa por el origen. La pendiente de la recta es una estimación del módulo de
Young.
Se han realizado 10 experimentos sobre una barra de bronce y se ha estimado la ecuación:
b i = 9, 6 · 1010 εi .
ϑbi = Ψε
Obtenga la expresión teórica para Ψ b mediante el método de mı́nimos cuadrados. Calcule un intervalo
de confianza al 99 % para el módulo de Young sabiendo que la desviación tı́pica estimada de dicho
estimador es 0, 2 · 1010 P a. El valor que aparece reflejado en la literatura para el módulo de Young es
del bronce es 10, 8 · 1010 Pa, ¿es compatible este valor con el obtenido en el experimento?
Un grupo de estudiantes ha recogido datos correspondientes a 60 empresas para determinar si existe

relación lineal entre los beneficios de una empresa (y) y el número de empleados (x1 ) de dicha empresa,
ambas variables en unidades codificadas. El primer modelo estimado ha sido:
ybi = 4, 7 + 3,393x1i , con R2 = 0,1021.
1. Contraste si el número de empleados tiene efecto significativo en los beneficios de una empresa (α =
0, 01).
2. Se estima un segundo modelo que incluye adicionalmente el regresor ventas (x2 ) y tiene en cuenta que
la mitad de las empresas pertenecen al sector energético y la otra mitad al sector de las telecomunica-
ciones. Para ello se introduce una variable cualitativa Z que toma el valor 1 si la empresa es del sector
energético y 0 si no lo es. El modelo estimado es:
ybi = 1,266 + 2,094x1i + 9,923x2i + 6,833Zi , con sb2R = 1, 1 y V T = 7133, 33.
Realice los contrastes individuales y general de regresión sabiendo que:

 
0,0335 0,0018 −0,0008 −0,0332
 0,0018 0,0161 −0,0025 0,0013 
(X T X)−1 =  −0,0008 −0,0025 0,0169
.
0,0014 
−0,0332 0,0013 0,0014 0,0669
Interprete los resultados explicando el significado de cada parámetro y compare con los resultados del
apartado anterior. (Nota: En todos los contrastes utilice α = 0, 01).
3. Calcule un intervalo de confianza (95 %) para el valor medio de los beneficios de una empresa del
sector de las telecomunicaciones con x1 = 0, 6 y x2 = 1,8 y para una empresa del sector energético con
las mismas caracterı́sticas ¿Cuál es la diferencia entre los beneficios medios de ambas empresas? ¿Es
significativa esta diferencia?.
Solución cuestiones
Cuestion 1
β̂0 39,792
t value (Intercept): t0 = = 48,768 = 0,8159
Ŝ(β̂0 )
β̂1 63,362
t value x: t1 = = 9,214 = 6,8767
Ŝ(β̂1 )
(n−2)R2 18∗0,7243
F-statistic: F0 = 1−R2
= 1−0,7243 = 47,2884
β0 ∈ β̂0 ± tn−2;α/2 ∗ Ŝ(β̂0 ) = 39,792 ± 2,1009 ∗ 48,768 = (−62,6647, 142,2487)
β1 ∈ β̂1 ± tn−2;α/2 ∗ Ŝ(β̂1 ) = 63,362 ± 2,1009 ∗ 9,214 = (44,0043, 82,7197)
β0 no es significativo porque el intervalo de confianza contiene al cero; según la salida de R, p-valor =

0,425 > α/2 ⇒ no significativo.
β1 es significativo porque el intervalo de confianza no contiene al cero; según la salida de R, p-valor =
1,97e − 06 < α/2 ⇒ significativo.
Cuestion 2
ϑi = Ψεi + ui , ui N (0, σ 2 )
Definimos
n
X
M (Ψ) = (ϑi − Ψεi )2
i=0
Por tanto
n
P
n ϑi εi
∂M (Ψ) X i=0
=2 (ϑi − Ψεi )(−εi ) = 0 ⇒ Ψ̂ = n
∂Ψ
ε2i
P
i=0
i=0
Es importante notar que la ecuación anterior se puede escribir

n
X n
X
(ϑi − Ψ̂εi )(−εi ) = 0 ⇒ ûi εi = 0
i=0 i=0
Luego solo hay una ecuación que relaciona los residuos entre sı́, luego hay n-1 residuos independientes
β1 ∈ β̂1 ± tn−1;α/2 ∗ Ŝ(β̂1 ) = 9,6 · 1010 ± 3,2498 ∗ 0,2 · 1010 = (8,95 · 1010 , 10,25 · 1010 ) P a
El valor de la literatura está fuera del intervalo, luego no es compatible con los resultados del experi-
mento (con un 99 % de confianza).
Solución problema
1. Modelo de regresión simple

H0 : β1 = 0
H1 : β1 6= 0
V E/1 58R2
Si H0 cierta F0 = = = 6, 5952 < F1,58;α=0,01 = 7, 08 (se ha tomado de las tablas
V N E/58 1 − R2
el valor correspondiente a la F1,60;α=0,01 ). El número de empleados no tiene un efecto significativo en los
beneficios de una empresa al 99 %.
2. Modelo de regresión múltiple
Los contrastes individuales:
βbi 1, 266 2, 094 9, 923 6, 833

√ √ √ √
sbβi
b 1, 05 × 0, 0335 1, 05 × 0, 0161 1, 05 × 0, 0169 1, 05 × 0, 0669 .
ti 6, 59 15,72 72, 69 25, 16
1. Los valores ti se comparan con t56;0,005 = 2, 66 (con 60 grados de libertad).

Todos salen significativos incluido el regresor número de empleados que no salı́a en la regresion simple.
El
contraste general de regresión:
H0 : βi = 0 ∀ i
.
H1 : alguno distinto
V E/3 7071, 73/3
Si H0 cierta F0 = = = 2142, 75
V N E/56 sb2R
puesto que V E = V T − V N E = 7133, 33 − (60 − 3 − 1) × 1,1 = 7071, 73.
F0 > F3,56;0,01 = 4, 13 (se ha tomado de las tablas el valor correspondiente a la F3,60;α=0,01 ). Se rechaza
H0 .
Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos. Los
contrastes individuales indican que son todos significativos.
Regresor número de empleados: En el modelo de regresión múltiple ha salido significativo. Al aumentar
el número de empledados en una unidad, a igualdad de ventas y sector, los beneficios medios aumentan
1,094 unidades.
Regresor ventas: Al aumentar las ventas en una unidad, a igualdad de numero de empleados y sector,
los beneficios medios aumentan 9,923 unidades
Regresor sector: A igualdad de numero de empleados y de ventas, las empresas del sector energético en
promedio tienen mas beneficios (6,833 unidades) que las empreas del sector de las telecomunicaciones.
Todos los regresores en este modelo explican el 99,14 % de la varı́abilidad. (R2 = 0, 9914).
3. Intervalo de confianza/predicción
xTh = [1 0, 6 1, 8 0];
T
ybh = xh β = 20, 3838
b
vhh = xTh (X T X)−1 xh = 0, 0879√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 20, 3838 ± 2 × 1, 1 × 1 + 0,0879
Para el sector energético

xTh = [1 0, 6 1, 8 1];
ybh = xTh βb = 27, 2168
vhh = xTh (X T X)−1 xh = 0, 0950
√ √ √
yh ∈ ybh ± t56;α=0,025 × sbR × 1 + vhh = 27, 2168 ± 2 × 1, 1 × 1 + 0,0950
La diferencia entre los beneficios medios de ambas empresas es:

27, 2168 − 20, 3838 = 6, 833, que coincide con el parámetro de la varaible cualitativa.
Esta diferencia es significativa, se ha visto en el contraste del apartado 2 ( al 99 %), y se ve en este tercer
apartado porque los intervalos de confianza construidos no se solapan.(al 95 %).
Se ha realizado un experimento para estudiar la dependencia de la resistencia de un material
respecto de la temperatura del horno (100, 150 y 200 °C) y tipo de horno (A y B). Se han tomado
tres temperaturas y dos hornos.
Para cada combinación de temperatura y tipo de horno se han tomado tres observaciones. Los
datos se presentan en la tabla adjunta. Entre paréntesis se presentan las medias para las
observaciones de cada cruce o tratamiento.
100 150 200
A 21.16 22.23 21,44 15.25 15.42 15.68 12.64 13.01 13.78
(21.61) (15.45) (13.14)
B 6.39 6.01 6.09 11.26 11.53 11.68 9.36 9.02 10.00
(6.16) (11.49) (9.46)
1. Estudiar la dependencia de la resistencia respecto de exclusivamente el factor temperatura.

Tener en cuenta que la variabiliad total es 426.93.
2. Añadir al análisis el factor tipo de horno y obtener el tratamiento (combinación de
temperatura y tipo de horno) que proporcione las resistencia promedio máxima y mínima
apoyándose en el gráfico de interacción y los intervalos de confianza para las medias de los
tratamientos. Para los cálculos, tener en cuenta que las variabilidades explicadas por el tipo
de horno y los residuos son 266.57 y 2.05.
3. Realizar el contraste de igualdad de varianzas para los dos tratamientos que hayan resultado
del análsisis anterior.
3bis) Obtener un intervalo de confianza para la varianza del error experimental.
Solución de problema
1) Se trata de un modelo con un factor.

Para obtener la variabilidad explicada hay que calcular las medias para las tres temperaturas
y la media general
y 1. = 13, 88; y 2. = 13, 47; y 3. = 11, 30; y .. = 12, 88
V E = 3 × 2 × [(13, 88 − 12, 88)2 + (13, 47 − 12, 88)2 + (11, 30 − 12, 88)2 ] = 23, 11
V N E = V T − V E = 403, 8
La tabla ADEVA es
F de var Suma de C. G. de lib. C.M- F
Temperatura 23,11 2 11,55 0,43
Residual 403,82 15 26,92
Total 426,93 17
Como 0, 43 < F2,15 = 3, 68, no resulta significativo el efecto del factor temperatura.
2) Se trata ahora de un modelo con dos factores e interacción.
V E(interacción) = V T − V E(T emp) − V E(tipodehorno) − V N E = 135, 2
La tabla ADEVA es
F de var Suma de C. G. de lib. C.M- F
Temperatura 23,11 2 11,55 67,58
Tipo de horno 266,57 1 266,57 1558,81
Interacción 135,2 2 67,59 395,29
Residual 2,05 12 0,17
Total 426,93 17
Comparando los valores de los cocientes (F) con los percentiles F2,12 = 3, 88, F1,12 = 4, 74,tanto
los dos efectos principales como las interacciones resultan significatvos.
√
Los intervalosde confianza son y ij. ± t12 sbR / 3,los extremos inferior y superior para los seis
intervalos se resentan en la tabla siguiente.
Tratamiento Ext. inferior Ext. superior
11 20,87 22,34
12 5,42 6,89
21 14,71 16,18
22 10,75 12,22
31 12,40 13,87
32 8,72 10,19
Se observa que al no haber solapamiento entre los intervalos, las condiciones de menor y mayor
respuesta promedio se identifican claramente, 12 y 11 respectivamente.
3) V N E/σ 2 ∼ χ23×2×(3−1)
P [χ212,0.025 < V N E/σ 2 < χ212,0.975 ] = 0, 95

P [4, 04 < V N E/σ 2 < 23, 34] = 0, 95
El intervalo es (0, 087; 0, 507)

𝛼
 𝛼

 𝛼
 𝛼

𝛼
mod = aov(y ~ facA * facB)
anova(mod)
var(y)
>> anova(mod)

facA ??? 0.921 ??? ??? ???
facB ??? ??? 0.516 ??? ???
facA:facB ??? 0.250 ??? ??? ???
Residuals ??? ??? ???
>> var(y)
0.0639383
𝑦𝑖𝑗𝑘 = 𝜇 + 𝛼𝑖 + 𝛽𝑗 + (𝛼𝛽)𝑖𝑗 + 𝑢𝑖𝑗𝑘 𝑢𝑖𝑗𝑘 → 𝑁(0, 𝜎)

𝑖𝑖𝑑
 𝑦̅𝑖··
 𝜇 + 𝛼𝑖
Response: calidad
modo 1 40.5 40.500 1.7482 0.2343
Residuals 6 139.0 23.167
Response: calidad
modo 1 40.5 40.50 9.5294 0.03668 *
entorno 1 72.0 72.00 16.9412 0.01466 *
modo:entorno 1 50.0 50.00 11.7647 0.02654 *
Residuals 4 17.0 4.25





A 3 0.92121 0.30707 13.8056 3.777e-06 ***
B 2 1.03301 0.51651 23.2217 3.331e-07 ***
A:B 6 0.25014 0.04169 1.8743 0.1123
Residuals 36 0.80073 0.02224
𝑦̅𝑖··
𝜎
𝑦̅𝑖·· ~ 𝑁(𝜇 + 𝛼𝑖 , )
√𝑘
𝜇 + 𝛼𝑖
𝑠̂𝑅
𝜇 + 𝛼𝑖 ∈ 𝑦̅𝑖·· ± 𝑡𝛼,𝐼𝐽(𝐾−1) ·
2 √𝑘
Examen Final Diseño de Experimentos y Modelos de Regresión 6/junio/2014
Cuestiones 1. (30 minutos, 4 puntos)
1. En un modelo de regresión múltiple el vector de residuos se obtiene

b
e = Y − Xβ
siendo Y el vector de dimensión n que contiene la variable dependiente, X la matriz de

b el vector de parámetros estimados.
dimesión n × (k + 1) que contiene los regresores y β
Demuestra, que la matriz de varianzas del vector de residuos var(e) es
var(e) = (I − V )σ 2
siendo V = X(X T X)−1 X T .
2. Se ha estimado un modelo de regresión con dos variables independientes y 150 obser-

vaciones obteniéndose la siguiente ecuación:
ybi = −1,17 + 0,025 log x1 + 0,59 log x2 , sb2R = 2,48
La matriz de varianzas estimada de bb = [β

b ,β
1
b ]T es
2
( )−1 ( )
,253 ,201
T
X̃ X̃ sbR =
2
.
,201 ,288
Realiza los contrastes individuales de los dos regresores. ¿Cuanto vale la correlación
b y β
entre β b ?. ¿Cuanto vale la correlación entre log x1 y log x2 ? ¿Si eliminamos el
1 2
b ?¿Cómo?
regresor x2 , afectará el resultado al valor de β 1
Ten en cuenta que la matriz de varianza teórica de los estimadores bb = [βb ,βb ]T es
1 2
 
σ2 r σ2
n s21 (1−r2 )
−ns 2
 1 2 (1−r )
s
,
r σ2 σ2
−ns 2 n s22 (1−r2 )
1 s2 (1−r )
donde n es el número de observaciones, r el coeficiente de correlación entre los regre-

sores, s21 y s22 las varianzas muestrales de los regresores y σ 2 la varianza del modelo de
regresión.
Examen Final Diseño de Experimentos y Modelos de Regresión 6/junio/2014
Problema
Se ha ajustado un modelo de regresión múltiple del consumo diario de energı́a eléctrica

de un pais en función de la temperatura. Además se ha tenido en cuenta si el dı́a es laborable,
sábado o domingo. Llamando ZLi la variable que toma valor 1 si el dı́a i es laborable y cero
en otro caso, ZSi la variable que toma valor 1 si el dı́a i es sábado y cero en otro caso y
finalmente ZDi la variable que toma valor 1 si el dı́a i es domingo y cero en otro caso, el
modelo resultante es:
log(yi ) = 3,62−0,0274Ti +0,000579Ti2 −0,136ZSi −0,2436ZDi +ei , sbR = 0,073, R2 = 0,6568

( )−1
y la matriz X T X es
 
60,595 −5,7689 0,11924 −2,3070 −2,9636
 −5,7689 0,5987 −0,012878 0,012241 0,07484 
 
10−3
×
 0,11924 −0,012878 0,00028577 −0,00052891 −0,001779 

 −2,3070 0,012241 −0,00052891 13,9727 2,3431 
−2,9636 0,07484 −0,001779 2,3431 13,9770
La variable yi es el número de GWh consumidos en el dı́a i. (Nota: log es logaritmo neperiano).
1. El modelo se ha estimado con 600 dı́as, obtén la descomposición de la variabilidad del

modelo (o análisis de la varianza), e indica los grados de libertad de cada término.
Realiza el contraste general de regresión.
2. Responde con el contrate que consideres oportuno a las siguientes preguntas:
a) ¿Existe diferencia significativa entre el consumo de un dı́a laborable y un sábado?

b) ¿Existe diferencia significativa entre el consumo de un dı́a laborable y un domingo?
c) ¿Existe diferencia significativa entre el consumo de un sábado y un domingo?
3. El consumo de un lunes laborable concreto fue 37.5 GWh y la temperatura media del
dı́a igual a 7.4 o C. Obtén el residuo correspondiente y explica si el valor 37.5 GWh es
un dato coherente con las hipótesis del modelo.
Da un intervalo de confianza para el consumo medio previsto para un lunes con tem-
peratura igual a 7.4o C.
Examen Final Extraordinario Diseño de Experimentos y Regresión 4/julio/2014

Cuestión 1:
Jesús López es un veterano ingeniero que se dedica profesionalmente a la calibración de motores
diésel para una multinacional automovilística. Actualmente está analizando el rendimiento del novedoso
prototipo Calohuesa-TDI-1800cc, sometiéndolo a diversas condiciones externas, variando la temperatura
de operación y el carburante empleado. El rendimiento de estos motores se mide mediante un aparato
denominado “banco de rodillos”.
En la tabla siguiente se muestran las diversas pruebas realizadas:

Temperatura
Temperatura 1 Temperatura 2 Temperatura 3
Carburante 1 90.5 , 91.5 95.5 , 94.5 94.8 , 95.2 (93.67)
Carburante
Carburante 2 91.5 , 90.5 94.8 , 95.2 90.8 , 91.2 (92.33)
(91.0) (95.0) (93.0) (93.0)
Observación: para facilitar los cálculos, en negrita se indica la media de cada fila, columna y media global.
También se sabe que 𝑠𝑠̂𝑦𝑦 = 4.52.
• Escribir el modelo empleado, indicando las hipótesis asumidas.
• Calcular la tabla ADEVA, e indicar qué efecto(s) influye(n) significativamente en el
rendimiento (𝛼𝛼 = 0.05).
• ¿Qué combinación (o combinaciones) de factor (o factores) son las que proporcionan el mejor
rendimiento? (𝛼𝛼 = 0.05) Justificar la respuesta con el gráfico correspondiente, indicando el
valor de la cota superior e inferior de los intervalos de confianza.
Cuestión 2:
Los denominados “software OCR” (Optimal Character Recognition) se emplean para la digitalización
de textos a partir de un archivo de imagen de entrada.
Un estudiante de la ETSII pretende estudiar el tiempo de procesamiento que requiere un determinado
software OCR (medido en milisegundos), en función del tamaño de la imagen empleada (medido en Mb).
Para ello, procesa mediante el programa diversas imágenes, midiendo el tiempo de procesamiento para
cada una de ellas. El tamaño (en Mb) de las imágenes procesadas son los siguientes:
5.2 6.3 7.5 8.6 10.0 11.1 12.5 13.0 13.2 14.0
Tras ajustar el modelo de regresión lineal simple, obtiene los siguientes resultados:
� = 0.02 + 12.05 · 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡ñ𝑜𝑜
𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 ; 𝑉𝑉𝑉𝑉 = 13500
• El fabricante nos indica que, al incrementar en 1 Mb la imagen, se incrementará el tiempo de
procesamiento en 10 unidades. Sospechamos que el incremento real es mayor que el valor que
nos indica el fabricante. En base al experimento realizado, ¿podemos afirmar que la afirmación
del fabricante es falsa? (𝛼𝛼 = 0.05)
• Calcular un intervalo para el tiempo medio que se tarda en procesar imágenes de 10 Mb,
considerando 𝛼𝛼 = 0.05.
Solución Cuestión 1:
Apartado 1
El modelo empleado es el siguiente:
𝑦𝑦𝑖𝑖𝑖𝑖𝑖𝑖 = 𝛼𝛼𝑖𝑖 + 𝛽𝛽𝑗𝑗 + (𝛼𝛼𝛼𝛼)𝑖𝑖𝑖𝑖 + 𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖
Donde se asumen las siguientes tres hipótesis:
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) siguen una distribución normal.
- Los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) son independientes entre sí.
- La varianza de los errores del modelo (𝑢𝑢𝑖𝑖𝑖𝑖𝑖𝑖 ) es constante (homocedasticidad).
Apartado 2
La tabla ADEVA es la siguiente:
Response: rend
temp 2 32.000 16.0000 55.172 0.0001372 ***
carb 1 5.333 5.3333 18.391 0.0051576 **
temp:carb 2 10.667 5.3333 18.391 0.0027586 **
Residuals 6 1.740 0.2900
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
De la anterior tabla ADEVA se observa que, con un nivel de confianza del 95%, afecta el factor
Temperatura, el factor Carburante, y la interacción Temperatura*Carburante.
Apartado 3
Para determinar cuál es la mejor combinación de temperatura y carburante, realizamos el gráfico de
interacción (Verde: carburante 1. Rojo: carburante 2).
Del gráfico anterior se deduce que las combinaciones que proporcionan un mayor rendimiento son:
 Temperatura 2, con cualquier carburante.
 Temperatura 3, con el carburante 1.
Calculamos 𝑠𝑠𝑥𝑥 = 2.96, 𝑠𝑠̂𝑥𝑥 = 3.12
Contraste: 𝐻𝐻0 : 𝛽𝛽1 = 10 𝐻𝐻1 : 𝛽𝛽1 > 10
𝛽𝛽̂1 − 𝛽𝛽1
~𝑡𝑡𝑛𝑛−2
𝑠𝑠̂𝑅𝑅 /√𝑛𝑛 · 𝑆𝑆𝑥𝑥
𝑉𝑉𝑉𝑉 = 𝛽𝛽̂1 · 𝑛𝑛 · 𝑠𝑠𝑥𝑥2 = (12.05)2 · 10 · (2.96)2 = 12720
𝑉𝑉𝑉𝑉𝑉𝑉 = 𝑉𝑉𝑉𝑉 − 𝑉𝑉𝑉𝑉 = 777.9
777.9
𝑠𝑠̂𝑅𝑅 = � = 9.86
8
𝛽𝛽̂1 − 𝛽𝛽1 12.05 − 10

𝑡𝑡0 = = = 1.94
𝑠𝑠̂𝑅𝑅 /√𝑛𝑛 · 𝑆𝑆𝑥𝑥 9.86/√10 · 2.96
𝑃𝑃(𝑡𝑡8 < 1.85) = 0.95
Como 1.94 > 1.85, rechazamos H0
𝑦𝑦�ℎ = 120.52
(𝑥𝑥ℎ − 𝑥𝑥̅ )2 1 (10 − 10.14)2 1

𝜈𝜈ℎℎ = �1 + � · = �1 + �· = 0.1002
𝑆𝑆𝑥𝑥2 𝑛𝑛 2.962 10
𝑚𝑚ℎ ∈ 𝑦𝑦�ℎ ± 𝑡𝑡𝛼𝛼,8 · 𝑠𝑠̂𝑅𝑅 · �𝜈𝜈ℎℎ

2
𝑚𝑚ℎ ∈ 120.52 ± 2.306 · 9.86 · √0.1002
𝑚𝑚ℎ ∈ [113.32 127.71]

Examen Extraordinario Diseño de Experimentos y Regresión 4/julio/2014
Problema. (45 minutos, 6 puntos)

En el proceso de reciclaje de residuos metálicos es necesario aplicar un campo magnético que
permita realizar la separación selectiva con garantı́as.
Para diseñar adecuadamente un proceso de separación se han analizado seis factores que pueden
influir en el campo magnético requerido y se han tomado 19 medidas. Se ha estimado un modelo de
regresión múltiple, obteniéndose:
ybi = −0, 622 + 0, 170x1i − 0, 015x2i − 0, 008x3i + 0, 460x4i + 0, 520x5i − 0, 127x6i ,
con V T = 10,32 y sb2R = 0,40, siendo la matriz:
 
38 0 0 0 0 0
 0 1525, 18 0 0 0 0 
 
 
eT X
X e = 0 0 2381, 65 0 0 0 .
 0 0 0 16, 89 0 0 
 
 0 0 0 0 1, 06 0 
0 0 0 0 0 9, 5
1. Realice los contrastes individuales e indique cuál (o cuales) de los seis regresores tiene(n) un
efecto significativo sobre el campo requerido. Realice el contaste general de regresión y calcule
2
R2 y R . (Utilizar α = 0,05)
2. Los expertos indican que conviene incluir en el modelo de regresión una variable cualitativa que
contemple la heterogeneidad de los residuos metálicos, que puede tomar tres valores: baja, media
y alta. Esta caracterı́stica se puede incorporar en el modelo a través de las variables ficticias z1
(que toma el valor 1 si la heterogeneidad es baja, 0 en otro caso), z2 (que toma el valor 1 si la
heterogeneidad es media, 0 en otro caso) y z3 (que toma el valor 1 si la heterogeneidad es alta,
0 en otro caso).
El modelo estimado tras la incorporación de esta caracterı́stica ha sido:
ybi = −1, 048+0, 820z1i +0, 517z2i +0, 170x1i −0, 015x2i −0, 008x3i +0, 460x4i +0, 520x5i −0, 127x6i
con sb2R = 0, 23, siendo la matriz de varianzas y covarianzas de los estimadores de los parámetros
 
0,0555 0,0278 0 0 0 0 0 0
 0,0278 0,1001 0 0 0 0 0 0 
 
 0 0 0,0061 0 0 0 0 0 
 
 0 0 0 0,0002 0 0 0 0 
Mβb =  
.

 0 0 0 0 0,0001 0 0 0 
 0 0 0 0 0 0,0136 0 0 
 
 0 0 0 0 0 0 0,2177 0 
0 0 0 0 0 0 0 0,0242
Realice los contrastes individuales y el contraste general de regresión para el nuevo modelo.
Interprete los resultados. (α = 0,05)
Los residuos metálicos con heterogenidad baja y media, ¿requieren un campo magnético distinto?
Justifı́quelo realizando el contraste oportuno.
3. Se ha realizado un tercer modelo que incluye la heterogeneidad de los residuos metálicos y algunos
regresores, resultando:
ybi = −1, 255 + 0, 820z1i + 0, 517z2i + 0, 170x1i + 0, 460x4i
2
con sb2R = 0, 23, R2 = 69, 22 % y R = 60, 42 %.
Razone qué modelo de los tres propuestos es el más adecuado.

Solución del Problema. (45 minutos, 6 puntos)
Modelo de regresión múltiple

{
H0 : β i = 0
H1 : β i ̸= 0
√
sbR = 0,40 = 0,6325
Los valores qii son los términos de la diagonal de la matriz Q = (Xe T X)
e −1 . Como en el enunciado
dan X e X,
T e es necesario calcular la inversa, que -por tratarse de una matriz diagonales la matriz con
los términos de la diagonal invertidos.
q11 = 1/38; q22 = 1/1525,18; q33 = 1/2381,65; q44 = 1/16,89; q55 = 1/1,06; q66 = 1/9,5.
b
β 0,170 −0,015 −0,008 0,460 0,52 −0,127
i
√ √ √ √ √ √
sbβi
b sbR × q11 sbR × q22 sbR × q33 sbR × q44 sbR × q55 sbR × q66 .
ti 1,66 −0,93 −0,62 2,99 0,85 −0,62
Los valores ti se comparan con t12;0,025 = 2, 179. El único regresor significativo es x4 .

Todos salen significativos incluido el regresor número de empleados que no salı́a en la regresion
simple.
El contraste general de regresión:

{
H0 : β i = 0 ∀ i
V E/6 5,52/6
Si H0 cierta F0 = = = 2,3 puesto que:
sbR
2 0,40
V E = V T − V N E = 10,32 − (19 − 6 − 1) × 0,40 = 5,52.
F0 < F6,12;0,05 = 3,00. Por tanto, no se rechaza H0 .
El coeficiente de determinación:
VE 5,52 2 sb2R 0,40

R2 = = = 0,5349; R =1− =1− = 0,3023
VT 10,32 sby
2 0,5733
VT 10,32
sb2y = = = 0,5733
n−1 18
Modelo de regresión múltiple con variables cualitativas

En el enunciado se proporciona la matriz de varianzas y covarianzas de los regresores.

b
β 0,82 0,517 0,170 −0,15 −0,008 0,46 0,52 −0,127
i √ √ √ √ √ √ √ √
sbβi
b 0,0555 0,1001 0,0061 0,0002 0,0001 0,0136 0,2177 0,0242
ti 3,48(∗) 1,63 2,18 −1,06 −0,80 3,95(∗) 1,11 −0,8164
Los valores ti se comparan con t10;0,025 = 2, 228 .

Los regresores significativos son los marcados con (*)
El contraste general de regresión:

{
H0 : β i = 0 ∀ i
V E/8 8,02/8
Si H0 cierta F0 = = = 4,36
sbR
2 0,23
puesto que V E = V T − V N E = 10,32 − (19 − 8 − 1) × 0,23 = 8,02
F0 > F8,10;0,05 = 3,07 Se rechaza H0 .
Interpretación:
El contraste general de regresión indica que alguno de los regresores o todos son significativos.
Los contrastes individuales indican que el variable correspondiente a la heterogenidad de los residuos
metalicos baja y el regresor x4 son significativos.
Regresor Heterogeneidad de residuos metálicos baja: A igualdad del resto de regresores, existe
diferencia significativa en el campo magnético requerido por los residuos metálicos de hetogeneidad
baja y heteogeneidad alta (que es la referencia). En promedio, los residuos metalicos de heterogeneidad
baja requieren un campo magnetico superior ( 0.82 unidades).
Regresor x4 : Al aumentar en una unidad, manteniendo el resto constante, el campo magnetico
requerido en promedio aumenta en 0.46 unidades.
Todos los regresores en este modelo explican el 77, 71 % de la varı́abilidad. (R2 = 0, 7771).
Comparación
{ residuos de heterogeneidad baja-media:
H0 : α B = α M
.
H1 : αB ̸= αM
bB − α
α bM
Si H0 es cierta, t10
sb (b
αB − α bM )
sb2 (b
αB − αb M ) = sb2 (bαB ) + sb2 (b
αM ) − 2cov(b b M ) = 0,0555 + 0,1001 − 2 × 0,0278 = 0,1
αB , α
bB − α
α bM 0,82 − 0,517
= √ = 0,9582 < t10;0,025 = 2,228
sb (b
αB − α
bM ) 0,1
Por tanto, no se rechaza H0 . No existe diferencia significativa.
Tercer modelo. Comparación de modelos
2
Modelo: sb2R R2 R No regresores
1 0,40 0,5349 0,3023 6
2 0,23 0, 7771 0,5988 8
3 0,23 0,6922 0,6042 4
A la vista de los resultados, el tercer modelo es el mejor seguido muy de cerca por el modelo 2. La
sb2R es, junto con la del modelo 2, la mas pequeña, y aunque la R2 es mayor la del modelo 2, es lógico
2
porque tiene mas regresores, muchos de ellos no significativos, pero la R del modelo 3 es la mayor, y
contiene un menor número de regresores.
En el primer modelo hay discrepancias entre el contaste general de regresion (no se rechaza H0 ) y
los contrastes individuales (regresor x4 es significativo).
EXÁMENES
Curso 2014/15
Evaluación Continua 1 Diseño de Experimentos y Regresión 9 de marzo de 2015
1. En un laboratorio disponen de tres medidores de pH con los que se han tomado

diferentes medidas del pH de un líquido, resultando los valores que se indican en la
tabla siguiente
Medidor 1 Medidor 2 Medidor 3
n 8 10 8
ȳ 5.7 6.6 5.0
ŝ 1.3 1.8 2.2
a) Contrastar si existen diferencias significativas entre los tres medidores.

b) Calcular un intervalo de confianza para el pH del líquido.
2. El número de maletas extraviadas por las compañías A y B en tres rutas diferentes

(R1, R2 y R3) se muestran en la tabla siguiente (se disponen de tres datos diferentes
por cada ruta y compañía)
R1 R2 R3
A 19, 14, 19 2, 4, 5 7, 9, 9
B 9, 6, 0 17, 12, 8 14, 16, 12
La tabla de análisis de la varianza generada con el programa R a partir de estos

datos es la siguiente:
Response: y
ruta 2 40.11 20.056 2.0988 0.1653375
compañia 1 2.00 2.000 0.2093 0.6554873
ruta:compañia 2 387.00 193.500 20.2500 0.0001426 ***
Residuals 12 114.67 9.556
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
a) Escribir la ecuación del modelo que se ha utilizado y explicar qué representa

cada término de la ecuación. Indicar qué factores son significativos y por qué.
b) Dibujar el diagrama de interacción y explicar cómo se interpretan en este dia-
grama las conclusiones obtenidas en la tabla de análisis de la varianza.
NOTA: Para las dos cuestiones α = 0,05

Una cadena de restaurantes de comida rápida desea elegir entre 3 nuevos menús
(A,B,C). Eligen al azar 6 restaurantes de la cadena para participar en el estudio. De
acuerdo con el diseño de bloques al azar, cada restaurante hace la prueba de los 3 nuevos
menús. Cada semana cada restaurante probará uno de los menús, de manera que el tiempo
necesario para realizar el estudio es de tres semanas. El orden en el que cada restaurante
prueba los menus es elegido al azar. En la tabla se proporciona el volumen de ventas para
cada semana.
A B C
R1 31 27 24
R2 31 28 31
R3 45 29 46
R4 21 18 48
R5 42 36 46
R6 32 17 40
La variabilidad explicada por los tres tratamientos es 539, la explicada por los bloques
560 y la residual 543.
1. Obtén la tabla de análisis de la varianza del experimento teniendo en cuenta el factor

(menú) y el bloque (restaurante), realizando los contrastes correspondientes. Com-
pleta el análisis realizando las comparaciones dos a dos que consideres pertinente
(α = 0,05).
2. En el modelo de bloques aleatorizados
yij = µ + αi + βj + uij , uij N(0, σ)
con i = 1, 2, ..., I (niveles del factor) y j = 1, 2, ..., J (bloques) calcular la esperanza

(media) y varianza de
PJ PI
j=1 yij i=1 yij
y i• = y •j =
J I
en función de los parámetros del modelo µ, αi , βj y σ 2 .
3. Los restaurantes 1, 3 y 5 son especiales. Llamando µ•j = E[y •j ] a la media de las

ventas del restaurante j, contrastar con α = 0,05 que
H0 : µ•1 + µ•3 + µ•5 = µ•2 + µ•4 + µ•6

H1 : µ•1 + µ•3 + µ•5 < µ•2 + µ•4 + µ•6
Solución de las Cuestiones
Cuestion 1
• Apartado (a)
Se utiliza el siguiente modelo para los datos
yij = µi + uij , uij N(0, σ 2 ), i = 1, · · · , K, j = 1, · · · , ni
Planteamos el siguiente contraste
H0 : µ 1 = µ 2 = µ 3
H1 : Algn µi distinto
Para resolverlo utilizamos análisis de la varianza
X ni
K X K
X
2
V NE = (yij − ȳi• ) = (ni − 1)ŝ2i = 7 · 1,32 + 9 · 1,82 + 7 · 2,22 = 74,87
i=1 j=1 i=1
K
X
VE = ni (ȳi• − ȳ•• )2 = 8·(5,7−5,8)2 +10·(6,6−5,8)2 +8·(5,0−5,8)2 = 11,58
i=1
ya que
K
P
ni ȳi•
i=1 8 · 5,7 + 10 · 6,6 + 8 · 5,0
ȳ•• = = = 5,83
K
P 8 + 10 + 8
ni
i=1
Tabla anova
FV SC GL VAR F
Factor 11.58 2 5.79 1.78
Residuos 74.87 23 3.26
Total 86.45 25
Como F2,23;0,05 = 3,42, se acepta la hipótesis nula, luego no hay diferencias
entre las medias de los medidores.
• Apartado (b)
Según el apartado anterior µ1 = µ2 = µ3 = µ. Por tanto el intervalo de
confianza lo calculamos a partir de la media de todos los datos
K
P
ni ȳi•
i=1
ȳ•• = ⇒ ȳ•• N(µ, σ 2 /n)
n
K
N(µ, σ 2 /ni )
P
donde n = ni . Efectivamente, como yi•
i=1
K K
1X 1X
E(ȳ•• ) = ni E(ȳi• ) = ni µ = µ
n i=1 n i=1
K K
1 X 2 1X σ2
V ar(ȳ•• ) = 2 ni V ar(ȳi•) = ni σ 2 =
n i=1 n i=1 n
Finalmente
r r
ŝ2R 3,26
µ ∈ ȳ•• ± t(n−k);α/2 = 5,8 ± 2,069 = 5,8 ± 0,73 = (5,07, 6,53)
n 26
Cuestion 2
• Modelo
yijk = µ + αi + βj + αβij + uijk , uijk N(0, σ 2 )
I
X J
X I
X J
X
αi = 0, βj = 0, αβij = 0, αβij = 0,
i=1 j=1 i=1 j=1
◦ El factor “compañía” no es significativo ya que p-valor=0.655 >α (Fα =

0,2093 < F1,12;0,05 = 4,747).
◦ El factor “ruta” no es significativo ya que p-valor=0.165 >α (Fβ = 2,0988 <
F2,12;0,05 = 3,885).
◦ La interacción entre “compañía” y “ruta” es significativa ya que p-valor=0.0001
<α (Fαβ = 20,25 > F2,12;0,05 = 3,885).
• Diagrama interacción
20
Factor: compañia
Nivel: A Nivel: B
15
medias
10
5
0
Nivel: R1 Nivel: R2 Nivel: R3

Factor: ruta
Los intervalos de confianza del gráfico se calculan mediante la expresión

r
ŝ2R
ȳij• ± tIJ(m−1);α/2
m
Las medias ȳij• son:
R1 R2 R3
A 17.333 3.667 8.333
B 5.000 12.333 14.000
Por otro lado r r

ŝ2R 9,556
tIJ(m−1);α/2 = 2,179 = 3,889
m 3
Sustituyendo se obtienen los intervalos de confianza
R1 R2 R3
A (13.445, 21.222) (-0.222, 7.555) (4.445, 12.222)
B (1.111, 8.888) (8.445, 16.222) (10.111, 17.889)
Solución del Problema
1.
Fuentes Variabilidades GL Varianzas F
Menús 539 2 269.5 4.96*
Restaurantes 560 5 112.0 2.06
Residuos 543 10 54.3
Total 1642 17
Como F0,05;2,10 = 4,03 existen diferencias significativas entre los tres menús.
Como F0,05;5,10 = 3,33 no existen diferencias significativas entre los seis restaurantes.
Hacemos las comparaciones dos a dos de los tres menús:.
r r
2 2
LSD = t0,025,10 ŝR = 2,23 × 7,4 × = 9,5
J 6
|ȳ1• − ȳ2• | = 7,9 < LSD

|ȳ1• − ȳ3• | = 5,5 < LSD
|ȳ2• − ȳ3• | = 13,4 > LSD ∗ ∗
Sólo existen diferencias significativas entre B y C. Teniendo en cuentas las tres medias
33.7 (A), 25.8 (B) y 39.2 (C), el menú C tiene más ventas que el B. No existen diferencias
significativas en las otras comparaciones.
2.
E[yi1 + yi2 + · · · + yiJ ]
E[ȳi• ] =
J
(µ + αi + β1 ) + (µ + αi + β2 ) + · · · + (µ + αi + βJ )
=
J
= µ + αi
pues β1 + β2 + · · · + βJ = 0
var[yi1 + yi2 + · · · + yiJ ]

var[ȳi• ] =
J2
σ + σ + ... + σ 2
2 2
=
J2
2
σ
=
J
σ2
Con el mismo razonamiento E[ȳ•j ] = µ + βj y var[ȳ•j ] = I
.
3.
w = (ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 )
es fácil ver que
E[w] = (µ•1 + µ•3 + µ•5 ) − (µ•2 + µ•4 + µ•6 )

σ2
var(w) = 6 × = 2σ 2
3
el contraste que piden es
H0 : µ w = 0
H1 : µ w < 0
Como
w → N(µw , 2σ 2 )
w − µw
t = √ → t10
2ŝR
(ȳ•1 + ȳ•3 + ȳ•5 ) − (ȳ•2 + ȳ•4 + ȳ•6 ) 19,9
t = √ =√ = 1,9
2ŝR 2 × 7,4
El contraste es unilateral, la región de rechazo es
t < −t0,05;10 = −1,81
y claramente 1.9 no está en la región de rechazo. Aceptamos H0 .

> mod = lm(ventas ~ TV + web)
> summary(mod)
Coefficients:
(Intercept) 124.093 35.941 3.453 0.00304
TV 24.233 13.627 1.778 0.09325
web 10.446 3.713 2.813 0.01197

0.213 −0.055 −0.014

(𝑋 𝑇 · 𝑋)−1 = (−0.055 0.031 0.001 )
−0.014 0.001 0.002

 𝛼 = 0.05

𝛼 = 0.05
𝑦𝑖 = 𝛽0 + 𝛽1 · 𝑥𝑖 + 𝑢𝑖
𝑥𝑖
𝑦𝑖
𝑦̂𝑖
𝑒𝑖



 𝑒𝑖 𝑦̂𝑖 )
𝑒𝑖 𝑦̂𝑖
Segundo Examen Parcial - Diseño y Regresión 11 de mayo de 2015
Se ha realizado un experimento para explicar y predecir una variable física Y en función de una serie
de factores. El número de datos es 60. En primer lugar se analiza la dependencia de Y respecto de la
temperatura. Los resultados de la estimación son los siguientes:
ybi = 1;81 + 2;8Ti
con R2 = 0;769 y s^R = 1;864
1. Contrastar que la pendiente del modelo 1 es nula y calcular un intervalo de con…anza para 1.
Interpretar el resultado. ( = 0;05)
2. El experimento se realizó con tres catalizadores A, B y C y con distintos valores de la presión P: Se ha

estimado un nuevo modelo añadiendo las variables explicativas P y la variable cualitativa “catalizador”:
Los resultados de la nueva estimación son:
yb = 1;104 2;11T + 5;07P + 0;96ZB + 2;38ZC
con R2 = 0;936; sbR = 1;005

2 3
0;053 0;0193 0;0237 0;05 0;05
6 0;0193 0;285 0;282 0 0 7
6 7
(X 0 X) 1 =6
6 0;0237 0;282 0;292 0 0 7
7
4 0;05 0 0 0;1 0;05 5
0;05 0 0 ;05 0;1
Realizar los contrastes individuales y el contraste conjunto de regresión, interpretando los resultados.
¿Existen diferencias signi…cativas entre los efectos de los catalizadores B y C? ( = 0;05)
3. Estudiar el sesgo que introduce en la estimación del efecto de la temparatura el utilizar el modelo del
apartado 1 cuando el modelo verdadero es el del apartado.2. ¿En qué condiciones es nulo el sesgo?
𝐻0 : 𝛽1 = 𝛽2 = 0 ; 𝐻1 : 𝑎𝑙𝑔𝑢𝑛𝑎 𝛽𝑗 ≠ 0
𝐹0 = 4.947 ~𝐹2,17 𝛼
𝛽̂0
𝛽̂1
𝛽̂2
𝑥ℎ = [1 3 20]𝑇
̂
𝑦̂ℎ = 𝛽 𝑥ℎ = [124.1 24.2 10.4] · [1 3 20]𝑇 = 404.7
𝑇
𝐼𝐶(𝑚ℎ ) = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝜈ℎℎ = 𝑦̂ℎ ± 𝑡17,𝛼 · 𝑠̂𝑅 · √1 + 𝑥ℎ𝑇 · (𝑋 𝑇 · 𝑋)−1 · 𝑥ℎ
2 2
= 404.7 ± 77.9 · 2.11 · √1 + 0.644 = (195.2 , 614.2)
𝑉𝐸 𝑉𝑁𝐸 ∑(𝑒𝑖 )2 ∑(𝑒𝑖 )2

𝑅2 = = 1− = 1− 2 = 1− 2
𝑉𝑇 𝑉𝑇 ∑(𝑦 − 𝑦̅ ) ∑(𝑒𝑖 + 𝑦̂ 𝑖 )
𝑖
∑ (𝑒𝑖 + 𝑦̂ 𝑖 − )
𝑛
Solución del problema
p
1. t = b 1 =b
sR =sx n
b = r Sy ;
1 Sx
1
Sy2 = ( 60 s2R =(1
)(58b r2 )) = 14; 53
Sx = rSy = b 1 = 1; 19
p
t = b 1 =b
sR =sx n = 13; 9 > t0;975 con 58 grados de libertad = 2; 00
b p
Intervalo 1 t58 sbR =sx n (2; 4 3; 2)
El contraste indica que se rechaza la hipótesis nula de que la temperatura no in‡uye sobre la vari-
ablerespuesta, lo cual concuerda con que el intervalo de con…anza para la pendiente no contenga al
cero
2. Contrastes individuales
p p
t1 = b 1 =b
sR q11 = 2;11=(1;005 0;285) = 3; 93; mayor en módulo que t0;975 con 55 grados de
libertad = 2; 005
p p
t2 = b 2 =b
sR q11 = 5;07=(1;005 0;292) = 9; 33 > 2; 005
p p
t3 = b 3 =b
sR q11 = 0;96=(1;005 0;1) = 3; 02 > 2; 005
p p
t4 = b 4 =b
sR q11 = 2;38=(1;005 0;1) = 7; 48 > 2; 005
Contraste conjunto:
s2R
F = (V E=4)=b
VE =VT R2 = 0; 936 = 816; 5
F = 202; 1 > F0;95 con 4 y 55 grados de libertad = 2; 54
Tanto los contrastes individuales como el conjunto resultan signi…cativos. Los resultados del tercer y
cuarto contraste individual indican que hay diferencias signi…cativas entre las ordenadas en el origen
de A-B, y A-C, respectivamente.
Para B frente a C
p
t = (2;38 0;96)=((1;005 (0;1 + 0;1 2 0;05))) = 4; 47 > 2; 005
De este último contraste se deduce que son signii…cativamente distintas las ordenada en el origen para
B y C.
3. Si las regresiones simples entre T y las demás variables son
1 1
P = 0 + 1T + u1
2 2
Z2 = 0 + 1T + u2
3 3
Z3 = 0 + 1T + u3
e introducimos estas expresiones en la regresión múltiple entre Y y T; P; Z2 ; Z3

Y = 0 + 1T + 2P + 2 Z2 + 3 Z3 + u;
obtenemos
1 1 2 2 3 3
Y = 0 + 1T + 2( 0 + 1T + u1 ) + 2( 0 + 1T + u2 ) + 3
3 ( 0 + 1 T + u ) + u;
1 2 3
el coe…ciente de T en la regresión simple que resulta es 1 + 2 1 + 2 1 + 3 1; y el sesgo sería
1 2 3
2 1 + 2 1 + 3 1
que sólo sería nulo en general cuando 11 = 21 = 31 = 0; es decir cuando las correlaciónes entre T y
cada una de las demás variables explicativas sean todas nulas.
Examen Final Ordinario Diseño de Experimentos 29 de mayo de 2015
1. Se considera la cantidad de sodio en hamburguesas de varias marcas de cada uno de los

tipos siguientes:
Carne de ternera,
Carne de buey,
Carne de pollo y
Mezcla (hasta 15 % de carne de pollo).
Se desea determinar si el tipo de carne inuye en la cantidad de sodio. Para ello se dispone
de 4 observaciones para cada tipo de de carne, y de la siguiente tabla de Análisis de la Varianza
incompleta:
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 5.91
Residual 54
Total
Se pide:
a) Indicar de qué modelo se trata así como la ecuación del mismo y las hipótesis de dicho
modelo,
b) Completar la tabla ADEVA,
c) A la vista de lo anterior enunciar e interpretar las conclusiones que puedan obtenerse
de esta tabla.
NOTA: Tomar = 0;05:
a) Modelo de análisis de la varianza con un factor: yij = i + uij ; con uij ! N (0; 2 ): Y se asumen las
hipótesis de normalidad, homocedasticidad e independencia.
Fuente de variación Suma de Cuadrados G. l. Cuadrado medio Estadístico F
Tipo de carne 26;5953 = 79;785 K 1=3 4;55;91 = 26;595 5.91
b) 2
Residual 54 n K = 12 sbR = V N E=12 = 54=12 = 4;5
Total 79;785 + 54 = 133;785 n 1 = 15
El valor del estadístico F (de la tabla, 5.91) se compara con el valor en tablas para una FK 1;n K;0;05
F3;12;0;05 = 3;49: Y como 5;91 > 3;49 entonces se rechaza la H0 : 1 = 2 = 3 = 4 , frente a la H1 : Alguna es
distinta. Por tanto el factor "tipo de carneresulta signicativo. El "tipo de carne"inuye signicativamente
en la cantidad de sodio presente.
2. Una empresa que se dedica a la construcción de campos de golf está estudiando la calidad
de varios tipos de césped. Para ello, se mide la distancia recorrida por una pelota de golf
en el campo después de bajar por una rampa (esto se hace para proporcionar a la pelota
una velocidad inicial constante).
El terreno en el que se realizan pruebas dispone tiene mayor pendiente en la dirección
Norte-Sur, por lo que es razonable dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las mismas. En todos
ellos se utilizó el mismo método para la siembra y las mismas cantidades de semilla.
Los datos que se proporcionan en la tabla corresponden a mediciones de las distancias
desde la base de la rampa al punto donde se pararon las pelotas.
En el estudio se incluyeron las variedades de césped siguientes:
Agrostis T. (Césped muy no y denso, de hojas cortas y larga duración), (A)
Agrostis C. (Hoja muy na, estolonífera. Forma una cubierta muy tupida), (B)
Paspalum N. (Hojas gruesas, bastas y con rizomas. Forma una cubierta poco densa)
(C) y
Paspalum V. (Césped no, perenne, con rizomas y estolones) (D).
Bloque/Variedad de césped (A) (B) (C) (D)

Bloque 1 1.3 2.2 1.8 3.9
Bloque 2 1.6 2.4 1.7 4.4
Bloque 3 0.5 0.4 0.6 2
Bloque 4 1.2 2 1.5 4.1
Bloque 5 1.1 1.8 1.3 3.4
Indicar si alguna de las variedades de césped resulta ser signicativamente mejor que las
demás (en términos de la distancia recorrida por la pelota de golf en el campo después
de bajar por una rampa). NOTA: Se pide ilustrar y explicar las conclusiones sobre el
gráco de medias.
Modelo en bloques aleatorizados: yij = + i + j + uij ; con uij ! N (0; 2 ): Y se asumen las hipótesis
de normalidad, homocedasticidad e independencia. El subíndice i hace referencia al tipo de césped y
el j al bloque.
Se calculan las medias:
yA: = 1;14
yB: = 1;76
yC: = 1;38
yD: = 3;56
y;1 = 2;3
y;2 = 2;525
y;3 = 0;875
y;4 = 2;2
y;5 = 1;9
y:: = 1;96
Y la tabla ADEVA que se obtiene:
Tanto el factor çéspedçomo el bloque son signicativos.
A continuación se muestra el gráco de medias (efectos principales factor çésped"):
Cada intervalo se calcula como: yi: t(5 1)(4 1); 0;05 sbR p15 , con i = A; B; C; D:
2
p 1
yi: 2;179 0;0793 p5 = yi: 2;1790;1259365 = yi: 0;2744156
3.5
3.0
2.5
medias
2.0
1.5
1.0
A B C D
CESPED
El cesped tipo "D"es el que da lugar la mayor distancia, y ésta es signicativamente mayor que el
resto.
Los intervalos del gráco vienen dados por:
1;14 0;2744156
1;76 0;2744156
1;38 0;2744156
3;56 0;2744156
Se está estudiando la dureza ( kg fuerza) de unas probetas de acero. Se piensa que la dureza depende del
método de medición empleado (M1, M2, M3) y del contenido en carbón activo (1 %, 2 %) de la probeta.
Para ello se ha realizado el experimento (replicado dos veces) que se presenta en la siguiente tabla:
Contenido en carbón activo

1% 2%
218 187
M1
205 201
202 204
Método M2
220 233
165 227
M3
169 311
1. Indique el tipo de experimento que se ha realizado y formule el modelo matemático correspondiente.

Obtenga la tabla de Ánálisis de la Varianza del experimento, y realice los contrastes correspondientes
(α = 0, 05) sabiendo que la Variabilidad Total de los datos es 15583,7 y la estimación de algunas
interacciones es (αβ) M2,1 % = 11, 58 y (αβ)
M1,1 % = 24, 08; (αβ) M3,1 % = −35, 66.
2. Complete el análisis realizando los contrastes y los gráficos que considere convenientes para interpretar
los resultados. Indique los tratamientos (condiciones experimentales) en los que se han obtenido durezas
medias distintas (α = 0, 05).
3. En el informe final del experimento se han escrito una serie de afirmaciones; indique si son verdaderas
o falsas justificando la respuesta a la vista de los resultados anteriores o realizando nuevos cálculos o
gráficos si los considera necesarios.
a) Los tres métodos de medición son equivalentes si se considera un nivel de significación de 0,05.
b) Las probetas con el 2 % de carbón activo presentan por término medio mayor dureza que las que
tienen un 1 % de carbón activo.
c) Al hacer la diagnosis se incumple la hipótesis de homocedasticidad.
d) La varianza del Método 3 de medición es el doble que la correspondiente al Método 1 (α = 0, 05).
Solución Problema
1. Es un diseño factorial con dos factores replicado 2 veces. Un factor es el método de medición (3 niveles)
y el otro factor es el contenido en carbón activ o (2 niveles). La ecuación del modelo es
yijk = µ + αi + β j + (αβ)ij + uijk i = 1, 2, 3; j = 1, 2; k = 1, 2

y cumple las hipótesis 2
uijk N(0, σ ) e independientes.
Se verifican también las ecuaciones de restricción:
3 2 3
2
αi = 0; β j = 0; (αβ)ij = 0 ∀j (αβ)ij = 0 ∀i.
i=1 j=1 i=1 j=1
La tabla de análisis de la varianza es:
Fuente de variabilidad Suma de cuadrados Grados de libertad Cuadrados medios Contraste
VE(Método) 516,2 2 258,1 0,361
VE( %Carbón activo) 2821,3 1 2821,3 3.94
VE(Interacción) 7942,2 2 3971,1 5.54
VNE 4301,0 6 716,83
VT 15583,7 11
Para α = 0, 05, el valor de las tablas es F2,6;α=0,05 = 5,14 y F1,6;α=0,05 = 5,99
Por lo tanto únicamente resulta estadísticamente significativa la interacción
2. Los resultados del experimento se debe interpretar a partir del gráfico de la interacción.
Factor: CAR
300
Nivel: 1%
Nivel: 2%
250
medias
200
150
Nivel: I Nivel: II Nivel: III
Factor: MET
La expresión para los intervalos de confianza que se han incluido en el gráfico de la interacción es:
sR
µ + αi + β j + (αβ)ij ∈ y ij ± tα/2 × √ con (1 − α) % de confianza.
2
En particular:
Tratamiento I: M3-1 % sería µ + αi + β j + (αβ)ij ∈ [120,68; 213,32] con 95 % de confianza.
Tratamiento II: M3-2 % sería µ + αi + β j + (αβ)ij ∈ [222,68; 315,33] con 95 % de confianza.
Ambos intervalos no se solapan, podemos decir que su diferencia es estadísticamente significativa.
El contraste:

H0 : µT I = µT II
H1 : µT I = µT II

y y 167 − 269
Si H0 es cierta, T I− T II t6 =⇒ |t0 | = = 3,81 > t6;0,025 = 2,45 =⇒Se
1 1 √ 1 1
sR + 716,83 +
nT I nT II 2 2
rechaza H0 .
Los tratamientos I( Método3-1 %) y II (Método 3-2 %) son distintos como se puede apreciar en el gráfico,
viendo que los intervalos de confianza no se solapan.
Entre el resto de los tratamientos no existen diferencias estadísticamente significativas.
3. a) Falsa: Al haber interacción, la influencia del método depende del % de carbon. En concreto el M3
proporciona mediciones distintas dependiendo de si las probetas tienen el 1 % o el 2 % de carbón. Es
decir el M3 es capaz de diferencias entre 1 % y 2 % y los otros métodos no.
b) Falsa: Por término media ambas probetas presentan la misma dureza, sólo con el Método 3 se
concluye que las probretas con el 2 % de carbón tienen mayor dureza por término medio que las
probetas con el 1 %.
c) Verdadera: Se calculan los residuos, y al hacer los gráficos de la diagnosis se observan que no
cumple la hipótesis de homocedasticidad.
Contenido en carbón activo
1% 2%
6,5 −7
M1
−6,5 7
Los residuos son:
−9 −14,5
Método M2
9 14,5
−2 −42
M3
2 42
Residuals vs Fitted Normal Q−Q

12 12
40
2
20
1
Residuals
7
−20
7
−1
−40
−2
11
11
180 200 220 240 260 −1.5 −0.5 0.0 0.5 1.0 1.5
Constant Leverage:
Scale−Location Residuals vs Factor Levels
1.5
12
11
12
2
1.0
7
0
0.5
7
−1
−2
11
0.0
CAR :
180 200 220 240 260 1% 2%

d) Verdadera:
H0 : σ2M3 = 2σ2M1
Si se realiza el contraste
H1 : σ2M3 = 2σ2M1
Se verifica
(nM3 − 1) s2M3
(nM3 − 1)σ2M3
F(nM3 −1);(nM1 −1 ) = F3,3
(nM1 − 1) s2M1
(nM1 − 1)σ2M1
1 s2M3
Si H0 cierta=⇒ σ2M3 = 2σ2M1 =⇒ F(nM3 −1);(nM1 −1 ).
2 s2M1
Se calcula
2
2 2
2
(eM1,jk )2 (eM3,jk )2
j=1 k=1 j=1 k=1
s2M1 = = 60,83; s2M3 = = 1178, 7
nM1 − 1 nM3 − 1
1 s2M3
F0 = = 9,69 ∈ [F3,3;0,975 ; F3,3;0,025 ] = [0,065; 15,44] =⇒ No se puede rechazar H0 .
2 s2M1

H0 : σ2M3 ≥ 2σ2M1
O tambien se puede realizar el contraste:
H1 : σ2M3 < 2σ2M1
1 s2M3
En este caso F0 = = 9,69, y se rechazará H0 cuando F0 < F3,3;0,95 = 1/9,28 = 0,11 =⇒ No se
2 s2M1
puede rechazar H0 .
17 de junio de 2015
1. La empresa EMUS, S.L. está estudiando el rendimiento de un proceso químico, para

ello realiza 30 experimentos y estudia la relación lineal entre la Temperatura (T ) y la
Presión(P ) sobre el rendimiento :
Se denomina X a la matriz de regresores (X = [1 X1 X2 ]); siendo:
2 3 2 3
5;1 0;12 0;05 0;06
(X T X) 1 = 4 0;12 30;8 0;08 5 ; X T Y = 4 0;05 5y s^R = 0;03:
0;05 0;08 0;001 9;45
Se pide:
a) Estimar el modelo de regresión multiple y realizar los contrastes individuales ( =

0;05) (1 punto)
b) Se va a tomar nueva observación con 89o C y 1 bar; obtenga un intervalo de predicción
para la nueva observación.( = 0;05) (1 punto)
Solución:
a. El modelo estimado es:

2^ 3 2 3
0 0;1605
^ = ^ 0 + ^ 1 T + ^ 2 P; donde ^ = 4 ^ 1 5 = (X T X) 1 X T Y = 4 0;7914 5;
^ 2;45 10 3
2
así, el modelo estimado es: ^ = 0;16 + 0;79T 0;002P:
d
Para realizar los contrastes individuales se contrasta H0 = i = 0 vs H1 6= 0, donde la V AR( ^ i ) =
s^2R qii , siendo qii los elementos diagonales de la matriz (X T X) 1 :
^ 0 0;79
t1 = 1p = p = 4;75;
s^R q11 0;03 30;8
^ 0 0;002
2
t2 = p = p = 2;58:
s^R q22 0;03 0;001
Comparamos los valores de la t con tn k 1 = t27;0;025 = 2;052: Por lo que la P y T in‡uyen signi…ca-
tivamente en el :
b. El intervalo solicitado es para una nueva observación no utilizada en la estimación del modelo.
El intervalo es:
p
2 ^h tn k 1 s^R 1 + vhh
siendo ^h el valor previsto para 89 o
2 C y 1 bar (0;1605 +3 0;7912x89
2 3 0;00245x1 = 70;57) y
5;1 0;12 0;05 1
vhh = xTh (X T X) 1 xh = 1 89 1 4 0;12 30;8 0;08 5 4895 = 243957; 56:
0;05 0;08 0;001 1
p
2 70;57 2;052 0;03 1 + 243957; 56 = 70; 57 30;41 ! 2 (40; 16; 100)
17 de junio de 2015
2. Se realizan los tres modelos de regresión simple entre la variable Y, costes de producción
de la primera edición de un best-seller, y las variables explicativas X1, tinta; X2, coste del
papel y X3, coste de las tapas, obteniendo para los contrastes individuales los siguientes
p valores : 0; 002; 0;012 y 0; 04 respectivamente.
A continuación se estima el modelo de regresión múltiple con las tres variables explicativas
mencionadas anteriormente Y^ = ^ 0 + ^ 1 X1 + ^ 2 X2 + ^ 3 X3 siendo los p-valores de los tres
contrastes individuales 0; 001; 0; 01 y 0; 035 y el contraste conjunto de regresión múltiple
H0 : 1 = 2 = 3 = 0 vs H1 : algún i 6= 0 con p valor = 0; 001.
Interprete los resultados presentados anteriormente, utilice = 0;05. (1 punto)
Posteriormente se realiza la diagnosis del modelo. El grá…co de los residuos frente a los
valores observados Y muestra relación entre ellos. Justi…que este comportamiento. (1
punto).
Solución:
Todos los contrastes individuales de los modelos de regresión simple y los contrastes individuales del
modelo de regresión múltiple son signi…cativos, ya que los p valores < = 0;05:El contraste general
de regresión también es signi…cativo p valor < = 0;05:Por lo que no se detecta ninguna incoherencia
. El modelo de regresión múltiple es correcto a falta de la diagnosis.
No tenemos información para estudiar la homocedasticidad y la normalidad de los residuos. Nos dicen
en el enunciado que el grá…co de los residuos frente a los valores observados Y muestra relación entre
ellos, los residuos y el vector Y^ son ortogonales, esa es la razón de que el grá…co que usamos para la
diagnosis sea e vs Y^ (valores previstos), y no e vs Y (valores observados). Por lo que concluimos que
es lógico que aparezca relación entre ellos, como puede observarse a continuación:
e=Y Y^ = Y X^ = Y X(X T X) 1
X T Y = (I V )Y
Examen Final Ordinario Modelos de Regresión 29 de mayo de 2015
Se ha realizado un experimento en una fábrica de papel con el objetivo de explicar la

variable CALIDAD del mismo (Y ) en función de tres variables cuantitativas X1 ; X2 y X3 y
una cualitativa, Z: MEJORA, que toma el valor 0 si no se aplican ciertas técnicas de mejora
en el proceso productivo y 1 si se aplican.
Resulta necesario (para que la diagnosis sea correcta) trabajar con todas las variables
cuantitativas: Y; X1 ; X2 y X3 en logaritmos en todo momento. El número total de datos de los
que se dispone es n = 153:
1. En primer lugar se realizan las tres regresiones simples: de log(y) frente a log(x1 ); de log(y)
frente a log(x2 ) y de log(y) frente a log(x3 ): En la tabla se proporcionan la media y la
varianza de todas las variables cuantitativas transformadas, y además cov(log(y); log(x1 )) =
0;639; cov(log(y); log(x2 )) = 0;382; cov(log(y); log(x3 )) = 0;505:
Variable log (y) log (x1 ) log (x2 ) log (x3 )

Media 3.108 3.011 2.952 3.332
Varianza 0.634 0.696 0.464 0.529
1. Se pide calcular para los tres modelos de regresión simple mencionados los estimadores de
los coe…cientes de los modelos de regresión simple así como el coe…ciente de determinación
para cada uno de ellos (R12 ; R22 y R32 ):
log (y) = 01 + 11 log (x1 ) + u1 ;
log (y) = 02 + 12 log (x2 ) + u2 ;
log (y) = 03 + 13 log (x3 ) + u3 :
¿Qué modelo elegiría basándose en el porcentaje de variabilidad explicada por el modelo
considerando que la diagnosis de los 3 modelos es correcta?
b = cov(log(y);log(x1 ))
= 0;639
= 0;9181
11 var(log(x1 )) 0;696
b = log(y) b log(x1 ) = 3;108 0;9181 3;011 = 0;3436
01 11
= 0;382
= 0;8233
12 var(log(x2 )) 0;464
b = log(y) b log(x2 ) = 3;108 0;8233 2;952 = 0;6776
02 12
= 0;505
= 0;9546
13 var(log(x3 )) 0;529
b = log(y) b log(x3 ) = 3;108 0;9546 3;332 = 0;0727
03 13
2 2
cov(log(y);log(x1 )) 0;639
R12 = (corr(log(y); log(x1 )))2 = std(log(x1 )) std(log(y)) = p p
0;696 0;634
= 0;9253
2 2
0;464 0;634
= 0;4960
2 2
0;529 0;634
= 0;7604
2. A continuación se construye un modelo de regresión múltiple para explicar el log(y) a

través de log(x1 ); log(x2 ) y log(x3 ), mediante un modelo de regresión múltiple, obteniéndose
los resultados que se muestran a continuación:
Se pide interpretar los resultados de los contrastes individuales, así como del contraste
general de regresión, y a la vista de lo anterior proponer si dicho modelo puede ser
simpli…cado, indicando cómo. (Tomar = 0;05). Discutir las diferencias con los resultados
del apartado 1) y comentar a qué pueden deberse.
Si el modelo es: log(y) = + log(x1 ) + log(x2 ) + 2 ):

0 1 2 3 log(x3 ) + u; con u ! N (0;
Con esta notación:
b = 0;04826
0
b = 0;69084
1
b = 0;04973
2
b = 0;27071
3
CONTRASTES INDIVIDUALES:
Con los p-valores de la …gura (salida de R) se tiene que 0 y 2 no resultan estadísticamente signi-
…cativos (p-valores iguales a 0.531 y 0.106, respectivamente). Aunque el segundo de ellos está cerca de
serlo para un nivel de signi…cación que fuera = 0;1.
El valor de los estimadores de 1 ; 2 y 3 ; es decir, b 1 = 0;69084, b 2 = 0;04973 y b 3 = 0;27071
se ha modi…cado bastante respecto a los b , b y b . Esto podría ser debido a un problema de
11 12 13
multicolinealidad, para corroborarlo se debería disponer de la matriz de correlaciones de los regresores
(log(x1 ), log(x2 ) y log(x3 )).
CONTRASTE GENERAL DE REGRESIÓN:
H0 : 1 = 2 = 3 =0
H1 : Alguna distinta de cero
Como el p-valor del contraste general de regresión es 2;2 10 16 se rechaza la hipótesis nula en favor de
la alternativa.
3. Se introduce la variable z : MEJORA (cualitativa) en el modelo óptimo obtenido del

apartado anterior y se tiene que el estimador del coe…ciente de regresión b M EJORA =
0;355115 y el valor de su error estándar de estimación vale 0;03221758: Indicar justi…-
cadamente si dicha variable cualitativa resulta signi…cativa así como la interpretación de
dicho coe…ciente de regresión.
b M EJORA
El estadístico t para el correspondiente contraste individual se calcula así: t stat = error estandar estimacion (b M EJORA )
0;355115
0;03221758 = 11;0224
Y como j 11;0224j >> tn k 1 t153 4 1; 0;05 ' 2 resulta estadísticamente signi…cativa pues se
2
rechaza la H0 : M EJORA = 0:
Ordenada en el origen con MEJORA=0 vale b 0 y con MEJORA=1 sería: b 0 + b M EJORA = b 0
0;355115:
Al pasar de MEJORA=0 a MEJORA=1, el log(Calidad) disminuye 0;355115:
Examen Extraordinario - Diseño y Regresión 26 de junio de 2015
1. Unos estudiantes de Biologı́a están analizando la reducción de una enzima en un reacción quı́mica,
para ello trabajan con tres reacciones diferentes y cinco mezclas.
Reacción
1 2 3 M edias
1 199 124 80 134, 3
2 200 120 78 132, 7
3 198 120 78 132, 7
4 197 122 82 133, 3
5 200 121 80 133, 3
M edias 198, 8 121, 4 79, 6 ȳ.. = 133, 3
Obtenga la tabla ADEVA y concluya qué variables son significativas. Justifique y escriba el modelo
correcto para el experimento realizado.
2 Se estudia la producción de un fármaco, para ello se utilizan dos componentes que se denominan
Componente 1 y Componente 2, cada componente tiene dos niveles, y cada tratamiento tiene dos
réplicas. Los p-valores del efecto principal del Componente 1 (A), del efecto principal de la Componente
2 (B) y la interacción de segundo orden AB son respectivamente p-valor= 0, 999, p-valor= 0, 2378 y
p-valor= 0, 000.
A continuación se presenta la tabla con las medias de los cuatro tratamientos y el gráfico de la
interacción AB.
C1 − 1 C1 − 2
C2 − 1 35 21
C2 − 2 20 34
Tabla de medias de los tratamientos
Se pide:
a) ¿Qué condiciones experimentales son las más favorables para obtener la máxima producción? La
varianza residual del modelo de dos factores es ŝ2R = 1, 04. Utilice α = 0, 05.
b) Estime la V E(A:Componente 1) y la V E(B:Componente 2) considerando únicamente los datos
del gráfico.
𝑠̂𝑦2 = 1473.4 ; 𝑠̂𝑥2 = 26.25 ; 𝑐𝑜𝑣(𝑥, 𝑦) = 𝑠𝑥𝑦 = 142.96 𝑦̅ = 86.31 ; 𝑥̅ = 16.5
𝑠̂𝑅 = 26.76
𝛽1 𝛼 = 0.05
{𝑧𝑎𝑙𝑡𝑎 , 𝑧𝑚𝑒𝑑𝑖𝑎 , 𝑧𝑏𝑎𝑗𝑎 }
𝑏𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜𝑠 = 𝛽0 + 𝛽1 · 𝑣𝑖𝑠𝑖𝑡𝑎𝑠 + 𝛼𝑏𝑎𝑗𝑎 · 𝑧𝑏𝑎𝑗𝑎 + 𝛼𝑎𝑙𝑡𝑎 · 𝑧𝑎𝑙𝑡𝑎 + 𝑢
0.3982 -0.0188 -0.0927 -0.0880

-0.0188 0.0011 0.0006 0.0003
(𝑋 𝑇 −1
· 𝑋) = -0.0927 0.0006 0.1669 0.0835
-0.0880 0.0003 0.0835 0.1743
𝑋𝑇 · 𝑌 = [3021 54707 965 1050]T
𝑠̂𝑅 = 26.81
𝛼 = 0.05
Coefficients:
(Intercept) -68.7562 83.9978 -0.819 0.419
visitas 15.7032 13.7715 1.140 0.263
Zbaja -0.9008 11.0369 -0.082 0.935
Zalta 14.0552 11.3655 1.237 0.226
ninos -12.0809 16.1811 -0.747 0.461
Residual standard error: 27 on 30 degrees of freedom

𝛼 = 0.05
EXÁMENES
Curso 2015/16
Examen de Diseño y Regresión, GITI 14 de marzo de 2016
1.) Los propietarios de un hotel rural quieren reducir el gasto en lavandería ya que se han
dado cuenta que con el detergente que utilizan en la actualidad tienen que devolver la ropa
"supuestamente limpia.a la lavandería en demasiadas ocasiones.
Han realizado un experimento para comparar cuatro detergentes de distintas marcas en
tres tipos de manchas distintas y han medido la "blancura"de la ropa después del lavado.
Se pide plantear el modelo más adecuado, indicar su nombre y justi…car la respuesta de la
elección. Indicar el detergente que obtiene mejores resultados, así como el peor. NOTA: La
obtención de un valor mayor signi…ca mayor blancura. Utilizar = 0;05:
El modelo adecuado es un modelo en bloques aleatorizados: se quiere detectar cuál es el detergente más
e…caz, pero el tipo de mancha puede in‡uir en la "blancura"que se obtiene.
2
yij = + i + j + uij ; con uij N (0; );
donde es la media global, i y j los efectos principañes asociados al "factor detergente "bloque mancha- 2
espectivamente. uij es el término de error. Cada yij es la blancura obtenida con detergente i-ésimo para la
mancha j-éisma.
A la vista de la tabla de medias, el mejor detergente en media es el Detergente 3, y el peor el Detergente
4. Ahora vamos a ver si existe diferencia estadísticamente signi…cativa con los demás detergentes.
Figura 1: Tabla de medias. Cuestión 1.
Los residuos se calculan: eij = yij y i: y :j + y :: y quedarían:

P
I P
J
e2ij
P
I P
J
V NE i=1 j=1 18;833
V NE = e2ij , donde I = 4 y J = 3 en este caso. Y sb2R = (I 1)(J 1) = (4 1)(3 1) = 6 = 3;138:
i=1 j=1
Para el cálculo de los intervalos utilizamos la expresión:
+ i 2 y i: t(4 1)(3 1); 2 sbR p1J ; con lo que quedaría que:
Figura 2: Residuos del modelo en bloques
p
+ 1 2 y 1: t6; 2 3;138 p13 ! + 1 2 46;333 2;447 1;7714 p1 ,
3
entonces + 1 2 46;333 2;5026,
entonces + 1 2 [43;8304; 48;8356]:
p
+ 2 2 y 2: t6; 2 3;138 p13 ! + 2 2 48;333 2;5026, entonces + 2 2 [45;8304; 50;8356]:
p
+ 3 2 y 3: t6; 2 3;138 p13 ! + 3 2 51 2;5026, entonces + 3 2 [48;4974; 53;5026]:
p
+ 4 2 y 4: t6; 2 3;138 p13 ! + 4 2 42;667 2;5026, entonces + 4 2 [40;1644; 45;1696]:
2.) Un grupo de profesores de Primaria sospecha que sus alumnos aprenden de manera más
efectiva con música clásica de fondo a un volumen constante y moderado, y menos efectiva en
silencio o con música cuyo volumen y tipología sea variable.
Por ello eligen 24 alumnos al azar y los dividen de manera aleatoria en tres grupos de ocho
alumnos. Todos ellos estudian en las condiciones descritas un texto durante 30 minutos:
Sonido Constante de fondo, música clásica a volumen constante (SC),
Sonido que varía periódicamente (SV),
Sin sonido ni música de fondo (SS).
Después se les hace a los alumnos un test sobre el texto con 10 preguntas, y se recogen sus
puntuaciones.
a) Indicar de qué modelo se trata y plantear la ecuación del mismo de…niendo qué es cada
término y subíndice, así como las hipótesis que se asumen.
Modelo de análisis de la varianza con un factor.
2
yij = i + uij con uij N (0; ):
Llamaremos a nivel del factor SC: 1, SV: 2, SS: 3. El factor "sonido de fondo"tiene K = 3 niveles.
i = 1; 2; 3. yij son las puntuaciones del alumno j-ésimo que ha estudiado el texto en la condición i (según la
de…nición anterior). i parte predecible, explicada por el modelo. uij término de error.
Se asumen las hipótesis de homocedasticidad, normalidad e independencia.
b) Indicar el número de parámetros a estimar.
Se estiman 1 , 2 , 3 y 2 , que es la varianza del error. Por tanto, se estiman 4 parámetros.
c) Respecto a la diagnosis del modelo se proporcionan los dos grá…cos siguientes y se
realiza un contraste de bondad de ajuste obteniéndose un p-valor de 0.2614. Se pide indicar si
con toda esta información las hipótesis indicadas en a) pueden comprobarse y si se cumplen.
NOTAS: Tomar = 0;05. En el contraste de bondad de ajuste la H0 es que los residuos son
normales, y la H1 que no lo son.
Para comprobar homocedasticidad se utiliza el grá…co proporcionado en el enunciado: residuos frente a
valores previstos, y al no observarse que la dispersión crezca al hacerlo los valores previstos, o decrezca con
ellos (residuos en forma de "trompeta") esto nos permite dar por válida la hipótesis de homocedasticidad.
En cuanto a la hipótesis de normalidad, a la vista del Q-Q plot (puntos bastante alineados al representar
percentiles de los valores muestrales frente a los teóricos (distribución normal correspondiente) y sobre
todo dado que el p-valor proporcionado para el contraste de bondad de ajuste es 0.2614, que es mayor que
cualquiera de los niveles de signi…cación habituales (.01, 0.05 y 0.1) no se rechaza la hipótesis de normalidad.
Independencia: Es la hipótesis fundamental y con diferencia la más importante de las tres, además es la
más difícil de comprobar. Ninguno de los grá…cos mostrados permite comprobar esta hipótesis. Pero en este
sentido la clave está en la aleatorización.
d) Indicar si se necesita algún grá…co o comprobación adicional. En caso a…rmativo indicar
cuáles.
Como se indicaba en c) Respecto a la hipótesis de independencia: Ninguno de los grá…cos mostrados
permite comprobar esta hipótesis. Pero en este sentido la clave está en la aleatorización.
La aleatorización evita que se produzcan errores que sistemáticamente aumenten o disminuyan un con-
junto de medidas por causas no reconocibles: al aleatorizar se reparten estos errores por igual entre los
diferentes tratamientos y se convierten en errores aleatorios, previstos en el modelo.
Prueba de Evaluación Continua-1 Diseño de Experimentos 14 de marzo de 2016
Se estudia la variable aleatoria  , resistencia a la compresión (psi) en probetas de hormigón asfálti-

co en función del "método de compresión"(Estático, Regular, Bajo y Muy Bajo) y el "tipo de sustancia
agregada"(Basalto y Silicio). Se ha experimentado en las ocho posibles combinaciones (ocho tratamientos)
de ambos factores replicando cada experimento tres veces. A continuación se muestran los resultados del
experimento (Tabla 1) y la tabla ADEVA (Tabla 2) para el diseño experimental:
Método de compresión
   
Tipo Sustancia  68,63,65 126,128,133 93,101,98 56,59,57
 71,66,66 107,110,116 63,60,59 40,41,44
  1 : Resultados del experimento
  2 : Tabla ADEVA
1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)
2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)
3. Indique qué distribución sigue  y estime por máxima verosimilitud los parámetros  y   del
modelo propuesto en el primer apartado. (1 punto)
Nota: Utilice para todos los apartados  = 005
Solución:
1. Formule el modelo matemático que se ha utilizado. Razone qué efectos son significativos. Interprete
los resultados obtenidos, realice los gráficos que necesite para decidir qué tratamientos son distintos.
¿Existe un tratamiento con mayor resistencia a la compresión, y un tratamiento con menor resistencia
a la compresión?.¿Cuáles y por qué? (3.5 puntos)
Se plantea um modelo con dos factores e interacción. La variable respuesta  es la resistencia a la
compresión (psi), los dos factores son: Factor 1-Tipo de Sustancia y Factor 2-Método de compresión.
El modelo matemático es:
 =  +  +   +   +   () → (0 2 )

X 
X 
X 
X
 =  =   =   = 0; con  = 2  = 4  = 1 2 3(número de réplicas)
=1 =1 =1 =1
Observando la tabla ADEVA concluimos que el efecto principal "Tipo de Sustancia", el efecto principal
"Método de compresión 2la interacción entre "Tipo-Método"son significativas, ya que los p-valores son
 −   005
Como la interacción es significativa, el efecto del primer factor depende del nivel al que esté el segundo
factor (y viceversa). Para poder saber que tratamiento es el que tiene mayor resistencia, menor
resistencia y cúales son distintos calclamos el gráfico de la interacción incluyendo los intervalos de
confianza para las medias de los ocho tratamientos. A continuación se presenta una tabla con las
medias de cada tratamiento.
Método de compresión
   
Tipo Sustancia  65,33 129 97,33 57,33
 67,66 111 60,66 41,66
Medias de los tratamientos
Calculamos el intervalo de confianza para las medias de cada tratamiento, como se describe a contin-
uación:
r
1
̄ ± (−1);2 ̂

r r r
√ 1 1 1
siendo (−1);2 = 16;0025 = 212; ̂ = 95 y = Por lo tanto, (−1);2 ̂ = 372
 3 
A continuación se presenta el gráfico de la interacción con las medias de cada uno de los ocho tratamientos
y los respectivos intervalos de confianza.
Interactions and 95.0 Percent LSD Intervals

138 Metodo
1
118 2
Resistencia
3
98 4
78
58
38
1 2
Tipo
́    ́

El tratamiento con mayor resistencia a la compresión es Método regular y Tipo B, el tratamiento con
menor resistencia a la compresión es Método muy bajo y Tipo S. Ya que corresponden al más alto y más
bajo respectivamente y sus intervalos no se solapan con los intervalos de los demás tratamientos. Los unicos
tratamientos que no se pueden considerar distintos son:M1-TB con ME-TS, M3-TS con M1-TB, M3-TS con
MMB-TB.
2. Obtenga un intervalo de confianza para la varianza del error experimental del diseño experimental.
(1.5 puntos)
Nos piden un intervalo de confianza para  2 así:
PPP
  2 (( − 1))̂2
→ 2(−1) ; = → 2(−1) ;
2 2 2
 (2 ≤ 2(−1) ≤ 2 ) = 1 − ;
(( − 1))̂2
2 ≤ ≤ 2 
2
Y el intervalo para  2 es:
(( − 1))̂2 2 (( − 1))̂2

≤  ≤
2 2
siendo ( − 1) = 16 ̂2 = 95 2 = 69 y 2 = 2885. Por lo tanto el intervalo pedido es:
 2 ∈ (53; 22)
3. Indique qué distribución sigue  y estime por máxima verosimilitud los parámetros  y   del
modelo propuesto en el primer apartado. (1 punto)
La distribución de  sigue una distribución normal, ya que es una combinación de variables normales,
con esperanza y varianza las siguientes:
[ ] = [ +  +   +   +  ] =  +  +   +   + 0 =  +  +   +  
 [ ] =  [ +  +   +   +  ] = 0 +  2 =  2
Por lo tanto la distribución de  es:
 →  ( +  +   +   ;  2 )
Estimación máximo verosimil de los parámetros  y   del modelo.
1
1 − (( −− −  −  ))2
 ( ) = √  2
 2
Función de verosimilitud:
1 
1 − [( −− −  −  )]2 
2
(111   243 ;  1    1   24   ) =   2   
 (2)2
Función soporte:
 X X X  −  −  −   −  
( 1    1   24   2 ) =  − log  2 − [ ]2 
2 
  
XXX PPP
 c ) = 0 ⇒ ̂ = 
=0⇒2 ( − ̂ − ̂ − ̂  −   = ̄
 
 XX
= 0;  = 1 2 ⇒ c )=0⇒
( − ̂ − ̂ − ̂  −  

 
XX
̂ = c )=0⇒
( − ̂ − ̂ − ̂  −  
 
P P
  
̂ = − ̄ = ̄ − ̄

XXX P P
 c ) = 0 ⇒  ⇒ ̂ =   
= 0  = 1 2 3 4 ⇒ ( −̂−̂ −̂  −   −̄ = ̄ −̄
  
1. Dado el siguiente modelo de regresión:
ŷi = −19,62 + 0,59x1i + 3,72x2i , n = 12, R̄2 = 0,96,
Además se tiene la siguiente información sobre los datos analizados:
ȳ = 124,50, ŝ2y = 4104,27, x̄1 = 105,75, ŝ2x1 = 3201,84, x̄2 = 22,08, ŝ2x2 = 68,63.
Se pide:
a) Realizar el contraste general de regresión.

b) Analizar si hay multicolinealidad.
2. Se desea comparar dos tratamientos para reducir el nivel de colesterol en la sangre.

Se seleccionan 20 individuos y se asignan al azar a dos tipos de dieta, A y B. La
tabla muestra la reducción conseguida después de dos meses:
Reduccion nivel
colesterol Dieta
51.3 A
39.4 A
26.3 A
39.0 A
48.1 A
34.2 A
69.8 A
31.3 A
45.2 A
46.4 A
29.6 B
47.0 B
25.9 B
13.0 B
33.1 B
22.1 B
34.1 B
19.5 B
43.8 B
24.9 B
a) Proponer un modelo de regresión que permita analizar si hay diferencias entre

las dietas y estimar los parámetros de dicho modelo.
b) Contrastar si hay diferencias en la reducción de nivel colesterol según la dieta
seguida.
Nota.- Utilizar α=0,05

En una zona del mar Mediterráneo se han tomado 12 medidas de las concentraciones
de metales pesados en el sedimento (ng/g). Los metales medidos han sido Cd, Pb, Cr, As
y Hg. Para analizar si la concentración de Pb está relacionada con las concentraciones del
resto de metales pesados, se han ajustado diferentes modelos de regresión. Se presentan
los resultados de 4 de ellos, ası́ como las medias y la matriz de varianzas de las variables.
Modelo 1:
lm(formula = Pb ~ Cd)
Coefficients:
(Intercept) 8.75081 10.87684 0.805 0.44
Cd 1.09455 0.09154 11.957 3.02e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

F-statistic: 143 on 1 and 10 DF, p-value: 3.022e-07
Modelo 2:
lm(formula = Pb ~ Cr)
Coefficients:
(Intercept) -40.2072 15.1626 -2.652 0.0242 *
Cr 7.4584 0.6462 11.542 4.21e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Modelo 3:
lm(formula = Pb ~ Cd + Cr)
Coefficients:
(Intercept) -19.6155 13.4732 -1.456 0.1794
Cd 0.5850 0.2009 2.912 0.0173 *
Cr 3.7244 1.3723 2.714 0.0238 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Modelo 4:
lm(formula = Pb ~ Cd + Cr + As + Hg)
Coefficients:
(Intercept) -5.5137 59.1801 -0.093 0.9284
Cd 0.5967 0.2204 2.708 0.0303 *
Cr 2.2402 1.8726 1.196 0.2705
As 0.6466 0.5310 1.218 0.2628
Hg -0.2422 0.5683 -0.426 0.6828
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Tabla de medias:
Pb Cd Cr As Hg
124.50 105.75 22.08 64.00 98.83
Matriz de varianzas:
Pb Cd Cr As Hg
Pb 4104.27 3504.59 511.86 1169.27 44.09
Cd 3504.59 3201.84 438.02 974.55 71.23
Cr 511.86 438.02 68.63 150.55 2.38
As 1169.27 974.55 150.55 394.18 17.91
Hg 44.09 71.23 2.38 17.91 63.24
1. A partir de la información presentada en los Modelos 1 y 2, conteste a las siguientes
preguntas:
a) ¿Hay evidencia de relación entre las concentraciones de Pb y Cd? Proporcione
el p-valor del contraste y calcule el intervalo de confianza para el parámetro de
la pendiente.
b) Contraste si hay evidencia estadı́stica para asegurar que la pendiente del mo-
delo de regresión, que relaciona el Pb con el Cr, es mayor que 6.
2. Se ha estimado un modelo de regresión multiple que incluye los regresores Cd y Cr
(Modelo 3).
a) Interprete los resultados del Modelo 3 explicando el significado de cada paráme-
tro. Compare el Modelo 3 con los Modelos 1 y 2 y explique las diferencias.
b) Calcule la matriz de varianzas de los estimadores βb1 y βb2 . Compruebe que
rβb1 βb2 = −rx1 x2 .
3. Proporcione los intervalos de predicción obtenidos con los cuatro modelos para la
concentración de Pb de una nueva prospección de sedimiento, cuando las concentra-
ciones de Cd, Cr, As y Hg coinciden con la media. Justifique qué modelo elegirı́a de
los cuatro presentados si se quiere obtener la mejor predicción de la concentración
de Pb.
Nota.- Utilice α=0,05

Solución de las Cuestiones
1. Cuestión 1
a) El contraste que hay que resolver es:
H0 : β1 = β2 = 0
H1 : Algún βi 6= 0
Lo resolvemos mediante análisis de la varianza:
V T = (n − 1)ŝ2y = 45146,97
ŝ2R
R̄2 = 1 − ⇒ ŝ2R = (1 − R̄2 )ŝ2y = 164,17
ŝ2y
V NE = (n − K − 1)ŝ2R = 1477,54
V E = V T − V NE = 43669,43
Por tanto
V E/K VE
F = = ⇒ F0 = 133
V NE/(n − K − 1) K ŝ2R
Como F2,9;0,05 =4.26, se rechaza la hipótesis nula.
b) Hay multicolinealidad cuando los regresores están muy correlacionados:

T
s21 s12 β̂1
= n(β̂12 s21 + β̂22 s22 + 2β̂1 β̂2 s12 )

V E = nb̂ Sxx b̂ = n β̂1 β̂2
s12 s22 β̂2
Despejando
V E − nβ̂12 s21 − nβ̂22 s22
s12 =
2nβ̂1 β̂2
43669,43 − 0,592 (12 − 1)3201,84 − 3,722 (12 − 1)68,63
⇒ s12 = = 397,95
24 · 0,59 · 3,72
Y el coeficiente de correlación
s12
ρ12 = = 0,93
s1 s2
Por tanto, si hay multicolinealidad.
2. Cuestión 2
a) El modelo es
yi = β0 + β1 zD + ui , ui → N(0, σ 2 )
donde zD =1 si el individuo sigue la dieta A, y zD =0 si el individuo sigue la
dieta B. De los datos se tiene que:
ȳ = 36,2 ŝ2y = 174,18

z̄D = 0,5 ŝ2zD = 0,2631 s2zD = 0,25

ŝy,zD = 3,63
Por tanto
ŝy,zD
β̂1 = = 13,8 β̂0 = ȳ − β̂1 z̄D = 29,3
ŝ2zD
V T = (n − 1)ŝ2y = 3309,42
V E = nβ̂1 s2zD = 952,2
V NE = V T − V E = 2357,22
V NE
σ̂ 2 = ŝ2R = = 130,96
n−2
b) El contraste que hay que resolver es:
H0 : β1 = 0
H1 : β1 6= 0
Para resolver el contraste:
β̂1
t0 = q = 2,696
ŝ2R /ns2zD
Como t18;0,025 =2.101, se rechaza la hipótesis nula: hay diferencias en la reduc-

ción del nivel de colesterol según la dieta seguida.
Solución del problema
1. a) Con el modelo 1: Si hay evidencia de relación. Del contraste individual: p-valor

del contrate=3,02 ∗ 10−7 <<< α = 0,05.

El intervalo: β1 ∈ βb1 ± t α × sb βb1 con confianza 1 − α.
n−2;
2
De la salida del program R se obtiene: β1 = 1,09455; b
b s βb1 = 0,09154.
De las tablas: t10;0,025 = 2,228.
El intervalo es β1 ∈ 1,09455 ± 2,228 × 0,09154 =⇒
β1 ∈ [0,89; 1,29] con confianza 95 % .
b) Con el modelo 2: El contraste es:

H0 : β1 ≤ 6 βb1 − 6
=⇒Si H0 cierta=⇒ ˜tn−2
H1 : β1 > 6 sb βb1
Es un contraste unilateral por la derecha. Con lo datos de la salida de R se
obtiene:
7,46 − 6
t0 = = 2,2568 > t10;0,05 = 1,815 =⇒Se rechaza H0 , hay evidencia
0,6462
estadı́stica para asegurar que la pendiente del modelo es mayor que 6.
2. a) Los resultados del modelo 3 indican los siguiente:
- El contraste general es significativa, alguno o todso los regresores son sig-
nificativos (α = 0,05)
- Los contrastes individuales son significativos. Ambos regresores tienen un
efecto positivo sobre la concentración de Pb. En concreto, al aumentar la
concentración de Cd en una unidad, manteniendo la de Cr constante la
concentración de Pb aumenta por término medio en 0.5850 unidades. Al
aumentar la concentración de Cr en una unidad, manteniendo la de Cd
constante, la concentración de Pb aumenta por término medio en 3.7244
unidades.
2
- Es un buen modelo, el coeficiente de determinación corregido es R =
sR = 13,43.
0,9561 y la desviación tı́pica residual b
Las diferencias de los resultados del modelo 3 respecto a los de los modelos 1
y 2 se pueden resumir como sigue:
- Ha disminuido el p-valor de los contrastes individuales, aunque los regre-
sores siguen siendo significativos. (α = 0,05)
- Ha cambiado el valor de los estimadores de los coeficientes de los regresores.
En ambos casos ha disminuido.
- Ha aumentado la varianza de los estimadores de los coeficientes de los
regresores.
Estas tres diferencias pueden indicar la existencia de multicolinealidad.
2
Adicionalmente se observa que R = 0,9561 es superior al correspondiente a
los modelos 1y 2, y la sbR = 13,43, es inferior. Esto indica que la capacidad
predictiva de este modelo es superior a la de los modelos 1 y 2.
−1
sb2R −1

13,43 3201,84 438,02
b. La matriz de varianzas es: Mβb = S = =
n xx 12 438,02 68,63
0,037 −0,236
−0,236 1,73
El coeficiente de correlación entre los resgresores es:
438,02
rx 1 x 2 = √ √ = 0,93.
3201,84 × 68,63
El coeficiente de correlación entre los estimadores de los parámetros es:
−0,236
rβb1 xβb2 = √ √ = −0,93.
0,037 × 1,73
Se comprueba entonces que rβb1 βb2 = −rx1 x2 .
(Nota.- se podı́a haber hecho teóricamente).
3. El intervalo de predicción para una nueva observación tanto para los modelos de
regresión simple (modelos 1 y 2) como los modelos de regresión múltiple se pueden
escribir:
√
yh ∈ yeh ± t α × sbR × 1 + νhh .
n−k−1;
2
Como se pide hacer la predicción cuando las concentraciones de los regresores coin-
ciden con la media=⇒
1 1 1
Para todos los modelos: yeh = ybh = y h = 124,5. Y además νhh = = = .
n
bh n 12
Lo único que varı́a en los intervalos de predicción de un modelo a otro son los grados
de libertad de la distribución t, y el valor de la bsR .
Modelo 1:
r
1
yh ∈ 124,5 ± 2,23 × 17,18 × 1+ .
12
Modelo 2:
r
1
yh ∈ 124,5 ± 2,23 × 17,75 × 1+ .
12
Modelo 3:
r
1
yh ∈ 124,5 ± 2,26 × 13,43 × 1+ .
12
Modelo 4:
r
1
yh ∈ 124,5 ± 2,36 × 13,8 × 1+ .
12
2
Si se quiere conseguir la mejor predicción, el modelo elegido debe tener mayor R ,
menor bsR y menor intervalo de predicción. Con los datos del problema, el modelo
elegido para cumplir con el objetivo es el modelo 3.
α



(𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) − (𝜇𝐵 − 𝜇𝐶 )
~ 𝑡8,𝛼/2
1 1
𝑠̂𝑅 √𝑛 + 𝑛
𝐵 𝐶
1 1
IC(𝜇𝐵 − 𝜇𝐶 ) = (𝑦̅𝐵∙ − 𝑦̅𝐶∙ ) ± 𝑠̂𝑅 · 𝑡8, 0.05 ·√ +
𝑛𝐵 𝑛𝐶
2
IC(𝜇𝐵 − 𝜇𝐶 ) = (137.70 − 145.54) ± √20.01 · 1.86 · √ = (−13.10, − 2.58)
5
𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝜇̂ − 𝛼̂𝑖 − 𝛽̂𝑗 = 𝑦𝑖𝑗 − 𝑦̅𝑖· − 𝑦̅·𝑗 + 𝑦̅··



275.51
𝑠̂𝑅2 = = 4.59
60
2 2
𝐼𝐽(𝑚−1)·𝑠̂𝑅 𝐼𝐽(𝑚−1)·𝑠̂𝑅
𝐼𝐶(𝜎 2 ) = ( 2 , 2 ) = (3.3 6.8)
χ𝛼/2 χ1−𝛼/2
𝐼𝐶( 𝜎) = (1.8 2.6)
2 2 2 2
𝐻0 : 𝜎𝐶1 = 𝜎𝐶3 ; 𝐻1 : 𝜎𝐶1 ≠ 𝜎𝐶3
2
𝑠̂𝐶3
𝐹0 = 2 ~ 𝐹𝑛𝐶3 −1, 𝑛𝐶1 −1
𝑠̂𝐶1
121,53
𝐹0 = 3,391
= 35.83 ~ 𝐹15,15
𝐹𝑎 = 0.35 𝑦 𝐹𝑏 =
2.86 𝐹0
Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC
1 130 155 34 40 20 70
74 180 80 75 82 58
2 150 188 136 122 25 70
159 126 106 115 58 45
3 138 110 174 120 96 104
168 160 150 139 82 60
Tipo de Temperatura ºC
Material -10ºC 20ºC 50ºC Medias
1
134.75 57.25 57.50 83.17
2
155.75 119.75 49.50 108.33
3
144.00 145.75 85.50 125.08
Medias 144.83 107.58 64.17 105.53
Fuente Suma de Gl Cuadrado Medio Razón-F

Cuadrados
temp 39118,7 2 19559,4 28,97
mate 10683,7 2 5341,86 7,91
temp * mate 9613,78 4 2403,44 3,56
RESIDUOS 18230,8 27 675,213
TOTAL 77647,0 35
α
α
𝑌 = 𝑋𝛽 + 𝑈,
𝑌 = 𝑍𝛽′ + 𝑈′
𝛽̂ 𝑦 𝛽̂ ′ 𝛽̂ ′ = 𝐴−1 𝛽̂ .
Diseño de Experimentos y Modelos de Regresión. Examen Extraordinario 6 de julio de 2016
1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.
Se proporciona también la matrix (X 0 X) 1:
Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:
H0 : 2 = 3;
H0 : 2 6= 3:
b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1
En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2
2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)
2. Queremos contrastar:
H0 : 2 = 3;
H0 : 2 6= 3;
equivalente a contrastar:
H0 : 2 3 = 0;
H0 : 2 3 6= 0:
p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3
= 0;90672 (0;1062 + 0;1000193 2 0;049662) =

= 0;90672 0;1069 = 0;0879:
Si H0 cierta entonces pb0;0879
2 b3
t60 4 1 y como pb0;0879
2 b3
= 4;61366
p 0;57922
0;0879
= 17;5151, que en valor
absoluto es claramente mayor que 2, el valor aproximado de la t60 4 1; 2 :
3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:
Restaurante X (población estudiantes, miles) Y (ventas trimestrales)

1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Totales 140 1300
Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.
La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x
Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:
b = y b x = 1300 5 140 = 130 5 14 = 60

0 1
10 10
b cov(X; Y ) 315;556
1 = = = 5:
var(X) 63;111
p 1 (xh x)2 1 (10 14)2 1

mh 2 ybh tn k 1; 2 sbR vhh , donde vhh = n 1+ s2x
= 60 1+ 63;111 = 60 (1 + 0;2535)
Entonces vhh = 0;0209:
ybh = b 0 + b 1 xh = 60 + 5 10 = 110:
p
mh 2 ybh tn k 1; 2 sbR vhh
p p
mh 2 110 2;306 191;25 0;0209 = 110 4;6103
El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:
mh 2 (105;3897, 114;6103):
Problema
Se ha realizado un experimento para estudiar el efecto de 3 dietas sobre el

peso de los profesores de universidad. Se han elegido 4 profesores y se les ha
sometido a las 3 dietas.
Los resultados de reducción de peso al …nal del mes de prueba se muestran
en la tabla adjunta.
Dieta 1 Dieta 2 Dieta 3 Medias

Profesor 1 5,89 3,99 3,11 4,33
Profesor 2 6,43 4,04 3,39 4,63
Profesor 3 1,59 1,84 0,31 1,25
Profesor 4 3,29 1,58 1,88 2,25
Medias 4,30 2,86 2,17 3,11
1) Sabiendo que s2y = 3; 01, estudiar la dependencia de la reducción de peso

respecto de solamente la dieta, sin tener en cuenta el factor profesor. Indicar
las dietas más e…caz y menos e…caz, en caso de que sea posible.
2) Incorporar al análisis el factor profesor; comparar los resultados con los
del análisis anterior, incluyendo la selección de las dietas más y menos e…caces.
¿De qué ha servido incluir el factor profesor? ¿Cuál de los dos análisis es más
…able y porqué?
3) Calcular un intervalo de con…anza para la varianza del error experimental

del modelo del apartado 2.
Solución
1)
V T = 12s2y = 36; 11
V E(dieta) = 4x[(4:3 3:11)2 + (2; 86 3; 11)2 + (2; 17 3; 11)2 ] = 9; 46
Fuente Suma de C Grados de lib. C.M. F p-valor

Dieta 9,46 2 4,73 1,59 0,25
Residual 26,65 9 2,96
Total 36,11 11
Por tanto, al ser el p-valor mayor que el valor estándar de referencia de 0,05,
no resulta signi…cativo el efecto de la dieta.
Para determinar la dieta más e…caz y la menos e…caz en principio se re-
alizarían los contrastes por parejas, pero al no ser signi…cativo el efecto de la
1
dieta, no sería necesario. De todas formas, se presentan a continuación, por
razones pedagógicas.
H0 : i = j
H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t9 bajo H0
El percentil 0,975 de la distribución t con 9 grados de libertad es 2,26
Para dieta 1 frente a dieta 2; t = 1; 18 < 2; 26
Por tanto, se con…rma que ninguna de las diferencias es signi…cativas.
2) V E(paciente) = 3x[(4:33 3:11)2 + (4; 63 3; 11)2 + (1; 25 3; 11)2 +
(2; 25 3; 11)2 ] = 23; 9
Fuente Suma de C. Grados de lib. C.M: F p-valor

Dieta 9,46 2 4,73 10,31 0,011
Paciente 23,9 3 7,96 17,36 0,0023
Residual 2,75 6 0,45
Total 36,11 11
Por tanto, al ser los dos p-valores menores que el valor estándar de referencia
de 0,05, resultan signi…cativos tanto el efecto de la dieta como el del paciente.
La inclusión del efecto del paciente reduce la varianza residual y aumenta la
precisión de los contrastes; por tanto, es más …able el segundo análisis que el
primero.
Para determinar la dieta más e…caz y la menos e…caz en principio se re-
alizarían los contrastes por parejas.
H0 : i = j
H1 : i 6= j p
t = (y i: y j: )=b
sR (1=4) + (1=4) sigue una distribución t6 bajo H0
El percentil 0,975 de la distribución t con 6 grados de libertad es 2,45
Para dieta 1 frente a dieta 2; t = 3; 00 > 2; 45
Por tanto, se puede concluir que la dieta más e…caz es la 1 pero no se puede
concluir si la menos e…caz es la 2 o la 3.
3) V E= 2 2
6
2
Los percentiles 0,025 y 0,975 de la distribución con 6 grados de libertad
son 1,23 y 4,45
2 2 2
P( 6;0;025 < V E= < 6;0;975 ) = 0; 95
Transformando las dos desigualdades anteriores, se obtiene que el intervalo
de con…anza es (0,19,2,22)
2
1. En una regresión múltiple con variable dependiente Y hay dos variables cuantitativas X1
y X2 y una variable cualitativa Z con 3 niveles A, B y C (se de…nen en relación con ésta
3 variables binarias Z1 ; Z2 y Z3 , donde Z1 toma el valor 1 cuando Z es igual a A y 0 en
el resto de casos, Z2 toma el valor 1 cuando Z es igual a B y 0 en el resto de casos y
Z3 toma el valor 1 cuando Z es igual a C y 0 en el resto de casos. Los resultados de la
estimación del modelo Y = 0 + 1 X1 + 2 X2 + 2 Z2 + 3 Z3 + U para n = 60 datos, y donde
U es el término de error se presentan en la tabla adjunta.
Se proporciona también la matrix (X 0 X) 1:
Se pide:
a) Calcular un intervalo de con…anza para 2:
b) Realiza el contraste:
H0 : 2 = 3;
H0 : 2 6= 3:
b
a) Sabemos que 2p 2
sbR = q22 ! tn k 1
En este caso b 2 = 4;03478; sbR = 0;9067; n = 60; k = 4 y q22 = 0;0056495816 (el elemento que ocupa
la posición (3,3) de la matriz Q = (X 0 X) 1 ).
p
2 2 b2 t60 4 1; 2 sbR
q22 , que queda:
p
2 2 4;03478 2 0;9067 0;0056495816, ya que de tablas la t60 4 1; =0;05 es aproximadamente 2.
2
2 2 4;03478 0;1393
2 2 (3;8955; 4;1741)
2. Queremos contrastar:
H0 : 2 = 3;
H0 : 2 6= 3;
equivalente a contrastar:
H0 : 2 3 = 0;
H0 : 2 3 6= 0:
p p
Sabemos que b 2 ! N ( 2; q 2 ) y b3 ! N ( 3; q 3 ):
var(b 2 b 3 ) = var(b 2 ) + var(b 3 ) 2 cov(b 2 ; b 3 ) =
= 2q + 2q 2 2q =
2 3 2; 3
= 0;90672 (0;1062 + 0;1000193 2 0;049662) =

= 0;90672 0;1069 = 0;0879:
Si H0 cierta entonces pb0;0879
2 b3
t60 4 1 y como pb0;0879
2 b3
= 4;61366
p 0;57922
0;0879
= 17;5151, que en valor
absoluto es claramente mayor que 2, el valor aproximado de la t60 4 1; 2 :
3. Una cadena de restaurantes de comida italiana ha detectado que las ubicaciones en las
que han tenido más éxito son aquéllas cercanas a institutos y colegios de enseñanza
secundaria. Se cree que las ventas trimestrales (representadas por Y ) en esos restaurantes,
se relacionan en forma creciente con la población estudiantil en miles de estudiantes
(representada por X). Es decir, que los restaurantes cercanos a centros escolares con
gran población tienden a generar más ventas que los que están cerca de centros con
población pequeña. Aplicando el análisis de regresión podremos plantear una ecuación
que muestre cómo se relaciona la variable dependiente Y con la variable independiente
X. Los datos se muestran en la tabla adjunta. Además se proporciona la sb2R = 191;25 y la
covarianza entre X e Y , cov(X; Y ) = 315;556:
Restaurante X (población estudiantes, miles) Y (ventas trimestrales)

1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202
Totales 140 1300
Se pide dar un intervalo de predicción del 95 % para el promedio de venta trimestral para
los restaurantes cercanos a centros escolares con 10000 estudiantes.
La expresión del intervalo de predicción para el valor medio en regresión simple viene dado por:
2 (xh x)2
yh ! N (mh ; 1+ :
n s2x
Los estimadores para la ordenada en el origen y pendiente del modelo de regresión múltiple:
b = y b x = 1300 5 140 = 130 5 14 = 60

0 1
10 10
b cov(X; Y ) 315;556
1 = = = 5:
var(X) 63;111
p 1 (xh x)2 1 (10 14)2 1

mh 2 ybh tn k 1; 2 sbR vhh , donde vhh = n 1+ s2x
= 60 1+ 63;111 = 60 (1 + 0;2535)
Entonces vhh = 0;0209:
ybh = b 0 + b 1 xh = 60 + 5 10 = 110:
p
mh 2 ybh tn k 1; 2 sbR vhh
p p
mh 2 110 2;306 191;25 0;0209 = 110 4;6103
El intervalo para el valor promedio cuando xh = 10 (la variable explicativa está en miles), sería:
mh 2 (105;3897, 114;6103):
z 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
TABLA 0,1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0,2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0,3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
Normal 0,4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0,5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
Estandar 0,6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0,7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0,8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0,9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1,0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1,1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1,2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1,3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
P (Z ≤ z) 1,4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
N(0,1) 1,5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1,6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1,7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1,8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1,9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
z 2,0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2,1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2,2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
Ejemplo. 2,3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2,4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
P(Z ≤ 1.96) = 0.9750 2,5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2,6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2,7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2,8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2,9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3,0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
N(0,1) P (Z ≤ z)
Distribución normal estándar (continuación)

z
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
3,1 .9990323 .9990645 .9990957 .9991259 .9991552 .9991836 .9992111 .9992377 .9992636 .9992886
3,2 .9993128 .9993363 .9993590 .9993810 .9994023 .9994229 .9994429 .9994622 .9994809 .9994990
3,3 .9995165 .9995335 .9995499 .9995657 .9995811 .9995959 .9996102 .9996241 .9996375 .9996505
3,4 .9996630 .9996751 .9996868 .9996982 .9997091 .9997197 .9997299 .9997397 .9997492 .9997584
3,5 .9997673 .9997759 .9997842 .9997922 .9997999 .9998073 .9998145 .9998215 .9998282 .9998346
3,6 .9998409 .9998469 .9998527 .9998583 .9998636 .9998688 .9998739 .9998787 .9998834 .9998878
3,7 .9998922 .9998963 .9999004 .9999042 .9999080 .9999116 .9999150 .9999184 .9999216 .9999247
3,8 .9999276 .9999305 .9999333 .9999359 .9999385 .9999409 .9999433 .9999456 .9999478 .9999499
3,9 .9999519 .9999538 .9999557 .9999575 .9999592 .9999609 .9999625 .9999640 .9999655 .9999669
4,0 .9999683 .9999696 .9999709 .9999721 .9999733 .9999744 .9999755 .9999765 .9999775 .9999784
Relación entre Binomial,

Poisson y Normal
Binomial n → ∞, p → 0 Poisson
n,p λ
λ = np
n→∞ λ →∞
p → 1/ 2 µ =λ
µ = np σ= λ
σ = np (1 − p)
Normal
µ,σ
α
g.l. 0,995 0,990 0,975 0,950 0,500 0,050 0,025 0,010 0,005
1 ,00004 ,00016 ,00098 ,00393 0,455 3,841 5,024 6,635 7,879
2 ,01002 ,0201 0,051 0,103 1,386 5,991 7,378 9,210 10,60
3 ,0717 0,115 0,216 0,352 2,366 7,815 9,348 11,34 12,84
Tabla χ2 4 0,207 0,297 0,484 0,711 3,357 9,488 11,14 13,28 14,86
5 0,412 0,554 0,831 1,145 4,351 11,07 12,83 15,09 16,75
6 0,676 0,872 1,237 1,635 5,348 12,59 14,45 16,81 18,55
7 0,989 1,239 1,690 2,167 6,346 14,07 16,01 18,48 20,28
8 1,344 1,647 2,180 2,733 7,344 15,51 17,53 20,09 21,95
9 1,735 2,088 2,700 3,325 8,343 16,92 19,02 21,67 23,59
10 2,156 2,558 3,247 3,940 9,342 18,31 20,48 23,21 25,19
11 2,603 3,053 3,816 4,575 10,341 19,68 21,92 24,73 26,76
12 3,074 3,571 4,404 5,226 11,340 21,03 23,34 26,22 28,30
13 3,565 4,107 5,009 5,892 12,340 22,36 24,74 27,69 29,82
14 4,075 4,660 5,629 6,571 13,339 23,68 26,12 29,14 31,32
15 4,601 5,229 6,262 7,261 14,339 25,00 27,49 30,58 32,80
16 5,142 5,812 6,908 7,962 15,338 26,30 28,85 32,00 34,27
17 5,697 6,408 7,564 8,672 16,338 27,59 30,19 33,41 35,72
α 18 6,265 7,015 8,231 9,390 17,338 28,87 31,53 34,81 37,16
19 6,844 7,633 8,907 10,117 18,338 30,14 32,85 36,19 38,58
20 7,434 8,260 9,591 10,851 19,337 31,41 34,17 37,57 40,00
21 8,034 8,897 10,283 11,591 20,337 32,67 35,48 38,93 41,40
22 8,643 9,542 10,982 12,338 21,337 33,92 36,78 40,29 42,80
χ ν, α 23 9,260 10,196 11,689 13,091 22,337 35,17 38,08 41,64 44,18
24 9,886 10,856 12,401 13,848 23,337 36,42 39,36 42,98 45,56
25 10,520 11,524 13,120 14,611 24,337 37,65 40,65 44,31 46,93
26 11,160 12,198 13,844 15,379 25,336 38,89 41,92 45,64 48,29
ν: grados de libertad (g.l.) 27 11,808 12,878 14,573 16,151 26,336 40,11 43,19 46,96 49,65
28 12,461 13,565 15,308 16,928 27,336 41,34 44,46 48,28 50,99
29 13,121 14,256 16,047 17,708 28,336 42,56 45,72 49,59 52,34
30 13,787 14,953 16,791 18,493 29,336 43,77 46,98 50,89 53,67
40 20,707 22,164 24,433 26,509 39,335 55,76 59,34 63,69 66,77
EJEMPLO 50 27,991 29,707 32,357 34,764 49,335 67,50 71,42 76,15 79,49
60 35,534 37,485 40,482 43,188 59,335 79,08 83,30 88,38 91,95
70 43,275 45,442 48,758 51,739 69,334 90,53 95,02 100,43 104,21
P(χ9 ≥ 19,02) = 0,025 80 51,172 53,540 57,153 60,391 79,334 101,88 106,63 112,33 116,32
90 59,196 61,754 65,647 69,126 89,334 113,15 118,14 124,12 128,30
100 67,328 70,065 74,222 77,929 99,334 124,34 129,56 135,81 140,17
120 83,852 86,923 91,573 95,705 119,334 146,57 152,21 158,95 163,65
α
g.l 0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
1 1,376 1,963 3,078 6,314 12,706 31,821 63,656 127,321 318,289 636,578
2 1,061 1,386 1,886 2,920 4,303 6,965 9,925 14,089 22,328 31,600
Tabla 3 0,978 1,250 1,638 2,353 3,182 4,541 5,841 7,453 10,214 12,924
4 0,941 1,190 1,533 2,132 2,776 3,747 4,604 5,598 7,173 8,610
5 0,920 1,156 1,476 2,015 2,571 3,365 4,032 4,773 5,894 6,869
6 0,906 1,134 1,440 1,943 2,447 3,143 3,707 4,317 5,208 5,959
t-Student 7 0,896 1,119 1,415 1,895 2,365 2,998 3,499 4,029 4,785 5,408
8 0,889 1,108 1,397 1,860 2,306 2,896 3,355 3,833 4,501 5,041
9 0,883 1,100 1,383 1,833 2,262 2,821 3,250 3,690 4,297 4,781
10 0,879 1,093 1,372 1,812 2,228 2,764 3,169 3,581 4,144 4,587
11 0,876 1,088 1,363 1,796 2,201 2,718 3,106 3,497 4,025 4,437
12 0,873 1,083 1,356 1,782 2,179 2,681 3,055 3,428 3,930 4,318
13 0,870 1,079 1,350 1,771 2,160 2,650 3,012 3,372 3,852 4,221
14 0,868 1,076 1,345 1,761 2,145 2,624 2,977 3,326 3,787 4,140
15 0,866 1,074 1,341 1,753 2,131 2,602 2,947 3,286 3,733 4,073
16 0,865 1,071 1,337 1,746 2,120 2,583 2,921 3,252 3,686 4,015
17 0,863 1,069 1,333 1,740 2,110 2,567 2,898 3,222 3,646 3,965
18 0,862 1,067 1,330 1,734 2,101 2,552 2,878 3,197 3,610 3,922
19 0,861 1,066 1,328 1,729 2,093 2,539 2,861 3,174 3,579 3,883
α 20 0,860 1,064 1,325 1,725 2,086 2,528 2,845 3,153 3,552 3,850
21 0,859 1,063 1,323 1,721 2,080 2,518 2,831 3,135 3,527 3,819
22 0,858 1,061 1,321 1,717 2,074 2,508 2,819 3,119 3,505 3,792
23 0,858 1,060 1,319 1,714 2,069 2,500 2,807 3,104 3,485 3,768
24 0,857 1,059 1,318 1,711 2,064 2,492 2,797 3,091 3,467 3,745
tν,α 25 0,856 1,058 1,316 1,708 2,060 2,485 2,787 3,078 3,450 3,725
26 0,856 1,058 1,315 1,706 2,056 2,479 2,779 3,067 3,435 3,707
27 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,689
ν: grados de libertad (g.l.) 28 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,660
30 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
EJEMPLO 60 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
70 0,847 1,044 1,294 1,667 1,994 2,381 2,648 2,899 3,211 3,435
80 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
P(t9 ≥ 2,262) = 0,025 90 0,846 1,042 1,291 1,662 1,987 2,368 2,632 2,878 3,183 3,402
100 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
infinito 0,842 1,036 1,282 1,645 1,960 2,327 2,576 2,808 3,091 3,291
0,20 0,15 0,10 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005
Tabla F Fν 1 ,ν 2 ,α ⇒ P ( Fν 1 ,ν 2 ≥ Fν 1 ,ν 2 ,α ) = α
α=0.05 Grados de libertad del numerador: ν1
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,9 245,9 248,0 249,1 250,1 251,1 252,2 253,0 253,3 254,3 1
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,49 19,49 19,50 2
3 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,74 8,70 8,66 8,64 8,62 8,59 8,57 8,55 8,55 8,53 3
4 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,91 5,86 5,80 5,77 5,75 5,72 5,69 5,66 5,66 5,63 4
5 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,68 4,62 4,56 4,53 4,50 4,46 4,43 4,41 4,40 4,37 5
6 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,00 3,94 3,87 3,84 3,81 3,77 3,74 3,71 3,70 3,67 6
7 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,57 3,51 3,44 3,41 3,38 3,34 3,30 3,27 3,27 3,23 7
8 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,28 3,22 3,15 3,12 3,08 3,04 3,01 2,97 2,97 2,93 8
9 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,07 3,01 2,94 2,90 2,86 2,83 2,79 2,76 2,75 2,71 9
10 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,91 2,85 2,77 2,74 2,70 2,66 2,62 2,59 2,58 2,54 10
11 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,79 2,72 2,65 2,61 2,57 2,53 2,49 2,46 2,45 2,40 11
12 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,69 2,62 2,54 2,51 2,47 2,43 2,38 2,35 2,34 2,30 12
13 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,60 2,53 2,46 2,42 2,38 2,34 2,30 2,26 2,25 2,21 13
14 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,53 2,46 2,39 2,35 2,31 2,27 2,22 2,19 2,18 2,13 14
15 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,48 2,40 2,33 2,29 2,25 2,20 2,16 2,12 2,11 2,07 15
16 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,42 2,35 2,28 2,24 2,19 2,15 2,11 2,07 2,06 2,01 16
17 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,38 2,31 2,23 2,19 2,15 2,10 2,06 2,02 2,01 1,96 17
18 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,34 2,27 2,19 2,15 2,11 2,06 2,02 1,98 1,97 1,92 18
19 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,31 2,23 2,16 2,11 2,07 2,03 1,98 1,94 1,93 1,88 19
20 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,28 2,20 2,12 2,08 2,04 1,99 1,95 1,91 1,90 1,84 20
21 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,25 2,18 2,10 2,05 2,01 1,96 1,92 1,88 1,87 1,81 21
22 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,23 2,15 2,07 2,03 1,98 1,94 1,89 1,85 1,84 1,78 22
23 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,20 2,13 2,05 2,01 1,96 1,91 1,86 1,82 1,81 1,76 23
24 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,18 2,11 2,03 1,98 1,94 1,89 1,84 1,80 1,79 1,73 24
25 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,16 2,09 2,01 1,96 1,92 1,87 1,82 1,78 1,77 1,71 25
26 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,15 2,07 1,99 1,95 1,90 1,85 1,80 1,76 1,75 1,69 26
27 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,13 2,06 1,97 1,93 1,88 1,84 1,79 1,74 1,73 1,67 27
28 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,12 2,04 1,96 1,91 1,87 1,82 1,77 1,73 1,71 1,65 28
29 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,10 2,03 1,94 1,90 1,85 1,81 1,75 1,71 1,70 1,64 29
30 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,09 2,01 1,93 1,89 1,84 1,79 1,74 1,70 1,68 1,62 30
Grados de libertad del denominador: ν2

40 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,59 1,58 1,51 40
50 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,95 1,87 1,78 1,74 1,69 1,63 1,58 1,52 1,51 1,44 50
60 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,48 1,47 1,39 60
70 3,98 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97 1,89 1,81 1,72 1,67 1,62 1,57 1,50 1,45 1,44 1,35 70
80 3,96 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95 1,88 1,79 1,70 1,65 1,60 1,54 1,48 1,43 1,41 1,32 80
90 3,95 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94 1,86 1,78 1,69 1,64 1,59 1,53 1,46 1,41 1,39 1,30 90
100 3,94 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93 1,85 1,77 1,68 1,63 1,57 1,52 1,45 1,39 1,38 1,28 100
120 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,37 1,35 1,25 120
Inf 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,39 1,32 1,24 1,22 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P ( F7,8 ≥ 3.50) = 0.05

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 647,8 799,5 864,2 899,6 921,8 937,1 948,2 956,6 963,3 968,6 976,7 984,9 993,1 997,3 1001,4 1005,6 1009,8 1013,2 1014,0 1018,3 1
2 38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,43 39,45 39,46 39,46 39,47 39,48 39,49 39,49 39,50 2
3 17,44 16,04 15,44 15,10 14,88 14,73 14,62 14,54 14,47 14,42 14,34 14,25 14,17 14,12 14,08 14,04 13,99 13,96 13,95 13,90 3
4 12,22 10,65 9,98 9,60 9,36 9,20 9,07 8,98 8,90 8,84 8,75 8,66 8,56 8,51 8,46 8,41 8,36 8,32 8,31 8,26 4
5 10,01 8,43 7,76 7,39 7,15 6,98 6,85 6,76 6,68 6,62 6,52 6,43 6,33 6,28 6,23 6,18 6,12 6,08 6,07 6,02 5
6 8,81 7,26 6,60 6,23 5,99 5,82 5,70 5,60 5,52 5,46 5,37 5,27 5,17 5,12 5,07 5,01 4,96 4,92 4,90 4,85 6
7 8,07 6,54 5,89 5,52 5,29 5,12 4,99 4,90 4,82 4,76 4,67 4,57 4,47 4,41 4,36 4,31 4,25 4,21 4,20 4,14 7
8 7,57 6,06 5,42 5,05 4,82 4,65 4,53 4,43 4,36 4,30 4,20 4,10 4,00 3,95 3,89 3,84 3,78 3,74 3,73 3,67 8
9 7,21 5,71 5,08 4,72 4,48 4,32 4,20 4,10 4,03 3,96 3,87 3,77 3,67 3,61 3,56 3,51 3,45 3,40 3,39 3,33 9
10 6,94 5,46 4,83 4,47 4,24 4,07 3,95 3,85 3,78 3,72 3,62 3,52 3,42 3,37 3,31 3,26 3,20 3,15 3,14 3,08 10
11 6,72 5,26 4,63 4,28 4,04 3,88 3,76 3,66 3,59 3,53 3,43 3,33 3,23 3,17 3,12 3,06 3,00 2,96 2,94 2,88 11
12 6,55 5,10 4,47 4,12 3,89 3,73 3,61 3,51 3,44 3,37 3,28 3,18 3,07 3,02 2,96 2,91 2,85 2,80 2,79 2,72 12
13 6,41 4,97 4,35 4,00 3,77 3,60 3,48 3,39 3,31 3,25 3,15 3,05 2,95 2,89 2,84 2,78 2,72 2,67 2,66 2,60 13
14 6,30 4,86 4,24 3,89 3,66 3,50 3,38 3,29 3,21 3,15 3,05 2,95 2,84 2,79 2,73 2,67 2,61 2,56 2,55 2,49 14
15 6,20 4,77 4,15 3,80 3,58 3,41 3,29 3,20 3,12 3,06 2,96 2,86 2,76 2,70 2,64 2,59 2,52 2,47 2,46 2,40 15
16 6,12 4,69 4,08 3,73 3,50 3,34 3,22 3,12 3,05 2,99 2,89 2,79 2,68 2,63 2,57 2,51 2,45 2,40 2,38 2,32 16
17 6,04 4,62 4,01 3,66 3,44 3,28 3,16 3,06 2,98 2,92 2,82 2,72 2,62 2,56 2,50 2,44 2,38 2,33 2,32 2,25 17
18 5,98 4,56 3,95 3,61 3,38 3,22 3,10 3,01 2,93 2,87 2,77 2,67 2,56 2,50 2,44 2,38 2,32 2,27 2,26 2,19 18
19 5,92 4,51 3,90 3,56 3,33 3,17 3,05 2,96 2,88 2,82 2,72 2,62 2,51 2,45 2,39 2,33 2,27 2,22 2,20 2,13 19
20 5,87 4,46 3,86 3,51 3,29 3,13 3,01 2,91 2,84 2,77 2,68 2,57 2,46 2,41 2,35 2,29 2,22 2,17 2,16 2,09 20
21 5,83 4,42 3,82 3,48 3,25 3,09 2,97 2,87 2,80 2,73 2,64 2,53 2,42 2,37 2,31 2,25 2,18 2,13 2,11 2,04 21
22 5,79 4,38 3,78 3,44 3,22 3,05 2,93 2,84 2,76 2,70 2,60 2,50 2,39 2,33 2,27 2,21 2,14 2,09 2,08 2,00 22
23 5,75 4,35 3,75 3,41 3,18 3,02 2,90 2,81 2,73 2,67 2,57 2,47 2,36 2,30 2,24 2,18 2,11 2,06 2,04 1,97 23
24 5,72 4,32 3,72 3,38 3,15 2,99 2,87 2,78 2,70 2,64 2,54 2,44 2,33 2,27 2,21 2,15 2,08 2,02 2,01 1,94 24
25 5,69 4,29 3,69 3,35 3,13 2,97 2,85 2,75 2,68 2,61 2,51 2,41 2,30 2,24 2,18 2,12 2,05 2,00 1,98 1,91 25
26 5,66 4,27 3,67 3,33 3,10 2,94 2,82 2,73 2,65 2,59 2,49 2,39 2,28 2,22 2,16 2,09 2,03 1,97 1,95 1,88 26
27 5,63 4,24 3,65 3,31 3,08 2,92 2,80 2,71 2,63 2,57 2,47 2,36 2,25 2,19 2,13 2,07 2,00 1,94 1,93 1,85 27
28 5,61 4,22 3,63 3,29 3,06 2,90 2,78 2,69 2,61 2,55 2,45 2,34 2,23 2,17 2,11 2,05 1,98 1,92 1,91 1,83 28
29 5,59 4,20 3,61 3,27 3,04 2,88 2,76 2,67 2,59 2,53 2,43 2,32 2,21 2,15 2,09 2,03 1,96 1,90 1,89 1,81 29
30 5,57 4,18 3,59 3,25 3,03 2,87 2,75 2,65 2,57 2,51 2,41 2,31 2,20 2,14 2,07 2,01 1,94 1,88 1,87 1,79 30

40 5,42 4,05 3,46 3,13 2,90 2,74 2,62 2,53 2,45 2,39 2,29 2,18 2,07 2,01 1,94 1,88 1,80 1,74 1,72 1,64 40
50 5,34 3,97 3,39 3,05 2,83 2,67 2,55 2,46 2,38 2,32 2,22 2,11 1,99 1,93 1,87 1,80 1,72 1,66 1,64 1,55 50
60 5,29 3,93 3,34 3,01 2,79 2,63 2,51 2,41 2,33 2,27 2,17 2,06 1,94 1,88 1,82 1,74 1,67 1,60 1,58 1,48 60
70 5,25 3,89 3,31 2,97 2,75 2,59 2,47 2,38 2,30 2,24 2,14 2,03 1,91 1,85 1,78 1,71 1,63 1,56 1,54 1,44 70
80 5,22 3,86 3,28 2,95 2,73 2,57 2,45 2,35 2,28 2,21 2,11 2,00 1,88 1,82 1,75 1,68 1,60 1,53 1,51 1,40 80
90 5,20 3,84 3,26 2,93 2,71 2,55 2,43 2,34 2,26 2,19 2,09 1,98 1,86 1,80 1,73 1,66 1,58 1,50 1,48 1,37 90
100 5,18 3,83 3,25 2,92 2,70 2,54 2,42 2,32 2,24 2,18 2,08 1,97 1,85 1,78 1,71 1,64 1,56 1,48 1,46 1,35 100
120 5,15 3,80 3,23 2,89 2,67 2,52 2,39 2,30 2,22 2,16 2,05 1,94 1,82 1,76 1,69 1,61 1,53 1,45 1,43 1,31 120
Inf 5,02 3,69 3,12 2,79 2,57 2,41 2,29 2,19 2,11 2,05 1,94 1,83 1,71 1,64 1,57 1,48 1,39 1,30 1,27 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P ( F7,8 ≥ 4.53) = 0.025

1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
1 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6313,0 6333,9 6339,5 6365,6 1
2 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,49 99,49 99,50 2
3 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,05 26,87 26,69 26,60 26,50 26,41 26,32 26,24 26,22 26,13 3
4 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,37 14,20 14,02 13,93 13,84 13,75 13,65 13,58 13,56 13,46 4
5 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,89 9,72 9,55 9,47 9,38 9,29 9,20 9,13 9,11 9,02 5
6 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,72 7,56 7,40 7,31 7,23 7,14 7,06 6,99 6,97 6,88 6
7 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,47 6,31 6,16 6,07 5,99 5,91 5,82 5,75 5,74 5,65 7
8 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,67 5,52 5,36 5,28 5,20 5,12 5,03 4,96 4,95 4,86 8
9 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,11 4,96 4,81 4,73 4,65 4,57 4,48 4,41 4,40 4,31 9
10 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,71 4,56 4,41 4,33 4,25 4,17 4,08 4,01 4,00 3,91 10
11 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,40 4,25 4,10 4,02 3,94 3,86 3,78 3,71 3,69 3,60 11
12 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,16 4,01 3,86 3,78 3,70 3,62 3,54 3,47 3,45 3,36 12
13 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 3,96 3,82 3,66 3,59 3,51 3,43 3,34 3,27 3,25 3,17 13
14 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,80 3,66 3,51 3,43 3,35 3,27 3,18 3,11 3,09 3,00 14
15 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,67 3,52 3,37 3,29 3,21 3,13 3,05 2,98 2,96 2,87 15
16 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,55 3,41 3,26 3,18 3,10 3,02 2,93 2,86 2,84 2,75 16
17 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,46 3,31 3,16 3,08 3,00 2,92 2,83 2,76 2,75 2,65 17
18 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,37 3,23 3,08 3,00 2,92 2,84 2,75 2,68 2,66 2,57 18
19 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,30 3,15 3,00 2,92 2,84 2,76 2,67 2,60 2,58 2,49 19
20 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,23 3,09 2,94 2,86 2,78 2,69 2,61 2,54 2,52 2,42 20
21 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,17 3,03 2,88 2,80 2,72 2,64 2,55 2,48 2,46 2,36 21
22 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,12 2,98 2,83 2,75 2,67 2,58 2,50 2,42 2,40 2,31 22
23 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,07 2,93 2,78 2,70 2,62 2,54 2,45 2,37 2,35 2,26 23
24 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,03 2,89 2,74 2,66 2,58 2,49 2,40 2,33 2,31 2,21 24
25 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 2,99 2,85 2,70 2,62 2,54 2,45 2,36 2,29 2,27 2,17 25
26 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 2,96 2,81 2,66 2,58 2,50 2,42 2,33 2,25 2,23 2,13 26
27 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,93 2,78 2,63 2,55 2,47 2,38 2,29 2,22 2,20 2,10 27
28 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,90 2,75 2,60 2,52 2,44 2,35 2,26 2,19 2,17 2,06 28
29 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,87 2,73 2,57 2,49 2,41 2,33 2,23 2,16 2,14 2,03 29
30 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,84 2,70 2,55 2,47 2,39 2,30 2,21 2,13 2,11 2,01 30

40 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,94 1,92 1,80 40
50 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,56 2,42 2,27 2,18 2,10 2,01 1,91 1,82 1,80 1,68 50
60 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,75 1,73 1,60 60
70 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,45 2,31 2,15 2,07 1,98 1,89 1,78 1,70 1,67 1,54 70
80 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,42 2,27 2,12 2,03 1,94 1,85 1,75 1,65 1,63 1,49 80
90 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,39 2,24 2,09 2,00 1,92 1,82 1,72 1,62 1,60 1,46 90
100 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,37 2,22 2,07 1,98 1,89 1,80 1,69 1,60 1,57 1,43 100
120 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,56 1,53 1,38 120
Inf 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,18 2,04 1,88 1,79 1,70 1,59 1,47 1,36 1,32 1,00 Inf
1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 100 120 Inf.
Ejemplo : P ( F7,8 ≥ 6.18) = 0.01

TEORIAREG

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TEORIAREG

Transféré par

Droits d'auteur :

Formats disponibles

DISEÑO DE EXPERIMENTOS Y MODELOS DE REGRESIÓN

Departamento de ingeniería de organización,

1. Análisis de la varianza. Comparación de dos tratamientos. La hipóte-

2. Diseño de experimentos. Modelo con dos factores. Concepto de in-

3. Regresión lineal. Hipótesis del modelo. Estimación de los parámetros por

Diseño de Experimentos y Modelos de Regresión

1.1 Dos tratamientos

Se desea comparar dos

- Definición del modelo de distribución

Modelo: Hipótesis y Parámetros

Cov [yij, ykl] = 0

yij Pi  uij , uij o N (0, V 2 )

Contraste de igualdad de medias

2.69 ! 2.10  Se rechaza H 0

2.69 d 2.88  No se rechaza H 0

p  valor Pr( t18 ! 2.69) 0.0147

Si |to| > tD/2 se dice que Si |to| d tD/2 se dice que

El resultado |to| d tD/2, (no se rechaza Ho)

No rechazar la hipótesis nula implica que

Comparación de dos tratamientos con R

Comparación de medidas del cuerpo humano por género

Ejemplo: intervalo de confianza P1  P 2

Ejemplo: Contraste de igualdad de varianzas

1.37  >0.248,4.03@  No se rechaza H 0

Ejemplo : P( F7,8 t 3.50) 0.05

Ejemplo : P( F7,8 t 4.53) 0.025

Ejemplo : P( F7,8 t 6.18) 0.01

Comparación de dos tratamientos con R

Se desea comparar el rendimiento de cuatro

- Definición del modelo de distribución de

y11 y21 yK1

Hipótesis del modelo

Modelo: Forma alternativa

yij Pi  uij , uij o N (0, V 2 )

Estimación varianza (residuos)

yij Pi  uij , uij o N (0,V 2 )

¦ ¦ eij2 0.0 0.0 0.0 0.0

La comparación de tratamientos con este modelo

7645.5 4798.1  2847.4

(n  K ) sˆR2 (n1  1) sˆ12 (n2  1) sˆ22 (nK  1) sˆK2

Tabla de Análisis de la Varianza

Tratamient os 4798.1 3 1599.3 11.2

Intervalos de confianza para

Semilla Media L. Inferior L. Superior

Intervalos de confianza (95%)

y11 y21 yK1

Gráfico probabilista normal

Gráfico probabilista normal

En el proceso de estimación se ha supuesto que los

0 la media del tratamiento.

Residuos por tratamientos

Un ejemplo de este tipo de contrastes formales es el

Para el ejemplo de los tipos de semilla se tiene un p-

Diagnosis: Tres gráficos básicos

Valores previstos Tratamientos

Transformaciones z=h(y) para estabilizar la

En la práctica, en la mayoría de los casos, alguna

Parar cuando los gráficos estén ok.

La falta de independencia suele ir ligada a factores no

La forma más recomendable de evitar errores

La aleatorización evita que se produzcan

Asignar las unidades experimentales al azar a

Comparación de k tratamientos con R

- Comparación de k=4 tipos de semilla en la

yij Pi uij , uij o N (0, V 2 )

2.69 ! 2.10 Se rechaza H 0

2.69 d 2.88 No se rechaza H 0

p valor Pr( t18 ! 2.69) 0.0147

Ejemplo: intervalo de confianza P1 P 2

1.37 >0.248,4.03@ No se rechaza H 0

yij Pi uij , uij o N (0, V 2 )

yij Pi uij , uij o N (0,V 2 )

7645.5 4798.1 2847.4

(n K ) sˆR2 (n1 1) sˆ12 (n2 1) sˆ22 (nK 1) sˆK2