Vous êtes sur la page 1sur 12

Departamento de Estadística e Informática

Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Capítulo VII
Análisis de Covariancia

Si usted tortura los datos lo suficiente, ellos confesarán.


Ronald Coase

1. Introducción

En el análisis de covariancia se combinan los conceptos del análisis de variancia para un


diseño experimental y para regresión. El análisis de covariancia es utilizado en casos en los
que la variable respuesta de un diseño experimental esté relacionada con una o más variables
concomitantes. En este capítulo se tratará el caso de la covariancia lineal con una sola variable
concomitante y se presentará el análisis para el Diseño de Bloques Completos al Azar. El
estudiante sin embargo, no tendrá ningún problema en llevar esta técnica a un Diseño
Completamente al Azar.

2. Modelo Aditivo Lineal

El modelo aditivo lineal para un análisis de covariancia en un Diseño de Bloques Completos


al Azar es el siguiente:

Yij = µ + τ i + γ j + β ( X ij − X •• ) + ε ij i = 1,..., t j = 1,..., b

donde:
Yij es el valor o rendimiento observado en el i-ésimo tratamiento, j-ésimo bloque.
µ es el efecto de la media general.
τi es el efecto del i-ésimo tratamiento.
γj es el efecto del j-ésimo bloque.
β es el coeficiente de regresión lineal de Y sobre X.
Xij es el valor de la variable independiente en el i-ésimo tratamiento, j-ésimo bloque.
X •• es la media de la variable independiente.
εij es el efecto del error experimental en el i-ésimo tratamiento, j-ésimo bloque.
t es el número de tratamientos.
b es el número de bloques.

Ing. Raúl Eyzaguirre Pérez 100


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Ejemplo 1: Se desarrolló un experimento cuyo objetivo era determinar si la exposición en


agua calentada artificialmente afectaba el crecimiento de las ostras. Cinco bolsas con diez
ostras cada una fueron aleatoriamente asignadas a cinco temperaturas (T1, T2, T3, T4, T5);
cada bolsa constituía una unidad experimental. Se utilizaron cinco estanques, cada uno
calentado a una de las cinco temperaturas. Las ostras fueron limpiadas y pesadas al
comienzo y al final del experimento un mes después. El experimento se repitió cuatro
veces para lo cual fueron necesarios 4 meses. Cada repetición constituye un bloque. Los
pesos iniciales y finales se presentan en la siguiente tabla:

T1 T2 T3 T4 T5 Total
Bloq. X Y X Y X Y X Y X Y X Y
I 20.4 24.6 27.2 32.6 26.8 31.7 22.4 29.1 21.8 27.0 118.6 145.0
II 19.6 23.4 32.0 36.6 26.5 30.7 23.2 28.9 24.3 30.5 125.6 150.1
III 25.1 30.3 33.0 37.7 26.8 30.4 28.6 35.2 30.3 36.4 143.8 170.0
IV 18.1 21.8 26.8 31.0 28.6 33.8 24.4 30.2 29.3 35.0 127.2 151.8
Total 83.2 100.1 119.0 137.9 108.7 126.6 98.6 123.4 105.7 128.9 515.2 616.9

El modelo aditivo lineal es el siguiente:

Yij = µ + τ i + γ j + β ( X ij − X •• ) + ε ij i = 1,..., t j = 1,..., b

donde:
Yij es el peso final de una bolsa de ostras tratada con la i-ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
µ es el efecto de la media general de los pesos.
τi es el efecto de la i-ésima temperatura del agua.
γj es el efecto del j-ésimo mes.
β es el coeficiente de regresión lineal de Y, el peso final de las ostras, sobre X, el peso
inicial.
Xij es el peso inicial de una bolsa de ostras tratada con la i-ésima temperatura de agua
(tratamiento) en el j-ésimo mes (bloque).
X •• es el peso medio inicial de las bolsas de ostras.
εij es el efecto del error experimental con la i-ésima temperatura de agua, en el j-ésimo
mes.
t = 5 (Número de tratamientos).
b = 4 (Número de bloques).

3. Suposiciones del Modelo Estadístico

Además de los supuestos de un Diseño de Bloques Completos al Azar, se deben cumplir los
siguientes:
1. Los valores de X son fijos, medidos sin error, y no son afectados por los tratamientos.

Ing. Raúl Eyzaguirre Pérez 101


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

2. Las variables X y Y deben tener variancias homogéneas entre los tratamientos.


3. La regresión de Y sobre X debe ser lineal.

4. Análisis de Covariancia

La metodología para efectuar el Análisis de Covariancia se resume a continuación:


Cuadro ANCOVA
Fuentes de
Gl SCX SPXY SCY SC aj. gl aj. CM aj.
Variación

Bloques b–1 BXX BXY BYY

Trat. t–1 TXX TXY TYY

2
E XY SC E
Error (t–1)(b–1) EXX EXY EYY SC E = EYY − (t-1)(b-1)-1
E XX (t − 1)(b − 1) − 1
2
S XY
Trat. + Error b(t – 1) SXX SXY SYY SCT + E = SYY −
S XX
Sumas de cuadrados, grados de libertad y SCT + E − SC E
cuadrados medios para evaluar diferencias SCT + E − SC E t–1
entre medias ajustadas de tratamientos t −1

Los pasos para la construcción del cuadro ANCOVA son los siguientes:
1. Calcule los grados de libertad (Columna gl).
2. Calcule las sumas de cuadrados total en X y Y y la suma de productos total:
t b t b t b
SC( X ) = ∑∑ X ij2 − TCx SP( XY ) = ∑∑ X ijYij − TCxy SC(Y ) = ∑∑ Yij2 − TC y
i =1 j =1 i =1 j =1 i =1 j =1

donde:

X ••2 X ••Y•• Y••2


TC X = TC XY = TCY =
tb tb tb
3. Calcule las sumas de cuadrados en X y Y y la suma de productos para cada una de las
fuentes de variación (Columnas SCX, SPXY, SCY):
Para Bloques:
b X •2j b X • jY• j b Y•2j
BXX = ∑ − TC X BXY = ∑ − TC XY BYY = ∑ − TCY
j =1 t j =1 t j =1 t
Ing. Raúl Eyzaguirre Pérez 102
reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Para Tratamientos:
t
X i2• t
X Y t
Yi•2
TXX =∑ − TC X TXY = ∑ i• i• − TC XY TYY = ∑ − TCY
i =1 b i =1 b i =1 b

Para el Error (Por diferencia):


E XX = SC( X ) − BXX − TXX E XY = SP( XY ) − BXY − TXY EYY = SC(Y ) − BYY − TYY

4. Calcule las sumas de cuadrados y productos para Tratamientos + Error:


S XX = TXX + E XX S XY = TXY + E XY SYY = TYY + EYY

5. Calcule las sumas de cuadrados ajustadas (Columna SC aj.):


2 2
E XY S XY
SC E = EYY − SCT + E = SYY −
E XX S XX

6. Calcule la suma de cuadrados ajustada para evaluar diferencias entre las medias ajustadas
de los tratamientos:
SCT + E − SC E

7. Calcule los grados de libertad ajustados (Columna gl aj.).


8. Calcule los cuadrados medios ajustados (Columna CM aj.).

Ejemplo 1 (Cont): A continuación se presentan los cálculos para la construcción del


cuadro ANCOVA para el ejemplo tratado en esta sección:
t b
SC( X ) = ∑∑ X ij2 − TCx
i =1 j =1

515.22
= (20.42 + 19.62 + … + 29.32 ) − = 309.79
(5)(4)
t b
SP( XY ) = ∑∑ X ijYij − TC xy
i =1 j =1

(515.2)(616.9)
= ( (20.4)(24.6) + (19.6)(23.4) + … + (29.3)(35.0) ) − = 325.67
(5)(4)
t b
SC(Y ) = ∑∑ Yij2 − TC y
i =1 j =1

616.92
= (24.62 + 23.42 + … + 35.02 ) − = 358.67
(5)(4)

Ing. Raúl Eyzaguirre Pérez 103


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

b X •2j
BXX = ∑ − TC X
j =1 t
(118.62 + 125.62 + … + 127.22 ) 515.22
= − = 68.37
5 (5)(4)
b X • jY• j
BXY = ∑ − TC XY
j =1 t

=
( (118.6)(145.0) + (125.6)(150.1) + … + (127.2)(151.8) ) − (515.2)(616.9) = 69.56
5 (5)(4)
b Y•2j
BYY = ∑ − TCY
j =1 t
(145.02 + 150.12 + … + 151.82 ) 616.92
= − = 71.37
5 (5)(4)

X i2•
t
TXX =∑ − TC X
i =1 b

(83.22 + 119.02 + … + 105.7 2 ) 515.22


= − = 176.79
4 (5)(4)
t
X i•Yi•
TXY = ∑ − TC XY
i =1 b

=
( (83.2)(100.1) + (119.0)(137.9) + … (105.7)(128.9) ) − (515.2)(616.9) = 181.61
4 (5)(4)
t
Yi•2
TYY = ∑ − TCY
i =1 b

(100.12 + 137.92 + … + 128.92 ) 616.92


= − = 198.41
4 (5)(4)

E XX = SC( X ) − BXX − TXX


= 309.79 − 68.37 − 176.79 = 64.63
E XY = SP( XY ) − BXY − TXY
= 325.67 − 69.56 − 181.61 = 74.50
EYY = SC(Y ) − BYY − TYY
= 358.67 − 71.37 − 198.41 = 88.89

Con estos resultados, el cuadro ANCOVA es el siguiente:

Ing. Raúl Eyzaguirre Pérez 104


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Cuadro ANCOVA
Fuentes de
gl SCX SPXY SCY SC aj. gl aj. CM aj.
Variación
Bloques 3 68.37 69.56 71.37
Tratamientos 4 176.79 181.61 198.41
Error 12 64.63 74.50 88.89 3.0175 11 0.2743
Trat. + Error 16 241.42 256.11 287.30 15.6146
Cantidades para evaluar diferencias entre medias
12.5971 4 3.1493
ajustadas de tratamientos

4.1. Prueba de Hipótesis para el Coeficiente de Regresión

El primer paso en un análisis de covariancia es evaluar la significancia del coeficiente de


regresión. Si el coeficiente de regresión resulta significativo, entonces se justifica el uso de la
variable concomitante X en el modelo y por lo tanto, los efectos de los tratamientos deberán
evaluarse con los datos corregidos por la regresión. De no resultar significativo este
coeficiente, los efectos de los tratamientos serían evaluados a partir de un Análisis de
Variancia sin considerar el efecto de la variable concomitante X.
El procedimiento de prueba de hipótesis para el coeficiente de regresión es el siguiente:

Hipótesis:
H0: β = 0
H1: β ≠ 0

Estadístico de Prueba:
2
E XY
E XX
Fc = ∼ F(1, gl(Error aj.))
CME aj.

Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que el valor
de tabla F(1−α ,1, gl(Error aj.)) .

Ejemplo 1 (Cont.):
H0: β = 0
H1: β ≠ 0
Estas hipótesis con equivalentes a:
H0: El peso final de las ostras no depende linealmente del peso inicial.

Ing. Raúl Eyzaguirre Pérez 105


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

H1: El peso final de las ostras sí depende linealmente del peso inicial.
2
E XY 74.502
E XX
Fc = = 64.63 = 313.05 ∼ F(1, 11)
CME aj. 0.2743

El valor de tabla para un nivel de significación del 5% es F(0.95,1, 11) = 4.84. Como el valor
calculado es mayor que el valor de tabla se rechaza H0 y se concluye que existe suficiente
evidencia estadística para aceptar que el peso final de las ostras depende linealmente del
peso inicial.

4.2. Prueba de Hipótesis para los efectos de los tratamientos

En el caso que la regresión resulte significativa, las hipótesis para los tratamientos se
plantearán en términos de los efectos (medias) de los tratamientos ajustados por la regresión.

Hipótesis:
H0: µi aj. = µ aj. ∀ i
H1: µi aj. ≠ µ aj. para al menos algún i

Estadístico de Prueba:
CM(Trat aj.)
Fc = ∼ F( gl(trat. aj.),gl(Error aj.) )
CME aj.

Regla de Decisión:
La hipótesis nula se rechaza con un nivel de significación α si el Fc resulta mayor que el valor
de tabla F(1−α , gl(trat. aj.), gl(Error aj.)) .

Ejemplo 1 (Cont.):
H0: µi aj. = µ aj. i = 1, 2, 3, 4, 5
H1: µi aj. ≠ µ aj. para al menos algún i
o literalmente:
H0: Las cinco temperaturas son igualmente efectivas en el crecimiento de las ostras.
H1: Con al menos una de las temperaturas se obtienen resultados diferentes en el
crecimiento de ostras.
CM(Trat aj.) 3.1493
Fc = = = 11.48 ∼ F(4, 11)
CME aj. 0.2743

El valor de tabla para un nivel de significación del 5% es F(0.95,4, 11) = 3.36. Como el valor
calculado es mayor que el valor de tabla se rechaza H0 y se concluye que existe suficiente

Ing. Raúl Eyzaguirre Pérez 106


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

evidencia estadística para aceptar que con al menos una temperatura se obtiene un peso
final diferente para las ostras.

5. Pruebas de Comparación de Medias de Tratamientos

Para aplicar las pruebas de comparación de medias de tratamientos se debe trabajar con las
medias de los tratamientos ajustadas por la regresión. Para efectuar el ajuste, se debe calcular
primero el coeficiente de regresión estimado, el cual es dado por:
E
βˆ = XY
E XX

Las medias de los tratamientos ajustadas por la regresión están dadas por:

Yi• aj. = Yi• − βˆ ( X i• − X •• )

Las desviaciones estándar para las pruebas son:

 1 1 ( X i• − X j • ) 2 
1. Prueba t y DLS sd = CME aj.  + + 
 ri rj E XX 

CME aj.  1 1 ( X i• − X j • ) 
2

2. Tukey sd =  + + 
2  ri rj E XX 

 1 1 ( X − X i• ) 2 
3. Dunnett sd = CME aj.  + + T • 
 rT ri E XX 

Estas fórmulas se aplican si el diseño es un DCA con ri y rj repeticiones para el par de


tratamientos que se estén comparando (rT es el número de repeticiones para el tratamiento
testigo). En el caso de un DBCA, que es el diseño que se está tratando en esta sección, el
número de repeticiones para cada tratamiento es igual a b, por lo que en las fórmulas
anteriores ri = rj = rT = b y 1 ri + 1 rj = 2 / b .

Ejemplo 1 (Cont.): Efectúe la pruebe de Tukey.


Las hipótesis son las siguientes:
H0: µi aj. = µj aj. ∀ i j = 1, 2, ... 5, con i ≠ j
H1: µi aj. ≠ µj aj.
El coeficiente de regresión estimado es:
E 74.50
βˆ = XY = = 1.1527
E XX 64.63

Ing. Raúl Eyzaguirre Pérez 107


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Las medias de las variables X y Y sin ajustar para cada tratamiento son:

X 1• = 20.8 X 2• = 29.75 X 3• = 27.175 X 4• = 24.65 X 5• = 26.425 X •• = 25.76

Y1• = 25.025 Y2• = 34.475 Y3• = 31.65 Y4• = 30.85 Y5• = 32.225

Las medias de Y ajustadas para cada tratamiento según la fórmula Yi• aj. = Yi• − βˆ ( X i• − X •• )
son:

Y1• aj. = 30.74 Y2• aj. = 29.88 Y3• aj. = 30.02 Y4• aj. = 32.13 Y5• aj. = 31.46

El valor de tabla con α = 5%, p = 5 tratamientos y 11 grados de libertad para el error


ajustado es AES(T) = 4.57. La amplitud límite significativa de Tukey está dada por la
siguiente fórmula:

CME aj.  2 ( X i• − X j • ) 
2

ALS(T) = AES(T)  + 
2  b E XX 

donde b = 4, CME aj. = 0.2743 y EXX = 64.63.


A continuación se presentan los resultados para las 10 comparaciones:
Tratamientos Yi• aj. − Y j • aj. sd ALS(T) Significancia
comparados
1y2 0.867 0.488 2.232 n.s.
1y3 0.724 0.393 1.798 n.s.
1y4 1.387 0.316 1.445 n.s.
1y5 0.716 0.368 1.684 n.s.
2y3 0.143 0.287 1.314 n.s.
2y4 2.254 0.352 1.608 *
2y5 1.583 0.303 1.386 *
3y4 2.111 0.287 1.310 *
3y5 1.440 0.264 1.207 *
4y5 0.671 0.274 1.254 n.s.

T2 T3 T1 T5 T4
29.88 30.02 30.74 31.46 32.13

Ing. Raúl Eyzaguirre Pérez 108


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Anexo: Salida de Minitab


General Linear Model
Factor Type Levels Values
Bloq fixed 4 1 2 3 4
Trat fixed 5 1 2 3 4 5

Analysis of Variance for Y, using Adjusted SS for Tests

Source DF Seq SS Adj SS Adj MS F P


X 1 342.358 85.876 85.876 313.05 0.000
Bloq 3 0.697 1.205 0.402 1.46 0.278
Trat 4 12.597 12.597 3.149 11.48 0.001
Error 11 3.017 3.017 0.274
Total 19 358.670

Term Coef StDev T P


Constant 1.151 1.682 0.68 0.508
X 1.15273 0.06515 17.69 0.000

Unusual Observations for Y

Obs Y Fit StDev Fit Residual St Resid


18 30.5000 29.6882 0.3451 0.8118 2.06R

R denotes an observation with a large standardized residual.

Tukey Simultaneous Tests


Response Variable Y
All Pairwise Comparisons among Levels of Trat

Trat = 1 subtracted from:

Level Difference SE of Adjusted


Trat of Means Difference T-Value P-Value
2 -0.8669 0.6908 -1.255 0.7217
3 -0.7237 0.5565 -1.300 0.6965
4 1.3870 0.4473 3.101 0.0621
5 0.7159 0.5210 1.374 0.6548

Trat = 2 subtracted from:

Level Difference SE of Adjusted


Trat of Means Difference T-Value P-Value
3 0.1433 0.4066 0.3524 0.9962
4 2.2539 0.4976 4.5300 0.0061
5 1.5828 0.4291 3.6891 0.0238

Trat = 3 subtracted from:

Level Difference SE of Adjusted


Trat of Means Difference T-Value P-Value
4 2.111 0.4052 5.208 0.0022
5 1.440 0.3736 3.854 0.0182

Trat = 4 subtracted from:

Level Difference SE of Adjusted


Trat of Means Difference T-Value P-Value
5 -0.6711 0.3880 -1.730 0.4561

Ing. Raúl Eyzaguirre Pérez 109


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

Ejercicios

1. En una estación experimental se realizó un experimento en el que se evaluó el efecto del


tiempo de cosecha sobre el rendimiento de grano de maíz. Se diseñó un experimento con
cuatro tratamientos usando una distribución de bloques completos al azar. Los
tratamientos fueron 30, 35, 40 y 45 días después de ocurrida la polinización (para el
tiempo de cosecha). El número de plantas por parcela útil fue de 52. La variedad usada fue
“V1” y el cultivo se efectuó con riego. Los valores se presentan en al siguiente tabla:
Rendimiento de grano seco (Kg / parcela útil) y Nº de plantas de maíz
cosechadas a diferentes fechas de la polinización.
X: Nº de plantas Y: Producción de grano seco (Kg / parcela)

Bloques
Días de
I II III IV
tratamiento
X Y X Y X Y X Y
30 41 4.08 24 2.78 31 2.79 46 4.24
35 40 4.26 36 4.23 44 5.60 48 6.36
40 37 4.72 32 4.92 38 4.50 41 5.62
45 32 4.00 38 4.53 40 4.83 40 4.30

a) Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en términos del
problema.
b) Presente el cuadro ANCOVA y realice las pruebas correspondientes.
c) Realice la prueba de Tukey.

2. La siguiente información corresponde a pesos iniciales (X) y ganancias de peso (Y) en Kg


de lechones en un ensayo comparativo de 6 raciones en 5 corrales (bloques).

Raciones
Corral 1 2 3 4 5 6
1 X 17 22 18 22 22 22
Y 4.32 4.51 3.86 4.54 4.13 4.42
2 X 16 15 17 15 17 13
Y 3.72 4.30 4.51 4.19 3.86 3.43
3 X 19 16 21 19 19 15
Y 4.23 4.23 3.82 4.24 4.04 3.46
4 X 22 21 18 21 19 23
Y 4.79 4.94 4.02 4.39 4.31 4.70
5 X 20 15 18 17 18 14
Y 4.73 4.00 4.17 4.39 3.97 3.89

a) Presente el Modelo Aditivo Lineal y defina cada uno de sus componentes en términos del
problema.
b) Presente el cuadro de ANCOVA y realice las pruebas correspondientes.
c) Encuentre las medias de los tratamientos ajustados.

Ing. Raúl Eyzaguirre Pérez 110


reyzaguirre@lamolina.edu.pe
Departamento de Estadística e Informática
Curso: Métodos Estadísticos para la Investigación I Análisis de Covariancia

d) Efectúe la prueba de Dunnett. Considere que la ración 1 es el testigo.

3. Se tiene un experimento con 3 variedades de trigo y se desea averiguar en que variedad se


tiene mayor peso de raíces (Y) en gramos de materia seca. Se cree que el número de
plantas (X) influye sobre el tamaño de las raíces por lo cual se utilizará el Análisis de
Covariancia en este experimento, el mismo que se lleva a cabo utilizando cinco macetas
en invernadero. El diseño estadístico utilizado es el DCA.

Variedades
Nº de I II III
Maceta X Y X Y X Y
1 6 0.54 8 0.11 4 0.13
2 4 0.56 5 0.20 3 0.15
3 6 0.55 4 0.23 4 0.11
4 4 0.60 5 0.21 4 0.11
5 4 0.59 7 0.09 5 0.10

a) Plantee el modelo estadístico adecuado y explique cada uno de sus componentes en


términos del enunciado.
b) Presente el cuadro de ANCOVA y realice las pruebas correspondientes.
c) Utilice la prueba t para evaluar si con la variedad I se obtienen pesos superiores en más de
0.5 gr que con la variedad II.

Ing. Raúl Eyzaguirre Pérez 111


reyzaguirre@lamolina.edu.pe