Académique Documents
Professionnel Documents
Culture Documents
DCA, en bloques y
Factorial
tema 4
Tabla de contenidos
Análisis de la Varianza
o Prueba de hipótesis
o Proceso generador de datos
o El modelo lineal
o Conceptos del diseño de experimentos
o Estructuras en los datos
o ANAVA de un DCA
o Diseño en bloques completos al azar
o Diseño con estructura factorial de tratamientos
o Pruebas a posteriori
o Verificación de Supuestos del ANAVA
Análisis de la Varianza
En la investigación agropecuaria es frecuente conducir ensayos con
fines de evaluar comparativamente dos o más poblaciones,
identificadas por algún criterio que las distinga o separe como es la
aplicación de distintos tratamientos (criterio de clasificación). Para
analizar estos experimentos es común recurrir a la técnica del Análisis
de la Varianza (ANAVA). El ANAVA es un método estadístico cuya
finalidad es contrastar hipótesis referidas a las medias de dos o más
poblaciones, generalmente definidas por la asignación de dos o más
tratamientos a un conjunto de unidades experimentales. Así, el factor
tratamiento es entendido como un criterio de clasificación, ya que
luego de su aplicación a las unidades experimentales, éstas quedan
clasificadas según los distintos niveles de tratamiento. No obstante,
existen situaciones donde los criterios de clasificación de las unidades
experimentales son más de uno y, consecuentemente, el modelo lineal
de ANAVA debe extenderse para contemplar todos los factores de
clasificación intervinientes en el análisis de los datos.
Prueba de hipótesis
Para evaluar si un conjunto (dos o más) de medias poblacionales son
iguales y en caso que no lo sean, identificar cuál o cuáles son
diferentes, desde un punto de vista estadístico y a partir de la
información muestral o experimental que se tiene sobre poblaciones o
conjuntos de datos generados por un criterio de clasificación se
formulan dos hipótesis: la hipótesis nula (H0) y la hipótesis alternativa
(H1), las que se escriben de la siguiente forma:
donde:
μ es la media general
Este modelo lineal sugiere que cada magnitud que registramos como
dato en nuestro estudio proviene de la suma de varios componentes:
una cantidad fija desconocida, denotada por μ, una componente τi,
también desconocida y que es usada para explicar cómo cambia la
observación Yij debido al hecho de pertenecer a la población o
tratamiento i, más un término aleatorio εij (componente aleatoria
sobre la cual el investigador no tiene control) que ayuda a explicar la
variabilidad "natural o propia" que existe entre dato y dato dentro de
una misma población. Si dos unidades de análisis son tratadas de igual
manera, es decir pertenecen al mismo tratamiento, sería de esperar
que su respuesta (el dato recolectado desde la unidad) sea el mismo.
No obstante, en la práctica se observan diferencias entre las
respuestas de unidades experimentales tratadas de igual manera
justamente por la presencia de estas componentes aleatorias. La
variabilidad de las respuestas de unidades experimentales tratadas con
el mismo tratamiento, o pertenecientes a la misma población, es la
cantidad que en el modelo se denota por σ2 y se conoce
como variabilidad residualporque es la variabilidad que remane luego
de explicar las diferencias debidas a los tratamientos. A las unidades
experimentales que recien un mismo tratamiento se las
denomina repeticiones. El término de error permite representar
diferencias entre repeticiones.
ANAVA de un DCA
El ANAVA para contrastar la hipótesis de igualdad de medias
poblacionales entre los distintos tratamientos de un DCA, respecto a
la hipótesis de que al menos un par de tratamientos difiere
estadísticamente, se basa en la comparación de dos “varianzas
muestrales”, por eso se denomina análisis de varianza, aunque su
objetivo sea comparar medias. Una, es la varianza dentro de
tratamientos o cuadrado medio del error (CMD) y la otra es la varianza
entre tratamientos o cuadrado medio entre tratamientos (CME). Esta
comparación de dos varianzas se realiza por medio de una prueba
F basada en el estadístico F igual al cociente de las dos varianzas.
H0 : vs H1 :
Este estadístico tiene, bajo H0, una distribución F(a-1),(N-a)) con N igual
al número total de unidades experimentales.
µ es la media general
Pruebas a posteriori
Cuando se rechaza la hipótesis nula del ANAVA podemos concluir que
existen diferencias significativas (p<0.05) entre al menos dos de las
medias poblacionales en evaluación. Se plantea ahora el problema de
detectar cuál o cuáles son los tratamientos que tienen medias
poblacionales diferentes y cuáles son iguales. Este problema se
resolverá usando una prueba de comparaciones múltiples conocidas
en general como comparaciones de medias ‘a posteriori’ del ANAVA
ya que no es recomendable realizar numerosas pruebas T, cada una
comparando un par de medias. Si el número de tratamientos es grande,
es probable que la diferencia entre la media mayor y la menor sea
declarada como significativa por una prueba T de comparación de
medias de dos poblaciones, aun cuando la H0 no fue rechazada en el
ANAVA. Así, realizando comparaciones de a pares usando la prueba T,
cada una con un nivel a, la probabilidad de rechazar incorrectamente
H0, al menos una vez, incrementa con el número de tratamientos.
Luego, teniendo como objetivo controlar α, y también controlar β,
existen un conjunto importante de pruebas ‘a posteriori’ para ser
utilizadas en caso de haberse rechazado (exclusivamente) la hipótesis
nula del ANAVA.
Prueba de Tukey
Prueba de Fisher
Tomando los residuos como dato de análisis, una de las técnicas más
usadas para verificar el supuesto de distribución normal de los
términos de error es construir un Q-Q plot normal con los residuos
calculados. Mediante esta técnica se obtiene un diagrama de
dispersión en el que, si los errores son normales y no hay otros defectos
del modelo, los residuos se alinean sobre una recta a 45°como se
muestra en la Figura. Esta alineación sobre la diagonal del gráfico se
produce cuando los residuos observados correlacionan bien con los
residuos esperados bajo el supuesto que la muestra de datos sigue una
distribución normal. El gráfico compara los cuantiles (en inglés,
Quantil) observados con los cuantiles (Quantil) esperados bajo
normalidad. La presencia de ligeras violaciones de este supuesto no
resulta grave para el ANAVA, ya que no afecta de forma importante la
probabilidad de cometer Error de Tipo I.
Independencia
En algunas situaciones (datos colectados en el tiempo o con referencia
espacial) una ayuda valiosa para estudiar la posible falta de
independencia entre los errores es realizar un gráfico de los residuos
según la secuencia en el tiempo o espacio en que han sido colectados
los datos; por supuesto que para tal prueba debe conocerse cómo ha
sido el mecanismo de recolección de datos. Si los residuos aparecen en
“rachas” de varios valores positivos seguidos de varios valores
negativos puede ser un indicio claro de la falta de independencia.
Siempre que se detecte cualquier patrón distinto al aleatorio (falta de
patrón), se debe sospechar del incumplimiento del supuesto de
independencia.
En este tema
Una panadería de gran escala diseña una nueva receta de brownie. Están experimentando con
dos niveles de chocolate y azúcar, utilizando dos temperaturas diferentes de horneado. Sin
embargo, para ahorrar tiempo, en lugar de hornear cada bandeja por separado, deciden
hornear más de una bandeja de brownies al mismo tiempo. El ejemplo de los brownies incluye
2 parcelas completas a partir de las cuales se crean dos réplicas (total de 4 parcelas
completas). Cada parcela completa contiene 4 parcelas subdivididas. La parcela completa está
conformada por todas las bandejas de brownies que se hornean a la misma temperatura. Las
parcelas subdivididas son cada bandeja individual de brownies.
No hay un único término de error para probar todos los efectos de los factores en un diseño de
parcelas divididas. Si los niveles del factor A forman las parcelas subdivididas, entonces el
cuadrado medio de Bloque * A será el término de error para probar el factor A. Hay dos
corrientes de pensamiento con respecto a lo que debería ser el término de error para probar B
y A * B. Si usted ingresa el término Bloque * B, los cuadrados medios esperados muestran que
el cuadrado medio de Bloque * B es el término correcto para probar el factor B y que el error
restante (que es Bloque * A * B) se utilizará para probar A * B. Sin embargo, suele
presuponerse que las interacciones Bloque * B y Bloque * A * B no existen y entonces se
agrupan en el error. Usted también podría agrupar los dos términos si el cuadrado medio de
Bloque * B es pequeño en relación con Bloque * A * B. Si no los agrupa, ingrese Bloque A
Bloque * A B Bloque * B A * B en el modelo y lo que se denota como Error es realmente Bloque
* A * B. Si agrupa los términos, ingrese Bloque A Bloque * A B A * B en el modelo y lo que se
denota como Error es el conjunto de términos agrupados. En ambos casos, ingrese Bloque
como un factor aleatorio.