Académique Documents
Professionnel Documents
Culture Documents
PG.
............................................. 19
5.
6.
7.
8.
9.
El ANDEVA usado para analizar experimentos, es un mtodo muy flexible que permite construir
modelos estadsticos para el anlisis de los datos experimentales. Bsicamente es un
procedimiento que permite dividir la varianza de la variable dependiente, generalmente variable
continua, en dos o ms componentes, cada uno de los cuales puede ser atribuido a una fuente
(variable o factor) identificable y la otra al error experimental. Las variables independientes son
generalmente nominales, son los Factores en estudio y hacen grupos o tratamientos.
Los modelos que permite construir el ANDEVA pueden ser reducidos al cociente entre dos
varianzas, el numerador es la varianza del modelo como los tratamientos, bloques, etc. y el
denominador es la varianza de los errores. Por ejemplo en un caso de Andeva unifactorial anova
one way el valor F calculado es
El ANDEVA est basado en ciertos supuestos, unos ms posibles que otros Es evidente que cuantos
ms factores introduzcamos se espera que quede menos cantidad de variacin residual (error) por
explicar. Pero siempre quedar alguna variacin residual.
Suposiciones del Anlisis de Varianza
En cada ocasin que se realice un anlisis de varianza (ANDEVA), rutinariamente deben
examinarse los datos para determinar si estos indican alguna desviacin de los supuestos que rigen
dicho anlisis. Por lo tanto, es recomendable realizar un anlisis de las suposiciones en las que se
basa el ANDEVA junto con el anlisis mismo. Slo despus de hacer este anlisis de suposiciones y
que stas se cumplan razonablemente, se puede expresar con cierta confianza la validez de los
resultados estadsticos.
Normalidad de los errores: Es relativamente fcil hacer pruebas de normalidad de los errores
con programas estadsticos computacionales, ya sea con un grfico QQ plot o la prueba de
normalidad de Shapiro Wilks. En la primera prueba el valor r de correlacin debe ser mayor a
0.95 y en la segunda prueba el valor p de la prueba de hiptesis debe ser mayor a 0.05, estar en
H0. El programa INFOSTAT puede calcular los errores de cada dato y hace ambas pruebas. Sin
embargo este requisito no es tan importante como la Independencia de las Observaciones, pues en
general el ANDEVA es una prueba robusta. Esto quiere decir que, aunque los errores de las
observaciones no sean normales, las medias de los tratamientos son aproximadamente normales
debido al Teorema Central del Lmite. Sin embargo, si los errores de los datos son extremadamente
no-normales, es posible transformar los datos para cubrir este requisito, o bien emplear mtodos
no paramtricos.
Homogeneidad de varianzas de los diferentes tratamientos: Es muy importante para el
modelo verificar su hay homogeneidad de las varianzas de los diferentes tratamientos, pues si esto
no se cumple se pueden invalidar los resultados de una HA. Una poblacin heterognea en
varianzas no permite detectar si las diferencias observadas se deben diferencias de promedios o
de las varianzas.
Para corroborar o refutar las afirmaciones hechas respecto de la hiptesis de la homogeneidad de
las varianzas de los grupos o tratamientos respecto a la variable dependiente, se dispone de la
prueba de Levene de homogeneidad de varianzas. Esta prueba funciona como un estadstico F de
la distribucin F de Fisher, donde la H0 consiste en suponer que las varianzas de los errores
absolutos de los distintos grupos son iguales. Se rechazar esta H0 en el caso de que la significacin
del estadstico sea menor que 0,05. El estadstico de Levene se hace realizando una ANDEVA una
va con los errores en valor absoluto, INFOSTAT calcula este tipo de error.
5
Logaritmo Log (x), til cuando los datos crecen en sentido exponencial o cuando las
desviaciones estndares de las muestra sean aproximadamente
La transformacin + 0.5 til cuando los nmeros observados son pequeos 0-10, por
ejemplo son acontecimientos pocos comunes, tienen una posibilidad muy baja de ocurrir
en cualquier individuo. Estos datos tienden a seguir una distribucin de Poisson.
La transformacin /100 cuando los datos son expresados en por ciento o son
proporciones de la muestra total. Por lo general estos datos tienen una distribucin
binomial y no de una distribucin normal como se espera.
Como ltimo recurso, ante datos dudosos de anlisis se puede usar el uso de mtodos de estadstica
no paramtrica. Es importante mencionar que el empleo de estadstica no paramtrica o el uso de
transformaciones no eliminan el problema de la falta de aleatoriedad de las unidades
experimentales, errores por un mal diseo del experimento o por una mala toma de datos, es decir,
la ejecucin incorrecta de un experimento no tiene ms remedio que repetir el experimento
corrigiendo los errores por falta de diseo o mal manejo.
Y= Es un estimador de
(Yi-Y)= Es un estimador de los efectos de tratamiento i
(Yij-Yi)= es el estimador del error experimental ij
(Yijl-Yij)= es un estimador del error de muestreo ijl
Hipotesis nula y alterna:
Ho: 1=2=3==k
Ha: 1 23k
Es decir;
Ho: no existe diferencia significativa entre los tratamientos.
Ha: existe diferencia significativa entre los tratamientos.
Cuadro de ANOVA en caso de submuestreo
El diseo al completo azar tiene varias ventajas y desventajas entre estas se pueden mencionar las
siguientes:
Ventajas:
a) Su sencillez (estadstico fcil). Aun cuando el dato de algunos tratamiento se hayan perdido,
o rechacen por alguna causa el mtodo de anlisis sigue siendo sencillo. La prdida relativa
de informacin debida a los datos faltantes, es de menos importancia que en cualquier otro
sistema.
b) La flexibilidad. Puede utilizarse cualquier nmero de tratamientos y repeticiones y pueden
variar a voluntad del investigador el nmero de repeticiones de un tratamiento a otro, pero
no es recomendable sino existe una buena razn. Todo el material experimental disponible
puede usarse, lo cual es una ventaja en experimentos preliminares pequeos donde el
material experimental de que se dispone es escaso.
c) El nmero de grados de libertad es mximo en comparacin con otros modelos, el modelo
estadstico sigue siendo fcil aun cuando se pierdan unidades experimentales.
d) Aun cuando el dato de algn tratamiento se hayan perdido, o rechacen por alguna causa el
mtodo de anlisis sigue siendo sencillo
Desventajas:
a) La principal estriba en su grado de precisin, algn otro diseo suele ser capaz de
estimar el error estndar por unidad experimental (error experimental) con un
mayor grado de precisin
b) No siempre puede garantizarse condiciones de homogeneidad. No se asegura,
ninguna forma para aseverar que las unidades reciben un tratamiento similar a
aquellas que reciben otro tratamiento, toda la variacin que existe entre las
unidades pasa a formar parte del error experimental.
Por qu aleatorizar?
Para transformar la variabilidad sistemtica no planificada en variabilidad no planificada o ruido
aleatorio; en otros trminos: prevenir contra la introduccin de sesgos en el experimento. La
aleatorizacin evita la dependencia entre observaciones y valida muchos de los procedimientos
estadsticos ms comunes.
Cundo puede ser apropiada la aleatorizacin?
La aleatorizacin puede ser apropiada si:
a)
El material experimental es homogneo.
b)
Donde es probable que una parte apreciable de las unidades se destruyan o no
respondan
c)
En experimentos pequeos en donde la mayor precisin de otros diseos no
compensa la prdida de grados de libertad del error.
9
PROCEDIMIENTO DE ANLISIS
Procedimiento
a) Determinar el nmero de unidades experimentales (n) y numerarlas. Es posible
obtener n al multiplicar el nmero de tratamientos por el nmero de repeticiones
n = ( t * r).
b) Asignar el nmero de unidades experimentales a cada tratamiento utilizando una
tabla de nmeros aleatorios o bien cualquier otra herramienta que sirva para el
mismo propsito. Por ejemplo si cada tratamiento ha de repetirse cuatro veces, los
primeros cuatro nmeros aleatorios obtenidos se asignarn al tratamiento A, los
siguientes cuatro nmeros aleatorios al tratamiento B, y as sucesivamente.
c) Una vez hecha la distribucin anterior (liberal b) se numeran las unidades
experimentales y se localizan los tratamientos de acuerdo al nmero que les
corresponde y se obtiene as las distribucin de campo.
Modelo Estadstico
Yij = + t i + ij
En donde:
Yij
Variable respuesta de la ij-esima unidad experimental
Hiptesis Alterna Ha: t i 0 (No todos los tratamientos tienen el mismo efecto sobre la variable
en estudio, al menos uno produce un resultado distinto)
Tabla de Datos
Tratamientos
1
2
3
.
.
.
R
Repeticiones
1
2
Y11
Y12
Y21
Y22
Y31
Y32
.
.
.
.
.
.
Yt1
Yt2
Yi.
3
Y12
Y23
Y33
.
.
.
Yt3
4
. .
. .
. .
. .
. .
. .
. .
10
.
.
.
.
.
.
.
r
Y1r
Y2r
Y3r
.
.
.
Ytr
Y1 .
Y2 .
Y3 .
.
.
.
Y..
Supuestos
Los supuestos que validan el anlisis varianza son:
1. Los errores son independientes
2. Los errores estn normalmente distribuidos con media cero y varianza constante
3. Existe homogeneidad de varianza entre los tratamientos.
Fuentes de variacin y grados de libertad.
Para el anlisis de varianza se construye una tabla de anlisis de varianza y se completan los
datos. Existen slo dos fuentes de variacin en el diseo completamente aleatorio: entre unidades
experimentales dentro de un tratamiento, la cual denominamos error experimental y aquella entre
medias de tratamiento.
Tabla de Anlisis de Varianza
Grados
Fuentes de
de
Variacin
Libertad
Tratamien- t 1
tos
Error
t ( r 1)
Total
t r -1
Suma de Cuadrados
Cuadrados Medios
Fc Calculada
Ft
Requerida
[(Y2../r Sctrat/gltotal
Scmedios/Cmerror
Y2..)/(tr)]
Sctotal - Scerror/glerror
SCtrat
[ (YijY2..)/ (tr) ]
Los grados de libertad son uno menos que el nmero de observaciones para cada fuente
de variacin.
Regla de Decisin
Rechazar la hiptesis Ho. Si Fc > Ft (Gltrat, Gl error, )
Aceptar la Hiptesis Ha. Si Fc < Ft (Gltrat, Gl error, )
Ft = Valor tabular .
Coeficiente de Variacin
Se puede considerar como medida relativa de la variacin que no es posible controlar en el
experimento (error experimental), por costumbre se utiliza como que se control adecuadamente
el error cuanto el coeficiente de variacin es menor de 20.
11
Y.. = Y.. / tr
Esta ltima igualdad establece que cualquier desviacin de una observacin con respecto a la
media global se debe a dos posibles causas: A la diferencia en el tratamiento o a un error aleatorio.
Si se rechaza la hiptesis nula H0: j=0, los datos de la muestra deben de demostrar que la
desviacin total que se debe a los tratamientos es, suficientemente ms grande, que la que se debe
al error aleatorio.
Los parmetros , 2 k y son desconocidos, pero pueden estimarse con base en las
observaciones de k muestra aleatorias.
Para la tabla anterior se define:
12
Al sustituir
Se obtiene:
Como STC tiene N-1 grado de libertad, pues la suma de las desviaciones
Por tanto, se tiene que SCE tendr (N-1)-(k-1) = (N-k) grados de libertad. Luego, resumiendo:
Por tanto
14
Luego, E(CMTR)=s2. Es decir, tanto CME como CMTR son dos estimadores insesgados de 2. Pero
si H0 no es cierta, CMTR > CME dado que el sumando anterior es siempre positivo. En otras
palabras, cuanto mayor sea la diferencia entre las medias de los tratamientos y la media global,
mayor ser CMTR. Pero una ocurrencia de este tipo sugiere que las medias de los k tratamientos
no son todas iguales. En consecuencia, la hiptesis nula ser rechazada si
15
j.
Dadas muestras del mismo tamao, n, para todos los niveles, se puede demostrar que
16
La regin apropiada de rechazo sigue siendo la misma ya que un valor grande del cociente entre
CMTR y CME sugiere que debe rechazarse la hiptesis nula H0 t2 = 0.
En el anlisis de la varianza, la estadstica F tambin es ms robusta entre varianzas desiguales
siempre y cuando los tamaos de la muestra de los tratamientos sean iguales. Esto para el caso de
efectos fijos.
El resultado no se extiende para el caso de efectos aleatorios en el que la violacin de la hiptesis
de varianzas iguales generalmente tendr efectos considerables sobre las inferencias an para
muestras del mismo tamao. La hiptesis crucial en el desarrollo del anlisis de la varianza es que
los errores aleatorios sean independientes. Si los errores son interdependientes, el tamao real de
la regin crtica puede ser, en forma sustancial, ms grande (5 6 veces) que el tamao dictado al
seleccionar la probabilidad de tipo I.
I
15.68
745.84
1,246.09
1,688.39
2,391.21
Suma
a.
II
38.94
726.84
1,204.78
1,935.12
2,266.71
III
29.38
1,037.48
1,350.56
2,371.69
2,538.14
IV
123.43
907.82
1,473.02
1,745.57
2,461.15
Suma
207.43
3,417.98
5,274.46
7,740.77
9,657.22
Cuadrados de Tratamientos
SCtrat = (Yi)2 / r
c.
Los cuadrados medios de los tratamientos estn dados por la suma de cuadrados del error (Cce)
dividido entre el nmero de repeticiones (r).
CMtrat = Sce /r
CMtrat = 4,387.24/4 = 1,096.81
e)
Los cuadrados medios del error estn dados por la suma de cuadrados del error (Sce) dividido
entre del error.
Cme = Sce/Gle
Cme = 94.96/15 = 6.33
Variacin
Libertad
Cuadrado
SC
Medio, CM
GL
Tratamientos
t 1
Error
S2
1(1 )2 (1 )
Total
(1 )
( )
n 1
FCalculado
18
Dado que
Los residuos no son estimados en el sentido de estimacin de parmetros, sino como estimadores
ij con base en las medias muestrales
Si es cierta la suposicin de que los errores aleatorios tienen la misma varianza para los k niveles
de poblacin, entonces la grfica de los residuos para cada tratamiento no revelar ninguna
diferencia apreciable de los residuos alrededor de cero.
Para normalizar la escala de magnitudes es preferible utilizar los residuos estandarizados
Entonces, dado que los errores aleatorios se encuentran normalmente distribuidos, un residuo
estandarizado rara vez se encuentra ms all de 3.
Tambin se encuentra en la literatura estadstica procedimientos para verificar la hiptesis de
igualdad entre las k varianzas. Por ejemplo las pruebas de Bartlett y las pruebas de Hartley.
En el anlisis de la varianza, la estadstica F tambin es ms robusta entre varianzas desiguales
siempre y cuando los tamaos de la muestra de los tratamientos sean iguales. Esto para el caso de
efectos fijos.
El resultado no se extiende para el caso de efectos aleatorios en el que la violacin de la hiptesis
de varianzas iguales generalmente tendr efectos considerables sobre las inferencias an para
muestras del mismo tamao. La hiptesis crucial en el desarrollo del anlisis de la varianza es que
19
los errores aleatorios sean independientes. Si los errores son interdependientes, el tamao real de
la regin crtica puede ser, en forma sustancial, ms grande (5 6 veces) que el tamao dictado al
seleccionar la probabilidad de tipo I.
21