Académique Documents
Professionnel Documents
Culture Documents
El análisis de la varianza (ANOVA – del inglés Analysis of Variance) es una potente herramienta
estadística de gran aplicación en la industria y la investigación. Las dos aplicaciones que veremos en
este curso serán la comparación de medias de más de dos poblaciones y la validación de modelos de
regresión lineal, limitándonos a una sola magnitud o característica que se mida en la población o
poblaciones que son objeto de análisis, en otras palabras trataremos el análisis de varianza unifactorial.
…. …. …. …. …. ….
…. …. …. xij …. ….
…. …. …. …. …. ….
xn11 …. …. …. xnkk
xn22 …. xnjj ….
…. ….
La tabla nos indica que estamos analizando k muestras, cada una de las cuales presenta un número
determinado de observaciones de la magnitud o variable que estamos analizando. No es necesario que
las muestras tengan un número igual de observaciones, por lo que la muestra k tendrá nk observaciones.
Evidentemente podremos calcular para cada muestra su media y su varianza muestral por las fórmulas
que ya conocemos:
En el caso que nos ocupa la hipótesis nula será:
H0: µ1 = µ2 = µ3 = ......= µk = µ
Intuitivamente, podríamos pensar en realizar pruebas de hipótesis con la t de Student entre las medias,
dos a dos:
H0: µ 1 = µ 2; H0: µ 1 = µ 3; H0: µ 2 = µ 3, etc.
Sin embargo esta solución no es válida, porque afecta el nivel de significación de las pruebas
aumentando la probabilidad de cometer un error de tipo I.
La solución está en el ANOVA se basa en la identidad:
O sea, que la variabilidad total tiene dos componentes, la variabilidad dentro de las muestras y la
variabilidad entre las muestras. Si la variabilidad entre las muestras es significativamente mayor que la
variabilidad dentro de las muestras, podremos pensar que las muestras no corresponden a ua misma
población y rechazaremos la hipótesis H0. Por el contrario, si las varianzas entre las muestras son del
mismo orden (estadísticamente hablando) que las varianzas dentro de las muestras, podremos aceptar
H0. Esto gráficamente se ilustra en la siguiente figura:
A continuación veremos cómo el ANOVA nos permite evaluar esto.
Elevando al cuadrado la expresión de la variabilidad y haciendo una doble sumatoria (para las muestras
y para las observaciones dentro de cada muestra tendremos:
O sea, la Suma de cuadrados totales (SCT) = suma de cuadrados dentro de las muestras (SCD) + suma
de cuadrados entre las muestras (SCE).
Si dividimos SCD y SCE por n – k y k – 1 respectivamente, obtenemos los estadísticos siguientes:
Con estas condiciones y cuando se cumple que µ1 = µ2 = ... = µk = µ, o sea, si las medias
poblacionales son todas iguales, las sumas de cuadrados SCD y SCE se distribuyen según
distribuciones χ2 con (n–k) y (k–1) grados de libertad, respectivamente.
La condición de independencia tiene una consecuencia muy importante y es que el cociente entre MCE
y MCD se distribuye según una distribución F con (k–1) grados de libertad en el numerador y (n–k)
grados de libertad en el denominador.
La tabla de ANOVA.
Lo descrito anteriormente se resume en la tabla de ANOVA:
Como se observa se calculan MCE y MCD como una medida de las variabilidades ya comentadas y se
comparan mediante una prueba de hipótesis F. Si no existe diferencia estadísticamente significativa
entre ellas, la presencia de errores aleatorios en las observaciones será la causa predominante de las
diferencias entre los valores medios. Si, por el contrario, el origen de la muestras no es el mismo, lo
que se refleja en la diferencia entre las medias, MCE será, estadísticamente hablando, mayor que MCD
y el valor calculado de F será mayor que el valor tabulado Ftab para el nivel de significación α escogido
y los grados de libertad ya mencionados.
Para los cálculos manuales se utilizan las siguientes fórmulas:
3 2 5 3
5 4 6 5
8 7 7 5
10 8 12 6
9 6
∑xij 26 30 30 33 119
∑nj 4 5 4 6 19
¿Podemos asumir que sus medias son iguales entre sí con un nivel de significación α = 0.05?
Utilizando las fórmulas tenemos:
FV SC gl MC Fcalc
Entre 10.18 3 3.3947 0.4827
TOTAL 115.68 18
11 2 5 3
12 4 6 5
11 7 7 5
10 8 12 6
9 6
Repitiendo el procedimiento (se sugiere que lo haga Usted), obtenemos Fcalc = 5.26, que es mayor que
la Ftabla ya vista y que nos indica que no se puede aceptar que todas las muestras pertenezcan a la
misma población.
Gráficamente:
El análisis de ANOVA está implementado en muchos paquetes estadísticos. El paquete sencillo que se
encuentra en los materiales auxiliares también permite hacerlo y le sugerimos que lo utilice, realmente
los cálculos manuales o utilizando Excel son más engorrosos.
Nótese que el ANOVA no indica cuántas muestras difieren de la hipótesis H0 ni cuáles son. Como
ilustramos, la inspección visual puede ayudar. Para determinar esto con fundamento estadístico se
necesita aplicar otras pruebas.
El ANOVA utilizado para determinar comparar la media de más de dos poblaciones es un método más
general que la comparación de dos medias usando la t de Student. Este último es un caso particular del
ANOVA.