Vous êtes sur la page 1sur 14

ANÁLISIS DE LA VARIANZA DE UN FACTOR (ANOVA)

INTRODUCCIÓN.-

Los modelos de ANOVA (ANalysis Of VAriance) son técnicas de Análisis


Multivariante de dependencia, que se utilizan para analizar datos
procedentes de diseños con una o más variables independientes
cualitativas (medidas en escalas nominales u ordinales) y una variable
dependiente cuantitativa (medida con una escala de intervalo o de
razón). En este contexto, las variables independientes se suelen
denominar factores (y sus diferentes estados posibles o valores son
niveles o tratamientos) y la variable dependiente se conoce como
respuesta. Los modelos ANOVA permiten, básicamente, comparar los
valores medios que toma la variable dependiente en J poblaciones en
las que los niveles de factores son distintos, con la finalidad de
determinar si existen diferencias significativas según dichos niveles o
si, por el contrario, la respuesta en cada población es independiente de
los niveles de factores. Se trata, por tanto, de un contraste paramétrico
que extiende al caso de J poblaciones el contraste de la igualdad de
medias entre dos poblaciones independientes. Algunos ejemplos de
aplicación de estos modelos podrían ser los siguientes:

 Análisis de la duración media de varios tipos de lámparas.

La variable dependiente indicaría la duración de una lámpara y el factor


podría ser la potencia de la lámpara. Las poblaciones estarían formadas
por lámparas con la misma potencia y habría tantas poblaciones como
potencias distintas (éstas serían los niveles del factor considerado). Se
trataría de contrastar la igualdad de las duraciones medias de las
lámparas de cada población, para determinar si la potencia influye o
no en dicha duración media.

 Estudio del efecto de varios tipos de fertilizantes sobre un cultivo.

La variable dependiente podría ser la producción o el rendimiento de


cada parcela; los factores serían, por ejemplo, el tipo de suelo de la
parcela y el tipo de fertilizante utilizado. Cada población estaría
formada por las parcelas que tienen un tipo concreto de suelo y en las
que se utiliza un fertilizante determinado. El ANOVA se aplicaría para
analizar la posible existencia de diferencias en las producciones medias
de las parcelas según el tipo de suelo y el tipo de fertilizante utilizado.

Aunque existen muchos y muy diferentes modelos de ANOVA, puede


obtenerse una clasificación bastante simple de los mismos atendiendo
a tres criterios: el número de factores, el tipo de muestreo efectuado
sobre los niveles de los factores y el tipo de aleatorización utilizada
para seleccionar las muestras representativas de cada población y
agrupar sus elementos (o unidades experimentales) en los distintos
grupos que se desea comparar. Veamos esto con más detenimiento:

 Según el número de factores, se llama ANOVA de un factor al modelo


en el que existe una única variable independiente; en cambio, si el
modelo consta de más de un factor se le denomina modelo factorial o
se habla de Análisis de Varianza Factorial.

 En cuanto al muestreo de niveles, se refiere a la forma de establecer


los niveles de cada factor. Esto depende, normalmente, de los intereses
del investigador. Si se fijan únicamente aquellos niveles del factor que
realmente interesa estudiar, estamos ante un modelo de ANOVA de
efectos fijos (también llamado modelo I) mientras que si los niveles se
seleccionan aleatoriamente de entre todos los posibles, se trata de un
modelo ANOVA de efectos aleatorios (o modelo II).

 Las distinciones basadas en el tipo de aleatorización son equivalentes


a las que se establecen al hablar de muestras independientes y
muestras relacionadas. Como en todo experimento estadístico en el
que no resulta posible trabajar con la población en su totalidad, se
deben elegir muestras aleatorias y asignarse también aleatoriamente
sus elementos a los diferentes niveles o tratamientos, para asegurar
que no se cometan errores sistemáticos. Si las unidades
experimentales reaccionan o responden a los tratamientos de la misma
manera, se dice que son homogéneas. Por el contrario si responden de
diferente manera a los tratamientos debido a sus diferencias
intrínsecas, se dirán heterogéneas. Por otra parte, el tamaño de las
muestras puede ser o no el mismo. Diremos que un diseño es
equilibrado o balanceado si todas las muestras tienen el mismo tamaño
y no equilibrado o no balanceado en caso contrario.

Como ya hemos indicado, el ANOVA trata de determinar si los niveles


de factores pueden conllevar diferencias en la respuesta en los distintos
grupos o poblaciones, contrastando la igualdad de medias de la
variable dependiente en dichos grupos. Para ello, se basa en el estudio
de la varianza.

Si dos poblaciones tienen la misma media y la misma varianza, la unión


de ambas también tendrá la misma media y la misma varianza que las
originales. Por tanto, es razonable pensar que, si se estimara la
varianza poblacional a partir de muestras de las dos poblaciones
iniciales, se obtendría un resultado similar al que se tendría si la
estimación se efectuara con la unión de ambas muestras.

Sin embargo, si las dos poblaciones tienen distinta media (pero la


misma varianza), al combinarlas cambiarían tanto la media de la nueva
distribución como su varianza. En este caso, si se estimara la varianza
poblacional a partir de una muestra extraída de las poblaciones
iniciales, el resultado sería sustancialmente diferente de una
estimación efectuada a partir de la muestra conjunta. Lo mismo
ocurriría si estuviéramos hablando de más de dos poblaciones.

Esta observación es el punto de partida del ANOVA, que permite


comparar las medias de varias poblaciones a partir del estudio de sus
varianzas. En concreto, como se verá más adelante, se analiza la
relación entre las llamadas medias cuadráticas inter-grupos y medias
cuadráticas intra-grupos, que deben ser iguales si las medias de las
poblaciones lo son.

Para poder aplicar esta técnica, es necesario que se verifiquen las


siguientes condiciones previas:

 Independencia: los individuos estudiados han de ser independientes


unos de otros.  Aleatoriedad: las muestras o grupos objeto de estudio
deben haberse obtenido de forma aleatoria.

 Normalidad: las muestras o grupos analizados deben seguir una


distribución Normal.

 Homocedasticidad: debe haber igualdad de varianzas en las muestras


o grupos estudiados.
Veremos a continuación cómo se plantea un problema con la técnica
ANOVA, primero para el caso de un factor y luego para el caso factorial.

ANOVA UNIFACTORIAL.-

El análisis de la varianza de un factor se utiliza para comparar el valor


medio de una variable dependiente cuantitativa en varios grupos, que
se diferencian por los niveles del factor considerado.

En este apartado, se considerará un modelo de efectos fijos no


equilibrado, en el que, por tanto, los tamaños muestrales no tienen por
qué ser iguales.

Si denotamos por Y a la variable dependiente; J al número de muestras


o grupos considerados (correspondientes cada uno a un nivel distinto
del factor); n1,n2,n3,…nj a los tamaños de cada una de las muestras;

al tamaño muestral total; e Yij al valor de la variable Y


correspondiente a la observación i de la muestra j (para j= 1,2….,J e
i=1,2…,n ), la tabla siguiente resumiría los datos disponibles:

Hipótesis nula e hipótesis alternativa

ANOVA de un solo factor es una prueba de hipótesis que evalúa dos


enunciados exclusivos acerca de dos o más medias de población. Estos
dos enunciados se denominan hipótesis nula e hipótesis alternativa.
Una prueba de hipótesis utiliza los datos de la muestra para determinar
si se puede rechazar la hipótesis nula.
Para ANOVA de un solo factor, las hipótesis de la prueba son las
siguientes:

 La hipótesis nula (H0) es que no todas las medias grupales son iguales.
 La hipótesis alternativa (HA) es que no todas las medias grupales son
iguales.

Si se acepta la hipótesis nula, significará que los grupos no difieren en


el valor medio de la variable dependiente y que, en consecuencia, dicho
valor medio se podrá considerar independiente del factor.

Para contrastar dicha hipótesis, introducimos los conceptos de media


cuadrática intergrupos (CME) y de media cuadrática intragrupos
(CMD), que vienen dados, respectivamente, por las expresiones:

Los numeradores de cada una de estas medias cuadráticas se conocen


como a de cuadrados entre grupos, SCE, y como suma de cuadrados
dentro de grupos, SCD . Por su parte de nadores son los llamados
grados de libertad asociados a dichas sumas J-1 y n-J,
respectivamente.

El estadístico de prueba que utiliza ANOVA para contrastar la hipótesis


nula planteada se construye a partir de los conceptos anteriores;
concretamente, viene dado por:
Suponiendo cierta H0, este estadístico sigue una distribución F de
Snedecor con J-1 y n-J grados de libertad; por lo que dado un nivel de
significación , la región critica vendrá determinada por los valores
tales que:

Siendo:

Fuente: http://www.ucipfg.com/Repositorio/MGAP/MGAP-
05/BLOQUE-ACADEMICO/Unidad-
2/complementarias/analisis_de_varianza_2012.pdf

ANOVA MULTIFACTORIAL.-
Tratamos de explicar el comportamiento de una variable aleatoria
(variable respuesta) debido a la influencia de varios factores (variables
explicativas)

• Definición de la variable a explicar

• Definición de los distintos factores que pueden influir en la respuesta


y, en cada uno de ellos, sus distintos niveles o grupos.

Estudiaremos tres casos:

1. Dos factores (diseño por bloques)

2. Dos factores con interacción

3. Tres factores (Cuadrados latinos)


Análisis de la varianza con dos factores (Diseño por
bloques)
Modelo:

Análisis de la varianza con dos factores e interacción


Modelo:
Análisis de la varianza con tres factores Modelo
general
Método de Duncan

Se utiliza para comparar todos los pares de medias. Fue desarrollado por
primera vez por Duncan en 1951 pero posteriormente él mismo modificó su
primer método generando el que ahora se denomina Nuevo método de Rango
Múltiple de Duncan. Esta prueba no requiere de una prueba previa de F, como
sucede con la DMS (diferencia mínima significativa) o sea que aún sin ser
significativa la prueba F puede llevarse a cabo.

La estadística de Prueba es denotado, por

Donde es el número de medias inclusives entre las dos medias a comparar


para diseños balanceados. Para aplicar esta prueba al nivel se debe pasar
por las siguientes etapas:

1. Determine el error estándar (desviación estandar) de cada promedio,


, el cual es dado por la expresión:

Donde el CM es obtenido de la tabla Anova

2. Con los grados de libertad del error y el nivel de significancia determinar


los valores de (intervalos o amplitudes estandarizadas significativos)
utilizando las tablas de amplitudes estandarizadas de Duncan dadas por
Harter (1960) y que se encuentran en el libro de Miller (1992). Para encontrar
estos valores, se requieren los grados de libertad del error y el valor
de .

3. Determinar las amplitudes minimas significativas denotadas


por calculados por la expresión:

4. Se ordenan de manera creciente los resultados promedios del


experimento
5. Se comparan las medias ordenadas así:comienza a
comparar en el siguiente orden:

a) El promedio más alto, con el más bajo, comparando esta


diferencia con el intervalo mínimo significativo . Si esta diferencia es no
significativa entonces todas las otras diferencias son no significantes. Si la
diferencia es significativa se continua con b)

b) Posteriormente se calcula la diferencia entre el valor más alto y el


penúltimo y se compara con el intervalo mínimo significativo

c) Este procedimiento se continúa hasta que todas las medias se han


comparado con la media más grande .

d) A continuación se compara la segunda media más grande con la más


pequeña y se compara con el intervalo mínimo significativo .

Este proceso continúa hasta que han sido comparadas las diferencias entre

todos los posibles pares.

Si una diferencia observada es mayor que el intervalo mínimo significativo,


se concluye que la pareja de medias comparadas son significativamente
diferentes.

Para evitar contradicciones, ninguna diferencia entre una pareja de medias


se considera significativamente diferentes si éstas se encuentran entre otras
dos que no difieren significativamente. A manera de ilustración se tiene:

Cuando el diseño es desbalanceado pero los tamaños de


réplicas difieren marcadamente este método puede
adaptarse utilizando en vez de en la estadística, el valor de la media
armónica de los tamaños de muestras

o alternativamente se puede reemplazar a por la media armónica de las


medias extremas, donde

y y son los tamaños de muestra correspondientes a las medias de


tratamientos menos pequeño y más grande respectivamente.

Fuente:
http://168.176.60.11/cursos/ciencias/2000352/html/un3/cont_317-60.html

Metodo de Tukey
El análisis de varianza es una técnica para análisis de datos, donde se
prueba la hipótesis nula que “todos los tratamientos son iguales, contra la
hipótesis alternativa que “al menos uno de los tratamientos es distinto a los
demás”.

Lamentablemente, el objetivo deseado al realizar el experimento (encontrar


el o los mejores tratamientos), no se puede cumplir. Para ello es necesario
realizar un procedimiento adicional, llamado Prueba de medias.

Existe una gran cantidad de pruebas de medias, pero quizá la más conocida
es la prueba de Tukey. Esta prueba fue desarrollada por John W. Tukey.
Se calcula un valor llamado el comparador de Tukey, de la siguiente
manera:

Donde:
q es una valor que se obtiene de una tabla (Tabla de Tukey) , de manera
parecida a la tabla de F . Horizontalmente se colocan los grados de libertad
de los tratamientos y verticalmente los grados de libertad del error.
Solamente existen tablas para niveles de significancia del 5% y del 1%.

El término que está dentro de la raíz cuadrada se llama error estándar de la


media y es igual al cuadrado medio del error (obtenido en el ANDEVA),
dividido entre el número de repeticiones.

Si la diferencia entre dos promedios es mayor que el comparador, se


concluye que los dos promedios no son iguales, en caso contrario se
concluye que sí son iguales.

Se utiliza el mismo comparador para todos los pares de promedios que se


comparan.
Pero ésta fórmula solamente es válida para el caso de experimentos con
igual número de repeticiones (balanceado).

Un experimento puede ser desbalanceado (desiguales repeticiones) por


varios motivos: por causa de los tratamientos, por fallas en el manejo del
experimento, o por causas desconocidas que el experimentador no pudo
controlar. El análisis de un experimento desbalanceado se complica.

En el caso del diseño al completo azar el procedimiento es directo, pero en


el de bloques al azar, cuadrado latino y otros, es necesario estimar los
datos faltantes antes de realizar el análisis.
Lo mismo sucede para la prueba de Tukey. No se puede usar un solo
comparador, se deben calcular varios comparadores para realizar la
comparación por pares . Esta variante de la prueba se conoce como Tukey-
Kramer
La fórmula para el cálculo es la siguiente:

Donde:
W ij= comparador para el par de tratamientos i,j
q= valor de la tabla de Tukey, con grados de libertad de tratamientos y
grados de libertad del error
CME= cuadrado medio del error
ri, rj son las repeticiones de los tratamientos i,j

Fuente:
http://reyesestadistica.blogspot.com/2014/05/prueba-de-tukey-para-
experimentos.html

Vous aimerez peut-être aussi