Vous êtes sur la page 1sur 12

ANOVA

-Por Lucas Di Bin-



ANOVA es la sigla de Anlisis de la Varianza. Es un mtodo usado para
comparar y testear estadsticamente las diferencias entre al menos dos grupos
distintos.

Ejemplos:
El nivel promedio de salarios en el pas A es superior al del pas B
La esperanza de vida de las mujeres es superior a la de los hombres.
La cantidad de das de medios de reposo que requieren los tratamientos
A. B y C son iguales.

Los grupos en ANOVA son numerados de 1 a j, donde j es el nmero de
grupos.
Anova testea la hiptesis nula de que las j medias muestrales vienen de la
misma poblacin.
0 j H 1 2 = = = ... =

La hiptesis alternativa es que al menos una media muestral viene de una
poblacin que tiene una media distinta a la poblacin asociada con las medias
restantes.
Rechazar la hiptesis nula implica uno de los siguientes casos:
1) Todas las medias poblacionales difieren
1 : j H 1 2 ...

2) Algunos subconjuntos de medias poblacionales difieren de otros
1 : ... j H 1 2 3 = = =

3) Al menos una de las medias poblacionales difiere del resto
1 1 : ... j j H 1 2 = = =


ANOVA lo que propone es evaluar las diferencias entre medias a partir de la
variabilidad. Esto se logra mirando las varianza de las muestras en dos
instancias, la primera es la varianza dentro de los valores observados de cada
grupo, la segunda es la varianza de los valores observados de todos los grupos
tomndolos como si todos fueran un solo grupo.
Es decir existen dos fuentes de variabilidad una es la que existe dentro de cada
grupo. Y adems una variabilidad entre los distintos grupos que generan
observaciones.
Si las poblaciones originarias de los distintos grupos fueran las mismas es de
esperarse que la variabilidad que se encuentra dentro de cada grupo sea la
misma que la del conjunto total de los datos; es decir, las diferencias entre los
valores observados se deben a que provienen de una misma estructura
probabilstica.
Entonces si todos los datos provienen de la misma poblacin es de esperar que
sus medias y varianzas sean iguales. ANOVA plantea observar las varianzas y
si estas pueden considerarse iguales, entonces tambin los sern las medias.
En cambio si las varianzas observadas en los diferentes grupos no se
comportan de manera homognea ser porque entonces provienen de
poblaciones con distinta media (pudiendo ser iguales sus varianzas).
Observemos los siguientes grficos:

.0000
.0004
.0008
.0012
.0016
2500 5000 7500 10000
NORMAL1 NORMAL2 NORMAL3


.0000
.0004
.0008
.0012
.0016
2500 5000 7500 10000
NORMAL3 NORMAL4 NORMAL5

Puede advertirse que la varianza dentro de los valores de cada grupo son
iguales en los dos grficos. La diferencia entre medias de los distintos grupos
en el primer grfico es ms notoria que en el segundo.
Si bien todas las poblaciones mostradas anteriormente difieren en su media, al
tomar muestras de cada una, ANOVA detectar mas fcilmente las
discrepancias del primer grfico, mientras que deducir que las diferencias
para el segundo caso son puramente aleatorias.
ANOVA es entonces una herramienta para poder evaluar si las medias
poblacionales pueden considerarse iguales.


Notacin
ij X : i-sima observacin del grupo j
X : media general
j X : media del j-simo grupo
j n : cantidad de observaciones del conjunto j
n : cantidad total de observaciones
2
j
S : varianza muestral correspondiente al grupo j

Frmulas bsicas
1 1
j j n
ij
j i
X
X
n
= =
=

Promedio del total de las observaciones


1
j n
ij
i
j
j
X
X
n
=
=

Promedio de las observaciones del grupo j



2
2 1
( )
j n
ij j
i
j
j
X X
S
n

=
=

Varianza de las observaciones del grupo j



Suma de cuadrados

Suma de cuadrados total
2
1 1
( )
j j n
ij
j i
SCT X X
= =
=


2
2
1 1
1 1
j
j
j n
ij
j n
j i
ij
j i
X
SCT X
n
= =
= =



=


Es la variabilidad total de los datos sin distinguir por grupos


Suma de cuadrados entre grupos
2
1 1
( )
j j n
j
j i
SCE X X
= =
=


2
2
1 1
1
1
j
j
j n
n
ij
ij
j
j i
i
j
j
X
X
SCE
n n
= =
=
=





=


Es la varianza de las medias muestrales. Si todos los grupos fuesen generados
por la misma poblacin, entonces los promedios deberan parecer entre s,
siendo la varianza de las medias pequea.

Suma de cuadrados dentro de cada grupo

2
1 1
2
1
( )
j j n
ij j
j i
j
j
j
j
SCD X X
SCD n S
= =
=
=
=


Es la variacin intrnseca de cada grupo. La variabilidad que existe dentro de
las observaciones de un grupo independientemente del resto de los datos.


Propiedad

SCT SCE SCD = +

Lo que nos dice esta propiedad es que la diferencia entre cada observacin y la
media global se debe a dos factores:
1) La desviacin entre la observacin y su media grupal
2) La desviacin entre su media grupal y la media global

( ) ( )
2 2
2
1 1 1 1 1
1 2
( )
j j j j j n n
ij ij j j j
j i j i j
X X X X n X X
= = = = =
= +

1442443 1442443



Distribuciones de las SC:

Bajo la hiptesis de que H
0
es verdadera:
2
1
2
j
n j
SCE
SCD




Cuadrados Medios
SC
CM
gl
=

Donde:
CM = cuadrados medios
SC = suma de cuadrados
gl = grados de libertad

1
SCE
CME
j
=


SCD
CMD
n j
=


1
SCT
CMT
n
=


Test F
0 j H 1 2 = = = ... =

1
no todas las son iguales H =


Estadstico:
1; 1 0
1
si es verdadera
j n
SCE
CME j
F F H
SCD
CMD
n j

= =



Regla de decisin:
0
1 ; 1; 1
Rechazo si:
j n
H
F F

Tabla ANOVA

Para poder trabajar con todas las frmulas anteriores, lo ideal es construir una
tabla en la que aparezcan todos los datos y frmulas necesarias para poder
plantear el test. La tabla ANOVA brinda esa posibilidad.
En primer lugar, lo mas conveniente es presentar los datos de la siguiente
forma, as se podrn calcular los conceptos necesarios para hacer el test de
una forma ordenada.

11 12 13
21 22 23
31 32 33
41 42 43
51
1 2 3
2 2 2 2
1 2 3
1 2 3
3
2 2 2 2 2
1 2 3
1
1 2 3
( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
j
j
j
j j j
j
j
x x x
x x x
x x x
x x x
x
X X X X X
S S S S
X X X X X X X X
X X X X X X X X n X X
=



Luego, para poder tener las medidas necesaria para realizar el test se
construye la tabla ANOVA:

Variacin
Suma de
cuadrados
Grados de
libertad
Cuadrados
Medios
Razn F
Entre
3
2
1
( )
j j
j
n X X
=

3-1 SCE/g.l. CME/CMD


Dentro
2
1
j
j
j
j
n S
=


n-3 SCD/g.l.
Total SCE + SCD n-1




Ejemplo 1:

La siguiente tabla muestra la edad de fallecimiento de distintas personas, cada
una de ellas tiene uno de los siguientes atributos:

HF = hombre fumador
MF = mujer fumadora
HNF = hombre no fumador
MNF = mujer no fumadora

HF MF HNF MNF
80 82 84 83
73 70 79 86
66 75 80 79
79 69 78 78
72 66 65 69
72 69 66 72
65 71 77 84
69 70 82 67
73 81 72 72
59 71 69 73
088 78 76 61
70 90
64 73
82 70

Una compaa de seguro quiere saber si debe discriminar sus tarifas para
seguros de vida entre los cuatro grupos anteriores o si puede usar la misma
tarifa para todos.

Las tarifas de seguro de vida dependen del promedio de vida de las persona,
por lo tanto se debe testear sobre las medias muestrales de los cuatro grupos.

Se construyen las siguientes tablas para determinar el valor del estadstico:

HF MF HNF MNF
75 79 84 83
73 72 79 80
66 73 80 79
79 69 78 81
72 66 68 69
72 69 67 72
65 71 77 84
69 70 82 67
73 80 72 72
65 71 69 80
80 70 76 75
70 90
84 73
82 70
media 71,7272727 71,8181818 76,2857143 76,7857143
varianza 26,6181818 17,7636364 36,5274725 44,1813187
desvo 5,15928113 4,21469291 6,0437962 6,64690294
nj 11 11 14 14
(n-1)var 266,181818 177,636364 474,857143 574,357143
SCT 1774,32
SCD 1493,03247
SCE 281,287532

Tabla ANOVA
SC gl CM Test F P valor
Entre 281,287532 3 93,7625108 2,88880221 0,04551303
Dentro 1493,03247 46 32,4572276
Total 1774,32 49


Como puede verse en la tabla ANOVA rechazamos Ho con un alfa igual a 0,05.


Ejemplo 2:

El siguiente ejemplo tiene como fin mostrar la relacin que existe entre los
valores muestrales y la posibilidad de rechazar Ho.

Nos encontramos con una situacin similar a la anterior, pero con muestras
diferentes. Los grupos son los mismos y de hecho presentan los mismos
valores de medias muestral que en el ejemplo 1. Pero a diferencia del ejemplo
anterior las varianzas dentro de cada grupo son superiores.

HF MF HNF MNF
79 81 84 83
73 70 83 84
58 75 80 82
81 67 78 81
74 63 65 63
70 65 62 74
62 75 77 84
63 75 83 65
79 80 72 72
70 69 65 80
80 70 81 81
70 90
84 73
84 63
media 71,7272727 71,8181818 76,2857143 76,7857143
varianza 63,2181818 34,3636364 63,4505495 73,4120879
desvo 7,95098622 5,86205053 7,96558532 8,56808543
nj 11 11 14 14
(n-1)var 632,181818 343,636364 824,857143 954,357143
SCT 3036,32
SCD 2755,03247
SCE 281,287532




SC gl CM Test F P valor
Entre 281,287532 3 93,7625108 1,5655262 0,21053427
Dentro 2755,03247 46 59,8920102
Total 3036,32 49

Como puede verse en este caso con un alfa igual al 5% no rechazamos Ho.
Volvemos nuevamente a lo comentado en el inicio del texto, cuando las
varianzas son muy altas las diferencias de las medias se pueden deber a
factores estocsticos y no a que las mismas son necesariamente diferentes.

Demostraciones


1)
2
1 1
( )
j j n
j
j i
SCE X X
= =
=


2
1
( )
j
j j
j
SCE n X X
=
=


2 2
1 1
2
j j
j j j
j
j j
SCE n X X n X nX
= =
= +


2
1 2 1
1 1
2
j
j
n
n
ij
ij
j j
i
i
j
j j
j j
X
X
SCE X n nX
n n
=
=
= =



= +




2 2
2
1 1 1 1
1
1
2
j j
j
j j n n
n
ij ij
ij
j
j i j i
i
j
j
X X
X
SCE
n n n
= = = =
=
=





= +


2
2
1 1
1
1
j
j
j n
n
ij
ij
j
j i
i
j
j
X
X
SCE
n n
= =
=
=





=




2)

2
1 1
2 2
1 1 1 1 1 1
2 2
1 1 1 1
( )
2
2
j
j j j
j j
j n
ij
j i
j j j n n n
ij ij
j i j i j i
j j n n
ij ij
j i j i
SCT X X
SCT X X X X
SCT X X X nX
= =
= = = = = =
= = = =
=
= +
= +




2
1 1 2
1 1 1 1
2
j
j j
j n
ij
j j n n
j i
ij ij
j i j i
X
SCT X X X n
n
= =
= = = =



= +




2
2
1 1
2
1 1 1 1
2
j
j j
j n
ij
j j n n
j i
ij ij
j i j i
X
SCT X X
n n
= =
= = = =




= +



2
2
1 1
1 1
j
j
j n
ij
j n
j i
ij
j i
X
SCT X
n
= =
= =



=




3)

2
1 1
2
1 1
( )
( )
j
j
j n
ji
j i
j n
ji j j
j i
SCT X X
SCT X X X X
= =
= =
=
= +


2 2
1 1 1 1 1 1
1 1
( ) 2 ( )( ) ( )
2 ( ) ( )
j j j
j
j j j n n n
ji j ji j j j
j i j i j i
j n
j ji j
j i
SCT X X X X X X X X
SCT SCD SCE X X X X
= = = = = =
= =
= + +
= + +



1 1 1
2 ( )
j j j n n
j ji j
j i i
SCT SCD SCE X X X X
= = =

= + +




1 1
2 ( )
j j n
j ji j j
j i
SCT SCD SCE X X X n X
= =

= + +




1
1 1
0
2 ( )
j
j
n
ji
j n
i
j ji j
j
j i
X
SCT SCD SCE X X X n
n
SCT SCD SCE
=
= =


= + +



= +


144424443

Vous aimerez peut-être aussi