Vous êtes sur la page 1sur 10

Anlisis de la varianza (ANOVA)

Permite analizar el efecto de variables independientes cualitativas


(factores) sobre una variable dependiente cuantitativa (variable
respuesta)
ANLISIS DE LA VARIANZA SIMPLE (ANOVA con un factor fijo)
La tcnica estadstica de anlisis de la varianza simple es la extensin
de la prueba T de diferencias de medias con dos muestras
independientes. El ANOVA permite comparar la medias de 2 o ms
poblaciones.
Por ejemplo, un investigador educacional desea comparar la
efectividad de tres mtodos diferentes para ensear Matemtica. Para
evaluar si los mtodos de enseanza producen resultados diferentes,
es decir, promedios diferentes, el investigador debe plantear las
siguientes hiptesis:
H0: 1 = 2 = 3 (Las medias de los tres mtodos (poblaciones) son iguales
H1: Por lo menos una media es distinta.
En general, en un problema como ste, se tienen muestras aleatorias
independientes tomadas de k poblaciones normales con varianza
comn 2 (todas las poblaciones tienen la misma varianza
homocedasticidad):
Variable de inters = Y
Tratamiento 1
y11 y12 ... y1n1
Tratamiento 2

y21 y22 ... y 2n2

Tratamiento k

... yknk

yk1 yk2

En la prctica a las diversas poblaciones


se les sueles llamar tratamientos, esto se
debe que las tcnicas de anlisis de la
varianza se crearon, originalmente, en
conexin con experimentos agrcolas.

n = n1 + n2 nk

El modelo de cada observacin est dado y ij est compuesto por:

Cecilia Larran R

ANOVA simple

Pgina 1

Yij = i + ij ; i representa la media de la poblacin i, i = 1,2, , k

ij es el error aleatorio, j = 1,2 , nk


Hiptesis
bsicas del
modelo

ij se distribuyen Normal con media cero y varianza constante


Tambin
Yij = +

cada
ij

observacin

se

puede

expresar

de

la

forma

donde representa a la media global y

representa el efecto del

tratamiento i.
Del ejemplo: Cada resultado o puntaje y1j est compuesto por un
puntaje medio global () + el efecto de enseanza con el mtodo 1(

+ 1j (en el error pueden estar las horas de estudio, alimentacin, etc.)


La hiptesis nula H0: 1 = 2 = = k es a

H0:

... =

= 0

Decir que las medias de las poblaciones son iguales es equivalente a


el efecto del tratamiento es nulo estadsticamente
La prueba en si est basada en un anlisis de la variabilidad o
dispersin total de los datos (numerador de la varianza de la variable
de inters o dependiente Y)
Se resuelve a qu se debe la fuente de variabilidad de los datos?, al
tratamiento? o al error?
A la variabilidad se le llama Suma de Cuadrados (SC)
Variabilidad Total: SC(total)
Variabilidad debida a los tratamientos): SC(Tratamiento) o SC(entre las
muestras) o SC(Inter-grupos)
Variabilidad debida al error: SC(Error) o SC (dentro los tratamientos) o
SC(Intra-grupos)

Cecilia Larran R

ANOVA simple

Pgina 2

Se deduce que:

SC(Total) = SC(Tratamiento) + SC(Error)

El procedimiento estadstico (anlisis de la varianza) que permite


probar la hiptesis nula
1 = 2 = = k, se resumen en la tabla siguiente:
ANOVA
Fuente
Variacin
Inter-grupos
(tratamientos)
Intra-grupos
(Error)

Suma de
cuadrados

(yi. -y)2

K -1
(n grupos -1)

(y ij -yi. )2

nk
(n n grupos)

Total

(y ij -y)
i

gl

Media cuadrtica
(Varianzas)

M.C.(Integrupos)

F
(estadstico de
prueba)

M.C.(Inter-grupos)
M.C.(Error)

M.C. (Error)

n-1

Se rechaza la hiptesis de que todas la medias poblacionales son


iguales o que el tratamiento tiene efecto nulo sobre la variable
dependiente si el valor de F (calculado con los datos de la muestra)
es mayor que el valor tabla F(1- ; k-1, n k 1) , donde en el nivel de
significacin, esto quiere decir, que rechazamos para valores grande
de F lo que implica que rechazamos cuando la varianza explicada por
el tratamiento es mucho mayor que la varianza de error.
El clculo de la MC(Tratamiento), MC(Error) y MC(total) se explicar en
el ejemplo siguiente:
Ejemplo: (Met-enseanza.sav) Quince estudiantes de cuarto ao
bsico se asignaron al a tres grupos (5 alumnos por grupo), con el
objeto de experimentar con tres mtodos de enseanza da la
matemtica. Al final del semestre se aplic el mismo test a los 15
estudiantes. En la tabla se presentan los resultados:

Cecilia Larran R

ANOVA simple

Pgina 3

Y = Puntaje del test


77 81 71 76
72 58 74 66
76 85 82 80

Mtodo 1
Mtodo 2
Mtodo 3

80
70
77

Tenemos: SC(Total) = SC(Tratamiento) + SC(Error)

77 81 71 76 80
72 58 74 66 70
76 85 82 80 77

Mtodo 1
Mtodo 2
Mtodo 3

ni

y i.

5
5
5
n = 15

77
68
80

y ij2

y ij
j

385
340
400
1125

29707
23280
32054
85041

i
2

y ij

(y ij -y)2 = ;

SC(Total) =
i

2
ij

y i

; n = n1 + n2 + n3

(1125)2

= 85041 -

= 666

15

y ij

(yi. -y)2 =

SC(Tratamiento) =
i

j=1

ni

3852
5

y ij
-

3402
5

4002
5

11252
15

= 390

(y ij -yi. )2 se puede calcular por diferencia:

La SC(Error) =
i

SC(Total) = SC(Tratamiento) + SC(Error)


SC(Error) = SC(Total) - SC(Tratamiento)
SC(Error) = 666 390 = 276
Retomando el ejemplo: A un nivel de significacin del 5%, Existe
diferencia significativa en los tres mtodos de enseanza?

Cecilia Larran R

ANOVA simple

Pgina 4

Variable dependiente: Puntaje de test, Variable independiente (factor):


Mtodo de enseanza
Supuestos: normalidad en los datos
las varianzas de los tres mtodos son iguales
H0: 1 = 2 = 3
H1: Por lo menos una media es distinta
Nivel de significacin: = 0,05
Estadstico: F =

M.C.(Explicada)
F(k -1 = 2, n k= 12) ; k = 3 ; n = 15;
M.C.(Error)

RC = { F > F0,95(2,12) = 3,885} = 0,05


Tabla ANOVA
Fuente de Variacin
Mtodo
(Inter-grupos)

SC

gl

MC
390

390

Error
(Intra-grupos)

276

12

Total

666

14

Fobs

= 195

195

276

23

= 23

12

8,478

Como Fobs = 8,478 es mayor que 3,885, debe rechazarse la hiptesis


nula y se concluye que los tres mtodos de enseanza no son
igualmente efectivos, en otras palabras, el mtodo de enseanza de la
matemtica influye significativamente en los puntajes promedio de los
estudiantes. P-valor = P(F(2,12) > 8,478) = 0,005.
Obs. Para verificar si las poblaciones tienen la misma varianza se
puede hacer a travs del test de Levene.

0,95
= 0,05

8,478

Cecilia Larran R

ANOVA simple

F(2,12)

Pgina 5

Promedio del
grupo 1

ANOVA
Puntaj e

Inter-grupos
Intra-grupos
Total

Suma de
cuadrados
390,000
276,000
666,000

gl
2
12
14

Media
cuadrtica
195,000
23,000

F
8,478

Si g.
,005

Si se rechaza la hiptesis H0: 1 = 2 = = k, se puede realizar


pruebas a posterior (comparaciones mltiple post hoc. Tukey,
Bonferroni, Duncan, .) para determinar que medias difieren.
Comparaciones mltiples
Variable dependiente: Puntaje
HSD de Tukey

(I) Metodo
1
2
3

(J) Metodo
2
3
1
3
1
2

Di ferencia de
m edias (I-J)
9,000*
-3,000
-9,000*
-12,000*
3,000
12,000*

Error tpico
3,033
3,033
3,033
3,033
3,033
3,033

Si g.
,029
,597
,029
,005
,597
,005

Intervalo de confianza al
95%
Lm ite
Lm ite inferior
superi or
,91
17,09
-11,09
5,09
-17,09
-,91
-20,09
-3,91
-5,09
11,09
3,91
20,09

*. La diferencia de m edias es significativa al nivel .05.


Ejercicio

Validacin del modelo:


Test para analizar si las poblaciones son homocedasticas o si
los residuos tienen varianza constante : H0 : 12 = 22 =... = k2
residuo = ij =eij yij - yi.

Cecilia Larran R

ANOVA simple

Pgina 6

Prueba de homogeneidad de varianzas


PUNTAJE
Estads tico
de Levene
,971

gl1

gl2
2

12

Sig.
,407

Como p-valor = 0,407 > 0,05 se asume que las varianzas son iguales.
El estadstico de Levene es la F de un ANOVA simple con las desviaciones
medias |yij - yi.| o residuos

Se debe probar la hiptesis de normalidad.


H0: los residuos ~ Normal
H1: los residuos ~ Normal

Interpretacin: como n = 15 (pequeo), el test de Shapiro-Wilk indica que


se puede asumir normalidad (p-valor = 0,567 < 0,05)

Cecilia Larran R

ANOVA simple

Pgina 7

Ejercicio
Se mide la contaminacin de un ro analizando la cantidad de oxgeno que
contiene en disolucin el agua. Se toman muestras en cuatro lugares
diferentes del ro (a 10, 25, 50 y 100 km. del nacimiento), obtenindose:
A 100 km. (1)
4,8 5,2 5,0 4,7 5,1
A 50 km. (2)
6,0 6,2 6,1 5,8
A 25 km. (3)
5,9 6,1 6,3 6,1 6,0
A 10 km. (4)
6,3 6,6 6,4 6,4 6,5
Queremos averiguar si existen diferencias signicativas en el nivel medio de
contaminacin a distintas alturas del cauce. = 0,05.
Variable de inters: Y =
Variable independiente (factor) =
7,0

6,5

C_oxgeno

6,0

5,5

5,0

4,5

4,0
1

Lugar

Hiptesis bsica del modelo:

ij ~ Normal con media 0 y varianza 2 (varianza constante homocedasticidad)


Si estas hiptesis no se cumplen las conclusiones del ANOVA pueden ser
incorrectas.
Bajo el modelo ANOVA unifactorial se quiere probar
H0: 1 = 2 = 3 = 4 (todas las medias son iguales. El factor no influye)
H1: i j para algn par i j (las medias difieren en al menos dos de los
niveles, el factor no influye)

Cecilia Larran R

ANOVA simple

Pgina 8

Estadstico de prueba: M.C.(Explicada)


M.C.(Error)

F(3 , 15)

ANOVA

C_oxigeno

Lugar
Error
Total

Suma de
cuadrados
6,082

gl

Media
cuadrtica

Decisin:

Conclusin:
Coeficiente de determinacin: R2 =

Mtodo de Bonferroni
Si se rechaza H0 hay que determinar qu parejas de medias son distintas
entre s. Se puede utilizar IC(i j); i j con nivel de confianza 1 .

1 1
(yi y j ) t(gl del error;1-/2 MC(Error)
n n
j
i

Cecilia Larran R

ANOVA simple

Pgina 9

Comparaciones mltiples
Variable dependiente: C_oxigeno
Bonferroni

(I) Lugar
A 100 km

A 50 km

A 25 km

A 10 km

(J) Lugar
A 50 km
A 25 km
A 10 km
A 100 km
A 25 km
A 10 km
A 100 km
A 50 km
A 10 km
A 100 km
A 50 km
A 25 km

Diferencia de
medias (I-J)
-1,0650*
-1,1200*
-1,4800*
1,0650*
-,0550
-,4150*
1,1200*
,0550
-,3600*
1,4800*
,4150*
,3600*

Error tpico
,1095
,1032
,1032
,1095
,1095
,1095
,1032
,1095
,1032
,1032
,1095
,1032

Sig.
,000
,000
,000
,000
1,000
,011
,000
1,000
,020
,000
,011
,020

Intervalo de confianza al
95%
Lm ite
Lm ite inferior
superior
-1,397
-,733
-1,433
-,807
-1,793
-1,167
,733
1,397
-,387
,277
-,747
-,083
,807
1,433
-,277
,387
-,673
-,047
1,167
1,793
,083
,747
,047
,673

*. La diferencia de m edias es significativa al nivel .05.

El mtodo de Bonferroni utiliza =

0,05
, k = nmero de tratamientos
k

2

En ejemplo, con 95% de confianza = 0,0083


Comprobacin de las hiptesis bsicas del modelo:
Prueba de homogeneidad de varianzas

Pruebas de normalidad

C_oxigeno
Estadstico
de Levene
,873

gl1

Cecilia Larran R

gl2
3

15

Sig.
,477

Residuo para C_oxigeno

ANOVA simple

Estadstico
,969

Shapiro-Wilk
gl
19

Pgina 10

Sig.
,759

Vous aimerez peut-être aussi