Académique Documents
Professionnel Documents
Culture Documents
7
Comparacin de ms de dos medias: anlisis de
varianza para el diseo completamente aleatorio de un
factor con efectos fijos
Objetivo: Comparar k (k3) medias poblacionales cuando las k
muestras son aleatorias e independientes.
H0: 1=2=3
Muestra de la
poblacin A
vs.
Muestra de la
poblacin B
Muestra de la
poblacin C
9.5
12.5
9.8
10.5
9.5
10
9.0
13.5
9.5
9.75
13.75
10.5
10.0
12.0
11
11.0
13.75
10.8
10.0
12.5
9.75
10.5
9.5
11.2
10.0
12.0
9.5
13.5
10.0
12.0
9.75
12.0
10.5
11.5
La
aleatorizacin
es
la
asignacin
del
material
experimental, y el orden en que
se
realizan
las
pruebas
individuales o ensayos, en forma
aleatoria.
El significado estadstico del
muestreo
aleatorio
simple
implcito en este diseo es que
cualquier
nio
tiene
igual
oportunidad de ser seleccionado.
Ejemplo
Un gerente de mercadotecnia de una cadena de una lnea de productos
de cmputo, le interesa saber si hay diferencias en las ventas de sus
productos en tres ciudades. Elige al azar 15 tiendas similares (5 por
ciudad) entre las que integran la cadena. Las variables bajo control
directo de la compaa, como precio y publicidad, se mantuvieron al
mismo nivel en los 30 das del experimento y se registraron las ventas
(en miles) para dicho periodo. Utilice un nivel de significancia de 0.05.
Ventas (en miles) por tienda en cada
ciudad en los 30 das del
experimento
Ciudad 1
Ciudad 2
Ciudad 3
10
16
15
14
18
12
18
22
15
18
10
12
15
13
H0: 1=2=3
vs.
H1: i j
para al menos un par (i, j) con ij,
i,j {1,2,3}.
Definiciones bsicas:
Unidad experimental es un elemento (individuo, animal, planta, etc.)
que se mide.
Una variable de respuesta es una variable dependiente experimental
observada en las unidades experimentales.
Un factor es una variable experimental independiente cuyo efecto se
quiere determinar sobre la variable de respuesta.
Un factor cuantitativo es aquel que toma valores correspondientes a los
puntos de una recta real. Los factores que no son cuantitativos, se llaman
cualitativos.
Los niveles de un factor son los distintos valores o clases que puede
tomar.
Ejemplo
Un gerente de mercadotecnia de una cadena de una lnea de productos
de cmputo, le interesa saber si hay diferencias en las ventas de sus
productos en tres ciudades. Elige al azar 15 tiendas similares (5 por
ciudad) entre las que integran la cadena. Las variables bajo control
directo de la compaa, como precio y publicidad, se mantuvieron al
mismo nivel en los 30 das del experimento y se registraron las ventas
(en miles) para dicho periodo. Utilice un nivel de significancia de 0.05.
Ventas (en miles) por tienda en cada
ciudad en los 30 das del
experimento
Ciudad 1
Ciudad 2
Ciudad 3
10
16
15
14
18
12
18
22
15
18
10
12
15
13
Factor: Ciudad
Tipo: Cualitativo
Niveles: Tres (Ciudad 1, Ciudad 2 y
Ciudad 3)
Tratamientos: Tres (Ciudad 1,
Ciudad 2 y Ciudad 3)
Rplicas: 5 por tratamiento
(balanceado).
Yij=+i+ij
i=1,2,,a
j=1,2,,n
Hiptesis
H0: 1=2==a
vs.
Equivalente a:
H0: i=0 para toda i vs. H1: i 0 para al menos una i, i=1,2,...,a.
Supuestos
ij ~ NI(0, 2)
Estimadores de los parmetros del modelo (modelo de efectos fijos)
= Y..
i = + i = Y.. + Y i. Y..
i = Y i. Y..
i = Y i.
Estadstico de prueba
El nombre de anlisis de varianza se deriva del hecho de dividir la
variabilidad total en sus partes componentes:
a
i =1 j = 1
i =1 j = 1
E(CMTrat ) = +
2
i=1
a 1
E(CME ) = 2
Suma de
cuadrados
g.l.
Cuadrados
medios
SCTrat
a-1
CMTrat
SCE
N-a
CME
SCTotal
N-1
F
CMTrat / CME
Ciudad 2
Ciudad 3
10
16
15
14
18
12
18
22
15
18
10
12
15
13
H0: 1=2=3
vs.
H1: i j
para al menos un par (i, j) con ij,
i,j {1,2,3}.
Solucin
Resultados de Statgraphics
Tabla ANOVA para Ventas segn Ciudad
Anlisis de la Varianza
-------------------------------------------------------------------------------------------------------Fuente
Sumas de cuad. Gl Cuadrado Medio Cociente-F P-Valor
-------------------------------------------------------------------------------------------------------Entre grupos
98.8
2
49.4
6.25
0.0138
Intra grupos
94.8
12
7.9
-------------------------------------------------------------------------------------------------------Total (Corr.)
193.6
14
e ij = y ij y ij
e ij = y ij y i .
Prueba del supuesto de normalidad de los errores
Ejemplos de mtodos grficos: histograma y grfico de probabilidad
normal.
Ejemplos de mtodos inferenciales (pruebas de bondad de ajuste):
Kolmogorov-Smirnov, Shapiro-Wilk, Cramr-von Mises y AndersonDarling.
porcentaje
-1.8
0.2
2.2
4.2
RESIDUALS
Hay homogeneidad de
varianzas: los puntos se hallan
confinados en una banda
horizontal, y presentan
variacin homognea dentro
de la banda
Hay
heterogeneidad
de varianzas
residuo
3.8
1.8
-0.2
-2.2
-4.2
11
13
15
17
19
Ventas predicho
Del grfico predichos vs. residuos se cumple la igualdad de
varianzas.
H0 : 12 = 22 = = a2
Las primeras tres son sensibles al supuesto de normalidad (son
afectadas en cierto grado por la no-normalidad de las muestras) y la
ltima la de Levene es la que menos se ve afectada por la nonormalidad.
Contraste de Varianza
Contraste C de Cochran: 0.388186
Contraste de Bartlett: 1.0065
Contraste de Hartley: 1.27778
Test de Levene: 0.0674157
P-valor = 1.0
P-valor = 0.965632
P-valor = 0.935158
porcentaje
-1.8
0.2
2.2
4.2
RESIDUALS
residuo
3.8
1.8
-0.2
-2.2
-4.2
11
13
15
Ventas predicho
17
19
Y i. Y j. > t
,Na
Resultados de Statgraphics
Contraste Mltiple de Rango para Ventas segn Ciudad
-------------------------------------------------------------------------------Mtodo: 95.0 porcentaje LSD
Ciudad
Frec. Media
Grupos homogneos
-------------------------------------------------------------------------------3
5
11.6
X
1
5
13.8
X
2
5
17.8
X
-------------------------------------------------------------------------------Contraste
Diferencias
+/- Lmites
-------------------------------------------------------------------------------1-2
*-4.0
3.87315
1-3
2.2
3.87315
2-3
*6.2
3.87315
-------------------------------------------------------------------------------* indica una diferencia significativa.
1 1
CME + = MDS
n n
j
i
15
13
11
9
1
2
Ciudad
Ventas
17
15
13
11
9
1
2
Ciudad
Interpretacin:
Difiere significativamente las ventas promedio de los productos de
cmputo entre las ciudades (F=6.25, P=0.0138). De la comparacin
mltiple DMS, result que las ventas en la C2 difieren de las de la C1 y
C3, pero stas dos no difieren; adems en la C2 las ventas resultaron
significativamente mayores que en las otras dos ciudades (Figura w o
Cuadro w).
1 1
Y i. Y a. > d (a 1, f ) CME +
ni na
Multiple Comparisons
Ventas
Dunnett t (2-sided)a
95% Confidence Interval
(I)
Ciud
ad
(J)
Ciud
ad
4.000
1.778
0.0781
-.45
8.45
-2.200
1.778
0.3861
-6.65
2.25
Mean
Difference
(I-J)
Std.
Error
Sig.
Lower
Bound
Upper
Bound
a. Dunnett t-tests treat one group as a control, and compare all other groups
against it.
PRUEBA DE KRUSKAL-WALLIS
(Anlisis de varianza en un sentido por rangos de Kruskal-Wallis)
El procedimiento de ANOVA de una va para un diseo completamente
aleatorio de efectos fijos expuesto anteriormente, los datos fueron a
niveles de intervalo o de razn, se supuso que las poblaciones estaban
normalmente distribuidas y que eran iguales las varianzas de dichas
poblaciones. Qu pasara si los datos fueran de escala ordinal y/o
las poblaciones no fueran normales?
Esta prueba no paramtrica permite analizar resultados de un diseo
completamente aleatorizado para un solo factor o una sola va (efectos
fijos), cuando no se satisface que las poblaciones de las cuales se
extraen las muestras estn normalmente distribuidas con varianzas
iguales o cuando los datos para el anlisis consisten slo de rangos.
Supuestos
K muestras aleatorias independientes.
La escala de medicin es al menos ordinal.
Hiptesis
Prueba la H0 de que las k muestras provienen de poblaciones idnticas
con la misma mediana.
H0: 1=2==k vs. H1 : i j para al menos un par (i, j) con ij
donde i representa la mediana de la poblacin para el i-simo grupo
(tratamiento) o muestra. Tambin pueden enunciarse como:
H0: Las k distribuciones poblacionales son idnticas.
vs.
H1: Al menos una de las poblaciones tiende a dar observaciones ms
grandes que las otras.
O bien, al menos dos de las distribuciones poblacionales difieren en
ubicacin.
Estadstico de prueba
Regin de rechazo
k
12
Ri2
3(N + 1)
N(N + 1) i =1 ni
H=
g 3
3
1 t j t j (N N)
j =1
Wackerly et al. (2002) indican que si las muestras son grandes y/o para
2
k>5, H puede aproximarse con la k 1
H0 : u = v
H1 : u v
N(N + 1) 1 1
+
12 nu nv
P( Z z / k ( k 1) ) = / k(k 1)
Observaciones finales
El mtodo estadstico es un procedimiento inductivo, en el cual se
puede medir la probabilidad de error en la decisin.
A pesar de que la Estadstica es del dominio de las ciencias aplicadas,
tienen sus bases tericas en las Matemticas.
No slo se debe saber los conceptos y mtodos estadsticos, sino
tambin aplicarlos para resolver problemas reales.
En la aplicacin de la estadstica, la interaccin con otras disciplinas es
fundamental y un medio para lograrlo son los proyectos de
investigacin o consultoras.
Bibliografa
Conover, W.J. (1999). Practical nonparametric statistics. 3a Ed. John
Wiley and Sons. New York, USA.
Daniel, W.W. (1990). Applied Nonparametrics Statistics. 2a Ed. Duxbury
Thomson Learning. Pacific Grove, CA, USA.
Freund, J.E., Miller, I., Miller, M. (2000). Estadstica matemtica con
aplicaciones. 6. Ed. Pearson. Mxico, D.F.
Hines, W. W. y Montgomery, D. C. (1997). Probabilidad y estadstica
para ingeniera y administracin. 3a Ed. CECSA. Mxico, D.F.
Infante, G.S. y Zrate, L.G. (2005). Mtodos Estadsticos. 2 Ed. Editorial
Trillas. Mxico, D.F.
Kuehl, R.O. (2001). Diseo de Experimentos. 2 Ed. Thomson Editores.
Mxico, D.F.
Montgomery, D.C. (2004). Diseo y anlisis de experimentos. 2 Ed.
Limusa Wiley, Mxico, D.F.
Wackerly, D.D., Mendenhall, W., Scheaffer, R.L. 2010. Estadstica
Matemtica con Aplicaciones. 7 Ed. CENGAGE Learning. Mxico, D.F.