Académique Documents
Professionnel Documents
Culture Documents
2. Anlisis de varianza
Introduccin
La estadstica inferencial no solo realiza estudios con una muestra, tambin es necesario trabajar con
ms de una muestra; las que pueden ser dos o ms.
Para cada una de las muestras, vistas por separado, es posible calcular la media aritmtica y la varianza;
por lo que los anlisis, se pueden revisar en conjunto para tomar decisiones. Las muestras pueden ser
independientes o dependientes.
Distribucin F
A menudo se necesita probar si dos poblaciones independientes tienen la misma variabilidad. Para estos
casos, la mejor opcin es la Distribucin F.
Para probar la hiptesis de dos varianzas se necesitan dos muestras. En este caso, existe la posibilidad
de que las medias aritmticas sean iguales; pero, la variacin que hay entre ambas sea diferente.
La distribucin F es una familia de distribuciones con las siguientes caractersticas:
1.
2.
3.
4.
Continua
No puede ser negativa
Tiene sesgo positivo
Es asinttica
El estadstico de prueba para comparar dos varianzas es la Distribucin F cuya frmula se muestra a
continuacin:
12
= 2
2
Sin importar si se desea determinar si una poblacin vara ms que otra o validar una suposicin de una
prueba estadstica, primero se formula la hiptesis nula asumiendo que ambas son iguales. El formato
general de la hiptesis se formula de la siguiente manera:
0 : 12 = 22
: 12 22
Para realizar la prueba, se utilizan dos muestras aleatorias con tamaos que pueden ser diferentes. Para
la prueba se siguen los 5 pasos enunciados en el captulo anterior.
Ejemplo 2.1
1. Encontrar el valor crtico con un nivel de significancia de 0.01 para dos muestras con
tamao 11 y 8 respectivamente.
Desarrollo
OPCIN 1
1 = 11
2 = 8
1 = 11 1 = 10
2 = 8 1 = 7
= 6.62
OPCIN 2
1 = 8
2 = 11
1 = 8 1 = 7
2 = 11 1 = 10
= 5.20
2. Encontrar el valor crtico con un nivel de significancia de 0.05 para dos muestras con
tamao 11 y 8 respectivamente.
Desarrollo
OPCIN 1
1 = 11
2 = 8
1 = 11 1 = 10
2 = 8 1 = 7
= 3.64
OPCIN 2
1 = 8
2 = 11
1 = 8 1 = 7
2 = 11 1 = 10
= 3.14
12. Compara el valor F resultante con el valor crtico y determinar si la hiptesis nula se acepta o se
rechaza.
Ejemplo 2.2
1. Suponer que se tiene una muestra de tamao 8 de una poblacin con distribucin
normal, con varianza muestral de 56.0; adems se tiene otra muestra de tamao 10 de
una poblacin con distribucin normal, con varianza muestral de 24. Utilizar el nivel de
significancia 0.10 para probar que no hay diferencia en las dos varianzas poblacionales
contra la alternativa de que s existe evidencia de una diferencia significativa en las
varianzas poblacionales.
Desarrollo
DATOS INICIALES
Definir cul es la varianza de la muestra #1 y cul la #2 (muestra con mayor valor es #1).
=
=
PRUEBA DE HIPTESIS
Paso 1: Formular la hiptesis nula y alternativa
: =
:
Paso 2: Seleccionar el nivel de significancia
= .
Paso 3: Determinar el estadstico de prueba
=
= .
PRUEBA DE HIPTESIS
Paso 1: Formular la hiptesis nula y alternativa
:
: >
Paso 2: Seleccionar el nivel de significancia
= .
Paso 3: Determinar el estadstico de prueba
= =
= .
.
- Ubicar el valor de F con respecto al valor crtico.
H0 se acepta
No hay suficiente evidencia para determinar que la variacin en el turno A es mayor que
en el Turno B.
3. En una agencia de servicio de Taxis, del centro de la ciudad al
aeropuerto internacional, utilizan dos rutas para llegar, la
autopista y la carretera alterna. La distancia que recorre el taxi
desde el centro de la ciudad al aeropuerto es mayor que la que se
recorre por la carretera alterna; sin embargo, las condiciones de
la carretera alterna son deficientes y aunque es ms corta, se
llega casi al mismo tiempo. El Gerente de la empresa desea estudiar el tiempo que se
tarda en conducir por cada una de las rutas y luego comparar los resultados, usando un
nivel de significancia de 0.10.
Se recopil una muestra del tiempo en minutos que tarda un taxi en llegar hasta el
aeropuerto de cada una de las rutas y se obtuvieron los siguientes resultados:
Autopista
59
60
61
51
56
63
57
65
Carretera alterna
52
67
56
45
70
54
64
Hay alguna diferencia entre las variaciones de los tiempos del manejo de las dos rutas?
Desarrollo
DATOS INICIALES
Previo a generar los 5 pasos de la prueba de hiptesis, calcular la media aritmtica y la
varianza de cada una de las muestras (2).
ESTADSTICO
Media
aritmtica
Varianza
Desviacin
estndar
)
(
autopista
.
=
= .
=
= .
carretera alterna
.
=
= .
.
=
= .
= . =4.38
= . =8.99
MUESTRA 2
MUESTRA 1
Las medias aritmtica tienen un comportamiento similar, en ambas pistas se tardan un
promedio de 58.5 segundos en llegar al aeropuerto; sin embargo, la variabilidad que
muestra la desviacin estndar es alta en la carretera alterna (la desviacin estndar de la
autopista es casi la mitad de la de la carretera alterna). Con este resultado, la prueba de
la hiptesis se har con la comparacin de las varianzas para comprobar si son similares
(aunque su diferencia sea alta).
PRUEBA DE HIPTESIS
Paso 1: Formular la hiptesis nula y alternativa
: =
:
Paso 2: Seleccionar el nivel de significancia
= .
Paso 3: Determinar el estadstico de prueba
= .
Visualizar la posicin 3.87 en la grfica de la distribucin F.
La prueba ANOVA
Para la prueba de hiptesis con una o dos muestras que estn normalmente distribuidas se utilizan las
distribuciones Gauss y la t-Student; sin embargo, a menudo se necesitan hacer comparaciones para ms
de dos medias y para ello se utilizan la metodologa del anlisis de varianza (ANOVA), que recurre a la
distribucin F.
Para analizar varias muestras a la vez, se utilizan dos elementos bsicos que son:
1. Variacin de tratamiento
2. Variacin aleatoria
La fuerza de esta metodologa radica en que analiza las muestras por separado y en conjunto para
obtener un valor promedio que garantice su eficacia.
Aunque la hiptesis es planteada a travs de la media aritmtica de las muestras, el anlisis se realiza a
travs de la varianza, de all su nombre.
Los pasos iniciales del proceso consisten en calcular la media aritmtica global de las muestran en
conjunto y la media aritmtica de cada muestra.
10
A cada dato se le coloca la media que le corresponde y luego ese valor se resta con la media global y el
resultado se eleva al cuadrado. Esa resta es el mismo nmero de veces que se tenga una observacin en
la muestra.
Ejemplo 2.3
1. El gerente de un centro financiero regional desea
comparar la productividad, medida por el nmero de
clientes atendidos, de 3 de sus empleados. Selecciona 4
das en forma aleatoria y registra el nmero de clientes
que atendi cada empleado. Los resultados obtenidos
fueron:
LOBO
55
54
59
56
BLANCO CRDOVA
66
47
76
51
67
46
71
48
Desarrollo
a. Convertir las 3 muestras como si fuera 1 y calcular la media aritmtica de cada
muestra y la media aritmtica global.
UNIDAD
LOBO
BLANCO
CRDOVA
Xi
55
54
59
56
66
76
67
71
47
51
46
48
56
70
58
48
b. Para cada dato de cada muestra, calcular el cuadrado de la diferencia entre la media
de la muestra y la media global.
11
UNIDAD
LOBO
BLANCO
CRDOVA
Xi
Variacin
Tratamiento
55
(56 - 58)2 =
54
(56 - 58)2 =
59
56
(56 - 58) =
56
(56 - 58)2 =
66
(70 - 58)2 =
144
(70 - 58)2 =
144
(70 - 58)2 =
144
76
67
70
58
71
(70 - 58) =
144
47
(48 - 58)2 =
100
51
46
48
(48 - 58) =
100
(48 - 58)2 =
100
48
(48 - 58) =
100
992
Ejemplo 2.4
1. El gerente de un centro financiero regional desea comparar la
productividad, medida por el nmero de clientes atendidos,
de 3 de sus empleados. Selecciona 4 das en forma aleatoria y
registra el nmero de clientes que atendi cada empleado.
Los resultados obtenidos fueron:
LOBO
55
54
59
56
BLANCO CRDOVA
66
47
76
51
67
46
71
48
Desarrollo
El cuadro ya construido, tomar como base la columna del dato y la columna de las
medias. Para cada dato de cada muestra, calcular el cuadrado de la diferencia entre el
dato y la media de la muestra.
12
Xi
UNIDAD
LOBO
55
(55 - 56)2 =
54
(54 - 56)2 =
59
56
(59 - 56) =
2
(56 - 56) =
66
(66 - 70)2 =
16
(76 - 70)2 =
36
67
70
71
47
CRDOVA
56
76
BLANCO
Variacin
Aleatoria
51
46
(67 - 70) =
(71 - 70)2 =
(51 - 48) =
(46 - 48)2 =
(47 - 48) =
48
48
(48 - 48) =
0
90
La variacin aleatoria es 90
Estadstico de prueba
El estadstico de prueba para la ANOVA sigue siendo las varianzas; una de ellas es la divisin entre la
variacin de tratamiento y los grados de libertad del total de muestras en anlisis; la otra es la divisin
entre la variacin aleatoria y los grados de libertad con relacin a todas las muestras.
1: Nmero de muestras menos 1
: Total de datos en anlisis menos el total de muestras.
=
=
Para hacer la labor ms dinmica, nada como una tabla que nos permite reducir el tiempo de trabajo
utilizando la siguiente tabla:
Resumen de la tabla ANOVA
Estimacin
Varianza
Variacin
gl
Tratamiento
VT
Muestras
k-1
Aleatoria
VA
Total
datos
n-k
13
Ejemplo 2.5
1. El gerente de un centro financiero regional desea comparar la
productividad, medida por el nmero de clientes atendidos,
de 3 de sus empleados. Selecciona 4 das en forma aleatoria y
registra el nmero de clientes que atendi cada empleado.
Los resultados obtenidos fueron:
LOBO
55
54
59
56
BLANCO CRDOVA
66
47
76
51
67
46
71
48
Desarrollo
Resumen de la tabla ANOVA
Variacin
Tratamiento
Aleatoria
Estimacin
Varianza
gl
992.0
496.0
90.0
12
10.0
F
49.60
992
992
3
1
=
=
= 2 = 49.6
90
90
12 3
9
PRUEBA DE HIPTESIS
Para realizar la prueba de hiptesis, se sigue utilizando el mismo concepto. Si se trata de resolver el caso
del centro financiero regional, el resumen sera el siguiente:
Ejemplo 2.6
1. El gerente de un centro financiero regional desea comparar
la productividad, medida por el nmero de clientes
atendidos, de 3 de sus empleados. Selecciona 4 das en
forma aleatoria y registra el nmero de clientes que atendi
cada empleado. Los resultados obtenidos fueron:
LOBO
55
54
59
56
BLANCO CRDOVA
66
47
76
51
67
46
71
48
Desarrollo
PASO 1: Establecer la hiptesis nula y la alternativa
: = =
:
PASO 2: Seleccionar el nivel de significancia
= .
PASO 3: Determinar el estadstico de prueba
14
: = =
2 colas
.
= = .
=
=
= =
= =
F=4.26
PASO 5: Toma de decisin
- Resumen de la tabla ANOVA
Variacin
Tratamiento
Aleatoria
Estimacin
Varianza
992.0
496.0
90.0
12
10.0
gl
F
49.60
15
2. Desde hace algn tiempo las aerolneas han reducido sus servicios, como alimentos y
bocadillos durante sus vuelos; se ha estado cobrando de manera adicional algunos de
los antiguos servicios. La central de aeropuerto desea conocer si este cambio ha
producido insatisfaccin en los clientes que
American
Taca
Iberia
Spirit
utilizan sus servicios. Se levantaron 4
94
75
70
68
muestras sobre este tema en 4 aerolneas
90
68
73
70
85
77
76
72
distintas, sobre la satisfaccin de los
80
83
78
65
servicios y los resultados que se obtuvieron
88
80
74
estn mostrados en la siguiente tabla:
68
65
65
Desarrollo
PASOS INICIALES
Total de muestras:
4
Total de datos:
4+5+7+6= 22
PRUEBA DE HIPTESIS
Paso 1: Determinar la hiptesis nula y alternativa
: = = =
:
Paso 2: Seleccionar el nivel de significancia
= . ( )
Paso 3: Seleccionar el estadstico de prueba
F=5.09
16
Taca
75
68
77
83
88
Iberia
70
73
76
78
80
68
65
Spirit
68
70
72
65
74
65
87.3
78.2
72.9
69
75.6
2
Aerolnea
American
Taca
Iberia
Spirit
94
90
85
80
75
68
77
83
88
70
73
76
78
80
68
65
68
70
72
65
74
65
87.3
78.2
72.9
69
(87.3-75.6) =
(87.3-75.6)2 =
(87.3-75.6)2 =
(87.3-75.6)2 =
(78.2-75.6)2 =
(78.2-75.6)2 =
(78.2-75.6)2 =
(78.2-75.6)2 =
(78.2-75.6)2 =
(72.9-75.6)2 =
(72.9-75.6)2 =
75.6
(72.9-75.6)2 =
(72.9-75.6)2 =
(72.9-75.6)2 =
(72.9-75.6)2 =
(72.9-75.6)2 =
(69-75.6)2 =
(69-75.6)2 =
(69-75.6)2 =
(69-75.6)2 =
(69-75.6)2 =
(69-75.6)2 =
134.9
134.9
134.9
134.9
6.6
6.6
6.6
6.6
6.6
7.7
7.7
7.7
7.7
7.7
7.7
7.7
44.0
44.0
44.0
44.0
44.0
44.0
890.7
(94 - 87.3) =
(90 - 87.3)2 =
(85 - 87.3)2 =
(80 - 87.3)2 =
(75 - 78.2)2 =
(68 - 78.2)2 =
(77 - 78.2)2 =
(83 - 78.2)2 =
(88 - 78.2)2 =
(70 - 72.9)2 =
(73 - 72.9)2 =
(76 - 72.9)2 =
(78 - 72.9)2 =
(80 - 72.9)2 =
(68 - 72.9)2 =
(65 - 72.9)2 =
(68 - 69)2 =
(70 - 69)2 =
(72 - 69)2 =
(65 - 69)2 =
(74 - 69)2 =
(65 - 69)2 =
Variacin
Tratamiento
890.7
Aleatoria
594.4
- Calcular el valor de F
= .
gl
3
18
Estimacin
Varianza
296.9
33.0
F
8.99
45.6
7.6
5.1
52.6
10.2
104.0
1.4
23.0
96.0
8.2
0.02
9.9
26.4
51.0
23.6
61.7
1.0
1.0
9.0
16.0
25.0
16.0
594.4
17
Recordar que la ANOVA asume que las muestras vienen de poblaciones normalmente distribuidas.
1
1
+ )
1 2
La hiptesis nula es la igualdad que asume que las dos medias muestrales elegidas son iguales. Para
concluir que no hay diferencia entre ambas medias, el intervalo debe incluir el 0.
Ejemplo 2.7
1. Siguiendo con el ejemplo de las aerolneas, que han reducido sus servicios, como
alimentos y bocadillos durante sus vuelos; se ha estado cobrando de manera adicional
algunos de los antiguos servicios. La central de aeropuerto desea conocer si este cambio
ha producido insatisfaccin en los
American
Taca
Iberia
Spirit
94
75
70
68
clientes que utilizan sus servicios.
Son 4 muestras de tamaos diferentes,
tomar las muestras con la media ms
alta y la media ms baja para evaluar
qu tanto difieren entre ambas. Calcular
el intervalo del 95% de confianza.
90
85
80
68
77
83
88
73
76
78
80
68
65
70
72
65
74
65
18
American
94
90
85
80
Taca
75
68
77
83
88
Iberia
70
73
76
78
80
68
65
Spirit
68
70
72
65
74
65
87.3
78.2
72.9
69
75.6
4
Desarrollo
Los datos obtenidos en la prueba de hiptesis son los siguientes:
Variacin
Tratamiento
Aleatoria
2
890.7
594.4
gl
Estimacin
Varianza
3
18
296.9
33.0
F
8.99
= .
= .
MSE = 33.0
=
=
Determinar el valor de t
- Nivel de Aceptacin:
95%
- Grados de libertad variacin aleatoria:
18
-
= .
) ( + ) = (. ) . . ( + )
(
= . . . (. ) = . . .
=. . (. ) = . .
. . = .
={
. + . = .
Los dos puntos extremos son positivos
Si hay suficiente evidencia para concluir que estas medias difieren de manera
significativa
19
2. Citrus Clean es un nuevo limpiador multiusos a prueba en el mercado, del cual se han
colocado
exhibidores
en
varios
Cerca del Cerca de la Cerca de otros
supermercados de la ciudad. Una muestra
pan
cerveza
limpiadores
tomada la semana pasada report que las
18
12
26
cantidades de botellas que se vendieron en
14
18
28
cada lugar de los supermercados se
19
10
30
muestran en la tabla de la derecha
17
16
32
Con un nivel de significancia de 0.05. Hay alguna diferencia entre los promedios de las
botellas que se vendieron en los 3 lugares? Qu indica el intervalo de confianza?
PASOS INICIALES
Total de muestras:
3
Total de datos:
4+4+4= 12
PRUEBA DE HIPTESIS
Paso 1: Determinar la hiptesis nula y alternativa
: = =
:
Paso 2: Seleccionar el nivel de significancia
= . ( )
Paso 3: Seleccionar el estadstico de prueba
Cerca del
pan
18
14
19
17
Cerca de la
cerveza
12
18
10
16
Cerca de otros
limpiadores
26
28
30
32
17.0
14.0
29.0
20.0
n
20
Variacin tratamiento
2
Variacin aleatoria
2
Ubicacin
18
(17 - 20)2 =
9.0
(18 - 17)2 =
1.0
14
(17 - 20)2 =
9.0
(14 - 17)2 =
9.0
(17 - 20)2 =
9.0
(19 - 17)2 =
4.0
9.0
(17 - 17)2 =
0.0
12
(17 - 20)2 =
(14- 20)2 =
36.0
(12 - 14)2 =
4.0
18
(14- 20)2 =
36.0
(18 - 14)2 =
16.0
(14- 20)2 =
36.0
(10 - 14)2 =
16.0
4.0
17.0
19
17
Cerca de la
cerveza
14.0
10
20.0
36.0
26
(14- 20)2 =
(29- 20)2 =
(16 - 14)2 =
81.0
(26 - 29)2 =
9.0
28
(29- 20)2 =
81.0
(28 - 29)2 =
1.0
(29- 20)2 =
81.0
(30 - 29)2 =
1.0
(29- 20)2 =
81.0
504.0
(32 - 29)2 =
9.0
74.0
16
Cerca de otros
limpiadores
29.0
30
32
2
504.0
74.0
n
3
12
Estimacin
Varianza
gl
2
9
252.0
8.2
F
30.65
= .
) ( + )
(
= ( ) . . ( + )
= . .
= .
95%
9
21
. = .
={
+ . = .
Los dos puntos extremos son positivos
Si hay suficiente evidencia para concluir que estas medias difieren de manera
significativa
Ejercicios
1. Media Research, Inc. Es una empresa de investigacin de mercados y realiza un estudio sobre los
hbitos de escuchar iPod de hombres y mujeres. Una parte del estudio incluy el tiempo de escucha
medio. Se descubri que el tiempo de escucha medio de los hombres era de 35 minutos por da. La
desviacin estndar de la muestra de los 10 hombres estudiados fue de 10 minutos por da. El
tiempo de escucha medio de las 12 mujeres estudiadas tambin fue de 35 minutos, pero la
desviacin estndar muestral fue de 12 minutos. Con un nivel de significancia de 0.10, puede
concluir que hay una diferencia en la variacin en los tiempos de escucha para los hombres y las
mujeres?
2. Los siguientes datos son las colegiaturas por semestre (en miles de dlares) de una muestra de
universidades privadas en varias regiones de Estados Unidos. Con un nivel de significancia de 0.05,
se puede concluir que hay una diferencia en las colegiaturas medias de las diversas regiones?
Nor-este
Sur-este
Oeste
10
8
7
11
9
8
12
10
6
10
8
7
12
6
Puede existir una diferencia significativa entre la colegiatura media en el noreste en comparacin
con la del oeste? Si la hay, desarrollar el intervalo de confianza del 95% de esa diferencia.
BIBLIOGRAFA
o
Lind, D.A., Marchal, W.G., Wathen, S.A. (15). (2012). Estadstica Aplicada a los Negocios y la
Economa. Mxico: McGraw-Hill
David M. Levine, Timothy C. Krehbiel, Mark L. Berenson. 2006. Estadstica para Administracin. (4
edicin). Naucalpan de Jurez, Mxico.: Pearson Prentice Hall