Académique Documents
Professionnel Documents
Culture Documents
1
Tijuana, B.C., 5 de Abril de 2016
Índice
Introducción
Esta investigación se concentra en la prueba de hipótesis, otro aspecto de la estadística
inferencial que al igual que la estimación del intervalo de confianza, se basa en la información
de la muestra. Se desarrolla una metodología paso a paso que le permita hacer inferencias
sobre un parámetro poblacional mediante el análisis diferencial entre los resultados observados
(estadístico de la muestra)y los resultados de la muestra esperados si la hipótesis subyacente es
realmente cierta. En el problema de estimación se trata de elegir el valor de un parámetro de la
población, mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar
un valor especificado (por ejemplo, si el nivel de centra miento de un proceso es o no lo
es).Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación
acerca de una población y/o sus parámetros.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste
involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una
hipótesis en favor de la otra.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta
prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la
hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal,
etc.) o se puede desarrollar una distribución para la prueba estadística particular.
2
4.2 Distribuciones normal y t
student
En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución
gaussiana, a una de las distribuciones de probabilidad de variable continua que con más
frecuencia aparece en fenómenos reales.
De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno, sin
explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al
uso de la estadística en psicología y sociología sea conocido como método correlacional. La
distribución normal también es importante por su relación con la estimación por mínimos
cuadrados, uno de los métodos de estimación más simples y antiguos.
La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo,
la distribución muestral de las medias muéstrales es aproximadamente normal, cuando la
distribución de la población de la cual se extrae la muestra no es normal. Además, la
distribución normal maximiza la entropía entre todas las distribuciones con media y varianza
conocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de
datos resumidos en términos de media muestral y varianza. La distribución normal es la más
extendida en estadística y muchos tests estadísticos están basados en una supuesta
"normalidad".
Dónde:
Z tiene una distribución normal de media nula y varianza1
V tiene una distribución chicuadrado con V grados de libertad
Z y V son independi entes
( X́ 1 − X́ 2 ) −(μ1−μ 2)
z=
σ X −X
1 2
4
Pero como la hipótesis nula plantea que:
H o : μ1−μ2=0
Como se menciona en el párrafo anterior, la única diferencia entre las fórmulas para calcular el
estadístico de prueba y el error estándar de la diferencia entre 2 medias, cuando se utilizan
datos muestrales es que se sustituye S2 por σ 2 y S X −S por σ X − X de la siguiente manera:
1 2 1 2
( X́ 1 − X́ 2 ) −(μ1−μ 2)
z=
s X −X
1 2
S 21 S 22
S X −X =
1
+
n1 n 22
√
Cuando no se conocen las varianzas pero se asume que son iguales
X́ 1− X́ 2
z=
s X −X 1 2
Pero ahora, como se supone que las varianzas de las 2 poblaciones son iguales, se combinan las
varianzas muestrales de la siguiente manera:
Sc 2 Sc 2
Sx − x =
1
+
n1 n2
2
√
5
Cuando no se conocen las varianzas pero se asume que son iguales
( X́ 1 − X́ 2 ) −( μ1 −μ 2)
t=
S x −x
1 2
Ho: μ 1−μ2=0
Al igual que antes, cuando es asumido que las dos varianzas poblacionales son iguales, estas se
combinan, como en la formula anterior:
2 ( n1−1 ) S12 + ( n 2−1 ) S 22
Sc =
n 1+ n2−2
6
Ejercicios
1. Un gerente de producción desea determinar si existe diferencia entre la productividad de los
trabajadores del turno matutino y los del turno vespertino. Para ello, toma una muestra
aleatoria de 30 trabajadores de cada turno y encuentra que produjeron un promedio de 68
artículos por turno, con una desviación estándar de 16, en tanto que los del turno vespertino
produjeron 65.5 artículos en promedio con desviación estándar de 17. ¿Existe diferencia entre la
productividad de los 2 turnos, a un nivel de significación de 0.01
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
( X́ 1 − X́ 2 ) −(μ1−μ 2)
68−65.5
z= =
=0.5868
s X −X 1
4.26
2
Este valor observado del estadístico de prueba está dentro del rango critico de -2.575 a 2.575,
así que no se tienen elementos para rechazar la hipótesis nula, por lo que se concluye que la
producción promedio en los dos turnos es igual.
2. Un departamento de control de calidad desea evaluar dos máquinas que fabrican ciertas
piezas circulares de plástico. Se desea saber si la maquina A la fábrica con un diámetro mayor
que la maquina B. Para ello se toma una muestra de 12 piezas de la maquina A y se encuentra
que su diámetro tiene una media de 1.061 cm con varianza de 0.000442. En tanto que una
muestra aleatoria de 10 piezas de la maquina B arroja una media de 1.038 cm con una
varianza de 0.000228. Si los diámetros de estas piezas se distribuyen de forma normal en las
dos máquinas y se sabe que sus varianzas son iguales, compruebe la hipótesis de que la
maquina A está fabricando piezas de mayor diámetro, con un nivel de significancia de 0.05.
Ho: μ 1> μ 2
Ha: μ1 ≤ μ 2
P ( ( t ≥ 1.7247|gl=20 ) ) =0.05
Sc 2 Sc 2
Sx − x =
1
+ =
n1 n2
2
√
0.0003457 0.000347
12
+
√
10
=0.00796
7
( X́ 1− X́ 2) (1.061−1.038)
t= = =2.89
S x −x1 2
0.00796
Así que como el valor calculado de t, 2.89 es mayor que el valor critico determinado según el
nivel de significancia, 1.7247 se rechaza la hipótesis nula para concluir que, efectivamente, la
maquina A está fabricando piezas con mayor diámetro que las producidas por la maquina B.
3. En 2 ciudades en las que existen refinerías se tomó una muestra a cada persona de un grupo
de 35, y se midió el nivel de plomo en la sangre. En la ciudad A s encontró que en promedio el
nivel de plomo es de 74.9 microgramos con una desviación estándar de 8. En la ciudad B, el
promedio es de 78 microgramos con una desviación estándar de 1. ¿Existe diferencia en el nivel
de plomo en la sangre de los habitantes de cada ciudad, a un nivel de significancia de 0.01?
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
( X́ 1 − X́ 2 ) −( μ1−μ 2) 74.9−78
z= = =1.0273
s X −X
1 2
1.3627
4. Para la fabricación de una pieza específica se emplean dos máquinas. Se toma una muestra
40 piezas elaboradas por ambos aparatos y se encuentra que las piezas que produjo la maquina
A tienen una longitud promedio de 83mm con una desviación estándar de 5mm, mientras que
las de la maquina B una longitud promedio de 82 mm con una desviación estándar de 2mm.
Determine si existe diferencia entre la longitud de las piezas fabricadas por cada máquina, con
un nivel de significancia de 5%.
Ho: μ 1 ≤ μ 2
Ha: μ1 > μ2
P ( ( t ≥ 1.684|gl=39 ) ) =0.05
Sc 2 Sc 2
Sx − x =
1
+ =
n1 n2
2
√
0.0033745 0.0033745
40
+
40 √
=0.0129
8
( X́ 1− X́ 2) (0.083−0.082)
t= = =0.7751
S x −x1 2
0.0129
( X́ 1− X́ 2) (27−23)
t= = =13.4408
S x −x1
0.2976
2
El valor calculado de Z cae dentro de la región de rechazo por lo que se rechaza la hipótesis nula
y se concluye que existe una diferencia entre el promedio de veces que los alumnos de
administración han consultado algún libro en la biblioteca y el promedio de los alumnos de
contaduría.
6. Para probar la velocidad de combustión de 2 tipos de aceite automotriz se tomó una muestra
de 50 botellas de dos marcas distintas. En la marca A se encontró que el tiempo promedio de
combustión es de 47.5 seg con una desviación estándar de 3.2 seg y la marca B el tiempo
promedio es de 49.4 seg con una desviación estándar de 3.7 seg. Compruebe si existe diferencia
entre el tiempo de combustión de las dos marcas de aceite con un nivel de significancia de 0.01.
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
9
7. Una compañía telefónica brinda dos tipos de servicios, plan y prepago, y desea saber si existe
diferencia entre el número de minutos utilizados mensualmente en cada servicio. En el caso de
los usuarios del servicio de plan se tomó una muestra de 36 personas y se encontró que en
promedio de minutos fue de 237 con una desviación estándar de 8.7. De los usuarios de
prepago se tomó una muestra de 41 y en promedio fue de 248 con una desviación estándar de
10.4. Compruebe la hipótesis con un nivel de significancia de 0.01.
Se desea probar si el salario medio mensual de los empleados oficinistas de 2 empresas del
ramo de servicios turísticos son iguales o no, con un nivel de significancia de 1%. Para ello, se
toman muestras de ambas y los datos correspondientes se resumen en el siguiente cuadro:
Muestra Muestra
empresa 1 empresa 2
Tamaño n n1= 50 n2 = 60
Media X́ 1 =¿6000 X́ 2 =¿5850
2Desv. Estándar S1=¿ 300 S2=¿ 214
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
( X́ 1 − X́ 2 ) −( μ1−μ 2) 6000−5850
z= = =2.4423
s X −X
1 2
61.4175
8. En una muestra aleatoria de n1=10 focos el promedio de vida de los focos es X́ 1 =4000 horas,
con una desviación de S1=200 horas. Para otra marca de focos de cuya vida útil también se
presume que sigue una distribución normal, una muestra aleatoria de n2= 8 focos tiene una
media muestral de X́ 2 =4300 horas y una desviación estándar muestral de S2 = 250, pruebe la
hipótesis de que no existe ninguna diferencia entre el ciclo medio de vida útil de las 2 marcas de
focos con un nivel de significancia del 1%
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
P ( ( t ≥ 2.575|gl=41 ) ) =0.01
10
( n1−1 ) S12 + ( n 2−1 ) S 22 ( 10−1 ) ( 2002)+ ( 8−1 ) (2502 )
Sc 2 = = =49843.75
n 1+ n2−2 10+8−2
Sc 2 S c 2
Sx − x =
1 2
√
+ =
n1 n 2
49843.75 49843.75
10 √
+
8
=105.90
( X́ 1− X́ 2) ( 4000−4300)
t= = =−2.83
S x −x
1 2
105.90
Como cae en la zona de aceptación se acepta con un nivel de significancia del 0.01, la hipótesis
nula de que no existe diferencia entre las dos marcas de focos.
9. Un desarrollador considera dos ubicaciones alternativas para un centro comercial regional dado
que el ingreso domestico de la comunidad es una consideración importante en la selección del sitio,
él desea probar la hipótesis nula de que no existe ninguna diferencia entre los montos de ingreso
domestico medio de las dos comunidades. Se supone que la desviación estándar del ingreso
domestico también es igual en las dos comunidades. En una muestra de 𝑛1=30 hogares de la
primera comunidad el ingreso anual promedio es de 𝑥1̅ =45,500 con una desviación estándar
𝑆1=1,800. En una muestra de 𝑛2=40 hogares de la segunda comunidad 𝑥2̅ =44,600 y 𝑆2=2,400.
Pruebe la hipótesis nula al nivel de significancia de 5%.
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
P ( ( t ≥ 2.575|gl=41 ) ) =0.01
Sc 2 Sc 2
Sx − x =
1 2
√
+ =
n1 n2
5161764.706 51667.706
30 √ +
40
=586.6154
( X́ 1− X́ 2) (45500−44600)
t= = =1.5342
S x −x
1 2
586.6154
10. Una muestra aleatoria de 𝑛1=12 estudiantes de Contaduría tiene un promedio de calificación
media de 2.70 (donde A=4) con una desviación estándar de .40 en el caso de los estudiantes de
ingeniería en sistemas una muestra aleatoria de n 2 = 10 estudiantes tiene un promedio de
calificación media de 2.90 con una desviación estándar de .30 se supone que los valores de
calificación sigue una distribución normal ,pruebe la hipótesis nula de que el promedio de
calificación de las 2 categorías de estimación no es diferente con un nivel de significancia de 5%
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
11
P ( ( t ≥ 2.921|gl =41 ) ) =0.05
Sc 2 Sc 2
Sx − x =
1 2
√
+ =
n1 n2
0.1285 0.1285
12
+
√
10
=0.1534
( X́ 1− X́ 2) ( 45500−44600)
t= = =5867.01
S x −x
1 2
0.1534
11. El salario medio diario de una muestra de n1=30 empleados de una gran empresa
manufacturera es 𝑋1=280, por una distribución estándar de 14 pesos. En otra gran empresa
una muestra aleatoria n2=40 empleados tiene un salario medio de 𝑋2 =270 pesos, con una
desviación estándar de 10 pesos. Pruebe la hipótesis de que no existe diferencia entre los
montos salariales semanales medio de las dos empresas con un nivel de significancia del 5%.
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
P ( ( t ≥ 2.921|gl =41 ) ) =0.05
Sc 2 Sc 2
Sx − x =
1 2
√
+ =
n1 n2
140.9411 140.9411
30
+
√ 40
=2.8673
( X́ 1− X́ 2) (280−270)
t= = =3.4876
S x −x
1 2
2.8673
12. La altura promedio de 50 palmas que tomaron parte de un ensayo es de 78 cm. con una
desviación estándar de 2.5 cm.; mientras que otras 50 palmas que no forman parte tienen media y
desviación estándar igual a 77.3 y desviación estándar poblacional de2.8 cm. Se desea probar la
hipótesis de que las palmas que participan en el ensayo son más altas que las otras. Con un nivel de
significancia del 0.05
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
P ( ( t ≥ 2.921|gl =41 ) ) =0.05
12
Sc 2 Sc 2
Sx − x =
1 2
√
+ =
n1 n2
7.045 7.045
50
+
√
50
=0.5308
( X́ 1− X́ 2) (78−77.3)
t= = =1.3187
S x −x
1 2
0.5308
13. Para una muestra aleatoria de n1=10 lámparas de gas, se encuentra que la vida promedio es
x1=6000 horas con s1=200. Para otra marca de lámparas, para los cuales se supone también que
tiene una vida útil con distribución normal, una muestra aleatoria de n 2=15 lámparas de gas tiene
una media muestral de x2 =5600 horas y una desviación estándar muestral de s 2=250. Pruebe la
hipótesis de que no existe diferencia entre la vida útil promedio de las dos marcas de lámparas de
gas, utilizando un nivel de significancia del 1%
Ho: μ 1=μ2
Ha: μ1 ≠ μ 2
P ( ( t ≥ 2.475|gl=41 ) ) =0.05
( X́ 1− X́ 2) (6000−5600)
t= = =4.2283
S x −x
1 2
94.6006
13
4.5 Prueba de Fisher para
varianzas y de igualdad de las
varianzas de dos poblaciones
normales
Para probar si existe o no la diferencia entre las varianzas de dos poblaciones puede utilizarse
como estadístico de prueba de F de la distribución de F de Fisher, llamada así en honor del
destacado estadístico Ronald Aylmer Fisher, que se calcula como el cociente de las varianzas de
dos poblaciones:
σ 21
F= 2
σ2
Que sería la expresión teoría de F. Y el valor calculado de F a partir de las varianzas muestrales:
F S1 2
cal= 2
S2
La prueba se lleva a cabo sobre la diferencia hipotética entre dos varianzas poblacionales:
Ho=σ 12 −σ 22=0; para realizarla se obtienen las varianzas de dos muestras tomadas de dos
poblaciones diferentes. En otras palabras, esta prueba se realiza para las poblaciones
independientes, las que suele identificarse como 1 y 2.
Las dos varianzas muestrales son las que se utilizan como base para hacer inferencias sobre sus
correspondientes parámetros.
Si puede asumirse que las dos varianzas poblacionales son iguales, σ 21=σ 22, entonces se utiliza
como estadístico de prueba, la distribución F con n1 −1 grados de libertad para el numerador y
n1 −1 grados de libertad para el denominador; ya que el estadístico de prueba se calcula con los
datos muestrales se construye un cociente.
14
libertad, la probabilidad de que la F sea igual o mayor de 2.35 es de 0.05 o de 5%. Esto mismo
en símbolos:
P ( F ≥ 2.35|gl1 =10 , gl 2=20 ) =0.05
Tal como puede apreciarse, al tratarse de una distribución asimétrica, la tabla de distribución F
no muestra valores de probabilidad para el lado izquierdo y estos se requieren cuando la
En estos casos para determinar los valores no mostrados, lo que se hace es utilizar el inverso
del valor correspondiente de las talas, invirtiendo el orden de los grados de libertad en
símbolos:
F 1
1−a ,gl 2 , gl 1=
F1−a, gl
2,
gl 1
Ejercicios
1. Se desea el grado de aprendizaje en matemáticas en 2 escuelas del mismo nivel que utilizan
métodos de enseñanza diferentes. Para aplicar la prueba t para la diferencia entre dos medias,
debe ser posible suponer que ambas poblaciones tienen la misma varianza. Por ello, antes de
realizar la prueba sobre las medias, es conveniente realizar una prueba sobre igualdad de
varianzas de las 2 poblaciones. Al hacer esta prueba, se toma una muestra aleatoria de 21
estudiantes en cada una de las 2 escuelas y se obtienen los siguientes resultados:
Escuela 1 Escuela 2
n1 =¿21 n1 =¿21
2 2
Ho=σ 1 −σ 2 =0 X́ =7.9 X́ =8.3
2 2
Ho=σ 1 −σ 2 =0 S1=1.1 S1=1.21
F S1 2 1.1
2
cal= 2
= 2
=0.83
S2 1.21
Ho: X́ 1− X́ 2 =0
Ha: X́ 1− X́ 2 ≠ 0
Sc 2 Sc 2
Sx − x =
1
+ =
n1 n2
2
√
1.4641 1.4641
21
+
21
=0.1394
√
15
( X́ 1− X́ 2) (7.9−8.3)
t= = =−2.87
S x −x
1 2
0.13 946
σ 2 1 S1 2 50
F= 2
= 2= =1.0738
σ 2 Fs2 (1.94)(24 )
S 12
Con un nivel de confianza del 90% se sabe que la relación de varianzas 2 esta entre 1.07 y
S2
3.93. Esto supondría que la varianza de la población 1 es mayor a la varianza de la población 2
entre 1.07 y 3.93.
σ 21 S12 (2.51)(4.7 2)
F= = = =2.1317
σ 22 Fs22 5.12
Estos resultados los podemos interpretar de la siguiente manera:
Puesto que este intervalo de confianza incluye a la unidad, no es posible afirmar que las
desviaciones estándar de la rugosidad de la superficie de los dos procesos sean diferentes con
un nivel de confianza del 90%.
16
4.6 Comparaciones de dos
muestras pareadas
Pruebas para muestras pareadas cuando no se conocen las varianzas pero no se necesita
asumir que sean iguales
Se analizó el caso de una prueba para la diferencia entre 2 medias provenientes de poblaciones
independientes. Aquí se analizará el caso de la diferencia entre 2 medias provenientes de
poblaciones pareadas o relacionadas. Es importante tener presentes las circunstancias de estos
casos:
• Se trata de muestras pareadas.
• Los tamaños de muestras son pequeños.
• La variable se distribuye de forma normal en la población.
En este caso, la prueba se convierte en una prueba sobre la diferencia entre las observaciones,
ya que se calculan las diferencias entre:
1. Dos individuos de la misma especie sometidos a tratamientos diferentes (pareamiento
de individuos según una característica de interés).
2. Dos mediciones hechas a los mismos individuos.
S=
√ ∑ (D i− D́)2
i=1
n−1
Con n-1 grados de libertad. Nótese que aquí cambian los grados de libertad, al tratarse de
muestras pareadas.
17
Ejercicios
1. Un fabricante de automóviles recolecta datos sobre millaje de 𝒏=𝟏𝟎 autos de diversas
categorías de peso usando gasolina de calidad estándar con y sin cierto aditivo. Por supuesto,
los motores 94 fueron ajustados a las mismas especificaciones antes de cada corrida, y los
mismos conductores sirvieron para los dos casos de gasolina (aunque no se les hizo saber que
gasolina se usaba en una corrida en particular). Dados los datos de millaje en la tabla,
probamos la hipótesis de que no existe diferencia entre el millaje medio obtenido con y sin el
aditivo, empleando el nivel de significancia del 5%
276.8
Promedio con aditivo =27.68 mpg
10
275.1
Promedio sin aditivo =27.51mpg
10
Ho: μ d=0
Ha: μ d ≠ 0
t critica ( gl=9 , α =0.05 ) =2.262
Σ D i 1.7
D́= = =0.17
n 10
S=
√ ∑ ( D i− D́)2
i=1
n−1
D́ 0.17
=¿
1.31−10(0.17 2)
√ 10−1
=0.3368 ¿
S D= = =0.0537
√ n √ 10
D́ 0.17
t n−1= = =0.5047
S D 0.3368
18
2. El director de la capacitación de una compañía desea comparar un nuevo método de
capacitación técnica, que supone la combinación de diskettes instructivos de cómputo y
resolución de problemas en el laboratorio con el método tradicional de impartición de clases. Se
asocian así doce pares de aprendices de acuerdo con sus antecedentes y desempeño
académico, en tanto que uno de los miembros de cada par asignado al curso tradicional y el
otro al nuevo método. Al final del curso se determina el nivel de aprendizaje por medio de un
examen sobre información básica y la capacidad de aplicarla. Dado que el director de
capacitación desea conceder el beneficio de la duda ala sistema de instrucción establecido, se
formula la hipótesis nula de que el desempeño medio del sistema establecido es igual o mayor
que el nivel medio de desempeño del nuevo sistema. Pruebe esta hipótesis al nivel de
significancia de 5%. Los datos muéstrales de desempeño se presentan en las tres primeras
columnas de la siguiente tabla:
19
n
S=
√ ∑ ( D i− D́)2
i=1
n−1
D́ 4.8333
=¿
√ 97.6615
12−1
=2.9796 ¿
S D= = =1.3952
√ n √ 12
D́ 4.8333
t n−1= = =3.4642
S D 1.3952
( X́ 1 − X́ 2 ) −(μ1−μ 2)
z=
σ 12 σ 2 2
+
√
n1 n2
Suponemos que n1 y n2 son suficientemente grandes, por lo que se aplica el teorema del limite
central. Por supuesto, si las dos poblaciones son normales, el estadístico anterior tiene una
distribución normal estándar aun para n1 y n2 pequeñas. Evidentemente, si podemos suponer
que σ 1 =σ 2=σ , el estadístico anterior se reduce a
( X́ 1 − X́ 2 ) −(μ1−μ 2)
z=
1 1
+σ
n1 n2 √
Los dos estadísticos anteriores sirven como base para el desarrollo de los procedimientos de
prueba que incluyen dos medias. La equivalencia con el intervalo de confianza y facilidad de la
transcicion del caso de pruebas sobre una sola media hacen que esto sea sencillo.
La hipótesis bilateral sobre dos medias se escribe con bastante generalidad como
H o =μ 1−μ2=do
20
En efecto, la alternativa puede ser bilateral o unilateral. De nuevo, la distribución que se utiliza
es la distribución del estadístico de prueba bajo H o. Se calculan los valores X́ 1 y X́ 2 y para σ 12y
σ 22 conocidas, el estadístico de prueba dado por una región critica de dos colas en el caso de la
alternativa bilateral.
( X́ 1 − X́ 2 ) −do
z=
σ 1 2 σ 22
√ n1 n2
+
Ejercicios
1. Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan con
métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el segundo
grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio con pesas y se
ejercita en el pedaleo de alta frecuencia. Después de un mes de entrenamiento se realiza un
test de rendimiento consistente en un recorrido cronometrado de 9 Km. Los tiempos
empleados fueron los siguientes:
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen resultados
equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Solución: Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:
21
A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:
SC(total) = 2984 - 2940 = 44
SC(intra) = 2984 – 2966,8 = 17,2
SC(entre) = 2966,8 – 2940 = 26,8
Los cuadrados medios serán:
CM(entre) = 26,8/2 = 13,4
CM(intra) = 17,2/12 = 1,43
El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es 3,89.
Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de
entrenamiento producen diferencias significativas.
2. Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro
procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se les
realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientes resultados:
¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un nivel de
significación del 5%?
Solución: Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:
22
A continuación calculamos los cuadrados de las observaciones y su total:
3. Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro
procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se les
realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientes resultados:
¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un nivel de
significación del 5%?
Solución: Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:
23
A continuación calculamos los cuadrados de las observaciones y su total:
24
3) Teniendo la SC Inter, saco la SC Intra restando: 1460.958-647.584=813.374
4) Con la SC Intra y los gl calculo la media cuadrática Intra= 813.374/21=38.732 Por último con
las dos MC calculo el test F=323.792/38.732=8.360
c) Qué supuestos debería verificar el investigador, escriba las hipótesis asociadas a ellos.
Respuesta: El investigador antes de comparar las medias, debe verificar los supuestos de
Normalidad y de Homogeneidad de las varianzas (el supuesto de independencia se comprueba
en el diseño, dividió a 8 estudiantes por cada método).
Si ordenamos los promedios vemos que en Curicó se obtiene el promedio más bajo de ozono,
luego está Maule, Talca y Linares. Llama la atención que en Linares se den promedio mayores
que en Talca que es una ciudad mayor.
Segundo, verificamos los supuestos, primero el supuesto de independencia se cumple ya que
los datos son de distintas ciudades, hay independencia; seguimos con el de Normalidad
(usaremos el Test de Kolmogorov-Smirnov):
H0: la distribución de ozono de Curicó NO es normal
H1: la distribución de ozono de Curicó es normal
Estadístico de KS= 0,214, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad
H0: la distribución de ozono de Talca NO es normal
H1: la distribución de ozono de Talca es normal
Estadístico de KS= 0,285, valor-p=0,138 mayor que 0,05 por lo tanto acepto normalidad
H0: la distribución de ozono de Linares NO es normal
H1: la distribución de ozono de Linares es normal
Estadístico de KS= 0,102, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad
H0: la distribución de ozono de Maule NO es normal
H1: la distribución de ozono de Maule es normal
Estadístico de KS= 0,190, valor-p=0,2 mayor que 0,05 por lo tanto acepto normalidad.
Conclusión general, podemos aceptar el supuesto de Normalidad de estos datos en todas las
ciudades.
25
Continuamos con el supuesto de homocedasticidad, realizamos el test de Levene para la
hipótesis:
Donde:
1=Curicó, 2=Talca, 3=Linares y 4=Maule
Resultado según tabla:
Estadístico= 1,081, valor-p=0,38, es mayor que 0,05, por lo tanto acepto la hipótesis nula y
podemos concluir que las varianzas son homogéneas. Se cumple el supuesto de
homocedasticidad.
En vista que se cumplen todos los supuestos ANOVA, procedemos a comparar las medias de las
mediciones de ozono en las 4 ciudades con el test de ANOVA, la hipótesis es:
H1: μ1=μ 2=μ3=μ 4
H0: al menos dos medias no son iguales.
Según la tabla el F observado es 9,418 y el valor-p es menor que 0,001, por lo tanto rechazamos
la hipótesis nula, y concluimos que existen diferencias significativas entre los promedios de
ozono en estas ciudades.
Ahora nos interesa saber qué promedios son diferentes. Para eso hacemos test de
comparaciones múltiples de Tukey, que controla la tasa de error tipo I. Mirando la tabla de la
salida de SPSS podemos construir la siguiente tabla con los promedios ordenados de menor a
mayor:
Después de estudiar los datos, podemos llegar a una conclusión global de que Curicó, Maule y
Talca tienen promedios similares de ozono, en cambio Linares aparece con niveles
significativamente superiores (al 5%).
26
cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. Las
presiones arteriales sistólicas de los 25 sujetos al finalizar los tratamientos son:
La tabla de ANOVA es:
H 0 :μ 1−μ2=do ,
H a : μ1−μ2 ≠ do ,
Para una alternativa específica, digamos, μ1−μ 2=do+ δ en la figura se muestra que la potencia
de nuestra prueba es
1−β =P ¿
Por lo tanto,
27
2 2
z +z (σ +σ 22 )
n≈
( α
2 )β 1
δ2
Para la prueba de una sola cola, la expresión para el tamaño requerido de la muestra cuando
n=n1=n2 es
2
( Z a + Z β ) +( σ 12 +σ 22 )
Elección del tamaño de la muestra: n=
δ2
Cuando se desconoce la varianza poblacional (o varianzas en la situación de dos muestra), la
elección del tamaño de la muestra no es directa. Al probar la hipótesis μ=μ 0+ δ , el estadistco
X́−( μ0 +δ )
S /√n
no sigue una distribución t, como podría esperarse, sino que más bien sigue la distribución t no
central para determinar el tamaño adecuado de la muestra, si dispone de alguna estimación de
σ o si δ es un múltiplo de σ .
|δ| |μ−μ0|
∆= =
σ σ
1. De una población de 1,176 adolescentes de una ciudad se desea conocer la aceptación por
los programas humorísticos televisivos y para ello se desea tomar una muestra por lo que se
28
necesita saber la cantidad de adolescentes que deben entrevistar para tener para tener una
información adecuada con error estándar menor de 0.015 al 90% de confiabilidad.
Solución:
Es decir, para realizar una investigación se necesita una muestra de al menos 298 adolescentes.
Conclusión
En esta investigación se estudió la metodología básica necesaria al realizar pruebas de hipótesis
para las medias correspondientes a 2 poblaciones y se revisaron las pruebas para la diferencia
entre 2 medias en diversas circunstancias:
Con muestras grandes e independientes, cuando se conocen y cuando no se conocen las
varianzas correspondientes a las 2 poblaciones. Además se explican 2 casos para esta última
circunstancia, cuando no se conocen las varianzas; podemos asumir que son iguales, y no
puede asumirse que lo sean.
Las pruebas para 2 poblaciones con muestras pequeñas e independientes, variables distribuidas
normalmente, cuando no se conocen las varianzas de las correspondientes poblaciones pueden
asumirse que sean iguales, y no puede asegurarse que lo sean.
29
Bibliografía
Díaz Mata, A. (2013). Estadística Aplicada a la Administración y la Economía. México,
D.F: The McGraw Hill.
http://dta.utalca.cl/estadistica/ejercicios/interpretar/Metodos/resuelto%20anova.pdf
http://www.hrc.es/bioest/Anova_4.html
http://www.ugr.es/~jsalinas/weproble/T14res.PDF
30