Académique Documents
Professionnel Documents
Culture Documents
46
Capítulo 3
3.1. Introducción.
El objetivo es dar algunos métodos que se usan para tomar decisiones sobre
poblaciones, a partir de los resultados de una muestra aleatoria escogida de esa
población. Para llegar a tomar decisiones estadísticas se debe partir de afirmaciones
o conjeturas con respecto a la población en el que estamos interesados. Tales
suposiciones, pueden ser verdaderas o no. Una conjetura hecha sobre una población
o sobre sus parámetros deberá ser sometida a comprobación experimental con el
propósito de saber si los resultados de una muestra aleatoria extraída de esa
población, contradicen o no tal conjetura.
X
Z
/ n
Por tanto, el intervalo de confianza del (1- ) x 100% para es dado por:
σ σ
X Z α/2 μ X Z α/2
n n
Z
- z1-/2 0 z1-/2
a X b X
intervalo de
σ Nn σ Nn
X - Z α/2 · μ X Z α/2 ·
n N 1 n N 1
Ejemplo 3.1. Una muestra aleatoria de 100 hogares de una ciudad indica que el
promedio de los ingresos mensuales es de $ 500. Encuentre un intervalo de confianza
del 95% para la media poblacional de los ingresos de todos los hogares de esa
ciudad. Suponga que = $100.
Solución.
Sea X el ingreso familiar mensual de esa ciudad cuyo promedio se quiere estimar a
partir de una muestra aleatoria de tamaño n =100. La estimación puntual de es
X 500 . Para el nivel de confianza 1- =0.95, en la tabla normal estándar se
encuentra: z / 2 z 0.025 1.96 .
100
Entonces X z0.975 500 (1.96) 500 19.6
n 100
Esto es, se tiene una confianza del 95% que el promedio del ingreso familiar
de esa ciudad, está en el intervalo [$480.4, $519.6].
A) Población no normal
Si la población no es normal pero el tamaño de la muestra es suficientemente grande
(n 30), se utiliza la desviación estándar S de la muestra, como estimación puntual
de la desviación estándar de la población. Entonces, el intervalo de confianza del
(1- ) x 100% para es aproximadamente:
S S
X Z α/2 · μ X Z α/2 ·
n n
B) Población normal
Si X y S son la media y la desviación estándar respectivamente de una muestra
aleatoria de tamaño n (n <30) escogida de una población normal con varianza 2
desconocida, entonces, el intervalo de confianza del (1- ) x 100 para es:
S S
X t α/2, n 1 · μ X t α/2, n 1 ·
n n
Ejemplo 3.2. El peso neto de las latas de café instantáneo de un producto, debe tener
un peso neto de 280 gramos. Un inspector de la oficina de defensa al consumidor
tomo una muestra aleatoria de 5 latas de café obteniendo los siguientes pesos netos
en gramos:
280, 290, 285, 275, 284
Solución.
a) Sea X el peso de los contenidos de café por lata, cuyo promedio se quiere
estimar a partir de una muestra aleatoria de tamaño n = 5. Se supone que la
distribución de X es normal con desviación estándar no conocida.
S
X t α/2, n 1 · 282.8 2.776 5.63/ 5 282.8 6.99
n
Se puede determinar que tan grande debe ser el tamaño de la muestra, n, de manera
que si se estima por X , el error de estimación no sea mayor que un valor dado e.
z2 / 2 2 N
n 2
z / 2 2 e 2 ( N 1)
Solución. Tenemos
Ejemplo 3.4. Una encuestadora utiliza una muestra aleatoria de 600 electores que
acaban de votar y encontró que 240 votaron a favor del candidato A.
a) Estimar el porcentaje de electores a favor de A en toda la población, utilizando un
intervalo de confianza del 95%.
b) Si con la misma muestra la proporción a favor de B se estima en 38% con una
confianza del 95% que el error no es mayor a 3.88%, ¿Se puede proclamar a A
como ganador?
Solución.
a) La estimación puntual de la proporción p a favor de A en la población, es la
proporción a su favor en la muestra de n = 600 electores, es decir,
pˆ 240 / 600 0.40
0.3608 p 0.4392
p̂(1 p̂)
e Z / 2 0.0388
n
Entonces,
El intervalo de confianza del 95% a favor de A es 36.08%, 43.92%
El intervalo de confianza del 95% a favor de B es 34.12%, 41.88%
p̂(1 p̂)
e Z / 2
n
( Z / 2 ) 2 p̂(1 p̂)
n
e2
Solución.
a) El estimador puntual de p es pˆ 0.60 .
Para 1- = 0.90 se tiene Z / 2 Z 0.05 1.645 . Luego, se tiene una confianza de
90% que el error al estimar p no será mayor que 0.02 si el tamaño de la muestra
es,
(1.645) 2 (0.6)(0.4)
n 1623.615 1624 electores
(0.02) 2
( Z / 2 ) 2 P(1 P)·N
n
( Z / 2 ) 2 P(1 P) e 2 ( N 1)
Desde sus inicios, las computadoras se han utilizado en el manejo de los datos y en
ellas se puede hacer uso de las técnicas estadísticas, por lo que hay paquetes
estadísticos entre los cuales el SPSS (Statistical Package for the Social Sciences) es
quizá, el más usado, con más de tres décadas en el mercado.
En la tabla 3.1 se presenta una guía para la valoración de los datos estadísticos de
carácter cuantitativo.
Tabla 3.1. Valoración de las características de los datos.
Cuando se pretende probar una hipótesis respecto a uno o más parámetros de una
población que tiende a una distribución normal, las pruebas usadas son las de la
estadística paramétrica, como la t de Student. En la tabla 3.2 se presentan las
características comunes de estas pruebas paramétricas.
Tabla 3.2. Características comunes de las pruebas paramétricas.
Una investigación bien planeada debe incluir referencias precisas de las técnicas
estadísticas que se van a utilizar en el análisis de los datos. El análisis estadístico es
el procedimiento objetivo por medio del cual se puede aceptar o rechazar un conjunto
de datos para confirmar una hipótesis, conocido el riesgo que se corre en función de
la probabilidad al tomar tal decisión.
Ante esta situación, es necesario tener una base racional, por medio de la cual se
seleccione la prueba más apropiada. Esta selección constituye el punto crítico del
análisis estadístico y debe someterse a los criterios siguientes:
a) Hipótesis.
b) Tipo de escala.
c) Potencia-eficiencia de la prueba estadística.
d) Característica de las muestras en el diseño.
e) Tendencia rectilínea o curvilínea del fenómeno.
3.4.2. Hipótesis.
1. Demuestra que las reflexiones del investigador acerca del fenómeno que
estudia han sido adecuadas.
2. Permite conocer el marco dentro del cual se efectuó la investigación.
3. Demuestra que el análisis de los resultados se realizó con una mayor
sensibilidad del procedimiento estadístico.
H0 verdadera H0 falsa
Decisiones
Debe quedar claro que en cualquier inferencia estadística existe el peligro de cometer
cualquiera de estos errores, y por ello el investigador debe equilibrar las
probabilidades de incurrir en uno u otro.
Es justificable describir cosas reales por medio de números, siempre y cuando exista
un grado de isomorfismo _ por ejemplo, semejanza de propiedades entre las cosas
reales y el sistema numérico _; es decir, que ciertas propiedades de los números
deben tener paralelismo con los fenómenos observados para asignarles números.
En la tabla 3.4 hay una muestra de 160 empleados de una determinada empresa
participantes de un programa de capacitación en cómputo, que se ha clasificado
en dos grupos por sexo (masculino y femenino) y por la calificación obtenida al
concluir dicho programa.
Tabla 3.4. Características de una medida cualitativa con variable discontinua y escala
nominal.
Frecuencias
Serie de clases
(Número de empleados)
Hombres con calificación: Deficiente 08
Hombres con calificación: Bueno 20
Hombres con calificación: Aceptable 30
Hombres con calificación: Excelente 22
Mujeres con calificación: Deficiente 12
Mujeres con calificación: Bueno 15
Mujeres con calificación: Aceptable 33
Mujeres con calificación: Excelente 20
Total 160
b) Ordinalidad. Los números también tienen un orden o rango mayor que otro, el
cual le precede en un continuo ascendente. Los objetivos susceptibles de un
ordenamiento a lo largo de un continuo tienen una escala ordinal.
Por ejemplo, los empleados participantes del programa de capacitación en
cómputo (ver tabla 3.4), cuando se clasifica su habilidad en el manejo de la
computadora bajo los términos: deficiente, bueno, aceptable y excelente; esto
indica un rango de orden y clasificación.
En conclusión, mientras que las escalas nominales sólo clasifican, las ordinales
además ordenan, de manera que dan como resultado una serie de clases y
categorías mutuamente exclusivas, llamadas rangos.
c) Aditividad. Los números tienen propiedad aditiva, lo cual significa que la suma
de dos de ellos (ambos diferentes de cero) da un tercer número único. Esta
propiedad no solamente los identifica y ordena, sino que además puede sujetarse
a todas sus operaciones aritméticas. Las conclusiones de tales operaciones son
válidas para las observaciones y originan la denominada escala de intervalo.
Las pruebas paramétricas son las más eficaces y de uso común en la investigación
(de manera particular en las ciencias administrativas), como las de comparación de
promedios: la prueba t de Student y el análisis de varianza de Fisher.
Tamaño de la muestra.
La eficiencia de una prueba estadística disminuye cuando se reducen las
condiciones o premisas del modelo; en contraste, a medida que aumenta el
tamaño de la muestra, también aumenta su eficiencia.
Selección.
Las muestras por analizar pueden ser independientes y dependientes o
relacionadas.
Los elementos de las muestras dependientes pueden ser elegidos de forma que se
parecen en bastantes de sus características (el prototipo serían los gemelos, pero
también pueden ser familiares, compañeros de aula, de habitación, etc.) o se trata
de los mismos individuos evaluados en dos momentos diferentes del tiempo.
El objetivo de este capítulo es dar algunos métodos paramétricos que se usan para
tomar decisiones sobre poblaciones, a partir de los resultados de una muestra
aleatoria escogida de esa población. Para llegar a tomar decisiones estadísticas se
debe partir de afirmaciones o conjeturas con respecto a la población en el que
estamos interesados. Tales suposiciones, pueden ser verdaderas o no. Una conjetura
hecha sobre una población o sobre sus parámetros deberá ser sometida a
comprobación experimental con el propósito de saber si los resultados de una
muestra aleatoria extraída de esa población, contradicen o no tal conjetura.
X μ0
Como consecuencia, la estadística: Z ~ N(0,1)
σ/ n
X μ0
Z
σ/ n
R.C Z / Z Z1
X μ0
5. Decisión ó conclusión: Si el valor de Z > Z1- α , se rechazara H0 al
σ/ n
nivel de significancia α. No se rechazara en caso contrario.
Z
0 z1-
Aceptar H0 Aceptar H1
Figura 3.2. Región critica cola a la derecha en escala Z.
2. Nivel de significancia: α
X μ0
3. Estadística de prueba: Z
σ/ n
R.C Z - Z1
α
-
Z
z1- 0
Rechazar H0 Aceptar H1
Z
- z/2 0 z/2
Rechazar H0 Aceptar H0 Rechazar H0
Solución.
Sea X la variable aleatoria que representa los ingresos familiares mensuales de los
pobladores de Sullana.
X μ0
Z
σ/ n
α = 0.05
Z
z0.05 = -1.645 0
X μ0 1440 1500
Z 2.5
σ/ n 240/ 100
6. Decisión. Dado que Z = -2.5 ε R.C, debemos rechazar H0 y concluir con no abrir
la sucursal en Sullana.
dado que P = 0.0062 < α = 0.05, se debe rechazar H0 , con un riesgo α = 0.05 y que
este valor de Zk sólo ocurrirá en 62 casos de 10,000 experimentos. Una región
crítica de tamaño 0.0062 es muy pequeña y, por tanto, es poco probable que se
cometa error tipo I.
Ejemplo 3.8. Un proceso automático llena latas de conservas de atún. Si el peso neto
medio del contenido es 170 gramos se afirma que el proceso está controlado, en caso
contrario, el proceso no está controlado. En el proceso de enlatado se ha determinado
que los pesos netos del contenido en las latas se distribuyen como una normal con
desviación estándar de 20 gramos. Si una muestra aleatoria de 16 latas llenas de atún
ha dado el peso neto medio de 165 gramos, ¿se podría concluir que el proceso esta
fuera de control al nivel de significancia 5%?
Solución.
Sea X la variable aleatoria con la que se representa el peso neto del contenido en las
latas de atún
1. Hipótesis: H 0: μ = 170 (el proceso está controlado)
H 1: μ ≠ 170 (el proceso está fuera de control)
X μ0
Z ~ N(0, 1)
σ/ n
Z
- 1.96 0 1.96
Luego la región critica en la variable Z es: R.C = { Z< -1.96 ó Z > 1.96 }
X μ0 165 170
Z 1
σ/ n 20 / 16
A) Población no normal.
Luego, las regiones criticas de las pruebas de H0: μ = μ0 contra las alternativas
respectivas H1: μ ≠ μ0 ó H1: μ > μ 0 ó H1: μ < μ0 son las mismas (aproximadamente
de la sección anterior).
B) Población normal.
X μ0
T ~ t ( n1)
S/ n
1. Hipótesis: H0 : μ = μ0 contra H1 : μ ≠ μ0
X μ0
3. Estadística de prueba: T
S/ n
4. Región critica: la región critica en el rango de variación de t es:
α/2 α/2
t
- t/2 0 t/2
0 t1- t
Aceptar H0 Rechazar H0
t
- t1- 0
Rechazar H0 Aceptar H0
Ejemplo 3.9. Las cajas de cierto tipo de cereal procesado por una fábrica deben tener
un contenido promedio de 160 gramos. Por una queja ante el defensor del
consumidor de que tales cajas de cereal tienen menos contenido, un inspector tomó
una muestra aleatoria de 10 cajas encontrando los siguientes pesos de cereal en
gramos:
157, 157, 163, 158, 159, 162, 159, 158, 156, 161
Solución.
Sea la variable aleatoria X que representa los pesos de los contenidos en las cajas del
cereal. Mediante la prueba de Kolmogorov-Sminor, se realizado la verificación del
supuesto de que la variable aleatoria X, tiene una distribución normal.
Analizar > Pruebas no paramétricas > cuadros de diálogos antiguos > Prueba de K-S
(Kolmogorov – Sminor) para una muestra.
Contenido_en_latas
N 10
a,b
Media 159,00
Parámetros normales
Desviación típica 2,309
Absoluta ,200
Diferencias más extremas Positiva ,200
Negativa -,107
Z de Kolmogorov-Smirnov ,632
Sig. asintót. (bilateral) ,819
6) Decisión: dado que el valor T = -1.37 R.C. debemos aceptar H0 y concluir que
el inspector no multará al fabricante.
Inferior Superior
Como el p-valor de la prueba es 0.204/2= 0.102, es decir, p = P(T < -1.369) = 0.102,
es mayor que α = 0.05 no se rechaza H 0.
X1 X 2 ... X n X
Sea p̂ , la proporción de éxitos en la muestra, siendo X el
n n
número de éxitos en la muestra.
X np pˆ p
Z N (0, 1)
np (1 p) p(1 p) / n
X np0 pˆ p0
Z N (0, 1)
np0 (1 p0 ) p0 (1 p0 ) / n
X np0 pˆ p0
Se rechaza H0 si el valor de Z R.C.
np0 (1 p0 ) p0 (1 p0 ) / n
Muestra grande.
1
La aproximación normal a la distribución binomial se puede utilizar cuando np y n(1 - p) son mayores
que 5. De este modo, por ejemplo, cuando n = 50, se pueden aplicar los métodos de la curva normal,
si p queda entre 0.10 y 0.90; cuando n = 100, se pueden aplicar si p esta entre 0.05 y 0.95; y, cuando
n = 200, se pueden emplear si p queda entre 0.025 y 0.975. esto ilustra a qué nos referimos aquí,
cuando decimos que “ n es grande”.
R.C = {Z >Z1-α }
Muestra grande.
Ejemplo 3.10. Un fabricante afirma que el 30% de todos los consumidores prefieren
su producto. Con el fin de evaluar está afirmación se tomó una muestra aleatoria de
400 consumidores y se encontró que 100 de ellos prefieren dicho producto. ¿Es ésta,
suficiente evidencia para inferir que el porcentaje de preferencia del producto no es
30%? Utilice el nivel de significancia del 1%.
pˆ p0 pˆ 0.3
Z N (0, 1)
p0 (1 p0 ) (0.3)(0.7)
n n
x 100
5) Cálculos: n= 400, x = 100 , pˆ 0.25
n 400
pˆ p0 0.25 0.3
Luego se tiene: Z 2.18
p0 (1 p0 ) (0.3)(0.7)
n 400
aprueban. ¿Podría afirmarse que los cambios introducidos reducen la selección? Use
α = 0.01.
X1 ~ N( μ 1 , σ12 /n 1 ) y X 2 ~ N( μ 2 , σ 22 /n 2 )
X1 - X 2 N( μ 1 - μ 2 , σ12 /n 1 σ 22 /n 2 )
X1 X 2 (μ 1 μ 2 )
Z
σ12 σ 22
n1 n 2
X1 X 2
3) Estadística de prueba: Z
σ12 σ 22
n1 n 2
Z
0 Z
Aceptar H0 Rechazar H0
1) H0 : μ1 - μ2 = do contra H1 : μ1 - μ2 ≠ do
2) H0 : μ1 - μ2 = do contra H1 : μ1 - μ2 > do
3) H0 : μ1 - μ2 = do contra H1 : μ1 - μ2 < do
(X1 X 2 ) d 0
Estadística de prueba es, Z
σ12 σ 22
n1 n 2
Solución.
Sean X1 y X2 los tiempos de proceso con las maquinas A y B respectivamente y μ 1 y
μ2 sus medias respectivas. Se desconocen las distribuciones de probabilidad de X1 y
X2, pero las muestras son grandes.
a)
1) Hipótesis : H0 : μ1 = μ2 contra H1 : μ1 > μ2
2) Nivel de significancia: α = 0.05
X1 X 2
Z N(0, 1)
σ12 σ 22
n1 n 2
Luego:
1230 - 1190 40
Z 2.0655
(120) 2
(90) 2 19.365
60 60
(X1 X 2 ) 7
Z ~ N(0, 1)
σ12 σ 22
n1 n 2
B) Poblaciones normales
Sean X1 y X 2 las medias y S12 y S22 las varianzas de dos muestras aleatorias
independientes de tamaños n1 y n2 respectivamente, seleccionadas de dos
poblaciones N(μ 1 , σ12 ) y N(μ 2 , σ 22 ) donde μ1 , μ2 , 12 y σ 22 son desconocidas.
Hipótesis: H0: μ1 = μ2 (ó μ1 - μ2 = 0)
H1: μ1 > μ2 (ó μ1 - μ2 > 0)
(X1 X 2 ) (X1 X 2 )
T
2 2
S S 1 1
c c Sc
n1 n 2 n1 n 2
n1 n 2 2
c
La región critica en el rango de variación de T es: R.C T t ( , n1 n 2 2)
0 t
Aceptar H0 Rechazar H0
La región crítica en este caso será: R.C T t (1α, n1 n 2 2)
Rechazar H0 si el valor de T R.C. No rechazar H0 en caso contrario.
La región crítica en este caso será: R.C T t ( α/2, n1 n 2 2) ó T t ( α/2, n1 n 2 2)
Rechazar H0 si el valor de T R.C.
(X1 X 2 ) (μ 1 μ 2 )
T ~ t
S12 S 22 (g)
n1 n 2
2
S12 S 22
g n1 n 2 2
2
S12 S 22
n1 n 2
n1 1 n 2 1
(X1 X 2 )
T ~ t
S12 S 22 (g)
n1 n 2
El valor del estadístico T se utiliza para probar H 0 contra cualquiera de las hipótesis
alternativas H1 : μ1 ≠ μ2 ó H1 : μ1 > μ2 ó H1 : μ1 < μ2 , las regiones criticas y las
reglas de decisión son similares a los del caso B1.
Ejemplo 3.12. A un administrador en desarrollo de recursos humanos se le pide que
determine si los salarios por hora de los obreros semiespecializados son los mismos
en dos ciudades distintas. El resultado de está investigación se presenta en la
siguiente tabla.
Suponga que la empresa desea probar la hipótesis en el nivel 0.05 de que no hay
diferencia entre los salarios por hora de los trabajadores semiespecializados de las
dos ciudades.
Solución.
Sean X1 y X2 las variables aleatorias que representan los salarios por hora de los
obreros semiespecializados de las ciudades A y B respectivamente.
1) Hipótesis: H0 : μ1 = μ2 contra H1 : μ1 ≠ μ2
3) Estadística de prueba:
Si se supone H0 verdadera y dado que los tamaños de las muestras son grandes,
entonces la estadística de prueba a utilizar es:
X1 X 2
Z N(0,1)
S12 S 22
n1 n 2
entonces,
Ejemplo 3.13. Una empresa grande de corretaje de acciones desea determinar qué
tanto éxito han tenido sus nuevos ejecutivos de cuenta en la consecución de clientes.
Después de haber terminado su entrenamiento, los nuevos ejecutivos pasan varias
semanas haciendo llamadas a posibles clientes, tratando de conseguir prospectos para
abrir cuentas con la empresa. Los datos siguientes dan el número de cuentas nuevas
que fueron abiertas durante las primeras dos semanas por diez ejecutivas y ocho
ejecutivos de cuenta escogidos aleatoriamente. A un nivel α =0.05 ¿parece que las
mujeres son más efectivas que los hombres para conseguir nuevas cuentas?
Se supone que el número de cuentas nuevas se distribuyen como una normal, con
varianzas desconocidas pero iguales.
Número de cuentas nuevas
Ejecutivas de cuenta 12 11 14 13 13 14 13 12 14 12
Ejecutivos de cuenta 13 10 11 12 13 12 10 12
Solución.
Como ambas muestras son pequeñas (n1 y n2 < 30), debemos comprobar que los
números de cuentas de ejecutivas y ejecutivos se distribuyen como una normal.
Aplicaremos entonces la prueba de Kolmogorov-Smirnov para contrastar dicho test
de normalidad.
Analizar > Pruebas no paramétricas > cuadros de diálogos antiguos > Prueba de K-S
para una muestra.
Ejecutivas_Cuentas Ejecutivos_Cuenta
N 10 8
a,b
Media 12,80 11,63
Parámetros normales
Desviación típica 1,033 1,188
Absoluta ,181 ,249
Diferencias más extremas Positiva ,181 ,164
Negativa -,177 -,249
Z de Kolmogorov-Smirnov ,571 ,704
Como ambos valores de p (0.900 y 0.705) son mayores que 0.05 y 0.01, entonces se
acepta la hipótesis nula de que las cuentas nuevas abiertas tanto para las ejecutivas
como para los ejecutivos de cuenta se distribuyen como una normal.
Analicemos la elección de la prueba estadística cuando el modelo de investigación
tiene dos muestras independientes, cuyas mediciones tienen escala de intervalo. De
acuerdo con los criterios de elección de la prueba estadística, corresponde a la prueba
t de Student, la cual se aplicará sabiendo que las poblaciones del número de cuentas
nuevas abiertas se distribuyen como una normal y suponiendo homogeneidad de
varianzas.
Sean X1 y X2 las variables aleatorias que representan los números de cuentas nuevas
de las ejecutivas y ejecutivos respectivamente.
1) Planteamiento de hipótesis.
Hipótesis H0: Las diferencias que se observan en las nuevas cuentas abiertas por los
ejecutivos y ejecutivas de cuentas, se deben al azar. (H1: μ1 = μ2)
Hipótesis H1: Los números de cuentas nuevas abiertas por las ejecutivas de cuentas
es mayor que la de los ejecutivos. Es decir, H1: μ1 > μ2
X1 X 2
T
Sc2 Sc2
n1 n 2
Entonces,
Estadísticos de grupo
Se han asumido
,240 ,631 2,245 16 ,039 1,175
varianzas iguales
Número_cuentas
No se han asumido
2,209 14,035 ,044 1,175
varianzas iguales
Con el SPSS para la comparación de dos muestras se obtiene: P(T > 2.24525) =
0.039/2 = 0.0196. Dado que p = 0.0196 < 0.05 se debe rechazar H0 en una prueba
unilateral.
Ejercicio. El encargado de compras de una compañía tiene que escoger entre dos
marcas de maquinas A y B, para procesar cierto producto. Por cuestiones de precio el
encargado desearía comprar la marca A a no ser que haya evidencia de que la
máquina B es más veloz. Se le permitió operar los dos tipos de maquinas durante un
periodo de prueba, escogiendo al azar luego, los tiempos en segundos de 10 objetos
procesados por cada máquina:
Máquina A: 55 56 57 56 58 53 54 59 60 57
Máquina B: 50 51 42 50 40 60 53 44 48 58
Compara las medias de dos variables en un solo grupo. Con ello se da a entender que
en el primer período, las observaciones servirán de control o testigo, para conocer los
cambios que se susciten después de aplicar una variable experimental.
3.7.1. Prueba de hipótesis acerca de dos medias con muestras relacionadas con
varianzas poblacionales σ 12 y σ 22 desconocidas.
Sea (x1, y1), (x2, y2),…., (xn, yn) una muestra aleatoria de n datos aparejados, donde
las muestras correlacionadas, son seleccionadas respectivamente de dos poblaciones
normales X ~ N( μ1 , σ12 ) y Y ~ N( μ 2 , σ 22 ) . Podemos concebir estas diferencias
Di x i - yi , i = 1, 2,…, n, como una muestra aleatoria seleccionada de una población
D D D ( 1 2 )
Z N(0,1)
D n D n
D
T
ˆ D n
A partir de estos datos, ¿se cambiará el software de cómputo antiguo por el nuevo?
Use un nivel de significación del 5%.
Solución.
casos, por lo tanto, es razonable una prueba de Kolmogorov-Smirnov para ver en qué
medida se aproxima a la distribución normal.
Analizar > Pruebas no paramétricas > cuadros de diálogos antiguos > Prueba de K-S
para una muestra.
Se obtiene:
N 7 7 7
a,b
Media 13,29 11,29 2,00
Parámetros normales
Desviación típica 2,628 3,592 2,380
Absoluta ,180 ,150 ,234
Diferencias más extremas Positiva ,180 ,135 ,200
Negativa -,179 -,150 -,234
Z de Kolmogorov-Smirnov ,477 ,397 ,620
Sig. asintót. (bilateral) ,977 ,997 ,837
Puesto que la distribución del tiempo utilizado para terminar determinada tarea es
Normal, se va a utilizar la distribución t de Student, el cual es simétrica al igual que
la distribución normal, pero es más aplanada, es decir su coeficiente de curtosis o
apuntamiento es negativo.
Ahora el interés es saber si el software nuevo utiliza menos tiempo que el antiguo al
procesar determinada tarea. Por ello, se recurre a comparar medias en muestras
dependientes.
D
T t ( 6)
ˆ D n
1 ( D i ) 2 1 (14) 2
S2D i 5.667 , SD 2.3805
2
7
D 62
n 1 n 6
Entonces el estadístico de prueba, toma el valor de:
D 2
T 2.223
SD n 2.3805 / 7
Decisión. Dado que el valor de T = 2.223 > 1.943, entonces se rechaza la hipótesis
de nulidad H0. Es decir que existe evidencia suficiente para concluir que software
nuevo utiliza menos tiempo que el antiguo al procesar determinada tarea.
Inferior Superior
Software_Antiguo
2,000 2,380 ,900 -,202 4,202 2,223 6 ,068
Software_Nuevo
Como el p _valor = Sig (bilateral)/2 = 0.068 /2 = 0.034 < 0.05, se rechaza H0. Es
decir que existe evidencia suficiente para concluir que software nuevo utiliza menos
tiempo para procesar determinada tarea.
X1 X2
p̂ 1 y p̂ 2
n1 n2
pˆ 1 pˆ 2 ( p1 p 2 )
Z N (0,1).
p1 (1 p1 ) p 2 (1 p 2 )
n1 n2
pˆ 1 pˆ 2
Z N (0,1).
pc (1 pc ) pc (1 pc )
n1 n2
x 1 x 2 n 1 p̂1 n 2 p̂ 2
p̂
n1 n 2 n1 n 2
Solución.
4) Región critica: Para α = 0.05 y una prueba unilateral de cola a la derecha, la región
critica es:
R.C Z 1.645
120 120
pˆ 1 0 .4 pˆ 2 0 .3
300 400
x 1 x 2 120 120
p̂ 0.34
n 1 n 2 300 400
pˆ 1 pˆ 2 0.4 0.3
Z 2.764
pˆ (1 pˆ ) pˆ (1 pˆ ) (0.34)(0.66) (0.34)(0.66)
n1 n2 300 400
Se supone que:
1. Las k poblaciones son independientes.
2. Cada una de las poblaciones tiene distribución normal.
3. Las k varianzas son iguales a la varianza común 2 . Esta condición de
homogeneidad de la varianza se comprueba mediante el estadístico de Levene
que aparece en el programa SPSS.
Las k poblaciones juntas constituyen una población mayor cuya media µ (media total o
gran media) se define por:
k
μ i
μ i 1
Para cada i =1, 2,.., k, sea X i1, X i2 ,…, X i ni una muestra aleatoria simple de tamaño ni
escogida en la i-ésima población. Estas k muestras constituyen los subgrupos que se
supone pues son independientes. Las variables aleatorias X ij que denotan a la j-ésima
observación de la i-ésima muestra (i = 1, 2,.., k, j =1, 2,…, ni) son independientes y
tienen cada una distribución normal N (µ, 2 ).
Tratamientos
1 2 … i … k
x 11 x 21 x i1 x k1
x 12 x 22 x i2 x k2
.
.
.
x 1n i x 2 ni x i ni x k ni
Total T1. T2. … Ti . … T k. T..
ni n1 n2 ni nk n
Medias x 1. x2. … x i. … x k. x..
Las hipótesis. La hipótesis nula H 0 consiste en afirmar que las medias de las k
poblaciones (o tratamientos) son iguales. Es decir:
H 0: µ 1 = µ 2 =… = µ k
(x i j x ..) 2 (x i j x .i .) 2 (x i . x ..) 2
i 1 j1 i 1 j1 i 1 j1
SCTR / (k 1) CMTR
F se distribuye según F(k - 1, n - k)
SCE / (n k) CME
0 f (α, k -1, n - k)
Aceptar H0 Aceptar H1
La regla de decisión es: Rechazar la hipótesis nula H 0 si Fcal > f (α, k - 1, n - k). En
caso contrario no rechazar H 0.
Las sumas de cuadrados del total, de los tratamientos y del error se calculan utilizando
las siguientes equivalencias:
k ni
T..2 k ni
SCT (x ij x .. ) x 2 2
ij
i 1 j1 i 1 j1 n
k ni k Ti.2T2
SCTR ( x i . x .. ) 2
..
i 1 j1 i 1 ni n
Es práctico resumir las sumas de cuadrados, los grados de libertad, los cuadrados
medios y la F calculada en la tabla 3.8 denominada de análisis de varianza (ANVA).
algunos juegos y premios en cuatro sucursales del banco. Shade está convencido de que
diferentes tipos de premios atraerían a diferentes grupos de ingreso. Las personas de un
nivel de ingreso prefieren los regalos, mientras que los de otro grupo de ingreso pueden
sentirse más atraídas por viajes gratuitos a sitios favoritos para pasar vacaciones. Shade
decide utilizar el monto de los depósitos como una medida representativa del ingreso.
En la tabla 4.6 aparecen siete depósitos seleccionados aleatoriamente de cada sucursal,
aproximado al US$ 100 más cercano. El desea determinar si existe una diferencia en el
nivel promedio de depósitos entre las cuatro sucursales, utilizando un nivel de
significancia del 5%. Si se halla alguna diferencia, Shade ofrecerá una diversidad de
premios promocionales.
Tabla 3.9.
Depósito Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4
1 5.1 1.9 3.6 1.3
2 4.9 1.9 4.2 1.5
3 5.6 2.1 4.5 0.9
4 4.8 2.4 4.8 1.0
5 3.8 2.1 3.9 1.9
6 5.1 3.1 4.1 1.5
7 4.8 2.5 5.1 2.1
N 7 7 7 7
a,b
Media 4,871 2,286 4,314 1,457
Parámetros normales
Desviación típica ,5469 ,4259 ,5210 ,4392
Absoluta ,305 ,240 ,158 ,175
Diferencias más extremas Positiva ,195 ,240 ,158 ,175
Negativa -,305 -,183 -,110 -,129
Z de Kolmogorov-Smirnov ,807 ,635 ,419 ,464
Sig. asintót. (bilateral) ,532 ,815 ,995 ,982
,136 3 24 ,938
Según la prueba de Kolmogorov-Smirnov, los valores de p son mayores que 0.05, esto
nos indica que las cantidades de depósitos de cada sucursal provienen de poblaciones
con distribución normal. En la prueba de homogeneidad de varianzas de Levene, nos
proporciona un valor de p = 0.938 que es mayor que 0.05, indicándonos que existe
evidencia suficiente de homogeneidad de varianzas de las cantidades depositadas en
cada sucursal.
1) H 0: µ 1 = µ 2 = µ 3 = µ 4 contra
CMTR
3) Estadística de prueba. F que se distribuye según F(3, 24), donde k = 4 y
CME
n = 28.
n1 = 7 , n2 = 7 , n3 = 7 , n4 = 7 n = 28
T..2 (90.5) 2
292.5089
n 28
4 7
T2
SCT x ij2 .. 5.12 4.9 2 1.52 2.12 292.5089 353.51 292.5089 61.0011
i 1 j1 n
6. Decisión. Dado que Fcal = 78.0864 > 3.01, se rechaza H 0 y concluimos con un nivel
de 5% que hay diferencias significativas entre los depósitos promedio de las 4
sucursales.
Mediante la aplicación del Software SPSS 20:
ANOVA de un factor
Depósitos
Dado que el p-valor es 0.000 < 0.05, entonces se rechaza H 0 y podemos concluir con
un nivel de significancia 5% que si hay diferencias significativas entre los depósitos
promedio de las 4 sucursales.
Para determinar las medias que son significativamente diferentes unas de otras, existen
varios métodos entre ellos tenemos: Diferencia mínima significativa (DMS), de Tukey,
Scheffe, Bonferroni, Duncan, entre otros.
Post hoc (comparaciones múltiples post hoc: asumiendo varianzas iguales: Tukey y DMS)
Comparaciones múltiples
Variable dependiente: Depósitos
Límite Límite
inferior superior
*
Sucursal 2 2,5857 ,2598 ,000 1,869 3,302
60
50
40
depositos
30
20
10
0
Sucursal 1 Sucursal 2 Sucursal 3 Sucursal 4
sucursales
Mediante el ANOVA al nivel de significancia del 5%, pruebe la hipótesis de que los
puntajes de prueba promedio son los mismos para todos los tres programas de
capacitación.