Académique Documents
Professionnel Documents
Culture Documents
PROCESOS DE INFERENCIA
PRUEBAS NO
PARAMÉTRICAS
A. PRUEBA DE SIGNOS
B. PRUEBA DE RACHAS
C. PRUEBA DE U DE MANN-WHITNEY
D. CORRELACION DE RANGOS DE
SPEARMAN
E. PRUEBA DE KRUSKAL-WALLIS
FORMULARIO
1
Introducción……………………………………………………………………………………………...3
No paramétricos…………………………………………………………………………………………3
Prueba de signos………………………………………………………………………………………..6
Ejemplos………………………………………………………………………………………...7
Ejercicios propuestos……………………………………………………………………….14
Prueba de rachas………………………………………………………………………………………15
Ejemplos……………………………………………………………………………………….16
Ejercicios propuestos…………………………………………………………………….…23
Prueba de U de Mann-Whitney………………………………………………………………………24
Ejemplos……………………………………………………………………………………….25
Ejercicios propuestos……………………………………………………………………….33
Ejemplos……………………………………………………………………………………….34
Ejercicios propuestos…………………………………………………………………….…36
Prueba de Kruskal-Wallis…………………………………………………………………………….37
Ejemplos……………………………………………………………………………………….38
Ejercicios propuestos……………………………………………………………………….41
Formulario………………………………………………………………………………………...........43
Tabla de supuestos……………………………………………………………………………………44
Glosario………………………………………………………………………………………...............45
Bibliografía…………………………………………………………………………………………...…48
OBJETIVOS:
2
Mostrar la necesidad de los métodos no paramétricos.
Demostrar la utilidad de los métodos no paramétricos al comparar con un grupo
seleccionado con sus contrapartes clásicas.
INTRODUCCIÓN
Uno de los problemas más difíciles para el principiante y para el investigador experimentado, es
decidir cuál de las pruebas estadísticas es la más adecuada para analizar un conjunto de
datos. La aplicación de la estadística en el análisis de datos es muy amplia y las áreas en las
que se aplica son diversas, desde las ciencias exactas hasta las ciencias sociales. La selección
de la prueba estadística necesaria para el caso, depende de varios factores, en primer lugar se
debe saber cuál es la escala con la que se están midiendo los datos que se analizarán, pues no
se puede aplicar la misma prueba estadística para el caso en que la variable de interés sea el
peso de un producto que cuando lo es la profesión del usuario de un producto
Las pruebas estadísticas con las que se encuentran más familiarizados los investigadores y a
las que se dedica la mayor parte de los libros de texto, es la estadística paramétrica, las
pruebas estadísticas correspondientes a ella, se aplican principalmente a datos de tipo
cuantitativo y cada una de ellas tiene algunos supuestos; en la mayor parte de ellas uno de los
supuestos se refiere a la normalidad de la población de la cual fue extraída la muestra, si no se
cumple este supuesto, sobre todo en las pruebas en las cuales la muestra es de un tamaño
menor de 30, la conclusión a la que se llegue podría estar equivocada, en estos casos y
cuando los datos que se manejan no son cuantitativos, se podría aplicar una prueba estadística
correspondiente a la estadística no paramétrica1
Primeramente para poder entender las pruebas no paramétricas es importante recordar los
métodos clásicos o paramétricos. Tienen tres características distintivas. Primero, requieren que
un nivel de medición obtenido sobre los datos recopilados tenga forma de intervalos de escala
o escala de razones. Segundo, incluyen las pruebas de hipótesis de parámetros especificados
(como 30 o 1 0 o 0 ). Tercero, requieren premisas muy estrictas y sólo son
válidos si éstas se mantienen. Algunas de estas premisas son:
1.-Que los datos de la muestra se extraigan aleatoriamente de una población que tenga
distribución normal.
2.-Que las observaciones sean independientes entre si.
3.-En el caso de situaciones relacionadas con la tendencia central, para la cual se han extraído
dos o más muestras, que se tome de poblaciones normales cuyas varianzas sean iguales.
NO PARAMÉTRICOS
Con frecuencia el investigador en ciencias sociales o de mercado tiene que decidir qué clase
de procedimientos de prueba elegir. Si:
1.-Las mediciones obtenidas con los datos solo son cualitativas(es decir, con escala nominal) o
en rangos (es decir, con escala ordinal).
2.-No se pueden cumplir las premisas en que se basa el uso de los métodos clásicos.
3.-De hecho se requiere un estudio de características tales como aleatoriedad, tendencia,
independencia, simetría o bondad de ajuste en vez de prueba de hipótesis sobre determinados
parámetros poblacionales.
En casos como estos se han creado los métodos no paramétricos de prueba de hipótesis.
Cuando no sean aplicables los métodos clásicos de pruebas de hipótesis se puede seleccionar
un procedimiento no paramétrico apropiado.
1
http://www.uv.mx/iiesca/revista2/bety1.html
3
3.-Aquellos para los cuales los datos son de “fuerza insuficiente” para garantizar operaciones
aritméticas significativas.
VENTAJAS DESVENTAJAS
1.-Los métodos no paramétricos se pueden 1.-No conviene usar métodos no paramétricos
usa con todo tipo de datos: cuando se pueden cumplir todas las premisas
información cualitativa (de escala de los procedimientos clásicos y los datos se
nominal) miden en una escala, bien sea de intervalos o
información en forma de rangos (de de razones. A menos que se empleen
escala ordinal) procedimientos clásicos en estos casos el
información medida de modo mas investigador no estará aprovechando por
exacto (escala de intervalo o de completo los datos. Se pierde información al
razón) convertir datos recopilados (de una escala de
intervalo o de razón) a rangos (escala ordinal)
2.-Por lo general son fáciles de aplicar y o categorías (escala nominal). En particular,
rápidos de calcular con tamaños pequeños de en esas circunstancias, algunas pruebas no
muestra. En ocasiones son tan sencillos que paramétricas muy rápidas y sencillas tienen
basta contar con la frecuencia con que mucha menos potencia que los
algunas características aparecen en los procedimientos clásicos y por lo general se
datos, Por lo tanto a menudo se usan para deben evitar.
estudios piloto o preliminares y/o en
situaciones en que se desean respuestas 2.-Según aumenta el tamaño de la muestra,
rápidas. en ocasiones el manejo requerido de datos
para los procedimientos no paramétricos se
3.-Hacen menos premisas menos estrictas hacen laboriosos a menos que se disponga
(mas fáciles de cumplir) que los de un paquete de computación apropiado.
procedimientos clásicos, por lo tanto gozan
de mayor aplicabilidad y proporcionan un 3.-Con frecuencia se necesitan tablas
conjunto de conclusiones mas generales, de especiales de valores críticos y estas no se
base mas amplia. obtienen con tanta facilidad como las tablas
de los valores normales, t, X² y F.
4.-Permiten solucionar problemas que no
implican pruebas de parámetros de población.
Ahora bien después de haber hecho un breve repaso sobre la importancia de la muestras
paramétricas y conocer su diferencia con la muestras no paramétricas pasaremos a su
utilización. Las pruebas más utilizadas para las pruebas no paramétricas son:
A. PRUEBA DE SIGNOS
B. PRUEBA DE RACHAS
C. PRUEBA DE U DE MANN-WHITNEY
4
D. CORRELACION DE RANGOS DE SPEARMAN
E. PRUEBA DE KRUSKAL-WALLIS
COMPARACIÓN DE LAS PRUEBAS PARAMÉTRICAS Y NO PARAMÉTRICAS.2
A. PRUEBA DE SIGNOS
INICIO
REGRESAR
2
WEBSTER, Allen L. Estadística aplicada a los negocios y la economía. Ed. McGraw-Hill. Colombia
2000. ed. 3era, pag. 499
5
Se cree que esta prueba es la más antigua dentro de la estadística no paramétrica, pues se
reporta en la literatura desde 1710 por Arbuthnott. 3
Esta prueba es la más usada con frecuencia para contrastar la hipótesis comparando dos
distribuciones poblacionales, y por lo general implica el uso de pares correspondientes. Se
supone que se tienen datos antes y después para una muestra y se desean comparar estos
conjuntos de datos correspondientes. Se hace restando las observaciones por pares en un
conjunto de datos de las del segundo, y se nota el signo algebraico que resulta. No se tiene
interés en la magnitud de la diferencia, sino sólo en si resulta un signo más o un signo menos.
Ésta se aplica cuando se muestrea una población simétrica continua de tal manera que la
probabilidad de que un valor sea mayor que la media o menor que la media es de un medio.
Para esta prueba se utiliza la distribución binomial.
El contraste de signos puede ser utilizado para contrastar la hipótesis nula de que la mediana
de una población es 0. Supongamos que tomamos una muestra aleatoria de una población, y
eliminamos aquellas observaciones iguales a 0, quedando en total n observaciones. La
hipótesis nula a contrastar será que la proporción p de observaciones positivas en la población
es de 0.5, es decir:
H 0 : p 0.5
En este caso, el contraste está basado en el hecho de que el número de observaciones
positivas en la muestra tienen una distribución binomial (con p 0.5 bajo la hipótesis nula).
La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto es cierto,
entonces un signo más y un signo menos son igualmente probables. La probabilidad de que
ocurra cualquiera es de 0.5. Una prueba de dos colas es:
H0 : m p
Ha : m p
En donde m y p son los números de signos menos y de signos más, respectivamente. Una
prueba de una sola cola es:
H0 : m p
Ha : m p
O
H0 : m p
Ha : m p
Debido a que existen dos posibles resultados, un signo menos y un signo más, y a la
probabilidad de que cada uno siga constante ensayo tras ensayo, se puede utilizar la
distribución binomial.
3
CASTILLO, Alberto; OJEDA, Mario Miguel., Principios de estadística no paramétrica, Xalapa:
Universidad Veracruzana, 1994, p.19.
6
k 0.5 0.5n
El valor Z es: Z
0 .5 n
En donde k es el número apropiado de signos más o menos y n es el tamaño de la muestra. Si
n n
k , se utiliza k 0.5 . Si k , se utiliza k 0.5 ; es necesario ajustar k en 0.5 porque
2 2
la distribución binomial representa datos discretos, mientras que la distribución normal se aplica
a datos continuos.
EJEMPLOS:
1.- Se supone que usted está trabajando como analista de mercado y desea medir la
efectividad de un juego promocional del producto de su empresa. Antes del juego
promocional, usted selecciona 12 tiendas minoristas y registra las ventas del mes,
redondeando o aproximando al US$100 más próximo. Durante el segundo mes, el juego
promocional se complementa y se registran de nuevo las ventas, y se desea probar la
hipótesis de que la promoción incrementó las ventas al nivel del 5%. En la siguiente
tabla se muestra lo que se obtuvo del análisis.
H0 : m p
Ha : m p
7
4.- Posteriormente se saca en minitab el p-value tomando en cuenta que se trata de una
distribución normal:
Y obtenemos:
x P( X <= x )
4 0.376953
8
Y se obtiene lo siguiente:
0.7539/2= 0.37695
2.- Los siguientes datos muestran los índices de trabajo defectuoso de los empleados
antes y después de un cambio en el plan de incentivos de sueldos. Compare los
siguientes dos conjuntos de datos para ver si el cambio disminuyó las unidades
defectuosas producidas. Utilice un nivel de significancia de 10%.
Antes 8 7 6 9 7 10 8 6 5 8 10 8
Después 6 5 8 6 9 8 10 7 5 6 9 5
H0 : m p
Ha : m p
9
4.- Posteriormente se saca en minitab el p-value tomando en cuenta que se trata de una
distribución normal:
Se utiliza 4
pues es la
cantidad de
números
negativos
que
obtuvimos
de la resta y
el problema
habla de
Y obtenemos: disminución.
x P( X <= x )
4 0.274414
10
Y se obtiene lo siguiente:
0.5488/2=0.2744
3.- Para determinar la efectividad de un nuevo sistema de control del tránsito, se observó
el número de accidentes que ocurrieron en una muestra tomada al azar de ocho cruceros
peligrosos durante las cuatro semanas anteriores y las cuatro posteriores a la
instalación del nuevo sistema, con los siguientes resultados:
Antes 9 7 3 16 12 12 5 6
Después 5 3 4 11 7 5 5 1
Utilice un nivel de significancia de =0.10 para probar la hipótesis nula de que el nuevo
sistema de control de tránsito es tan efectivo como el anterior contra la hipótesis
alternativa de que el nuevo sistema es más efectivo.
11
En Excel se presenta como sigue:
4.- Posteriormente se saca en minitab el p-value tomando en cuenta que se trata de una
distribución normal:
Y obtenemos:
x P( X <= x )
1 0.0625
12
Y se obtiene lo siguiente:
0.1250/2=0.0625
EJERCICIOS PROPUESTOS:
1.- Se desea probar la resistencia del uso de dos tipos de llantas (Euzkadi y Michellín). Se
seleccionan 10 automóviles de manera aleatoria. Después de ser manejados los automóviles
13
un kilometraje establecido y bajo las mismas condiciones, se observa que las llantas produjeron
un desgaste de entre 0 y 50 cada llanta. Una calificación más alta indica una mejor llanta, se
desea probar la hipótesis de que no hay diferencia en las clasificaciones de desgaste a un nivel
de significancia del 8%. Y los resultados obtenidos se presentan el la siguiente tabla.
CLASIFICACIÓN DE DESGASTE
Llanta Euzkadi Michellín
1 30 30
2 20 28
3 21 19
4 34 40
5 25 39
6 41 26
7 23 28
8 18 18
9 30 29
10 39 43
2.- Use la prueba de signo para ver si hay diferencia entre el número de días que una empresa
tarda en pagar a sus proveedores y en cobrar a sus clientes, antes y después de nueva
reestructuración de cobros. Utiliza un nivel de significancia de 5%. Los resultados se muestran
a continuación:
Antes 33 28 31 29 46 41 42 33 36 37 40 28 34 34 30
Después 35 48 36 34 29 36 40 49 36 38 30 34 33 37 31
INICIO
B. PRUEBA DE RACHAS
INICIO
REGRESAR
14
Muchos métodos de tipo inferencial, se basan en el supuesto de que se manejan muestras
aleatorias. Cuando se tiene una aplicación en la que es difícil saber si esta suposición se
justifica o cuando no es posible seleccionar una muestra aleatoria por contar solamente con
cierta información; se tienen dentro de las técnicas no paramétricas varios métodos que hacen
posible juzgar la aleatoriedad sobre la base del orden o secuencia en el que se realizan las
observaciones o en el que los puntajes u observaciones fueron obtenidos originalmente. Lo que
se analiza es si aparecen patrones de los que se sospeche no sean aleatorios.
En las variables de tipo nominal, una corrida es una sucesión de letras u otro símbolo idénticos
que van seguidos o precedidos de otra letra, símbolo, diversas letras o de ninguna, si se
encuentra en el inicio o al final de una sucesión. Por ejemplo, cuando se lanza una moneda
diez veces y si representamos por A el águila y con S el sol, se puede presentar la siguiente
sucesión de resultados:
A SS AAA S AA S
1 2 3 4 5 6
Aquí se presentan seis corridas o rachas. Esta prueba puede aplicarse a variables de tipo
cualitativo y cuantitativo, en el segundo caso, se utiliza la mediana como medida de referencia
y a los valores que caigan arriba de ella se les asigna un signo positivo (+) o una letra como por
ejemplo la A y a los que caigan abajo de ella, se les asigna el signo negativo (-) o una letra
distinta, como por ejemplo la B y a partir de los signos o letras asignados, se identifican las
rachas o corridas.
En estos casos, el número de corridas que se tiene es una buena indicación de una posible
falta de aleatoriedad, que se presentaría con pocas o demasiadas corridas. Aquí se prueba
aleatoriedad en el proceso de generación de una serie de observaciones de una variable
aleatoria que sólo toma dos valores y la probabilidad de cada uno de ellos es 0.5, por lo cual la
prueba se basa en una distribución binomial con probabilidad igual a 0.5. Se tiene una tabla
realizada a partir de la distribución mencionada, mediante la que se hace la prueba de
aleatoriedad de rachas en la que se encuentran los valores críticos del número de rachas
tomando en cuenta el número de elementos de una clase (n 1) y el número de elementos de la
otra clase (n2). Cuando n1 y n2 son mayores que 20, la distribución muestral se puede
determinar en forma muy aproximada con una distribución de probabilidad normal.
2(n1 n 2 )
R 1 Media
n1 n 2
2n1 n2 ( 2n1 n 2 n1 n2 )
R Desviación estándar
(n1 n2 ) 2 (n1 n2 1)
R R
R Desviación normal
R
EJEMPLOS:
15
1.- Una empresa investigadora de mercadeo desarrolló un modelo para predecir las
ventas mensuales de un nuevo producto. Después de 17 meses, se calcularon los
errores y se probó que se tenían los siguientes signos:
+ + + + + + - - - - - + + + + - -
1 2 3 4
Al nivel de significancia del 5%, ¿parece haber aleatoriedad en los términos de error?
2(10 * 7)
R 1 9.2353 Media
10 7
2(10 * 7)(2(10 * 7) 10 7)
R 1.929779377 Desviación estándar
(10 7) 2 (10 7 1)
4 9.2353
R 2.712900792 Desviación normal
1.929779377
P( X <= x ) x
0.5 -1.64485
16
Y obtenemos:
x P( X <= x )
-2.71290 0.0033349
Y se obtiene lo siguiente:
17
Runs Test: C1
La P es dividida por 2
.007/2=.0035
Sucesión NNNNNNDNNNNNNNNDNNDNNNNNNNNNNNNNNDDNNNNNNNNNNNNNDN
Corridas 1 2 3 4 5 6 7 8 9 10 11
2(44 * 6)
R 1 11 .56 Media
44 6
2(44 * 6)(2(44 * 6) 44 6)
R 1.435366696 Desviación estándar
(44 6) 2 (44 6 1)
11 11 .56
R 0.390144206 Desviación normal
1.435366696
18
Por lo que obtenemos de Z calculada:
P( X <= x ) x
0.6 -1.64485
Obteniendo:
x P( X <= x )
-0.390144 0.348215
19
Para resolverlo en minitab:
1. Se asigna un número a cada letra, en este caso podemos asignar N=3 y D =5
2. Se agregan los datos al minitab
3. Se elige Stat – Nonparametrics – Runs Test
Se elabora como se muestra a continuación:
Y se obtiene lo siguiente:
Runs Test: C1
La P es dividida por 2
0.696/2=0.348
20
2(9 * 8)
R 1 9.470588235 Media
98
2(9 * 8)(2(9 * 8) 9 8)
R 1.98872253 Desviación estándar
(9 8) 2 (9 8 1)
9 9.470588235
R 0.236628402 Desviación normal
1.98872253
P( X <= x ) x
0.7 -1.64485
21
Y obtenemos:
x P( X <= x )
-0.236628 0.406473
22
Y se obtiene lo siguiente:
Runs Test: C3
La P es dividida por 2
0.813/2=0.4065
EJERCICIOS PROPUESTOS:
1.- Un fabricante de pan usa una máquina para introducir aleatoriamente uno de sus dos tipos
de muñecos de Mickey en cada paquete de pan. El fabricante desea aleatoriedad de tal
manera que cada niño en una misma calle no obtenga el mismo muñeco. Se sacan pruebas de
20 paquetes de pan para probar si la máquina está depositando aleatoriamente los muñecos.
Se representa como M el primer modelo de muñeco y como N el segundo modelo de muñeco.
Se obtuvieron los siguientes resultados:
M M N N N N N M M M M M M N M M M N N M
2.- A continuación se muestra el orden en que los clientes pagaron a una cajera sus compras
en Wall Mart, se muestra con una E las compras en efectivo y con C, las compras a crédito.
Pruebe la aleatoriedad con un nivel de significancia de 5%
CCCEEEEEECEEECCCCEECCCECCCCCCEEECCEEEEEE
INICIO
23
C. PRUEBA DE U DE MANN-WHITNEY
INICIO
REGRESAR
Cuando se quieren comparar las ubicaciones relativas de dos poblaciones o cuando se quiere
determinar si pertenecen a una misma población, dando por hecho que se trabaja con
muestras aleatorias independientes, se utiliza esta prueba propuesta por Mann y Whitney en
1947.4
Ésta es una alternativa a la prueba t de Student de dos muestras para medias. Se puede
recurrir a esta prueba no paramétrica cuando el supuesto de normalidad no se cumple o el
relativo a la igualdad de varianzas poblacionales.
El procedimiento que se sigue en esta prueba, consiste en unir las dos muestras y
posteriormente ordenar sus valores que toman independientemente de la muestra a que
pertenecen para que después se les asignen los rangos a la muestra conjunta. Luego se
calcularán para cada muestra, la suma de los rangos que le correspondan y estas sumas se
utilizan para obtener la estadística de prueba.
Para realizar esta prueba, usando sus rangos correspondientes, se puede utilizar la distribución
binomial cuando las muestras son pequeñas, o también se puede utilizar una tabla que ha sido
elaborada especialmente para esta prueba, llamada tabla U; la cual fue hecha basándose en la
distribución binomial. Cuando los tamaños de muestra son de 10 o mayores, se puede utilizar
la distribución normal estándar. Los supuestos en los que se basa, son: que cada una de las
muestras haya sido obtenida de una distribución aleatoria continua, que las muestras sean
independientes y que la escala de medición empleada sea por lo menos la ordinal.
Los datos están ordenados o clasificados del más bajo al más alto. No existe esfuerzo alguno
en hacer pares, al igual que como se ha hecho cuando se han tomado dos muestras.
24
La distribución del estadístico U puede normalizarse mediante la fórmula del valor Z para
normalizar la prueba de U de Mann-Whitney donde U i es el valor de U apropiado, entre U 1 o
U 2 dependiendo de la naturaleza de la prueba. Permite determinar cual valor de U es
apropiado:
U1 u
Z
u
EJEMPLOS:
Método 1 27 31 28 29 39 40 35 33 32 36 37 43
Método 2 34 24 38 28 30 34 37 42 41 44
25
Y se obtiene lo siguiente:
N Median
Método 1 12 34.000
Método 2 10 35.500
La P es dividida por 2
0.6206/2=0.313
2.- Supóngase que se desea comparar las duraciones medias de dos tipos de baterías de
9 voltios sobre la base de las siguientes duraciones (en horas):
Marca 6.9 11.2 14.0 13.2 9.1 13.9 16.1 9.3 2.4 6.4 18.0 11.5
A
Marca 15.5 11.1 16.0 15.8 18.2 13.7 18.3 9.0 17.2 17.8 13.0 15.1
B
26
6. Se reordenan las columnas con respecto a la primera columna de números y quedan
ordenadas nuevamente por colores
7. Se separan por colores y se suma cada color por rangos y serán R1 y R 2
8. Se suman las cantidades de datos de uno y de otro y obtengo n1 y n 2
12(12 1)
U 1 12 * 12 113 109
2
12 * 12
u 72
2
12 * 12(12 12 1)
u 17.32050808
12
109 72
Z 2.136195996
17.32050808
27
Y obtengo:
P( X <= x ) x
0.05 -1.64485 Z teórica
1-k1=k2
Data Display
K1 0.983668
K2 0.0163317
28
2. Se elige Stat – Nonparametrics – Mann-Whitney
Se elabora como se muestra a continuación:
Y se obtiene lo siguiente:
N Median
Marca A 12 11.350
Marca B 12 15.650
0.0351/2=0.01755
3.- Las siguientes son las ganancias de peso (en libras) de dos muestras seleccionadas
al azar de pavos jóvenes alimentados con dos dietas diferentes pero mantenidos en
condiciones idénticas.
Dieta 16.3 10.1 10.7 13.5 14.9 11.8 14.3 10.2 12.0 14.7 23.6 15.1 14.5 18.4 13.2 14.0
1
Dieta 21.3 23.8 15.4 19.6 12.0 13.9 18.8 19.2 15.3 20.1 14.8 18.9 20.7 21.1 15.8 16.2
2
Utilice la prueba U de muestra grande con un nivel de significancia de 0.01 para probar la
hipótesis nula de que las dos poblaciones muestrales tienen distribuciones idénticas
contra la hipótesis alternativa de que, en promedio, la segunda dieta produce una mayor
ganancia de peso.
29
3. Se seleccionan las dos nuevas columnas y se acomodan de menor a mayor en
4. Se vuelven a enumerar en la columna de la derecha
5. Se observan los números y a los que sean iguales se les pone un rango promedio
16(16 1)
U 1 16 * 16 181.5 50.5
2
16 *16
u 128
2
30
16 *16(16 16 1)
u 26.53299832
12
50.5 128
Z 2.920891151
26.53299832
Y obtengo:
P( X <= x ) x
0.05 -1.64485 Z teórica
31
Cumulative Distribution Function
x P( X <= x )
-2.92089 0.0017452
Y se obtiene lo siguiente:
N Median
Dieta 1 16 14.150
Dieta 2 16 18.850
0.0020/2=0.0010
32
EJERCICIOS PROPUESTOS:
1.- Dos pliegues publicitarios se utilizan para ayudar las ventas de un producto. La primera
termina en ventas diarias de 110, 117, 82, 95, 123, 79, 92, 102, 108 y 113. El segundo
despliegue produjo ventas de 111, 85, 97, 117, 111, 89, 118, 121 y 109. A un nivel se
significancia de 5% demuestre que las medias son iguales.
2.- Suponga que el director de una escuela preparatoria quiere evaluar a los profesores que
fueron asignados a 4 cursos diferentes de capacitación, se asignaron los cuatro cursos de
manera aleatoria a 26 profesores de distintas materias, la distribución aleatoria se hizo de tal
manera que hubiera 6 profesores en los cursos A y B, y 7 profesores en los cursos C y D. Al
finalizar el mes de capacitación se hizo un examen a los 26 profesores seleccionados y los
resultados se muestran en la siguiente tabla:
A B C D
55 59 89 80
87 84 63 71
90 69 67 59
62 79 80 68
59 88 87 72
71 95 59 88
73 67
Probar si las medianas de los resultados de los cuatro cursos son iguales; como alternativa se
supone que por lo menos dos de los grupos tienen medianas diferentes.
INICIO
33
D. CORRELACIÓN DE RANGOS DE SPEARMAN
INICIO
REGRESAR
Cuando se tienen observaciones formadas por una pareja de valores a partir de dos variables,
surge la pregunta o necesidad de conocer acerca de si las variables estarán o no relacionadas
y qué tan fuerte es esa relación. Para saber esto, generalmente se piensa en obtener un
coeficiente de correlación que nos indique el grado de relación lineal entre las variables, pero
debe tenerse cuidado de no interpretarlo como una medida de la relación causal entre las
variables y también tomar en cuenta que si la relación no es lineal, la correlación no detecta la
relación existente entre las variables.
Además de este coeficiente que nos permite medir la asociación entre dos variables, hay otras
medidas de asociación para aquéllos casos en los que la escala con la que se miden las
variables es de tipo nominal. Las fórmulas que más comúnmente utilizaremos son:
6 d i2
rs 1 Coeficiente de correlación
n(n 2 1)
Z rs n 1 Desviación normal
EJEMPLOS:
Juan 4 4
Margarita 3 3
34
Deborah 1 1
Esteban 2 2
Lisa 5 5
6 d i2 6(0) 0
rs 1 1 1 1
n(n 2 1) 5(5 2 1) 120
Lo que significa que existe una correlación perfecta o asociación perfecta entre las dos
variables. Esto verifica que el hecho de los rangos universitarios de la compañía para cada
persona fueran idénticos.
Ramón 5 1
David 1 5
Julia 3 3
Román 2 4
Tania 4 2
35
6 d i2 6(40) 240
rs 1 1 1 1 2 1
n(n 2 1) 5(5 2 1) 120
Lo que significa que existe una correlación perfecta pero inversa o asociación perfecta inversa
entre las dos variables.
3.- A una consulta financiera se le pide evaluar las cantidades de inversión de ocho
acciones. Ella utiliza las tasas de dividendo de la acción, tal como informó en The Wall
Street Journal, y un potencial del índice para el potencial de crecimiento asignado a cada
acción por una empresa inversionista de Nueva York. Los datos que se presentan aquí
se utilizan para determinar si puede existir una relación entre dividendos y potencial de
crecimiento:
1 4.20 7 40 6
2 8.12 2 20 8
3 7.20 5 60 4
4 3.20 8 35 7
5 8.00 3 85 1
6 12.73 1 70 2
7 7.90 4 60 5
8 6.20 6 65 3
6 d i2 6(54) 324
rs 1 1 1 0.3571
n(n 1)
2
8(8 1)
2
504
36
Existe un poco relación entre las variables pues el número es muy alejado a 1 y -1, lo que
significa que es mínima la relación entre dividendos y potencial de crecimiento.
EJERCICIOS PROPUESTOS:
x 30 17 35 28 39 19 41 37 28 36
y 24 29 35 19 28 37 29 24 15 39
2.- El gerente general de una compañía clasificó una muestra de 8 trabajadores según la
antigüedad en el empleo y su desempeño, ¿es significativa la correlación de rangos a un nivel
de 7%?
INICIO
E. PRUEBA DE KRUSKAL-WALLIS
INICIO
REGRESAR
También se conoce esta prueba como prueba H de Kruskal-Wallis para diseños completamente
aleatorizados.
Cuando se tiene interés o necesidad de probar una hipótesis nula en la que se afirma que k
tratamientos son iguales o que k muestras aleatorias independientes provienen de poblaciones
idénticas, siendo k > 2, la prueba estadística que se realizaría dentro de la estadística
paramétrica sería el análisis de varianza de un sentido y para la prueba se utilizaría la
distribución F; sin embargo, cuando la escala es ordinal o se desconfía del supuesto de que las
muestras provienen de poblaciones con forma de distribución normal, se puede utilizar esta
prueba para muestras independientes. La hipótesis alternativa sería que al menos dos
poblaciones tienen una distribución diferente.
Esta prueba solamente se puede usar cuando el tamaño de cada muestra sea mayor o igual a
cinco. Se puede afirmar que el procedimiento que se realiza en esta prueba es una extensión
del utilizado en la prueba U de Mann-Withney. Para proceder a realizar esta prueba, se utiliza la
distribución ji cuadrada con (k-1) grados de libertad, siendo k el número de muestras con las
que se trabaja.
37
La hipótesis nula establece que no hay diferencia en la distribución de k poblaciones bajo
comparación. Las hipótesis entonces son:
H 0 : Todas las k poblaciones tienen la misma distribución.
H a : No todas las k poblaciones tienen la misma distribución.
Prueba de Kruskal-Wallis:
12 R i2
H 3(N 1)
N (N 1) n i
En donde ni es el número de observaciones en la i -ésima muestra.
n es el número total de observaciones de todas las muestras.
Ri es la suma de los rangos de la i -ésima muestra.
EJEMPLOS:
1.- Supongamos que usted es el nuevo gerente de cuentas de Pox Skin Ointment y debe
comparar el tiempo que les toma a los clientes pagar los envíos de No-Flaw-Face Cream,
un nuevo producto ofrecido por Pox. Se seleccionan aleatoriamente varias compras de
cada cliente, junto con el número de días que cada uno se tomó en liquidar su cuenta.
Los resultados aparecen en la siguiente tabla. El número de observaciones en todas las
muestras no tienen que ser iguales.
cliente
Compra 1 2 3
1 28 26 37
2 19 20 28
3 13 11 26
4 28 14 35
5 19 22 31
6 22 21
7 21
38
3.- Stat-Nonparametrics-Kruskall-Wallis y se hace lo siguiente:
Y se obtiene:
Kruskal-Wallis Test on C5
H = 8.46 DF = 2 P = 0.015
H = 8.53 DF = 2 P = 0.014 (adjusted for ties)
Se rechaza la hipótesis nula de que no hay diferencia en el tiempo que toma a tres
clientes cancelar sus cuentas en Pox.
39
2.- Se muestran las calificaciones de una muestra de 20 pilotos estudiantes en su
examen escrito de la Agencia Federal de Aviación (AFA), dispuestas según el método
que se empleó en su entrenamiento: videocasete, audiocasete o entrenamiento en salón.
La AFA está interesada en evaluar la efectividad de estos tres métodos de
entrenamiento. Específicamente desea probar un nivel de significancia de 0.10 la
hipótesis de que las calificaciones medias del examen escrito de los pilotos estudiantes
entrenados por estos tres métodos son iguales.
Videocasete 74 88 82 93 55 70
Audiocasete 78 80 65 57 89
Salón 68 83 50 91 84 77 94 84 92
40
Y se obtiene:
Kruskal-Wallis Test on C4
H = 1.25 DF = 2 P = 0.535
H = 1.25 DF = 2 P = 0.535 (adjusted for ties)
Se acepta la hipótesis nula de que no hay diferencia en los resultados obtenidos al usar
los tres métodos de entrenamiento.
PROBLEMAS SUGERIDOS
1.- En la siguiente tabla se muestran los precios al mayoreo de tres marcas de tenis. Determine
si existe alguna diferencia entre los precios al mayoreo de las marcas. Utilice un nivel de
significancia de 0.01.
A 80 79 69 80 71 74 85 86 97 84 66
B 58 78 67 87 84 68 60 70 84
C 80 88 86 87 97 84 86
2.- Se sabe que una editorial atiende sus pedidos por teléfono, y se tienen los siguientes datos
de las ventas semanales. Pruebe la hipótesis de que no existe diferencia en la cantidad de
pesos recibidos por pagos con tarjeta de crédito, en efectivo y tarjeta de débito. Utilice un nivel
de significancia de 0.05.
TC 80 89 78 90 95 100 78
E 88 87 94 68 78 89 78 67
TD 79 90 87 84 68 78
41
INICIO
PREGUNTAS FRECUENTES
42
Se utiliza para comparar frecuencias observadas con las frecuencias esperadas si
la hipótesis nula es correcta.
FORMULARIO
INICIO
43
R R Desviación normal para la
R distribución de rachas.
R
El estadístico U de Mann-
n1 (n1 1) Whitney para la prueba de
U 1 n1 n2 R1 igualdad de dos
2 poblaciones.
n1 n2 Media de la distribución
u muestral del estadístico U
PRUEBA DE U DE MANN- 2 de Mann-Whitney.
WHITNEY Desviación estándar del
n1 n 2 (n1 n 2 1)
u estadística U de Mann-
12 Whitney.
U u Normalización del
Z 1 estadístico U de Mann-
u Whitney
Pruebas del coeficiente de
6 d i2 correlación de rangos de
rs 1 Spearman para toda
n(n 2 1) relación entre variables
CORRELACION DE clasificadas por rangos.
RANGOS DE SPEARMAN Desviación normal de la
Z rs n 1 prueba de rangos de
Spearman con muestras
grandes.
La prueba de Kruskal-Wallis
12 Ri2
K 3(n 1) se utiliza para comparar tres
n(n 1) ni o más poblaciones.
PRUEBA DE KRUSKAL- Determina el valor crítico en
WALLIS n( n 1) 1 1
Ck x2 ,k 1 una prueba de Kruskal-
12 ni n j Wallis para las
comparaciones por pares.
TABLA DE SUPUESTOS
44
GLOSARIO
INICIO
Correlación de rangos de Spearman: Medida de la relación entre dos variables que han sido
clasificadas originalmente de más bajo a más alto (o de más alto a más bajo).
REGRESAR
45
Distribución de probabilidad: Es una lista de todos los resultados posibles de algún
experimento y de la probabilidad relacionada con cada resultado.
Distribución uniforme: En una distribución uniforme las probabilidades son las mismas para
todos los posibles resultados.
Error tipo l: Rechazar una hipótesis verdadera. La probabilidad de cometer un error tipo l es
igual al nivel de significancia, o valor en el que se prueba la hipótesis.
Estadístico: Elemento que describe una muestra y sirve como una estimación del parámetro
de la población correspondiente.
Homoscedasticidad: Las varianzas en los valores Y son las mismas en todos los valores de
X.
La razón F: Cuando las medias poblacionales son diferentes, el efecto del tratamiento está
presente y las desviaciones entre las muestras serán grandes comparadas con la desviación
del error dentro de una muestra. Por tanto, el valor F aumentará, lo cual es una razón de la
variación del tratamiento y de la variación del error.
Media aritmética: La medida de la tendencia central que normalmente era considerada como
el promedio.
Mediana: La observación de la mitad después de que se han colocado los datos en una serie
ordenada.
Muestra: Es una parte representativa de la población que se selecciona para ser estudiada ya
que la población es demasiado grande como para analizarla en su totalidad.
46
REGRESAR
Prueba del signo: Prueba diseñada para probar la hipótesis que compara las distribuciones de
dos poblaciones.
REGRESAR
Prueba de Kruskal-Wallis: Es una prueba que comprar tres o más poblaciones para
determinar si existe una diferencia en la distribución de las poblaciones. Es análoga de la
prueba F utilizada en las pruebas ANOVA.
REGRESAR
Teorema del límite central: A medida que n se vuelve más grande, la distribución de las
medias muestrales se aproximará a una distribución normal con una media X y un error
estándar de X .
n
Valor alfa: Es la probabilidad de error o la probabilidad de que un intervalo dado no contenga la
media poblacional desconocida.
Valor de Z: Es el número de desviaciones estándar a las que una observación está por encima
o por debajo de la media.
Valor esperado: El valor esperado de una variable aleatoria discreta es la media ponderada de
todos los posibles resultados en los cuales los pesos son las probabilidades respectivas de
tales resultados.
Valor p: Es el nivel más bajo de significancia (valor ) al cual se puede rechazar la hipótesis
nula. Es el área en la cola que está más allá del valor del estadístico para la muestra.
INICIO
47
BIBILIOGRAFÍA
INICIO
WEBSTER, Allen L.
Estadística aplicada a los negocios y la economía
Ed. McGraw-Hill
Colombia, 2000
ed. 3era.
48
NEWBOLD, Paul
Estadística para los negocios y la economía
Ed. Prentice Hall
México, 1998
ed. 4ta.
http://www.uv.mx/iiesca/revista2/bety1.html
http://www.graphpad.com/articles/interpret/ANOVA/kruskal_wallis.htm
http://www.wku.edu/~neal/statistics/kruskal.html
http://www.telefonica.net/web2/biomates/nopa/nopa.htm
http://www.seh-lelha.org/noparame.htm
http://www.uco.es/organiza/centros/medicina/Descargas/programas_cursos/2_curso/bioestadisti
ca_medica.pdf
http://www.ilustrados.com/publicaciones/EpyAVkuZVkTBkoEjEU.php
49