Vous êtes sur la page 1sur 20

Capítulo 2

ESTADÍSTICA NO PARAMÉTRICA

1. Introducción

Los procedimientos de inferencia presentados en cursos previos trataron la estimación y


prueba de hipótesis referidas a los parámetros de las poblaciones en estudio. Estas pruebas
llamadas paramétricas utilizan los estadísticos calculados con los datos de las muestras
provenientes de esas poblaciones. Sin embargo, la formulación de estas pruebas requiere
suposiciones restrictivas tales como:
 Muestras provenientes de poblaciones con distribución normal
 Variancias conocidas
 Muestras independientes
 Muestras grandes para garantizar normalidad por el Teorema central del límite
La estadística no paramétrica proporciona técnicas y pruebas alternativas las cuales no hacen
suposiciones restrictivas sobre la forma de la distribución de la población. Estas pruebas
alternativas son denominadas más comúnmente, pruebas de distribución libre.
Las pruebas no paramétricas disponibles son muchas, en el curso abordaremos las mejor
conocidas y de mayor uso como son:
1. Para una muestra: Prueba del signo y de rangos de Wilcoxon
2. Para muestras pareadas: Prueba del signo y de rangos de Wilcoxon
3. Para dos muestras independientes: Prueba de rangos de Mann-Withney
4. Prueba de rachas (corridas) aleatorias con una muestra
5. Coeficiente de correlación no paramétrico o de rangos de Spearman
6. Análisis no paramétrico de regresión
Una prueba no paramétrica se aplica cuando no es posible aceptar las suposiciones de la
estadística paramétrica, principalmente la de la distribución normal (u otra distribución
especificada) de los datos muestrales y cuando éstos tienen una escala de medición inferior que
no permite realizar operaciones aritméticas. Para comprender completamente esta última
afirmación es necesario entender el significado de medición y de las diversas escalas de
medición que se utilizan.

2. Medición
Se define a la medición como la asignación de números a objetos o eventos de acuerdo con
un conjunto de reglas. Las diversas escalas de medición son consecuencia del hecho de que la
medición puede llevarse a cabo según diferentes conjuntos de reglas. En orden de menos a más,
por su nivel, las escalas que se utilizan son:

DEI - BIOESTADÍSTICA LUZ BULLÓN 1


1. NOMINAL. Escala de medición más débil, baja. Consiste en categorías a las que se asigna
como su nombre lo indica, un nombre sin que exista ningún orden implícito entre ellas. Las
observaciones se nombran o clasifican en estas categorías mutuamente excluyentes y
colectivamente exclusivas.
2. ORDINAL. Escala de medición de siguiente nivel. Consiste en categorías ordenadas y el
número de éstas debe ser mínimo tres. Entre observaciones clasificadas en esta escala se
establece una relación de orden o jerarquía, pero las diferencias entre categorías pueden no
ser iguales.
3. INTERVÁLICA. Siguiente escala de medición. Con esta escala no sólo es posible ordenar
las mediciones sino que se conoce la también la distancia entre dos mediciones cualesquiera.
La capacidad para hacer esto último implica establecer distancias unitarias iguales entre sus
categorías y un punto cero pero éstos son arbitrarios. A diferencia de las dos anteriores es una
escala realmente cuantitativa, donde de hecho puede determinarse la igualdad de los
intervalos. Cuando se logran satisfacer las suposiciones del modelo, pueden utilizarse los
procedimientos usuales de estadísticas parámetricas.
4. PROPORCIONAL O DE RAZÓN. Escala de más alto nivel, completa. Puede determinarse
la igualdad de las razones además de la de los intervalos. Para esta escala es fundamental un
punto cero significativo y puede utilizarse cualquier operación aritmética así como cualquier
procedimiento estadístico siempre que se cumplan las suposiciones específicas del modelo
que se utiliza.

Una prueba útil (no significa que sea la mejor) para datos en escala nominal, también lo
es para datos en escalas superiores. Por lo contrario, una prueba que es útil para datos en
escala de intervalo es inaplicable para datos de escala inferior.

VENTAJAS DE LOS MÉTODOS NO PARAMÉTRICOS


1. No requieren hacer la suposición de que la población está distribuida normalmente o tiene
otra forma específica.
2. En general, son más fáciles de comprender y aplicar
3. Requieren supuestos muy generales acerca de la población
4. La escala de medición puede ser de las inferiores

DESVENTAJAS DE LOS MÉTODOS NO PARAMÉTRICOS


1. Desperdician información al utilizar signos o rangos en lugar de los valores de las variables
2. No recomendables cuando una buena alternativa sea un método paramétrico, desde que a
menudo no son tan eficientes o "exactas" como éstas.

Cuando se recurre a pruebas no paramétricas se hace un compromiso: perder eficiencia en la


estimación de intervalos, pero adquirir la habilidad de utilizar menos información.

DEI - BIOESTADÍSTICA LUZ BULLÓN 2


3. RANGOS
Muchas pruebas no paramétricas usan los rangos en lugar de los datos, luego un RANGO es un
número asignado a una observación teniendo en consideración su importancia relativa (o
jerarquía) respecto a los demás datos.

EJEMPLO 1: Los datos 14.5, 10.3, 11.0, 8.5 y 15.8, pueden ordenarse de menor a mayor
y tener rangos respectivamente:

Datos ordenados: 8.5 10.3 11.0 14.5 15.8


Rangos: 1 2 3 4 5

EMPATES EN LOS RANGOS

En caso de empate o coincidencia de observaciones se asigna el promedio de los rangos que


ocupan las observaciones.

EJEMPLO 2: Los números 9, 5, 11, 9, 12, 16 y 8 reciben los rangos de 1 a 7, pero hay un
empate de 9 con los rangos 3 y 4. Se calcula media de 3 y 4 (que es 3.5) y asignamos los rangos:

Datos ordenados: 5 8 9 9 11 12 16
Rangos: 1 2 3.5 3.5 5 6 7

De manera similar, si el empate es de las tres observaciones más pequeñas cuyos rangos son 1, 2
y 3, entonces a cada una se le asigna el rango medio (1+2+3) / 3 = 2

DEI - BIOESTADÍSTICA LUZ BULLÓN 3


4. PRUEBAS NO PARAMÉTRICAS

1. PRUEBA DEL SIGNO PARA UNA MUESTRA

PRESENTACIÓN DE CASO:

Saal, M. (2007). Presentado como trabajo aplicativo de curso de BIOESTADISTICA

No existiendo antecedentes de estudios sobre chiscos (Mimus longicaudatus)


en la Universidad Nacional Agraria La Molina, Saal presenta un estudio sobre la
edad, medida a través de la longitud, de dicha población de aves, en las
inmediaciones de la cafetería El Paradero, área de gran afluencia que por lo
despejada, permitía, relativamente, fácil captura.
El objetivo de este estudio fue determinar si la gran afluencia de chiscos
corresponde a adultos o juveniles sobre la base de que la longitud (del pico a la
cola) aproximadamente 28 cm en adultos.

El trabajo se realizó durante el otoño del 2007, la muestra fue de 25 chiscos capturados con una red entre las 13 y 15 horas,
desde el 4 hasta el 8 de junio de ese año.
La conclusión mas importante es que la mayor afluencia es de chiscos (Mimus longicaudatus) adultos, no encontrándose
diferencia significativa (prueba de signos con  =.05), respecto al tamaño planteado

La prueba del signo es una de las pruebas no paramétricas más sencillas de utilizar. Su nombre
proviene del hecho en que se basa en la dirección (o signo) de los datos en lugar de su valor
numérico.
La prueba se usa cuando:
 No es posible suponer normalidad de los datos
 Los datos disponibles están en escala ordinal, por lo menos
La prueba supone que la muestra se obtiene de una población simétrica en la cual la probabilidad
de que un valor muestral sea menor que la mediana (media) es 1/2 e igual a la probabilidad de
que sea mayor.
Para los cálculos de la prueba los datos son signos + y –, dependiendo si las observaciones están
por arriba o por debajo de la mediana hipotética.

PROCEDIMIENTO

1. Las hipótesis H0: Me =  H0: Me   H0: Me  


H1: Me   H1: Me >  H1: Me < 
Si H0 es cierta, se esperaría que el número de observaciones mayores que  sea igual al
número de observaciones menores, es decir, que la probabilidad de observar un signo + es
igual a la probabilidad de observar un signo –, entonces también se puede plantear
H0: P(+) = P(–) = ½
2. Estadística de prueba: S = número de signos + ó – en la muestra
H1 determina la conveniencia de + ó –
DEI - BIOESTADÍSTICA LUZ BULLÓN 4
Sí H1: P(+) < P(–), la estadística de prueba es el número de signos + y un número
suficientemente pequeño de signos + causará el rechazo de H0.
Sí H1: P(+) > P(–), la estadística de prueba es el número de signos – y un número
suficientemente pequeño de signos – causará el rechazo de H0.
Sí H1: P(+)  P(–), un número suficientemente pequeño de + ó – causará rechazo. Se puede
tomar como estadística de prueba el número de signos que ocurra con menos frecuencia

3. Distribución de la estadística de prueba


Las observaciones constituyen ensayos de Bernoulli, luego S tiene distribución binomial con
probabilidad de éxito igual a 1/2.

4. Decisión
Cuando H1: P(+) < P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de observar s ó
menos signos + es menor ó igual que 
Cuando H1: P(+) > P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de observar s ó
menos signos – es menor ó igual que 
Cuando H1: P(+)  P(–), se rechaza H0, sí bajo H0 cierta, la probabilidad de obtener un valor
de s tanto ó más extremo como el que se calculó, es menor ó igual que /2.

En una prueba unilateral, el valor p o p-value = P (S  s), si la prueba es bilateral, se rechaza


H0 si P (S  s) <  /2

OBSERVACIONES
1. La estadística de prueba S tiene distribución Binomial (n,  =1/2)
2. Si el tamaño de muestra n, es pequeño, se usará la verdadera distribución.
Si n es grande (n >30), la distribución de S se puede aproximar por la normal con parámetros
= n y  = n (1– ), luego con la corrección de continuidad,
 s  1 / 2  n 
P ( S  s )  P Z  
 n (1   ) 
 

DEI - BIOESTADÍSTICA LUZ BULLÓN 5


EJEMPLO DE APLICACIÓN DE LA PRUEBA DEL SIGNO
Suponga el estudio de análisis de la dieta del lobo chusco (Otaria byronia) en una zona del litoral
sur del Perú (Pickens, 1998), en muestras fecales proporcionadas por IMARPE. Se determinó la
composición en número de presas ingeridas por el lobo chusco en función del número total de
otolitos y picos de cefalópodos recuperados.

Variación mensual (1996) en la composición relativa de presas halladas en Punta Coles:


Mar Abr May Jun Jul Ago Set Oct Nov Dic
92.9 32.9 26.3 15.7 10.2 45.3 23.7 32.5 11.1 6.4

Se desea establecer si la variación mensual es la misma en promedio que la observada en la


Reserva Nacional de Paracas (Media = 38.59)

PRUEBA DE NORMALIDAD

Gráfica de probabilidad de Presas


Normal
99
Media 29.7
Desv.Est. 25.32
95 N 10
AD 0.747
90
Valor P 0.034
80
70
Porcentaje

60
50
40
30
20

10

1
-40 -20 0 20 40 60 80 100
Presas

PROCEDIMIENTO:

1. H0: Me = 38.59 ó equivalentemente, H0: P(+) = P(–)


H1: Me  38.59

2. Signos de las diferencias respecto al valor planteado:

Mar Abr May Jun Jul Ago Set Oct Nov Dic
+ – – – – + – – – –

Si alguna diferencia resulta cero, se elimina la observación correspondiente, disminuyendo el


tamaño de muestra.
3. Estadística de prueba: S = número de signos + (el que ocurre con menos frecuencia) en la
muestra. Un número suficientemente pequeño de + causará rechazo
4. Decisión. La prueba es bilateral, se rechaza H0 si el valor p = P(S s)<  /2

DEI - BIOESTADÍSTICA LUZ BULLÓN 6


5. Cálculo de la probabilidad o valor p
P  S  2   0.0010 + 0.0098 + 0.0438 = 0.0547

6. Como p >  /2, no se rechaza la hipótesis nula.

Sign Test for Median

Sign test of median = 38.59 versus not = 38.59

N Below Equal Above P Median


Com-rel 10 8 0 2 0.1094 25.00

EJEMPLO CON UNA MUESTRA GRANDE

Suponga una situación con una muestra de tamaño n = 40 (grande), en la cual se observaron 11
signos – y 29 signos +.

Se desea contrastar las hipótesis

H0: P(+) = P(–) = 1/2


H1: P(+) > P(–)

La estadística de prueba es el número de signos – y un número suficientemente pequeño de


signos – causará el rechazo de H0.

La distribución binomial de la estadística de prueba S se aproxima por la distribución normal de


la forma siguiente:

 11  0.5  40(1 / 2) 
P( S  11)  P Z  = PZ  2.69 = 0.0036
 40(1 / 2)(1 / 2) 

Luego, se rechaza H0

DEI - BIOESTADÍSTICA LUZ BULLÓN 7


2. PRUEBA DEL SIGNO PARA MUESTRAS PAREADAS

Un dato pareado o de una muestra pareada es un dato bivariado (x,y) que corresponde a:
 Dos variables obtenidas para un mismo elemento de la población.
 Una variable obtenida en un mismo elemento de la población, en dos momentos distintos o
por dos observadores.
La prueba se usa cuando:
 No son satisfechas las suposiciones de la prueba t
 Los datos disponibles están en escala ordinal, por lo menos

La prueba se basa en las medianas de X e Y. Supone que se muestrean dos poblaciones simétricas
que son dependientes, relacionadas.
La prueba compara los valores del par observado y se basa en la dirección de esta diferencia. Se
toma la pareja de datos de la observación i y se obtiene la diferencia xi – yi, la cual puede ser
mayor que 0 ó menor que 0, es decir, tener signo + ó –. Si la diferencia entre las medianas es 0, se
esperaría que un par xi , yi cualquiera tenga igual probabilidad de dar un signo + ó –.

PROCEDIMIENTO
La hipótesis
H0: Mex = Mey , (Mex – Mey = 0) ó equivalentemente
H0: P (xi > yi ) = P (xi < yi) = 1/2
También se puede plantear,
H0: P(+) = P(–) = 0.5
En una muestra aleatoria se esperaría que el número de signos + y – sea casi igual. Si existen más
signos + ó – que los que pueden atribuirse únicamente al azar, cuando H0 es verdadera, se dudará
de la veracidad de H0. Mediante la prueba de signos, es posible determinar cuántos signos de uno
u otro tipo son más de los que pueden atribuirse únicamente al azar.
El procedimiento continúa como en el caso de una muestra.

DEI - BIOESTADÍSTICA LUZ BULLÓN 8


3. PRUEBA DE WILCOXON (O DEL RANGO CON SIGNO)

PRESENTACIÓN DE CASO:

… …

Se usa cuando se desea probar una hipótesis con respecto a la media de una población, pero
por alguna razón, ni Z ni t resultan adecuadas como estadística de prueba.

La prueba supone respecto a los datos:


 La muestra es aleatoria
 La variable es continua
 La población es simétrica
 La escala de medición es al menos de intervalos

La prueba del signo no sea aconseja porque podría desperdiciarse demasiada información
contenida en los datos.

La prueba utiliza en lugar de los signos, las magnitudes de las diferencias entre las observaciones
y el parámetro de interés ordenadas por rangos.

Las hipótesis que pueden probarse para alguna media de población no conocida:

H0:  = 0 H0:    0 H0:   0


H1: 0 H1:  < 0 H1:  > 0

DEI - BIOESTADÍSTICA LUZ BULLÓN 9


PROCEDIMIENTO

1. Obtener las diferencias di = xi – 0. Si cualquier di = 0, eliminarla de los cálculos, reduciendo


por lo tanto n
2. Ordenar las di de menor a mayor sin considerar el signo. Si dos ó más |di| son iguales asignar
a cada valor la media de la posición que ocupa en la lista. Por ejemplo, si las tres |di| más
pequeñas, sus posiciones son 1, 2 y 3, dentro del rango, luego a cada una se le asigna el rango
(1+2+3)/3=2

3. A cada categoría se le asigna el signo de la diferencia correspondiente

4. Encontrar las estadísticas: T+, la suma de las categorías con signo + y T –, la suma de las
categorías con signo –.

Si H0 es verdadera, la probabilidad de una diferencia positiva de una magnitud dada, es igual a la


probabilidad de una diferencia negativa de la misma magnitud, es decir, P(di+) = P(di– ). Luego, el
valor esperado de T+ es igual al valor esperado de T –. A partir de una muestra no se espera una
gran diferencia entre sus valores

La estadística de prueba es T+ ó T –, dependiendo de la hipótesis alternativa.

Sí H1: 0, un valor suficientemente pequeño de T+ ó T – causa rechazo de H0.

Sí H1:  < 0, se espera un valor grande de T+ , la estadística de prueba es T+ y un valor


suficientemente pequeño de T+ causa rechazo.

Sí H1:  > 0, se espera un valor grande de T – , la estadística de prueba es T – y un valor


suficientemente pequeño de T- causa rechazo.

El valor calculado se compara con los valores críticos de la estadística de prueba de Wilcoxon
que se encuentran en la tabla correspondiente. Los valores se presentan para todas las muestras de
tamaño 5 hasta n = 30.

Las reglas de decisión para las tres hipótesis alternativas:

H1: 0. Se rechaza H0 a un nivel de significación, si el valor calculado de T es menor o igual


al valor T de la tabla para n y para /2 preseleccionado

H1:  < 0. Se rechaza H0 a un nivel de significación, sí T+ es menor o igual al valor T de la


tabla para n y para  preseleccionado.

H1:  > 0. Se rechaza H0 a un nivel de significación, sí T – es menor o igual al valor T de la


tabla para n y para  preseleccionado.

DEI - BIOESTADÍSTICA LUZ BULLÓN 10


OBSERVACIONES

Si n > 30, se define la estadística de prueba: T 


R i
. Sí no hay empates ésta se simplifica
R
2
i

a: T 
R i
. Luego se usa la aproximación de la distribución normal estándar.
n(n  1)(2n  1)
6

EJEMPLO DE APLICACIÓN DE LA PRUEBA DE WILCOXON

Suponga el estudio del efecto de una dieta en 15 animales de laboratorio en los que se midió el
aumento de peso en gramos de cada uno de ellos:

4.91 4.10 6.74 7.27 7.42 7.50 6.56 4.64 5.98 3.14 3.23
5.80 6.17 5.39 5.77

Se desea probar la hipótesis de que el incremento de peso en media fue de 5.05 gramos.

Luego, las hipótesis son


H0:  = 5.05
H1:   5.05

PROCEDIMIENTO

Los cálculos necesarios se muestran en la tabla siguiente:

Aumento de Diferencia: Rango con signo


peso (gramos) d i  xi   0 Rango de | di | de di
4.91 - 0.14 1 -1
4.10 - 0.95 7 -7
6.74 + 1.69 10 + 10
7.27 + 2.22 13 + 13
7.42 + 2.37 14 + 14
7.50 + 2.45 15 + 15
6.56 +1.51 9 +9
4.64 - 0.41 3 -3
5.98 + 0.93 6 +6
3.14 - 1.91 12 - 12
3.23 - 1.82 11 - 11
5.80 + 0.75 5 +5
6.17 + 1.12 8 +8
5.39 + 0.34 2 +2
5.77 + 0.72 4 +4
+
T = 86
T – = 34

DEI - BIOESTADÍSTICA LUZ BULLÓN 11


La segunda columna corresponde a los valores de la diferencia, de la observación menos el valor
hipotético planteado. En la columna 3 se otorgan rangos a las diferencias sin tomar en cuenta el
signo. Por último, se suman los rangos con el signo correspondiente y por separado rangos
negativos y positivos.

La estadística de prueba es el menor entre los valores T, en este caso T - = 34, la pregunta es ¿es
suficientemente pequeño para rechazar H0?

El valor crítico, (tabla de Wilcoxon) para una hipótesis bilateral es T=25.

Luego, no es posible rechazar la hipótesis nula, el valor p = 2(0.0757) = 0.1514

Wilcoxon Signed Rank Test

Test of median = 5.050 versus median not = 5.050

N for Wilcoxon Estimated


N Test Statistic P Median
Inc-Peso 15 15 86.0 0.148 5.747

DEI - BIOESTADÍSTICA LUZ BULLÓN 12


EJEMPLO DE LAS PRUEBAS DEL SIGNO Y DE WILCOXON PARA DATOS
PAREADOS

Utilice una prueba no paramétrica para


determinar si existe diferencias entre los
valores de las constantes de enfriamiento de
ratones recién sacrificados y las de los
mismos ratones recalentados hasta la
temperatura del cuerpo, (determinadas por
Hart en un estudio de termometría útil en
el cronotanatodiagnóstico)

Recién
sacrificados Recalentados Diferencia Rango
573 481 92 18
482 343 139 19
377 383 -6 -3
390 380 10 5
535 454 81 17
414 425 -11 -6
438 393 45 15
410 435 -25 -10
418 422 -4 -2
368 346 22 9
445 443 2 1
383 342 41 13
391 378 13 8
410 402 8 4
433 400 33 11.5
405 360 45 15
340 373 -33 -11.5
328 373 -45 -15
400 412 -12 -7

Resultados usando MINITAB:

Sign Test for Median: diferencia

Sign test of median = 0.00000 versus not = 0.00000

N Below Equal Above P Median


dif 19 7 0 12 0.3593 10.00

Wilcoxon Signed Rank Test: diferencia

Test of median = 0.000000 versus median not = 0.000000


N
for Wilcoxon Estimated
N Test Statistic P Median
dif 19 19 135.5 0.107 16.50

DEI - BIOESTADÍSTICA LUZ BULLÓN 13


ANÁLISIS PARAMÉTRICO

H 0 : S  R  D  0 No hay diferencias en entre las constantes medias


H1 : S  R  D  0 Si hay diferencias.

Supuestos: las diferencias provienen de una distribución normal.

Probando normalidad para las diferencias (di)

Probability Plot of di
Normal
99
Mean 20.79
StDev 45.84
95 N 19
AD 0.472
90
P-Value 0.216
80
70
Percent

60
50
40
30
20

10

1
-100 -50 0 50 100 150
di

d 20.79
t0    1.9767
sd / n 45.845 / 19

Al 5% de significancia, tenemos td 1  t18 (0.975)  2.101

Por tanto concluimos que no existen diferencias entre las medias o las constantes son las mismas.

Resultados en MINITAB

Paired T-Test and CI: Recien sacrificados, Recalentados

Paired T for Recien sacrificados – Recalentados

N Mean StDev SE Mean


Recien sacrifica 19 417.895 60.048 13.776
Recalentados 19 397.105 39.057 8.960
Difference 19 20.7895 45.8446 10.5175

95% CI for mean difference: (-1.3069, 42.8859)

T-Test of mean difference = 0 (vs not = 0): T-Value = 1.98 P-Value = 0.064

Observe el p-valor en las tres pruebas y comente.

DEI - BIOESTADÍSTICA LUZ BULLÓN 14


4. PRUEBA DE MANN–WHITNEY PARA DOS MUESTRAS INDEPENDIENTES

PRESENTACIÓN DE CASO:

Labaque, M. et al. 2002. Efectos del tamaño del huevo sobre el


éxito de eclosión y el peso inicial y supervivencia del pichón del
Ñandú (Rhea americana). Revista Científica Millonaria 4 (1). 2004

En el artículo citado se presentan los objetivos:


 Evaluar si el tamaño del huevo de Ñandú (Rhea
americana) incide sobre la probabilidad de eclosión bajo
incubación artificial.
 Evaluar si el tamaño del huevo de Ñandú (Rhea
americana) incide sobre el peso y supervivencia del
pichón durante si primer mes de vida.

Algunas conclusiones:
La prueba de Mann Whitney registró que los huevos eclosionados fueron de mayor tamaño, particularmente más largos, que
los no eclosionados, además se observó que el peso inicial de los pichones que sobrevivieron tiende a ser mayor, aunque no
significativamente, que el peso de aquellos pichones que murieron antes de alcanzar el mes de vida.

Alternativa a la prueba t para la diferencia de dos medias. La prueba utiliza la información de los
datos ordenados por rangos. Las preguntas que se hacen y que la prueba va a responder son:
 ¿Hay tendencia de una población a producir valores más grandes que la otra población?
 ¿Son las medianas de las poblaciones iguales?

La prueba supone que:


 Las dos muestras, de tamaños n1 y n2 respectivamente, han sido extraídas
independientemente y en forma aleatoria de sus poblaciones
 Si las poblaciones son diferentes, difieren sólo en lo que respecta a sus medianas
 La escala de medición es por lo menos ordinal

Las HIPÓTESIS se refieren a las medianas de las poblaciones:

H0: Mex = Mey H0: Mex  Mey H0: Mex  Mey


H1: Mex  Mey H1: Mex > Mey H1: Mex < Mey

PROCEDIMIENTO

Combinar los valores de ambas muestras aleatorias y luego asignar rangos (de menor a mayor)
sin importar a que población pertenece cada valor y considerando empates o coincidencias.
Si la mediana de la población X es, en efecto, más pequeña (o más grande) que la mediana de la
población Y, es de esperar, (para muestras de igual tamaño) que la suma de los rangos asignados
a las observaciones de X sea menor (o mayor) que la suma de los rangos asignados a las
observaciones de la población Y.
La prueba estadística se basa en la estadística U = mín (U1, U2 ), donde U1 y U2 son funciones de
 Rx y  Ry de la forma siguiente:

n1 (n1  1) n2 (n2  1)
U1  n1n2   Rx U 2  n1n2   Ry
2 2

DEI - BIOESTADÍSTICA LUZ BULLÓN 15


Se rechaza H0: Las medianas son iguales, las poblaciones son idénticas, sí U < U
La tabla de valores U, presenta la probabilidad P (U  U)   para muestras pequeñas (n 20)

EJEMPLO DE APLICACIÓN DE LA PRUEBA DE MANN-WITHNEY

En un experimento diseñado para estimar los efectos de la inhalación prolongada de óxido de


cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10
animales similares sirvieron de controles. La variable de interés fue la concentración de
hemoglobina (gramos) después del experimento. Los resultados se muestran a seguir. Se desea
saber si es posible concluir que la inhalación prolongada de óxido de cadmio disminuye el nivel
de hemoglobina.

Animales expuestos 14.4 14.2 13.8 16.5 14.1 16.6 15.9 15.6 14.1 15.3
X 15.7 16.7 13.7 15.3 14.0
Animales no expuestos Y
17.4 16.2 17.1 17.5 15.0 16.0 16.9 15.0 16.3 16.8

Las hipótesis: H0: Mex  Mey


H1: Mex < Mey

PROCEDIMIENTO: Datos y rangos para el cálculo de la estadística de prueba:

X Rango Y Rango
13.7 1
13.8 2
14.0 3
14.1 4.5
14.1 4.5
14.2 6
14.4 7
15.0 8.5
15.0 8.5
15.3 10.5
15.3 10.5
15.6 12
15.7 13
15.9 14
16.0 15
16.2 16
16.3 17
16.5 18
16.6 19
16.7 20
16.8 21
16.9 22
17.1 23
17.4 24
17.5 25
 Rx = 145  Ry = 180

DEI - BIOESTADÍSTICA LUZ BULLÓN 16


Cálculo de U = mín ( U1 , U2 ), donde U1 y U2 son:

n1 (n1  1) 15 16
U 1  n1 n 2    R x  15 10   145  125
2 2
n (n  1) 10 11
U 2  n1 n 2  2 2   R y  15 10   180  25
2 2

U = mín ( U1 , U2 ) = 25

El valor de la Tabla de valores críticos de U de Mann-Whitney es U  44

Luego, se rechaza H0. La prueba resultó significativa. Es posible concluir que la inhalación
prolongada de óxido de cadmio disminuye el nivel de hemoglobina (p<0.05)

OBSERVACIONES

Para muestras grandes, n>20, se usa la aproximación de la distribución normal:


 La prueba se puede basar en U1 ó U2 (pruebas equivalentes)
 Bajo H0, las dos muestras provienen de poblaciones idénticas, se puede probar:
nn n1n2 (n1  n2  1) U  U
U = 1 2 y U = , luego Z = U tiene distribución normal
2 12 U
estándar.

DECISIÓN

Rechazar H0: Mex = Mey , a favor de:

H1: Mex  Mey si Z < - Z /2 ó Z > Z /2


H1: Mex < Mey sí ó Z > Z  (valores grandes de U corresponden a menores valores de Rx)
H1: Mex > Mey sí ó Z < - Z 

Mann-Whitney Confidence Interval and Test

Expuesto N = 15 Median = 15.300


No expue N = 10 Median = 16.550

Point estimate for ETA1-ETA2 is -1.300

95.1 Percent CI for ETA1-ETA2 is (-2.300,-0.600)

W = 145.0

Test of ETA1 = ETA2 vs ETA1 < ETA2 is significant at 0.0030

The test is significant at 0.0030 (adjusted for ties)

DEI - BIOESTADÍSTICA LUZ BULLÓN 17


5. PRUEBA DE KRUSKAL-WALLIS (TRES O MÁS MUESTRAS)

PRESENTACIÓN DE CASO:

DEI - BIOESTADÍSTICA LUZ BULLÓN 18


6. PRUEBA DE ALEATORIEDAD O DE RACHAS CON UNA MUESTRA

Un supuesto permanente es que las muestras son aleatorias.


¿Qué sucede si se advierten patrones recurrentes, un “orden sospechoso”?
Una RACHA es una secuencia de ocurrencias idénticas precedida y seguida de diferentes
ocurrencias o de ninguna en absoluto
FMMMFFMFF
La notación con 2 clases de ocurrencias:
n1 = número de ocurrencias de tipo 1
n2 = número de ocurrencias de tipo 2
r = número de rachas

EJEMPLO: CSSCCCCSSSCCSCSSC
n1 = 9 número de caras
n2 = 8 número de sellos
r = 9 número de rachas
El estadístico r tiene su propia distribución muestral y su prueba.
Demasiadas o muy pocas rachas en una muestra indican que intervino otro factor además de la
casualidad cuando ocurrieron (o se seleccionaron) los elementos. En otras palabras, los elementos
no son aleatorios.
Sí n1 ó n2 > 20, la distribución de r puede aproximarse mediante una distribución normal

2 n1 n2 2 n1 n2 (2 n1 n2  n1  n2 )
r = 1 y r =
n1  n2 (n1  n2 ) 2 (n1  n2  1)

EJEMPLO DE APLICACIÓN DE LA PRUEBA DE RACHAS

En la zona de reserva de determinada especie en peligro de extinción, se registró el sexo de los


primeros 40 nacidos vivos en la presente temporada:
M, F, M, M, M, M, F, F, M, M, M, F, M, M, M, M, M, F, F, M,
F, M, M, M, F, M, M, M, M, M, M, F, M, M, M, M, M, F, F, M
En un nivel de significación de .05, pruebe la aleatoriedad de la secuencia anterior. Responda
luego, ¿hay algo en la naturaleza de este problema que lo lleva a aceptar intuitivamente lo que
descubierto con técnicas estadísticas?

DEI - BIOESTADÍSTICA LUZ BULLÓN 19


LA HIPÓTESIS:
H0 : Los nacimientos de individuos machos y hembras ocurren aleatoriamente

CÁLCULOS:
n1 = 29 (ocurrencias M), n2 = 11 (ocurrencias F), r = 17
2  29 11 2  29 11 (2  29 11  29  11)
r   1  16.95 y  r   2.4727
29  11 (29  11)2 (29  11  1)
La región de validez de H0 es: r ± Z/2 r
rinf = 16.95-1.96(2.4727) = 12.1
rsup = 16.95+1.96(2.4727) = 21.8

CONCLUSIÓN:
Se acepta H0, la muestra es aleatoria. Se puede afirmar que los nacimientos de machos y hembras
están ocurriendo aleatoriamente. No hay ocurrencias que nos hagan pensar lo contrario.

DEI - BIOESTADÍSTICA LUZ BULLÓN 20

Vous aimerez peut-être aussi