Vous êtes sur la page 1sur 29

CONTRASTES ENTRE

VARIABLES CUANTITATIVAS
Indice

1. OBJETIVOS................................................................................................................................................... 1
2. INTRODUCCIÓN........................................................................................................................................... 1
3. MÉTODOS PARAMÉTRICOS....................................................................................................................... 2
3.1. Comparación de medias ....................................................................................................................... 2
3.2. Comparación de medidas de dispersión. Comparación de varianzas.................................................. 7
4. MÉTODOS NO PARAMÉTRICOS ................................................................................................................ 9
4.1. Tests de aleatoriedad: test de las rachas ........................................................................................... 10
4.2. Comparación de medidas de localización de una muestra................................................................. 11
4.3. Comparación de medidas de localización en dos muestras independientes ..................................... 12
4.4. Comparación de medidas de localización en k muestras independientes ......................................... 17
4.5. Comparación de medidas de localización en dos o más muestras relacionadas .............................. 21
4.6. Comparación no paramétrica de medidas de dispersión.................................................................... 27
5. VENTAJAS DE LOS TESTS NO PARAMÉTRICOS................................................................................... 28
6. DESVENTAJAS DE LOS TESTS NO PARAMÉTRICOS ........................................................................... 28
7. BIBLIOGRAFÍA............................................................................................................................................ 28
ANEXOS.......................................................................................................................................................... 28
Anexo 1. Tabla del test de Wilcoxon: ......................................................................................................... 28
Anexo 2. Tabla del test de Mann-Whitney-Wilcoxon ................................................................................. 29

1. Objetivos
• Conocer los tests de comparación de medidas de localización, tendencia y dispersión;
• Saber las condiciones de aplicación de los diferentes tests de comparación: contrastes paramétricos y
no paramétricos;
• Utilizar e interpretar correctamente los tests de comparación.

2. Introducción
Se dice que un test estadístico es robusto si se pueden violar sus supuestos sin que ello repercuta
substancialmente en las conclusiones. La robustez es la habilidad de un test estadístico específico para
suministrar una estimación exacta de la probabilidad de los errores tipo I y II, aun cuando sus suposiciones
sean violadas. Algunos tests de hipótesis son más robustas a desviaciones de ciertos supuestos
subyacentes que otras. El tipo y magnitud de la desviación de los datos de las condiciones requeridas por
un test es a menudo importante en la selección apropiada del test estadístico que hay que aplicar. Los tests
de hipótesis son usados en muchas situaciones en las que las condiciones subyacentes son violadas. Por lo
tanto, la robustez es una propiedad deseable.
Las hipótesis con las que se trabaja en los tests no paramétricos son menos detalladas y menos numerosas
que en los tests paramétricos y los tests no paramétricos son menos sensibles a su violación. Por eso los
tests no paramétricos son más robustos que los paramétricos. Además estas violaciones son más fáciles de
ver en los tests no paramétricos. Para tamaños muestrales menores de 10, las violaciones en las hipótesis
de los tests paramétricos son más graves, por lo que los tests no paramétricos son los más apropiados.

1
3. Métodos paramétricos

3.1. Comparación de medias


Cuando se comparan medias deben distinguirse dos casos:
(a) la comparación de una media a un valor fijado predefinido; y
(b) la comparación de dos medias.
Ambos procedimientos son similares. La diferencia es que en el primer caso el test estadístico se distribuye
según una ley normal, y en el segundo según una ley t de Student. La razón es que en el primer caso la
media desconocida (que es un estimador de la verdadera media distribuido según una ley normal) se
compara con un número fijo, mientras que en el segundo caso se comparan dos estimadores de la
verdadera media entre sí.
Una segunda consideración que se debe hacer tiene relación con el tamaño muestral. Dado un tamaño
muestral grande (> 30 observaciones), se puede asumir que el estimado de la desviación típica es fiable. En
el caso de menor número de muestras, esta suposición no es válida y se ha de usar la distribución t. Sin
embargo, se puede emplear también la distribución t para tamaños muestrales grandes, ya que la
distribución t se aproxima a la normal con un número infinito de valores.
En función de lo que se compare, existen varias opciones:
• Una muestra frente a la media poblacional:
– Tamaño muestral grande;
– Tamaño muestral pequeño.
• Dos muestras entre sí:
– Tamaño muestral grande;
– Tamaño muestral pequeño.
• Experimentos apareados.

3.1.1. Comparación de una media observada a una teórica


Para comparar la media de una muestra con un valor diana predefinido, se aplica un test t de una muestra.
Se asume que el valor diana es conocido (o definido) de antemano.
Una situación típica donde se aplicaría un test t de una muestra podría ser el siguiente: un calmante
empleado en un hospital alivia a los pacientes en 130 segundos (este valor es conocido por las aplicaciones
previas del fármaco). Cuando se introduce un nuevo fármaco, se administra a 30 pacientes y se registra el
tiempo que tarda en hacer efecto. El tiempo medio hasta el alivio del dolor es de 112 segundos con una
desviación típica de 43 segundos. ¿Existe evidencia de que el nuevo fármaco reduzca el tiempo en que el
paciente siente aliviado el dolor?
En este ejemplo se ha de comprobar una media muestral (el tiempo medio de alivio para 30 pacientes)
frente a un límite predefinido. Nótese que el límite es fijo y bien establecido. En este contexto, el test es
aplicable dado que se trata de variables cuantitativas continuas y el tamaño muestral es igual a 30 (muestra
grande n ≥ 30 ).
Si el límite no estuviera definido sino que se obtuviera de otra muestra (por ejemplo de otros 30 pacientes
que recibieron el fármaco antiguo), se debería aplicar el test de dos muestras.
Muestras grandes
Supóngase que se han llenado contenedores con una sustancia cara. Los clientes esperan tener garantía
de recibir una cantidad h de material. Se conoce la precisión σ de la maquinaria y se desea comprobar si
se ha ajustado correctamente el dispensador. Como que las medidas son bastante baratas (por ejemplo,
pesar el contenedor) puede plantearse realizar una serie de n medidas. La cuestión a la que responder es
¿cuál debe ser la cantidad media para que no se tenga que rechazar la suposición de que el procedimiento
de llenado es correcto? Dado que se tiene el conocimiento de que existe la posibilidad de una decisión
errónea, se aceptará que la probabilidad de error sea menor del α % (nivel de significación). La
probabilidad 1− α se conoce como nivel de confianza.
La decisión puede tomarse de acuerdo con la tabla y el procedimiento siguientes:

2
test unilateral test bilateral
H 0 :µ 1 ≥ µ 0 H 0 :µ 1 ≤ µ 0 H 0 :µ 1 = µ 0
hipótesis
H1 : µ 1 < µ 0 H1 : µ 1 > µ 0 H1 : µ 1 ≠ µ 0
x −µ0
estadístico (distribución normal) z=
σ
n
grados de libertad -
rechazo de H 0 si z < − z α si z > z α si z > z α2
Tabla I.

(a) Formular las dos hipótesis:


H 0 : cantidad ≤ límite
H1 : cantidad > límite
(b) Especificar el nivel de significación (o de confianza) que cumple los requerimientos (un nivel de
significación frecuente es 5 %);
(c) Para decidir cuál de las dos hipótesis es cierta se debe calcular el estadístico
x −µ
z =
σ
n
Que se distribuye según la ley normal. El valor z proporciona la distancia entre la medida x y el valor
µ especificado, en términos de una desviación típica σ (por ejemplo cuando z = 1,5 , la distancia es
1,5 σ ).

(d) 4. Definir la región de rechazo. Para saber cuando debemos rechazar la hipótesis nula (por ejemplo x
es menor que µ ) debe definirse la región de rechazo especificando el valor crítico de z . La región de
rechazo depende del nivel de significación. El valor crítico z es el valor particular en el eje X de la
función de distribución para la cual el área bajo dicha función de distribución hacia la derecha es
exactamente del α %. Este valor es z x = z ( 0,95 ) = 1, 645 .

Figura 1.

(e) Finalmente, debe seleccionarse la hipótesis apropiada para insertar los valores numéricos de x , µ , σ
y n en la ecuación de z . No se rechaza H 0 si el valor z calculado es menor que z x = 1, 645 . Una

3
aproximación más general es usar la distribución t para el test, ya que se aproxima a la normal para
tamaños muestrales altos.
Muestras pequeñas
Para tamaños muestrales pequeños, la media sigue una distribución t (para tamaños grandes seguía una
distribución normal). La razón es que el estimador s de la desviación típica no es suficientemente exacto.
Pero la suposición sigue siendo que la distribución de los datos es aproximadamente normal. La diferencia
es que en lugar de puntuaciones z se usan puntuaciones t. La distribución t depende del tamaño muestral
( g.l. = n −1) .

test unilateral test bilateral


H0 : µ1 ≥ µ 0 H0 : µ1 ≤ µ 0 H0 : µ1 = µ 0
hipótesis
H1 : µ 1 < µ 0 H1 : µ 1 > µ 0 H1 : µ 1 ≠ µ 0

x − µ0
t=
estadístico (distribución t) σ
n
grados de libertad n −1
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla II.

3.1.2. Test de comparación de dos medias observadas en grupos independientes


Con mucha mayor frecuencia se necesita comparar las medias de diferentes poblaciones, por ejemplo
resultados de dos analizadores o un tratamiento con otro. Los procedimientos son los mismos que los de la
inferencia de una población.
Muestras grandes
Se define una variable diferencia entre las medias de las dos muestras como:
d = x1 − x 2
La media y la desviación típica de esta variable D son:
d
y

σ21 σ 22
σd = +
n1 n2
Esta cantidad también se conoce como error estándar de la diferencia de medias. Se tratará de comprobar
si la diferencia que existe entre las dos medias muestrales es atribuible a algún factor al margen de la propia
variabilidad aleatoria (azar).
Para muestras grandes (n , n
1 2 > 30 ) la distribución de las diferencias es aproximadamente normal. De
modo que se podrá aplicar los mismos métodos que en el test t de una muestra para muestras grandes, con
la nueva variable D .

4
test unilateral test bilateral
H0 : µ1 ≥ µ 2 H0 : µ1 ≤ µ 2 H0 : µ1 = µ 2
hipótesis
H1 : µ 1 < µ 2 H1 : µ 1 > µ 2 H1 : µ 1 ≠ µ 2

x1 − x 2
z =
estadístico (distribución normal) σ 21 σ 22
+
n1 n2
grados de libertad –
rechazo de H 0 si z < − z α si z > z α si z > z α 2
Tabla III.

Muestras pequeñas (test t de dos muestras)

En este caso no es válida la suposición del teorema central del límite, porque el estimador de σ
2
no es
fiable. Se emplea la distribución t con las siguientes condiciones:
• Las varianzas han de ser iguales;
• La escala de medida de ambas muestras ha de tener propiedades de una escala de intervalo;
• Las muestras han de ser independientes entre sí y haber sido extraídas aleatoriamente de la(s)
población(es) de estudio;
• Las muestras han de seguir una distribución normal.
Asumiendo que las varianzas σ 1 y σ 2 son iguales, se puede calcular una varianza conjunta s p para
2 2 2

obtener un mejor estimador. La varianza conjunta es una suma ponderada de las varianzas particulares de
las muestras. Así, si n1 = n 2 , s p es el promedio de las varianzas individuales. Los grados de libertad
2

globales son la suma de los grados de libertad de las dos muestras:


g.l. = g.l.1 + g.l. 2 = ( n1 −1) + ( n 2 − 1) = n1 + n 2 − 2
Para aplicar un test t de dos muestras se seguirá el siguiente esquema:

test unilateral test bilateral


H0 : µ1 ≥ µ 0 H0 : µ1 ≤ µ 0 H0 : µ1 = µ 0
hipótesis
H1 : µ 1 < µ 0 H1 : µ 1 > µ 0 H1 : µ 1 ≠ µ 0

x1 − x 2
t =
1 1 
s 2p  + 
 n1 n 2 
estadístico (distribución t)  

donde: s 2
=
( n −1) s
1
2
1 + ( n 2 − 1) s 22
p
n1 + n 2 − 2

grados de libertad n1 + n 2 − 2
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla IV.

5
Como en la mayoría de los tests estadísticos, el secreto está en dividir la diferencia observada por un
término de error que estima la variabilidad biológica aleatoria. Si la diferencia observada es mucho mayor
que la variabilidad biológica aleatoria esperada, entonces el cociente t será grande y se dirá que hay
diferencias significativas.
En caso de cumplirse la condición de normalidad pero no así la de homocedasticidad, se puede recurrir a la
aproximación de Welch para comparar dos medias independientes con varianzas heterogéneas, más
robusta que el test t de varianzas homogéneas. Esta aproximación requiere introducir dos modificaciones
sobre el test t :
• En el denominador del cálculo de t , para calcular el error estándar se emplean separadamente las
varianzas de cada grupo en lugar de una varianza ponderada;
• Los grados de libertad deben calcularse usando la siguiente fórmula, algo más compleja:
x1 − x 2
t g .l .* =
s 12 s 22
+
n1 n2

2
 s12 s 22 
 + 
donde: g .l.* =
 n1 n 2 
2 2
 s 12   s 22 
   
 n1  +  n 2 
n1 − 1 n 2 −1

Considérese que los grados de libertad g .l.* así calculados pueden tener decimales, por lo que se debe
aproximar al entero inferior más próximo. En la práctica, los programas estadísticos como SPSS aportan
directamente el grado de significación bajo el supuesto de diferencia de varianzas junto con el de igualdad
de varianzas, de modo que será el investigador quien deba elegir el resultado apropiado en cada caso.
Con todo lo anterior se resuelve el problema de la comparación de medias en dos grupos independientes,
pero las conclusiones son limitadas, puesto que se llega a decir si existen o no diferencias significativas,
pero falta algo imprescindible, que es estimar la magnitud de dichas diferencias. Esto se resuelve
calculando los límites de confianza a la diferencia de medias1.

3.1.3. Test de comparación de dos medias observadas en muestras relacionadas


Se dice que hay emparejamiento cuando se realizan medidas repetidas en un mismo individuo
(autoemparejamiento), cuando se comparan entre sí (de dos en dos) parejas naturales de individuos, por
ejemplo gemelos (emparejamiento natural), o cuando se busca un control para cada paciente de tal modo
que tenga las mismas características de edad, sexo, etc., que el paciente (emparejamiento artificial). En
epidemiología son muy frecuentes los estudios de casos y controles emparejados, que requieren este tipo
de análisis. El tratamiento estadístico será distinto que en muestras independientes, sobre todo en los
diseños de autoemparejamiento, porque la variabilidad aleatoria intraindividual es menor que la
interindiviual.
De este modo, cuando el interés se centra en comparar medidas repetidas dentro de un grupo (por ejemplo,
el cambio en la presión arterial antes y después de un tratamiento) se aplicará el test t de datos apareados.
Debe cumplirse el supuesto de normalidad para la distribución de las diferencias entre las medidas pre– y
post– que se desean comparar.
En este caso, el error estándar de la diferencia de medias que se desea comparar viene dado por:

sd = s 12 + s 22 − 2 r s 1 s 2
Dicha fórmula requiere el cálculo del coeficiente de correlación entre los dos grupos de medidas. De ahí la
ventaja de este diseño, que el término de error (el error estándar de la diferencia de medias) disminuye en
proporción directa con la magnitud de esta correlación, lo que lo convierte en un test más potente o

1
Véase el capítulo Inferencia estadística_notas.

6
sensible. La desventaja es la pérdida de grados de libertad (para n p pares de datos, los grados de libertad
son la mitad que en un diseño con muestras independientes). El “truco” está en conseguir que la correlación
sea suficientemente grande como para compensar la pérdida en grados de libertad del test.
Existe un modo simplificado de abordar el problema, el método de la diferencia directa. Se pueden calcular
las d i diferencias por pares y considerar d i como una nueva variable que sigue una distribución t . La
media y desviación típica de las d i son respectivamente d y s d . El número de pares es n p .
La comparación de medias con datos apareados requiere que los tamaños muestrales sean como mínimo
de 30 casos.

test unilateral test bilateral


H0 : µ D ≥ d 0 H0 : µ D ≤ d 0 H0 : µ D = d 0
hipótesis
H1 : µ D < d 0 H1 : µ D > d 0 H1 : µ D ≠ d 0

d − D0
t =
estadístico (distribución t) s 2D
nD

grados de libertad n1 + n 2 − 2
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla V.

El experimento de diferencias apareadas es a menudo más potente dado que permite eliminar diferencias
en las muestras, que aumentan con la varianza total σ .
2

Alternativamente, puede emplearse el test t de una muestra a la variable diferencia, contrastando dicha
variable frente a la hipótesis nula de que el valor de la diferencia sea 0.
Cuando no se cumple el criterio de normalidad, se puede usar el test no paramétrico de simetría de la
distribución de las diferencias, test de Wilcoxon para un diseño con diferencias apareadas.

3.2. Comparación de medidas de dispersión. Comparación de varianzas


3.2.1. Test ji cuadrado de una muestra
En ocasiones se requiere que la varianza cumpla ciertos requisitos, por lo que se necesita comparar la
varianza estimada de una muestra, s , con la varianza hipotética, σ . Cuando las muestras siguen una
2 2

distribución normal, la proporción


s 2 ( n −1)
σ2
sigue una distribución χ .
2

χ 2 ( α ) representa el área del α % de la cola superior de la distribución χ 2 , esto es,

Pr ( χ 2 > χ 2 ( α ) ) = α

La forma de la distribución χ depende de los grados de libertad, n − 1 .


2

7
test unilateral test bilateral
H0 : s ≥ σ 0 H0 : s ≤ σ 0 H0 : s = σ 0
hipótesis
H1 : s < σ 0 H1 : s > σ 0 H1 : s ≠ σ 0

s 2 ( n −1)
estadístico χ2 =
σ0
grados de libertad n −1
rechazo de H 0 si χ 2 < χ 2 1− α si χ 2 > χ 2 α si χ 2 > χ 2 1− α 2 o si χ 2 > χ 2 α 2
Tabla VI.

3.2.2. Test F para dos muestras independientes

Para comparar las varianzas de dos muestras independientes, var1 y var 2 , se calcula el cociente entre
ellas. Este cociente se conoce como estadístico F (en honor a R. A. Fisher). El test F se basa en dos
supuestos:
(a) las muestras siguen una distribución normal; y
(b) las muestras son independientes entre sí.
Si estas condiciones se cumplen y H 0 es cierta, siendo H 0 : σ x = σ y , el estadístico F sigue una
2 2

distribución F.
Los cocientes de las varianzas empíricas por las varianzas exactas siguen leyes de ji-cuadrado. El cociente
ponderado de dos variables aleatorias independientes que siguen leyes de ji-cuadrado sigue una ley de
Fisher.
Así pues, el cociente:
nx s 2x
n x −1 σ 2x
ny s 2y
n y −1 σ 2y
sigue la ley de Fisher Fn x −1 , n y −1 .

El estadígrafo del test de Fisher es:


nx
s 2x
n x −1
T =
ny
s 2y
n y −1
Si H 0 es cierta, T sigue la ley Fn x −1 , n y −1 .

Se rechazará H 0 si el valor observado para T es muy grande o muy pequeño. Es, por tanto, un test
bilateral cuya regla de rechazo al umbral α es:

x y 2 x
( )
rechazo de H 0 ⇔ T ∉  Q F ( n −1 , n −1) α , Q F ( n −1 , n −1) 1 − α 
 y 2  ( )

8
test unilateral test bilateral
H0 : σ ≥ σ
2
1
2
2 H0 : σ ≤ σ
2
1
2
2 H 0 : σ 21 = σ 22
hipótesis
H1 : σ21 < σ 22 H1 : σ21 > σ22 H1 : σ21 ≠ σ22
s 22 s 12 mayor varianza muestral
estadístico F = 2
F = 2
F =
s 1 s 2
menor varianza muestral
g .l.1 = n1 − 1
grados de libertad
g .l. 2 = n 2 − 1
rechazo de H 0 si F < Fα si F > Fα 2
Tabla VII.

• Cuando no se cumple la condición de normalidad, debería emplearse un método no paramétrico. En


general el test F es más sensible a desviaciones de la normalidad que el test t.
• El test F puede emplearse para comprobar el supuesto de igualdad de varianzas necesario para realizar
el test t de dos muestras, pero el hecho de que no se rechace la H 0 no implica que el supuesto de
igualdad de varianzas sea cierto con total seguridad, ya que existe siempre una probabilidad de cometer
un error de tipo II.
• Hay otros tests más complejos para comprobar que las varianzas son homogéneas: test de Barlett, test
de Levene y otros. Todos ellos tienen como hipótesis nula que las varianzas son iguales. En los cálculos
con ordenador el más habitual será el de Levene, que se describirá más adelante.

Ejemplo
Supóngase que entre los 30 pacientes del grupo de control se observó un nivel medio de colesterol de 6,24
mmol/L (240 mg/dL) con una desviación típica de 1,3 mmol/L (50 mg/dL). En los 20 pacientes en tratamiento
se observó un promedio de 5,46 mmol/L (210 mg/dL) con una desviación típica de 1,3 mmol/L (50 mg/dL).
El estadígrafo del test de Fisher toma el valor 0,629, que corresponde a un valor p (para el test bilateral)
de: 2 F F ( 29,19 ) ( 0, 629 ) = 0, 2538 . En consecuencia se aceptará la hipótesis de la igualdad de las
varianzas. Asumido que se ha comprobado previamente la condición de normalidad, el estadígrafo del test
de Student toma el valor 2,30, con un valor p de: 1 − FT ( 48) ( 2,30 ) = 0, 0129 .

Por tanto, se rechaza H 0 al umbral α = 0, 05 : concluyéndose que la disminución de la concentración de


colesterol es considerada significativa.

4. Métodos no paramétricos
La mayoría de los tests no paramétricos se basan en el principio de aleatorización. La idea subyacente es
que la probabilidad de que un valor particular de un test estadístico se calcula evaluando todos los posibles
valores del test estadístico. Dado que el número de valores posibles de un test estadístico puede ser
elevado, incluso para muestras pequeñas, a menudo no es práctico (o incluso imposible) calcular la
probabilidad directamente.
Una posible estrategia es reducir la cantidad de cálculos requeridos mediante lo que se denomina un
remuestreo: en lugar de calcular todas las posibles combinaciones, se seleccionan numerosas muestras
aleatorias y se calcula la probabilidad a partir de las mismas.
Dos de los principales inconvenientes de los tests de aleatorización son el elevado tiempo computacional
que requieren y el hecho de que sea necesario realizar una aleatorización para cada grupo particular de
datos. Los tests de aleatorización basados en rangos proporcionan una solución a este problema,
manteniendo la independencia de las distribuciones.

9
Estos tests se aplican previa conversión de las puntuaciones en rangos y calculando a continuación el test
de aleatorización. Sin embargo, la aleatorización se puede obviar empleando tablas precalculadas para
determinar el nivel de significación.

4.1. Tests de aleatoriedad: test de las rachas


En ciertas situaciones, no se tiene control alguno sobre la forma en que los datos son seleccionados, siendo
útil disponer de técnicas que permitan probar si una muestra puede considerarse aleatoria. El test de rachas
se basa únicamente en el orden en que los datos se han recogido y, más concretamente, de las “rachas”
que siguen los datos muestrales.
Dada una lista ordenada de dos símbolos A y B , se define una racha como una sucesión de símbolos
iguales consecutivos. Por ejemplo la lista:
{A A A B A A B B B B B B B A A A A B}
contiene 6 rachas: 3 correspondientes al símbolo A y 3 correspondientes al símbolo B .
El número de rachas es una indicación de la aleatoriedad del experimento. Si sólo tuviéramos dos rachas,
con todos los símbolos A seguidos de todos los símbolos B , podría ser debido a un cambio en las
probabilidades de los posibles resultados del experimento. Una situación en la que todos los símbolos A y
B se alternan puede indicar falta de aleatoriedad. Nótese que no se considera el número de símbolos de
cada tipo sino el orden en el que aparecen.
Bajo la hipótesis de aleatoriedad, la distribución muestral del número de rachas R de una lista que contiene
n1 símbolos del primer tipo y n 2 símbolos del segundo tipo ( n1 , n 2 ≥ 10 ) puede aproximarse mediante
una distribución normal con media:
2 n1 n 2
µR = +1
n1 + n 2
y varianza:
2 n1 n 2 ( 2 n1 n 2 − n 1 − n 2 )
σ 2R =
(n + n2 ) (n + n 2 − 1)
2
1 1

Rechazándose la hipótesis nula si:


R exp − µ R
≤ − z 1− α 2
σR
o bien
R exp − µ R
≥ z 1− α 2
σR
donde R exp es el número de rachas observadas en la muestra.
Cuando los datos de la lista son de tipo numérico, la secuencia se construye contando secuencias de datos
que están por encima y por debajo de la mediana. De este modo se asignará el símbolo A a aquellos datos
que estén por encima de la mediana y el símbolo B a los que estén por debajo. Los datos coincidentes con
la mediana se suprimen de la lista.
Requisitos para aplicar el test de las rachas:
• Datos dicotómicos naturales o dicotomizados en torno a la media, la mediana, la moda u otro punto de
corte deseado. Normalmente se emplea la mediana para datos ordinales y la media para escalas de
intervalo. Sin embargo, no existe posibilidad de dicotomizar variables multinomiales carentes de
ordinalidad, en las que no tiene sentido hablar de valores superiores o inferiores a un punto de corte sin
significado no arbitrario;
• La distribución de datos puede ser cualquiera, puesto que se trata de un test no paramétrico.

10
4.2. Comparación de medidas de localización de una muestra
4.2.1. Test de los signos de una muestra
Supone una alternativa no paramétrica al test t para una muestra.
Se utiliza para resolver el contraste
 H 0 : Me = Me 0

 H1 : Me ≠ Me 0
donde: Me es la mediana poblacional.
Al aplicar el test de los signos a una muestra, cada valor muestral mayor que Me 0 se sustituye por un signo
“+” y cada valor muestral menor que Me 0 por un signo ”–“. Se descartan los valores muestrales iguales a
Me 0 .

Bajo la H 0 el número de signos “+” que aparecen en la muestra sigue una distribución B n , 1 ( 2 ).
Denominando T exp al número de signos positivos que aparecen en la muestra y T a una variable aleatoria

con distribución B n , 1 ( 2 ) , se rechazará H 0 con un nivel de significación α cuando α 0 ≤ α


2
, siendo

α 0 = Pr (T ≤ Texp ) .
Existe también una versión del test de los signos como alternativa al test t de Student para muestras
apareadas, como se verá más adelante.

4.2.2. Test de Wilcoxon de los rangos con signo para una muestra
El problema obvio del test de los signos es que descarta mucha información de los datos. Tiene en cuenta
la dirección de la diferencia pero no la magnitud de dicha diferencia entre cada par de puntuaciones. El test
de los signo de Wilcoxon permite comparar los datos con una mediana teórica (por ejemplo, un valor
publicado en un artículo). Pero a diferencia del test de los signos tiene en cuenta (al menos en alguna
medida) la magnitud de la diferencia y es más potente. Es un test de simetría de una variable con respecto
a un valor teórico dado.
Sean: Me {
la mediana frente a la que se van a contrastar los valores x1 , x 2 ,… , x n } observados; y
{x 1 − Me , x 2 − Me , … , x n − Me} las diferencias entre los datos y la mediana.
Si la hipótesis nula H 0 fuera cierta, estas diferencias se distribuirían de forma simétrica en torno a cero.

Para efectuar este test se calculan las diferencias en valor absoluto x i − Me y se ordenan de menor a
mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor
(empates), se les asigna el rango medio (es decir que si hay un empate en las posiciones 2 y 3 se asigna a
ambas el valor 2,5). Seguidamente se calcula la suma R + de todos los rangos de las diferencias positivas,
aquellas en las que x i es mayor que Me , y la suma R − de todos los rangos correspondientes a las
diferencias negativas. Si la hipótesis nula fuera cierta ambos estadísticos deberían ser parecidos, mientras
que si los datos tendieran a ser más grandes que la mediana Me se reflejaría en un valor mayor de R + y
al contrario si son más pequeños. Se trata de contrastar si la menor de las sumas de rangos es
excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de
rangos es excesivamente grande.
El parámetro del test es:

11
n ( n + 1)
T+ −
Z = 4
n ( n + 1) ( 2 n + 1)
24
La variable Z tiene una distribución conocida:
• Para n > 15 , sigue aproximadamente una distribución N ( 0 , 1) ;

• Para n ≤ 15 sigue una distribución particular objeto de la tabla del test de Wilcoxon;
• Para n ≤ 6 este test no permite rechazar la hipótesis nula.
Los programas estadísticos proporcionan el valor del parámetro y la significación del test.

4.3. Comparación de medidas de localización en dos muestras independientes


4.3.1. Test de la mediana
Se utiliza para chequear diferencias en localización entre dos o más poblaciones independientes. No se
tienen en cuenta las distancias a la mediana, sino a qué lado de la mediana están los datos (planteamiento
análogo al del test de los signos).
Requisitos:
• Independencia de las muestras
• Poblaciones con forma similar, aunque la distribución no tiene por qué ser la misma
• Muestras aleatorias de cada población
Procedimiento:
Tomando los datos de todos los grupos, se calcula la mediana conjunta. Si H 0 es cierta ( H 0 : igualdad de
las medianas), la mitad de las observaciones estarán por debajo de la mediana conjunta y la otra mitad por
encima. A continuación se crea una tabla de contingencia donde las filas son las poblaciones y las
columnas indican si las observaciones están por debajo o por encima de la mediana.
Ejemplo:
> Me < Me
población 1 a c m=a+c
población 2 b d n=b+d
a+b c+d N=a+b+c+d
Tabla VIII.

Para dos muestras, la probabilidad real de encontrar unos resultados tanto o más extremos que los nuestros
se obtiene mediante una distribución hipergeométrica:
 m n
  
a b
P* =   
 N 
 
a +b
Para k muestras, se tienen en cuenta todas las poblaciones, según:

12
 n1  n 2   n k 
  …  
P* =  a 1  a 2   a k 
N
 A! B ! 
⇒  
∏ ( n i!)
 N !  ∏ ( a i!) ∏ ( b i !)
( )
 
 A
El test de la mediana es más potente cuanto mayor tamaño muestral. Ha de considerarse que en términos
de la eficacia relativa asintótica, se necesitan más recursos para crear un test de la mediana con igual
eficacia que un test basado en rangos. Se recomienda este test únicamente cuando las muestras
comparadas vulneran algún requisito para emplear otras alternativas (como es el caso de muestras con
grandes diferencias en la forma).
Alternativas al test de la mediana para dos muestras:
• Test de Mann-Whitney (MW) y test de Wilcoxon (asumen que las medianas de las distribuciones
comparadas sólo difieren en una cantidad aditiva constante. El resto de requisitos son los mismos que
en el test de la mediana);
• Puntuaciones normales (mismos supuestos que en MW);
• Test de Kolmogorov-Smirnov (KS) de dos muestras (asume que se trata de dos muestras aleatorias
independientes).
Alternativas para k muestras:
• Test de Kruskal-Wallis (KW) (asume dos poblaciones idénticas excepto por una posible diferencia en la
localización);
• Puntuaciones normales (mismos supuestos que en KW);
• ANOVA con puntuaciones generales (asume misma distribución, igualdad de varianzas y resto de
supuestos anteriores).

4.3.2. Test de Mann-Whitney


El test de Mann-Whitney (MW), también denominado test de la suma de rangos, es un test no paramétrico
que compara dos grupos independientes. Debe considerarse una test de igualdad de dos distribuciones, ya
que la hipótesis nula es que las funciones de densidad de ambas distribuciones son iguales.
Fue descrita por primera vez por Wilcoxon para dos muestras independientes de igual tamaño (Wilcoxon,
1945) y extendida para dos muestras independientes de diferente tamaño (Mann-Whitney, 1947).
Actualmente, esta última es la versión más conocida, aunque a veces aparece denominada como test de
Wilcoxon-Mann-Whitney. (El test de Wilcoxon para datos apareados fue descrito posteriormente).
El test MW se aplica cuando la variable respuesta es ordinal o con variables cuantitativas que presentan
una marcada asimetría o vulneran el supuesto de normalidad (necesario para aplicar el test t con muestras
pequeñas). En este caso, el test transforma automáticamente la variable cuantitativa en ordinal. Esta
transformación comporta, en general, una ligera disminución de la potencia del test. Sin embargo cuando
las distribuciones son muy asimétricas los tests no paramétricos pueden llegar a ser más potentes que los
paramétricos. La mayor desventaja es que no permiten obtener el intervalo de confianza de la diferencia.
Para aplicar el test U de Mann-Whitney, se construye la variable ordinal asignando a cada uno de los
valores de la variable el rango que ocupa en el conjunto. Se ordenan los valores en orden ascendente sin
tener en cuenta a qué grupo pertenece cada valor. Si hay dos valores iguales (empates), se les asigna a
ambos el promedio de los dos rangos que les corresponderían si tuvieran valores consecutivos. El número
menor toma valor 1. El mayor número toma rango N , siendo N el número total de valores entre los dos
grupos. A partir de la variable ordinal creada, se obtienen los índices W 0 y W1 (suma de rangos en cada

grupo) y W 0 y W1 (media de rangos en cada grupo), que permiten obtener los valores U 0 y U 1 .

n 0 ( n 0 + 1)
U 0 = n 0 × n1 + − W0
2
n1 ( n1 + 1)
U 1 = n 0 × n1 + − W1
2

13
Para verificar los cálculos se debe cumplir que U 0 + U 1 = n 0 n1

El índice U 0 es el número de veces que el valor de cada uno de los datos del grupo 0 precede (es inferior)
a cada uno de los valores del grupo 1. A su vez U 1 indica el número de veces que cada valor del grupo 1
precede al de los sujetos del grupo 0.

( )
El contraste de hipótesis se efectúa con el mayor de los dos índices U máx , y la significación de las
diferencias se estudia comparando este valor con el límite superior del correspondiente intervalo de las
tablas, que habitualmente tienen ya incorporados los programas estadísticos, y proporcionan la significación
para un contraste bilateral.
• ( )
Si U máx < U s n 0 , n1 ; α , la diferencia no es significativa ( p > 0, 05 ) ;
• Si U máx ≥ U s (n 0 , n ; α ) , la diferencia es significativa ( p < 0, 05 ) .
1

El valor p responde a la siguiente cuestión: si las distribuciones son iguales, ¿cuál es la probabilidad de
que en un muestreo aleatorio se obtengan sumas de rangos tan diferentes como las obtenidas en el
experimento?
Si las muestras son pequeñas ( n <10 ) , y no hay empates, es necesario recurrir a las tablas de Mann-
Whitney-Wilcoxon, y se debe interpretar únicamente el valor p exacto, en caso de efectuar el test mediante
un programa estadístico como SPSS.
Si el tamaño muestral de ambos grupos es mayor de 10 casos, así como en el caso de que haya empates o
con variables ordinales, se aproxima el valor p mediante una aproximación gaussiana. Donde el término
“gaussiana” tiene relación con la distribución de la suma de rangos, y no implica que la distribución de datos
siga una distribución gaussiana. Esta aproximación es adecuada para muestras grandes y es la utilizada en
general por las aplicaciones estadísticas:
n 0 n1
U max −
z = 2 → z α ( ley normal )
n 0 n1 ( n 0 + n1 + 1)
12
Interpretación: Si el valor p es pequeño se puede rechazar la idea de que la diferencia sea una
coincidencia, y se concluye que las distribuciones son diferentes.
Si el valor p es grande, los datos no proporcionan ningún motivo para concluir que sean diferentes. Esto no
significa que sean iguales. Simplemente que no se tiene evidencia suficiente de que sean diferentes.
Para muestras pequeñas, el test MW tiene poca potencia. De hecho, si el tamaño muestral es menor o igual
a 7, siempre se obtendrá una p > 0, 05 independientemente de cuánto difieran los grupos comparados.
Antes de interpretar los resultados de un test estadístico, es fundamental asegurarse de que se ha
seleccionado el test adecuado. Por ello, antes de aceptar los resultados del test MW, se recomienda
plantearse las siguientes cuestiones:
• ¿Son independientes los errores?
Con el término "error" nos referimos a la diferencia entre cada valor y la mediana del grupo. Los resultados
del test MW sólo tienen sentido si la dispersión es aleatoria, de modo que cualquier factor que cause que un
valor sea demasiado alto o demasiado bajo afecta sólo a ese valor. Es preciso pensar en el diseño
experimental. Por ejemplo, los errores no son independientes si se tienen seis datos en cada grupo que se
hayan obtenido de dos sujetos de cada grupo (por ejemplo en triplicado). En este caso, algún factor puede
hacer que los triplicados de un sujeto sean superiores o inferiores
• ¿Son los datos apareados?
El test MW se aplica a todos los valores dispuestos en orden ascendente, y comparando las medias de los
rangos de ambos grupos. Si los datos son apareados, se debe aplicar el test de Wilcoxon de los rangos con
signo.
• ¿Se están comparando exactamente dos grupos?

14
El test MW sólo puede comparar dos grupos. Para comparar tres o más grupos independientes se aplica el
test KW seguido de tests a posteriori (véase apartado 4.4.1).
• ¿Es idéntica la forma de ambas distribuciones?
El test MW no requiere que las poblaciones sigan una distribución de Gauss, pero asume que la forma de
ambas distribuciones sea idéntica. Las medianas pueden diferir, y además no se trata de un test de
comparación de medianas sino de la distribución completa; pero si los dos grupos tienen distribuciones muy
diferentes, una transformación de los datos puede hacer que las mismas sean más parecidas.
• Seleccionando un valor p unilateral, ¿se ha hecho la predicción adecuada?
Si se elige un valor p unilateral, se obtendrá una predicción de qué grupo tenía mayor mediana antes de
recoger los datos.
• ¿Se han recogido datos de poblaciones no gaussianas?
Seleccionando un test no paramétrico, se evita asumir que los datos se hayan tomado de distribuciones
gaussianas. Pero hay inconvenientes asociados al uso de tests no paramétricos. Si las distribuciones son
en realidad gaussianas, los métodos no paramétricos tienen menor potencia (la probabilidad de que
proporcionen un valor p pequeño es menor), especialmente con tamaños muestrales pequeños. Además,
los programas generalmente no calculan los intervalos de confianza cuando se aplican tests no
paramétricos. Si la distribución claramente no es gaussiana se debe considerar la posibilidad de transformar
los valores para crear una distribución gaussiana y aplicar un test t .
Los supuestos del test MW son:
• Las dos muestras han sido muestreadas aleatoria e independientemente
• La variable evaluada es intrínsecamente continua, capaz en principio, si no en la práctica, de producir
las medidas realizadas hasta el n-ésimo decimal
• Las medidas han sido realizadas al menos en escala ordinal, de modo que tiene sentido hablar de
comparaciones cuantitativas (mayor que, menor que o igual a)
• El tamaño muestral ha de ser el mismo en ambos grupos, aunque pequeñas desviaciones de este
requisito no producen generalmente diferencias sustanciales en las conclusiones.
La forma de realizar el test MW requiere el cálculo de un índice estadístico (U ) que es más simple que la
W de Wilcoxon. En SPSS se muestran ambos valores, U y W , cuando se solicita el procedimiento MW
para muestras independientes, cuya significación coincide.

4.3.3. Test de Wald-Wolfowitz


Es una alternativa para conocer la significación de la diferencia entre dos muestras independientes de una
variable ordinal.
Al igual que en el test MW, se reúnen y ordenan los datos de ambas muestras, obteniéndose una serie de
A ’s y B ’s correspondientes a los sujetos de las muestras A y B . Estas series pueden ser chequeadas
mediante un test de rachas. No afectan los posibles empates existentes entre los sujetos de la misma
muestra, pero si los hay entre sujetos de dos muestras diferentes, el orden ha de ser asignado mediante un
generador de números aleatorios.
Como una diferencia entre las medianas de las dos muestras conduciría a una agrupación de las medidas
de la muestra A y la B . en diferentes zonas de la serie conjunta de rangos ordenados, el test permite
comprobar dicha diferencia a través de un test de rachas.

4.3.4. Test de Kolmogorov-Smirnov de dos muestras


El test de las rachas y el de dos muestras presuponen que en las observaciones no hay empates, esto es,
que cada observación tiene una única posición en el ranking que no comparten con otra observación. El test
de Kolmogorov-Smirnov (KS) proporciona la probabilidad de que dos categorizaciones ordenadas
provengan de una misma ordenación.
Sean A y B dos muestras independientes. Se construye una variable ordinal que ordena a los sujetos de
1 a k , y para cada muestra, se el porcentaje acumulado de los sujetos en función del rango, de modo que
el porcentaje acumulado del rango k -ésimo sea el 100 % para cada muestra. Para cada rango, se resta el
porcentaje acumulado de la muestra B del acumulado para la muestra A . Se construye así la variable D ,
que toma como valor la mayor diferencia entre los porcentajes acumulados para cada rango ordinal dado.
La comparación de los valores de D con las tablas de valores críticos de KS permite conocer el

15
correspondiente nivel de probabilidad. En la práctica, paquetes estadísticos como SPSS aportan este dato
por lo que se puede obviar el uso de las tablas.
Ejemplo

acuerdo o desacuerdo con una disposición


hombres mujeres diferencia
acuerdo total 10 (0,12)[0,12] 24 (0,26)[0,26] 14 (0,14)[0,14]
desacuerdo 15 (0,18)[0,30] 15 (0,17)[0,43] 0 (0,01)[0,13]
ni acuerdo ni desacuerdo 19 (0,23)[0,53] 21 (0,23)[0,66] 2 (0,00)[0,13]
desacuerdo 18 (0,21)[0,74] 17 (0,19)[0,85] 1 (0,02)[0,10]
desacuerdo total 22 (0,26)[1,00] 14 (0,15)[1,00] 8 (0,11)[0,00]
total 84 (1,00) 91 (1,00) 7 (0,00)
Tabla IX. (proporciones entre paréntesis) [proporciones acumuladas entre corchetes]

El test K-S establece si la mayor diferencia proporcional acumulada observada ha sido causada por la
fluctuación del azar o no. En este caso, esta diferencia es [0,14] (celda superior derecha). El valor de ji-
cuadrado de la diferencia proporcional mayor esperada es χ = 3, 673 y el valor p de dicha diferencia para
2

dos grados de libertad es 0,15933, de modo que la diferencia en el orden observado entre hombres y
mujeres puede estar causada por las fluctuaciones del azar. El valor de probabilidad presentado es
unilateral. En la bibliografía se considera que el test KS tiene muy poca potencia con la probabilidad de
cometer un error de tipo II, esto es, de no encontrar diferencias cuando existen.

4.3.5. Test de Moses


Se emplea en estudios experimentales donde se asume que la variable tratamiento afectará a los sujetos
tanto positiva como negativamente, creando un efecto polarizante. El test de Moses se aplica para
respuestas extremas de una muestra, comparada con otra que constituye el grupo control. Esto significa
que, mientras que otros tests para dos muestras independientes chequean la existencia de diferencias en la
tendencia central en el centro de la distribución, el de Moses comprueba diferencias en las tendencias
extremas, en las colas de la distribución. Si la probabilidad asociada al test de Moses es menor que el nivel
de significación elegido (habitualmente 0,05), se rechaza la hipótesis nula de que las dos muestras no son
diferentes.
Si se dispone de dos muestras, una de ellas con distribución normal y la otra polarizada en los dos
extremos, es posible que ambas tengan la misma “tendencia central” y pueden no reflejar diferencias
significativas mediante tests que enfaticen dichas diferencias en la tendencia central. Sin embargo, cuando
una distribución está polarizada, la tendencia central es un promedio que conduce a error y un mal criterio
de decisión. El test de Moses debería emplearse no solo en caso de tratamientos experimentales como el
descrito antes, sino siempre que se crea que las muestras pueden diferir en los extremos más que en el
centro de sus respectivas distribuciones. Puede constituir un complemento para otros tests que están
enfocados en la tendencia central.
Si A es la muestra que se cree no está influenciada por la polarización (por ejemplo, el grupo control) y B
es el grupo posiblemente polarizado (el tratamiento), para no realizar inferencia basada en valores
aberrantes fortuitos, el 5 % (u otro pequeño porcentaje o número absoluto) de los casos de A se ignoran a
cada extremo. Se ordenan los datos de ambos grupos conjuntamente, tal y como se describió para el test
MW, y se les asignan rangos de 1 a N siendo N la suma de ambos tamaños muestrales. A los empates
se les asigna el promedio de los rangos. Se calcula la amplitud como el rango del mayor valor del grupo
control menos el rango del menor valor del mismo grupo, más 1 y redondeando al número entero más
próximo. La mínima amplitud se calcula también como el tamaño muestral de A menos el número de casos
omitidos. La probabilidad exacta de obtener una amplitud mayor o igual que la mínima se puede calcular,
pero en la práctica la proporcionan directamente los programas estadísticos.
Nota: En SPSS, por ejemplo, se puede consultar la fórmula de cálculo de esta probabilidad en la
documentación de SPSS. En el cuadro de diálogo correspondiente al test de Moses, el grupo control ha de
ser el grupo 1 y el tratamiento el 2. Este test es sensible a datos extremos y es recomendable recortar el 5

16
% de casos más extremos del grupo control antes de realizarlo. Este porcentaje se puede modificar en la
sintaxis, pero se suele recomendar eliminar un número fijo de 2 ó 3 casos a cada extremo.

4.4. Comparación de medidas de localización en k muestras independientes


4.4.1. Test de Kruskal-Wallis
Recordemos los supuestos de un análisis de la varianza (ANOVA) para dos muestras2.
• la escala de medida de la variable dependiente ha de tener propiedades de una escala de intervalo
(variable continua);
• las k muestras han de ser extraídas independiente y aleatoriamente de una población dada;
• la población de estudio permite suponer razonablemente que sigue una distribución normal;
• las k muestras tienen varianzas aproximadamente normales.
Cuando las muestras tienen el mismo tamaño, los supuestos 1, 3 y 4 no son muy decisivos, dado que el
ANOVA es bastante robusto y permanece relativamente imperturbado por la violación de dichas
condiciones. Sin embargo, cuando las muestras no tienen el mismo tamaño, el ANOVA no se puede aplicar
si no se cumplen todas las condiciones anteriores y es preciso recurrir a una alternativa no paramétrica, que
en este caso será el test KW. Este test también puede usarse para sustituir al ANOVA cuando los datos son
ordinales o el tamaño de muestra es pequeño.
Considérese un caso en que 24 aficionados al vino han sido elegidos aleatoriamente y se han distribuido en
tres grupos, A , B y C , de 8 sujetos cada uno. Cada sujeto es citado para una entrevista. Sin embargo,
uno de los sujetos del grupo B y dos del grupo C no acuden a la entrevista, de modo que el investigador
se encuentra con grupos de diferente tamaño: n A = 8 , n B = 7 y n C = 6 , y un total de n = 21 individuos.
Los participantes han clasificado la calidad de tres vinos en una escala de 1 a 10, de valor creciente. Sin
embargo, se trata del mismo vino para todos los sujetos, con la única diferencia de que la entrevista del
grupo A se ha diseñado para que en el grupo A la expectativa de calidad sea alta, relativamente baja para
el grupo C e intermedia para el grupo B . Al final del estudio, las puntuaciones de cada sujeto se
promediaron para los tres vinos y ese promedio se tomó como medida de la percepción del gusto para dicho
sujeto. En la tabla siguiente se presentan las medidas para cada sujeto de los tres grupos.

grupo
A B C
6,4 2,5 1,3
6,8 3,7 4,1
7,2 4,9 4,9
8,3 5,4 5,2
8,4 5,9 5,5
9,1 8,1 8,2
9,4 8,2
9,7
media 8,2 5,5 4,9
Tabla X.

La “mecánica” del test KW comienza tomando las medidas de las k muestras como una única muestras de
tamaño N . Todas las medidas se ordenan por rangos de menor (rango #1) a mayor (rango # N ),
incluyendo los rangos repetidos; los rangos resultantes se devuelven a los correspondientes grupos, A , B ,
o C , a los que pertenecen, sustituyendo las medidas raíz que dieron lugar a ellos.
Por tanto, las medidas raíz de la anterior tabla quedarían sustituidas por la siguiente tabla (derecha)

2
Ver módulo 2: ANOVA_Notas.

17
medidas originales rangos de las medidas
A B C A B C
6,4 2,5 1,3 11 2 1
6,8 3,7 4,1 12 3 4
7,2 4,9 4,9 13 5,5 5,5
8,3 5,4 5,2 17 8 7
8,4 5,9 5,5 18 10 9
9,1 8,1 8,2 19 14 15,5
9,4 8,2 20 15,5 A, B, C
9,7 21 combinados
suma de rangos 131 58 42 231
media de rangos 16,4 8,3 7,0 11
Tabla XI.

Con el test KW, sin embargo, tenemos en cuenta no solo la suma de rangos de cada grupo sino también los
promedios. Por tanto se emplea la siguiente notación:
TA suma de los n A rangos en el grupo A ;

xA media de los n A rangos en el grupo A ;

TB suma de los n B rangos en el grupo B ;

xB media de los n B rango en el grupo B ;

TC suma de los n C rangos en el grupo C ;

xC media de los n C rangos en el grupo C ;

Ttodos suma de los N rangos en todos los grupos combinados;


x todos media de los N rangos en todos los grupos combinados.
A veces se describe el test KW como un "análisis de varianza por rangos". Aunque en realidad no es un
análisis de varianza, mantiene cierta semejanza con el ANOVA. En ambos procedimientos la primera
cuestión es hallar una medida del grado al que las medias de los grupos difieren. Con el ANOVA esta
medida la proporciona la cantidad conocida como SCb , la suma de desviaciones cuadráticas entre grupos.
Para el test KW ocurre lo mismo excepto porque en este caso las medias de los grupos se basan en los
rangos en lugar de hacerlo en las medidas originales. Podemos diferenciar esta suma de desviaciones
cuadráticas basadas en rangos simbolizándolas como SCb ( R ) .

Ejemplo 1
A B C todos
recuentos 8 7 6 21
sumas 131 58 42 231
medias 16,4 8,3 7,0 11,0
Tabla XII.
La desviación cuadrática de cualquier grupo en particular es igual a la diferencia entre la media de dicho
grupo y la del conjunto de datos, elevada al cuadrado, multiplicada por el número de valores en que se basa
la media de cada grupo.

18
A → 8 (16, 4 − 11, 0 ) = 233,3
2

B → 7 ( 8,3 −11, 0 )
2
= 51, 0
A → 6 ( 7, 0 − 11, 0 )
2
= 96, 0
SCb( R ) = 380,3
Por analogía con las fórmulas de SCb descritas para el ANOVA, se puede hablar de SCb ( R ) como:

∑(n ( x )
k
− xtodos )
2
SCb ( R ) = j j
j =1

donde j es uno de los grupos.


La fórmula computacional es:

(T )
2
k 2
Ttodos

j
SC b ( R ) = −
j =1 nj N
Para k = 3 muestras, la formula equivalente sería:

TA2 TB2 TC2 Ttodos


2
SC b ( R ) = + + −
n A n B nC N
En el anterior ejemplo, aplicando la fórmula computacional evitamos el error de redondeo:

(131) ( 58 ) ( 42 ) ( 231)
2 2 2 2

SC b ( R ) = + + − = 378, 7
8 7 6 21
Hipótesis nula de SCb ( R )

La hipótesis nula en cualquier situación que implique varias muestras independientes de datos ordenados
es que la media de los rangos de los k grupos no difiere sustancialmente. En este contexto, se puede
suponer que la hipótesis nula del valor SCb ( R ) como medida conjunta de las diferencias entre los grupos,
sería sencillamente cero. Sin embargo esto no es así, como se verá a continuación.

Ejemplo 2
Considérese un caso muy simple donde hay tres grupos, cada uno con d observaciones. Análogamente
supongamos que se tienen 6 cartas pequeñas representando los rangos “1”, “2”, “3”, “4”, “5” y “6”. Si se
extrajesen estas cartas en todas las posibles combinaciones de dos rangos por grupo, se obtendría el
número total de combinaciones
A B C
x x x
x x x
Tabla XIII.
N! 6!
= = 90
n A ! n B ! nC ! 2! 2! 2!
Los valores de SCb ( R ) producidos por esas 90 combinaciones constituirían la distribución muestral de

SCb ( R ) para este caso particular. De estas 90 combinaciones, sólo 6 darían valores de SCb ( R ) exactamente
igual a 0. El resto producirían valores mayores que 0. Del mismo modo, la media de esta distribución
muestral no es 0, sino algo mayor que 0.
En cualquier caso particular de este tipo, la media de la distribución muestral de SCb ( R ) vendrá dada por la
fórmula

19
N ( N + 1)
(k − 1) ×
12
En el ejemplo 2:
6 (6 + 1)
( 3 − 1) × = 7, 0
12
En el ejemplo 1, por lo tanto, sabemos que el valor observado de SCb ( R ) = 378, 7 pertenece a una
distribución muestral cuya media es igual a:
21 (21 + 1)
( 3 − 1) × = 77, 0
12
Estadístico H de Kruskal-Wallis
SC b ( R )
H =
N ( N + 1)
12
Cuando cada una de las k muestras incluye al menos cinco observaciones, la distribución muestral de H
es una aproximación muy cercana a la distribución de χ para k − 1 grados de libertad. En realidad, esto se
2

cumple incluso para tres observaciones.


En el ejemplo 1, es:
378, 7
H = = 9,84
21 ( 21 + 1)
12
es el valor que referido a la distribución de ji-cuadrado con dos grados de libertad (Figura 2) informa de que
la diferencia entre las tres muestras es significativa a un nivel ligeramente por debajo de 0,01.

Figura 2. Distribución muestral teórica de ji-cuadrado para dos grados de libertad.

Una fórmula alternativa para calcular H es:

 k T2 
12  ∑ j 
 j =1 n j 
  − 3 N +1
H = ( )
N ( N + 1)
Cuando sea imperativo usar un método no paramétrico, una vez se hay rechazado la hipótesis de igualdad
de las medianas mediante un contraste KW significativo, se harán comparaciones por parejas con la U de
MW, pero penalizando los valores de p para no incrementar artificialmente la posibilidad de falsos positivos
(errores de tipo I, esto es, decir que algo es diferente cuando no lo es). Para ello, el modo más simple es

20
multiplicar cada valor p por el número total de comparaciones entre parejas realizado (método de
Bonferroni). En realidad, es más exacto aplicar como p penalizada la calculada según la fórmula

p′ = 1 − (1 − p ) , siendo c el número de comparaciones, pero los resultados se aproximan bien usando la


c

expresión más cómoda p′ = c × p . Sólo hay que tener la precaución de redondear p′ = 1 cuando el
producto c × p > 1 . El procedimiento de Bonferroni es muy conservador y no se aconseja si hay cinco o más
grupos (10 comparaciones) porque penaliza mucho la p . Pero cuando el resultado es significativo, un
procedimiento tan conservador como éste aporta más credibilidad a las conclusiones del estudio.
La corrección de Bonferroni ha de hacerse manualmente, ya que SPSS no tiene opción para aplicarla. Un
ejemplo para tres comparaciones sería:
valor p hallado en una número de
p’ penalizada
comparación comparaciones (c)
0,05 3 0,15
0,01 3 0,03
0,005 3 0,015
Tabla XIV.

4.3.3. Test de la mediana


También llamado test de la mediana de Westenberg-Mood, es un test más general pero menos potente que
la alternativa KW para chequear si varias muestras independientes proceden de la misma población.
En SPSS, seleccionar:
ANALYZE > NONPARAMETRIC TESTS > K INDEPENDENT SAMPLES > SELECCIONAR VARIABLES;
Seleccionar la variable de agrupación (grouping variable); Definir la variable del rango, indicando los valores
mínimo y máximo. En el tipo de test, seleccionar Mediana.
Las muestras se combinan temporalmente para determinar la mediana conjunta. Ser puede construir la
tabla donde en las columnas están las muestras y las filas reflejan los recuentos por encima o por debajo de
la mediana conjunta, para cada muestra. Se calcula la significación de la tabla mediante un test χ .
2

4.3.4. Test de Jonckheere–Terpstra


Mediante el test de Jonckheere–Terpstra (JT) se comparan las diferencias entre varias muestras
independientes de una forma más potente que con el test KW o de la mediana. Sin embargo, se requiere
que las muestras se ordenen según una variable criterio de modo ascendente o descendente (variables
ordinales). El test JT comprueba la hipótesis de que a medida que se pasa de muestras con bajo valor de la
variable criterio a muestras con valor alto de dicha variable, la magnitud intra-muestra de la variable criterio
aumenta.

4.5. Comparación de medidas de localización en dos o más muestras relacionadas


4.5.1. Test binomial para la estimación y contraste de hipótesis de los cuantiles. Test de los signos
El test de los signos es uno de los tests no paramétricos más sencillos. Se emplea para medidas repetidas o
correlacionadas al menos en escala ordinal y es un caso particular del test de los cuantiles.
Para cada sujeto se sustrae la segunda medida de la primera y se anota el signo de la diferencia (Esto es,
se da valor “–” si la diferencia es negativa o “+” si es positiva). La hipótesis nula habitual es que no hay
diferencias entre las medidas pre- y post-. En este caso, el número de signos “+” (o de signos “–“) deberá
seguir una distribución binomial 1 con p = 0,5 y N número de sujetos. Es decir, el test de signos no es
más que un test binomial con “+” y “–“ en lugar de “éxito” y “fracaso”, por ejemplo.
Para describir formalmente y en general este test, tómese el ejemplo de un tratamiento que se supone hace
disminuir las concentraciones de colesterol. Para cada individuo i de un grupo de pacientes, se mide la
diferencia d i entre las concentraciones de colesterol después y antes del tratamiento. Algunas de estas
diferencias son negativas (disminución de la concentración de colesterol) otras positivas (aumento). La

21
hipótesis nula H 0 es que el tratamiento no manifiesta un efecto significativo. Se rechazará H 0 (decidiendo
que el tratamiento es eficaz) si se observa una cantidad suficiente de disminuciones. El estadígrafo del test
es el número de descensos:
n
T = ∑I( −∞ ,0] (d ) i
i =1

donde: I A ( X ) es a la función indicatriz del conjunto A , que vale 1 si X ∈ A y 0 en caso contrario.

Si H 0 es cierta, la mediana de la ley P de las X i es nula y T sigue la ley binomial B ( n , 0,5 ) .

Esta situación puede generalizarse para cualquier cuantil. Si {x , x 1 2 ,… , x n } es una muestra de la ley P ,
] [
de función cuantil Q y u ∈ 0,1 es un número real fijo, se considerará la hipótesis nula:

H 0 : Q (u ) = q 0
donde: q 0 es un número real fijo.

Sea T el número de elementos de la muestra, inferiores a q 0 :


n
T = ∑I( −∞ , q 0  (x ) i
i =1

Entonces bajo la hipótesis H 0 , T sigue la ley binomial B ( n , u ) .

El caso particular en el que u = 0,5 y q 0 = 0 , como en el ejemplo, se denomina test de los signos.
Supongamos que en un grupo de 46 individuos se observaron 29 descensos en la concentración de
colesterol. El valor p correspondiente es:

p ( 29 ) = 1 − FB ( 46,0,5) ( 28 ) = 0, 0519 .
Para llevar a cabo un test de los signos, el estadístico de contraste puede ser, pues, el número de signos
positivos. Pero es preciso tener en cuenta que el investigador no ha predicho en ningún caso ningún
resultado, sino que desea saber si dos grupos de medidas difieren. Esto significa que la hipótesis alternativa
no es direccional y el contraste es bilateral.
Para una muestra grande se puede remplazar la ley binomial por su aproximación normal. Bajo H 0 , el
estadígrafo:
T − nu
T′ =
n u (1 − u )
que está centrado y reducido, sigue la ley normal N ( 0,1) . En el ejemplo anterior T ′ toma el valor 1,7693.
El valor p correspondiente es:

1 − F N (0,1) (1, 7693) = 0.0384


Es aconsejable limitar el uso de la aproximación por la normal únicamente a los casos en los que la ley no
se pueda calcular exactamente.
El test de los signos consiste en hacer un test de la nulidad de la mediana, que se rechaza si el número de
datos positivos es significativamente diferente del número de datos negativos. Supone una alternativa no
paramétrica al test t para una muestra y para muestras apareadas.
El test de los signos para una muestra se utiliza para resolver el contraste
 H 0 : Me = Me 0

 H1 : Me ≠ Me 0
donde: Me es la mediana poblacional.

22
Si la población bajo estudio es simétrica, la mediana poblacional coincide con la media poblacional. Al
aplicar el test de los signos a una muestra, cada valor muestral mayor que Me 0 se sustituye por un signo
“+” y cada valor muestral menor que Me 0 se sustituye por un signo “–“. Los valores muestrales que sean
iguales a Me 0 se descartan.

4.5.2. Test de Wilcoxon de los rangos con signo para dos muestras
El test de Wilcoxon de los rangos con signo para dos muestras es un método no paramétrico que compara
dos grupos apareados. Se debe usar en lugar del test t para datos apareados cuando los datos
comparados son ordinales o cuando son cuantitativos pero la muestra es pequeña ( n < 30 ) y además no
sigue una distribución normal en la variable diferencia entre las dos mediciones emparejadas.
Se calcula la diferencia entre cada par de datos y se analiza la lista de diferencias. El valor p responde en
este caso a la cuestión: “si la diferencia entre las medianas de la población entera es cero (por ejemplo, en
la comparación de los resultados obtenidos antes y después de un tratamiento, esto significará que dicho
tratamiento no es eficaz), ¿cuál es la probabilidad de que un muestreo aleatorio nos proporcione una
diferencia entre las medianas tan alejada de cero como la observada en este experimento?”
Para calcular el test de Wilcoxon, se eliminan los empates (diferencias iguales a cero) y se ordenan de
menor a mayor el resto de diferencias entre cada par de datos, prescindiendo del signo (en valor absoluto)
en dos columnas, diferencias positivas T + ( ) ( )
y negativas T − . A los sujetos con igual diferencia se les
asigna la media de los números de orden que les habría correspondido si en lugar del mismo valor tuvieran
valores consecutivos.
A continuación se debe obtener la suma de los rangos correspondientes a los sujetos con diferencias
positivas ( ∑ T ) y negativas ( ∑ T ) y se comparan ambas sumas. Si los cálculos están bien realizados
+ −

se verificará que:
n ( n + 1)
∑T + + ∑T − =
2
El contraste se realiza con la suma de números de orden con signo más frecuente. Si el valor obtenido
∑ T es igual o superior al dado en las tablas para un tamaño muestral n y un riesgo de error α , se
rechaza la hipótesis nula.
Si T < T n , α , la diferencia no es significativa ( p > 0, 05 ) .
Si T ≥ T n , α , la diferencia es significativa ( p < 0, 05 ) .
Si las sumas de rangos son muy diferentes, el valor de p será pequeño. El valor p responde a la cuestión:
“si el tratamiento no tiene efecto, ¿cuál es la probabilidad de que un muestreo aleatorio proporcione una
suma de rangos como la observada?”
Si las muestras son pequeñas y no hay rangos repetidos, se calcula el valor p exacto.

Si las muestras son grandes ( n ≥ 20 ) o hay repeticiones de rangos, se calcula el valor p mediante una
aproximación gaussiana, que, al igual que se explicó para el test MW, tiene relación con la distribución
gaussiana de las sumas de rangos y no con que la distribución de datos siga una distribución normal. Basta
pensar que, dada la hipótesis nula planteada, se espera que T se aproxime a cero, dentro de los límites de
la variabilidad aleatoria, de modo que cualquier valor individual observado de T pertenece a una
distribución de media cero, es decir µ T = 0 . Como la desviación típica de dicha distribución está deducida,
podemos aplicar como aproximación gaussiana la siguiente:
n ( n + 1)
T −
z = 4 → z α ( ley normal )
n ( n + 1) ( 2 n + 1)
24

23
El motivo para usar un diseño con datos apareados es controlar la variabilidad experimental. Algunos
factores que no se pueden controlar en el experimento afectarán del mismo modo a las medidas pre- y post-
que se comparan, de modo que no alteran la diferencia observada entre los rangos. Analizando sólo dichas
diferencias, por lo tanto, un test apareado corrige estas fuentes de dispersión.
Si el diseño apareado es eficaz, se espera que las medidas pre- y post- varíen conjuntamente. Algunos
programas cuantifican esto calculando el coeficiente de correlación de Spearman y a partir de éste, se
calcula un valor p que responde a la cuestión: Si los dos grupos realmente no están correlacionados en
absoluto, ¿cuál es la probabilidad de que un muestreo aleatorio de los sujetos proporcionaran un coeficiente
de correlación tan alto como el observado? Aquí, el valor p es unilateral, dado que no se está interesado
en la posibilidad de observar una fuerte correlación negativa.
Si el apareamiento fue eficaz, el coeficiente de correlación de Spearman será positiva y el valor p
pequeño. Esto significa que los grupos están correlacionados significativamente, de modo que tiene sentido
el haber seleccionado un test para datos apareados.
Si el valor de p es grande (> 0,05) se cuestiona si tiene sentido usar un test para datos apareados. La
selección de un test para datos apareados no debe basarse en el resultado del valor p , sino en el diseño
experimental y en los resultados observados en experimentos similares. Si el coeficiente de correlación de
Spearman es negativo, significa que el apareamiento ha sido contraproducente. Se espera que los valores
de los pares se mueva conjuntamente (si uno es más alto, también lo ha de ser su pareja) Pero si el
coeficiente de correlación es negativo se está indicando lo contrario (al aumentar uno disminuye el otro) Lo
más probable es que sea cuestión de azar, pero si el coeficiente de correlación es próximo a –1, deben
revisarse los procedimientos empleados.
Los supuestos del test de Wilcoxon son:
• Los datos apareados x A y x B han sido muestreados aleatoria e independientemente (cada par ha sido
extraído de la población independientemente del resto de pares de datos);
• La variable evaluada es intrínsecamente continua, capaz en principio, si no en la práctica, de producir
las medidas realizadas hasta el n -ésimo decimal;
• Las medidas de x A y x B han sido realizadas al menos en escala ordinal, de modo que tiene sentido
hablar de comparaciones cuantitativas (mayor que, menor que o igual a).
Es importante tener en cuenta que SPSS sólo aporta el valor p del test de Wilcoxon para datos apareados
mediante aproximación asintótica. Esto significa que, para tamaños muestrales inferiores a 20, será
necesario recurrir a la tabla de valores críticos de Wilcoxon correspondiente.

4.5.3. Test de Friedman


Existen algunos casos de muestras relacionadas, en los que la violación de alguno de los supuestos
impiden aplicar el análisis de la varianza, sobre todo cuando el tamaño muestral es pequeño y además no
se puede asumir la normalidad de los residuales. La alternativa no paramétrica al ANOVA de dos vías es el
test de Friedman.
Hay dos tipos de situaciones frecuentes de muestras correlacionadas donde es aconsejable emplear una
alternativa no paramétrica. El primero es el caso de k medidas de cada individuo que hayan sido tomadas
como ordenaciones.
Por ejemplo, para sondear los resultados probables de unas elecciones, se ha encuestado a 30 miembros
de un supuesto grupo representativo de votantes para que clasifiquen a los tres candidatos, A , B y C por
orden de preferencia (1 = más preferido, 3 = menos preferido).
El segundo caso sería que las medidas se tomaran como puntuaciones.
Por ejemplo, los miembros de un grupo de votantes han sido encuestados para puntuar a los candidatos en
una escala de 1 a 10 (1 = peor puntuación, 10 = más alta puntuación).
En ambas situaciones el supuesto de escala de medida de intervalos iguales claramente no se cumple.
También existe gran probabilidad de que la suposición de que la población de estudio se distribuya según
una normal tampoco se cumpla.
Otras situaciones en que el supuesto de escalas de intervalo iguales no se cumple son aquellas en que las
medidas se realizan en escalas intrínsecamente no lineales. Por ejemplo, la escala de intensidad de sonido
en decibelios, la escala de terremotos de Richter o cualquier escala logarítmica.
El procedimiento de cálculo es similar a otros tests basados en rangos:

24
(a) En primer lugar se reemplazan los datos de cada sujeto por su rango dentro de cada fila (posición
ordenados de menor a mayor en el conjunto de cada sujeto) y se suman los rangos por columnas.
Deberá verificarse que la suma total de rangos es:
n
número de medidas + 1
∑R
i =1
i = número de medidas ×
2
× número de sujetos

Ri
(b) A continuación se calculan los rangos medios de cada columna (medida), como
ni
(c) Se calcula el estadístico de contraste:
k
12 ∑ R 2j
− 3 n ( k + 1)
j =1
χ2 =
n k ( k + 1)
donde: k es el número de observaciones repetidas (número de medidas);
n es el número de sujetos; y
Ri es la suma de rangos para la medición i .

(d) Este estadístico se ha de comparar con una distribución ji-cuadrado con k − 1 grados de libertad.
Existe un factor de corrección para el caso de que existan empates:
n

∑T
i =1
i

f .c. = 1 −
n k (k 2 − 1)
donde: Ti = ∑th
3
ih − ∑t
h
ih ;y

tih es el número de observaciones empatadas para un rango dado en el i -ésimo individuo.


Análogamente al caso del test KW, si se encuentran diferencias significativas, habría que hacer
comparaciones con datos apareados entre cada par de grupos (test de Wilcoxon) y penalizar los valores p
encontrados mediante el ajuste de Bonferroni, por tratarse de comparaciones múltiples.

Ejemplo 3
Se quieren probar tres violines, A , B y C en una galería musical para incluirlos en una colección y se
decide que cada uno de ellos sea tocado por 10 violinistas profesionales a ojos tapados y en una secuencia
aleatoria de modo que no saben cuál están tocando en cada momento. Al acabar de tocar cada violín se le
pide al músico que puntúe el instrumento en una escala de 10, siendo 1 el valor más bajo y 10 el más alto.
Se permite dar una cifra decimal en la puntuación.
El test de Friedman se prepara ordenando por rangos las medidas de cada sujeto. En el presente ejemplo,
se asignó el rango "3" a la mayor puntuación de las medidas de cada sujeto, "2" a la intermedia y "1" a la
más baja. Así, para el individuo 1, la medida más alta es la de la columna A , la siguiente la B y la peor la
C . Se obtiene la siguiente tabla haciendo lo mismo para el resto de sujetos:

violín violín
individuos A B C individuos A B C
1 9,0 7,0 6,0 6 7,5 8,0 6,5
2 9,5 6,5 8,0 7 8,0 6,0 6,0
3 5,0 7,0 4,0 8 7,0 6,5 4,0
4 7,5 7,5 6,0 9 8,5 7,0 6,5
5 9,5 5,0 7,0 10 6,0 7,0 3,0
Tabla XV.

25
medidas originales rangos
individuos A B C A B C
1 9,0 7,0 6,0 3 2 1
2 9,5 6,5 8,0 3 1 2
3 5,0 7,0 4,0 2 3 1
4 7,5 7,5 6,0 2,5 2,5 1
5 9,5 5,0 7,0 3 1 2
6 7,5 8,0 6,5 2 3 1
7 8,0 6,0 6,0 3 1,5 1,5
8 7,0 6,5 4,0 3 2 1
9 8,5 7,0 6,5 3 2 1
10 6,0 7,0 3,0 2 3 1
Tabla XVI.

rangos
sujetos A B C
1 3 2 1
2 3 1 2
3 2 3 1
4 2,5 2,5 1
5 3 1 2
6 2 3 1
7 3 1,5 1,5
8 3 2 1
9 3 2 1
10 2 3 1
sumas 26,5 21,0 12,5

medias 2,65 2,10 1,25

Tabla XVI.

La hipótesis nula es que los tres violines no difieren con respecto a que cualquier violinista juzgue a ojos
tapados la excelencia global del instrumento.
Esto implica que cada una de las 6 posibles secuencias de rangos de A , B y C :
1,2,3
1,3,2
2,1,3
2,3,1
3,1,2
3,2,1
es igualmente probable, y por tanto que las tres columnas tenderán a incluir una secuencia aleatoria de
números 1, 2 y 3 “revueltos”, en aproximadamente las mismas proporciones. En este caso, las sumas y las
medias de las columnas también tenderían a comportarse del mismo modo.
En la mayoría de los aspectos la lógica del test de Friedman es bastante similar a la del test KW. Para cada
valor particular de k (número de medidas por sujeto), la media de rangos para cualquiera de los n sujetos

particulares es
( k + 1) .
2

26
Por tanto para k = 3 , como en el presente ejemplo, es 4 = 2 ; para k = 4 , sería 5 = 2,5 ; y así
2 2
sucesivamente. Bajo la hipótesis nula, este sería también el valor esperado de la media de cada una de las
k columnas. Análogamente, el valor esperado para cada una de las sumas de las columnas sería la
n ( k + 1)
cantidad multiplicada por el número de sujetos: . Para el presente ejemplo, con n = 10 , sería
2
10 × 4 = 20 .
2
Medida de las diferencias del grado de “agregación” del grupo
Se puede calcular el grado de “agregación” al cual difieren las medias de los k grupos.

A B C todos
recuentos 10 10 10 30 n = 10 [individuos]
sumas ( R i ) 26,5 21,0 12,5 60,0 k = 3 [medidas por individuo]
medias 2,65 2,10 1,25 2,0 n × k = 30
Tabla XVII.

Aplicando la fórmula anterior:


k
12 ∑ R 2j
− 3 n ( k + 1)
j =1
χ2 =
n k ( k + 1)
12 ( 26,52 + 212 + 12,52 )
= − 3 ×10 × 4
10 × 3 × 4
12 × 1299,5
= − 120
120
= 129,95 − 120
= 9,95

Nuestra compañía musical puede por tanto concluir con considerable confianza que las diferencias
observadas entre las medias de los rangos para los tres violines refleja algo más que una mera variabilidad
aleatoria o una coincidencia entre los juicios de los violinistas.

4.6. Comparación no paramétrica de medidas de dispersión


Aunque el test F para comparar varianzas se emplea a menudo, no es robusto frente a violaciones del
supuesto de normalidad. Existen procedimientos alternativos apropiados incluso para poblaciones no
gaussianas. Levene sugirió tomar para cada puntuación el cuadrado o el valor absoluto de su desviación de
la media del grupo a que pertenezca y aplicar un test t para comparar las desviaciones transformadas de un
grupo con las del otro grupo.
Brown y Forsythe recomendaron usar la desviación absoluta de la mediana o la media recortada como
mejor elección cuando las poblaciones tengan colas. El test de Levene puede generalizarse a situaciones
que involucren más de dos poblaciones, mediante un ANOVA de los datos transformados.
Para comprobar la hipótesis nula de la homogeneidad de varianzas en dos muestras relacionadas, se
emplea el test de Pitman:
(a) Se calcula F como el cociente entre la varianza mayor y la menor;
(b) Se calcula el valor

27
t =
( F −1 ) n−2
2 F (1 − r 2 )
donde n es el número de pares de puntuaciones; y
r es el coeficiente de correlación entre las puntuaciones de la muestra 1 y las de la muestra 2;
(c) Se evalúa esta t con una t de Student para n − 2 grados de libertad.

5. Ventajas de los tests no paramétricos


(a) Si el tamaño muestral es muy pequeño, puede no haber otra alternativa que emplear estadística no
paramétrica a menos que se conozca la distribución poblacional exactamente;
(b) Los tests no paramétricos requieren menos condiciones acerca de los datos y pueden ser más
relevantes en algunos casos. Las hipótesis pueden ser más adecuadas;
(c) Se pueden aplicar para analizar datos que inherentemente aparecen en rangos así como datos de
puntuaciones numéricas. Esto suele ocurrir en estudios donde las variables se caracterizan por grados
(ejemplo: estudiar la variable ansiedad, podemos establecer una comparación entre el grado de
ansiedad de dos sujetos sin cuantificar con exactitud la diferencia entre ambos salvo en términos de
rangos: más o menos, mejor o peor). En estos casos un método paramétrico requeriría el cumplimiento
de condiciones poco realistas acerca de las distribuciones subyacentes;
(d) Los métodos no paramétricos permiten tratar datos categóricos, medidos incluso en escala nominal.

6. Desventajas de los tests no paramétricos


(a) Los tests no paramétricos son menos potentes porque los paramétricos utilizan más información
disponible en los datos, consistente con las medidas de escala de intervalo, mientras que los no
paramétricos suelen usar información ordinal exclusivamente;
(b) Los tests paramétricos son mucho más flexibles y permiten comprobar mayor cantidad de hipótesis. Por
ejemplo, el diseño de ANOVA factorial permite chequear interacciones entre variables de un modo que
es mucho más limitado con las alternativas no paramétricas.
Cuando se cumplan las condiciones para aplicar un método paramétrico, es casi siempre preferible
utilizarse antes que uno no paramétrico.

7. Bibliografía
http://www2.chass.ncsu.edu/garson/PA765/index.htm
http://www.seh-lelha.org/stat1.htm
http://www.graphpad.com/articles/interpret/principles/stat_principles.htm
http://www.chups.jussieu.fr/polys/biostats/poly/stats.pdf
Chan YH. Quantitative Data – Parametric & Non-parametric Tests. Singapore Med J 2003; 44(8): 391-396.

Anexos

Anexo 1. Tabla del test de Wilcoxon:


n α
0,05 0,02 0,01
6 2,118
7 1,961 2,299
8 2,044 2,324 2,464
9 2,026 2,263 2,381
10 1,947 2,253 2,456

28
11 2,009 2,276 2,454
12 2,008 2,322 2,479
13 1,964 2,313 2,523
14 1,952 2,329 2,517
15 1,965 2,306 2,533
Tabla A1. Se indican los valores de W α para diferentes α :0, 05, 0, 02, 0, 01 .

Anexo 2. Tabla del test de Mann-Whitney-Wilcoxon


nA
3 4 5 6 7 8 9 10
nB α
0,05 2,333 1,905
4
0,01 2,687 2,483
0,05 2,117 2,107 2,110
5
0,01 2,415 2,569 2,528
0,05 1,926 2,047 2,118 2,018
6
0,01 2,479 2,473 2,483 2,498
0,05 2,074 2,003 1,965 2,086 2,057
7
0,01 2,530 2,570 2,615 2,514 2,568
0,05 1,960 1,970 1,991 2,014 2,037 1,953
8
0,01 2,572 2,480 2,576 2,530 2,500 2,584
0,05 2,052 2,099 2,013 1,956 2,022 1,982 2,040
9
0,01 2,422 2,561 2,680 2,546 2,551 2,560 2,570
0,05 1,961 2,065 2,033 2,017 2,010 2,008 2,009 2,011
10
0,01 2,366 2,489 2,523 2,560 2,498 2,541 2,580 2,540
Tabla A2. Indica los valores M α para α = 0, 05 y 0, 01 para tamaños muestrales inferiores a 10.

29

Vous aimerez peut-être aussi