Académique Documents
Professionnel Documents
Culture Documents
VARIABLES CUANTITATIVAS
Indice
1. OBJETIVOS................................................................................................................................................... 1
2. INTRODUCCIÓN........................................................................................................................................... 1
3. MÉTODOS PARAMÉTRICOS....................................................................................................................... 2
3.1. Comparación de medias ....................................................................................................................... 2
3.2. Comparación de medidas de dispersión. Comparación de varianzas.................................................. 7
4. MÉTODOS NO PARAMÉTRICOS ................................................................................................................ 9
4.1. Tests de aleatoriedad: test de las rachas ........................................................................................... 10
4.2. Comparación de medidas de localización de una muestra................................................................. 11
4.3. Comparación de medidas de localización en dos muestras independientes ..................................... 12
4.4. Comparación de medidas de localización en k muestras independientes ......................................... 17
4.5. Comparación de medidas de localización en dos o más muestras relacionadas .............................. 21
4.6. Comparación no paramétrica de medidas de dispersión.................................................................... 27
5. VENTAJAS DE LOS TESTS NO PARAMÉTRICOS................................................................................... 28
6. DESVENTAJAS DE LOS TESTS NO PARAMÉTRICOS ........................................................................... 28
7. BIBLIOGRAFÍA............................................................................................................................................ 28
ANEXOS.......................................................................................................................................................... 28
Anexo 1. Tabla del test de Wilcoxon: ......................................................................................................... 28
Anexo 2. Tabla del test de Mann-Whitney-Wilcoxon ................................................................................. 29
1. Objetivos
• Conocer los tests de comparación de medidas de localización, tendencia y dispersión;
• Saber las condiciones de aplicación de los diferentes tests de comparación: contrastes paramétricos y
no paramétricos;
• Utilizar e interpretar correctamente los tests de comparación.
2. Introducción
Se dice que un test estadístico es robusto si se pueden violar sus supuestos sin que ello repercuta
substancialmente en las conclusiones. La robustez es la habilidad de un test estadístico específico para
suministrar una estimación exacta de la probabilidad de los errores tipo I y II, aun cuando sus suposiciones
sean violadas. Algunos tests de hipótesis son más robustas a desviaciones de ciertos supuestos
subyacentes que otras. El tipo y magnitud de la desviación de los datos de las condiciones requeridas por
un test es a menudo importante en la selección apropiada del test estadístico que hay que aplicar. Los tests
de hipótesis son usados en muchas situaciones en las que las condiciones subyacentes son violadas. Por lo
tanto, la robustez es una propiedad deseable.
Las hipótesis con las que se trabaja en los tests no paramétricos son menos detalladas y menos numerosas
que en los tests paramétricos y los tests no paramétricos son menos sensibles a su violación. Por eso los
tests no paramétricos son más robustos que los paramétricos. Además estas violaciones son más fáciles de
ver en los tests no paramétricos. Para tamaños muestrales menores de 10, las violaciones en las hipótesis
de los tests paramétricos son más graves, por lo que los tests no paramétricos son los más apropiados.
1
3. Métodos paramétricos
2
test unilateral test bilateral
H 0 :µ 1 ≥ µ 0 H 0 :µ 1 ≤ µ 0 H 0 :µ 1 = µ 0
hipótesis
H1 : µ 1 < µ 0 H1 : µ 1 > µ 0 H1 : µ 1 ≠ µ 0
x −µ0
estadístico (distribución normal) z=
σ
n
grados de libertad -
rechazo de H 0 si z < − z α si z > z α si z > z α2
Tabla I.
(d) 4. Definir la región de rechazo. Para saber cuando debemos rechazar la hipótesis nula (por ejemplo x
es menor que µ ) debe definirse la región de rechazo especificando el valor crítico de z . La región de
rechazo depende del nivel de significación. El valor crítico z es el valor particular en el eje X de la
función de distribución para la cual el área bajo dicha función de distribución hacia la derecha es
exactamente del α %. Este valor es z x = z ( 0,95 ) = 1, 645 .
Figura 1.
(e) Finalmente, debe seleccionarse la hipótesis apropiada para insertar los valores numéricos de x , µ , σ
y n en la ecuación de z . No se rechaza H 0 si el valor z calculado es menor que z x = 1, 645 . Una
3
aproximación más general es usar la distribución t para el test, ya que se aproxima a la normal para
tamaños muestrales altos.
Muestras pequeñas
Para tamaños muestrales pequeños, la media sigue una distribución t (para tamaños grandes seguía una
distribución normal). La razón es que el estimador s de la desviación típica no es suficientemente exacto.
Pero la suposición sigue siendo que la distribución de los datos es aproximadamente normal. La diferencia
es que en lugar de puntuaciones z se usan puntuaciones t. La distribución t depende del tamaño muestral
( g.l. = n −1) .
x − µ0
t=
estadístico (distribución t) σ
n
grados de libertad n −1
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla II.
σ21 σ 22
σd = +
n1 n2
Esta cantidad también se conoce como error estándar de la diferencia de medias. Se tratará de comprobar
si la diferencia que existe entre las dos medias muestrales es atribuible a algún factor al margen de la propia
variabilidad aleatoria (azar).
Para muestras grandes (n , n
1 2 > 30 ) la distribución de las diferencias es aproximadamente normal. De
modo que se podrá aplicar los mismos métodos que en el test t de una muestra para muestras grandes, con
la nueva variable D .
4
test unilateral test bilateral
H0 : µ1 ≥ µ 2 H0 : µ1 ≤ µ 2 H0 : µ1 = µ 2
hipótesis
H1 : µ 1 < µ 2 H1 : µ 1 > µ 2 H1 : µ 1 ≠ µ 2
x1 − x 2
z =
estadístico (distribución normal) σ 21 σ 22
+
n1 n2
grados de libertad –
rechazo de H 0 si z < − z α si z > z α si z > z α 2
Tabla III.
En este caso no es válida la suposición del teorema central del límite, porque el estimador de σ
2
no es
fiable. Se emplea la distribución t con las siguientes condiciones:
• Las varianzas han de ser iguales;
• La escala de medida de ambas muestras ha de tener propiedades de una escala de intervalo;
• Las muestras han de ser independientes entre sí y haber sido extraídas aleatoriamente de la(s)
población(es) de estudio;
• Las muestras han de seguir una distribución normal.
Asumiendo que las varianzas σ 1 y σ 2 son iguales, se puede calcular una varianza conjunta s p para
2 2 2
obtener un mejor estimador. La varianza conjunta es una suma ponderada de las varianzas particulares de
las muestras. Así, si n1 = n 2 , s p es el promedio de las varianzas individuales. Los grados de libertad
2
x1 − x 2
t =
1 1
s 2p +
n1 n 2
estadístico (distribución t)
donde: s 2
=
( n −1) s
1
2
1 + ( n 2 − 1) s 22
p
n1 + n 2 − 2
grados de libertad n1 + n 2 − 2
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla IV.
5
Como en la mayoría de los tests estadísticos, el secreto está en dividir la diferencia observada por un
término de error que estima la variabilidad biológica aleatoria. Si la diferencia observada es mucho mayor
que la variabilidad biológica aleatoria esperada, entonces el cociente t será grande y se dirá que hay
diferencias significativas.
En caso de cumplirse la condición de normalidad pero no así la de homocedasticidad, se puede recurrir a la
aproximación de Welch para comparar dos medias independientes con varianzas heterogéneas, más
robusta que el test t de varianzas homogéneas. Esta aproximación requiere introducir dos modificaciones
sobre el test t :
• En el denominador del cálculo de t , para calcular el error estándar se emplean separadamente las
varianzas de cada grupo en lugar de una varianza ponderada;
• Los grados de libertad deben calcularse usando la siguiente fórmula, algo más compleja:
x1 − x 2
t g .l .* =
s 12 s 22
+
n1 n2
2
s12 s 22
+
donde: g .l.* =
n1 n 2
2 2
s 12 s 22
n1 + n 2
n1 − 1 n 2 −1
Considérese que los grados de libertad g .l.* así calculados pueden tener decimales, por lo que se debe
aproximar al entero inferior más próximo. En la práctica, los programas estadísticos como SPSS aportan
directamente el grado de significación bajo el supuesto de diferencia de varianzas junto con el de igualdad
de varianzas, de modo que será el investigador quien deba elegir el resultado apropiado en cada caso.
Con todo lo anterior se resuelve el problema de la comparación de medias en dos grupos independientes,
pero las conclusiones son limitadas, puesto que se llega a decir si existen o no diferencias significativas,
pero falta algo imprescindible, que es estimar la magnitud de dichas diferencias. Esto se resuelve
calculando los límites de confianza a la diferencia de medias1.
sd = s 12 + s 22 − 2 r s 1 s 2
Dicha fórmula requiere el cálculo del coeficiente de correlación entre los dos grupos de medidas. De ahí la
ventaja de este diseño, que el término de error (el error estándar de la diferencia de medias) disminuye en
proporción directa con la magnitud de esta correlación, lo que lo convierte en un test más potente o
1
Véase el capítulo Inferencia estadística_notas.
6
sensible. La desventaja es la pérdida de grados de libertad (para n p pares de datos, los grados de libertad
son la mitad que en un diseño con muestras independientes). El “truco” está en conseguir que la correlación
sea suficientemente grande como para compensar la pérdida en grados de libertad del test.
Existe un modo simplificado de abordar el problema, el método de la diferencia directa. Se pueden calcular
las d i diferencias por pares y considerar d i como una nueva variable que sigue una distribución t . La
media y desviación típica de las d i son respectivamente d y s d . El número de pares es n p .
La comparación de medias con datos apareados requiere que los tamaños muestrales sean como mínimo
de 30 casos.
d − D0
t =
estadístico (distribución t) s 2D
nD
grados de libertad n1 + n 2 − 2
rechazo de H 0 si t < − t α si t > t α si t > t α 2
Tabla V.
El experimento de diferencias apareadas es a menudo más potente dado que permite eliminar diferencias
en las muestras, que aumentan con la varianza total σ .
2
Alternativamente, puede emplearse el test t de una muestra a la variable diferencia, contrastando dicha
variable frente a la hipótesis nula de que el valor de la diferencia sea 0.
Cuando no se cumple el criterio de normalidad, se puede usar el test no paramétrico de simetría de la
distribución de las diferencias, test de Wilcoxon para un diseño con diferencias apareadas.
Pr ( χ 2 > χ 2 ( α ) ) = α
7
test unilateral test bilateral
H0 : s ≥ σ 0 H0 : s ≤ σ 0 H0 : s = σ 0
hipótesis
H1 : s < σ 0 H1 : s > σ 0 H1 : s ≠ σ 0
s 2 ( n −1)
estadístico χ2 =
σ0
grados de libertad n −1
rechazo de H 0 si χ 2 < χ 2 1− α si χ 2 > χ 2 α si χ 2 > χ 2 1− α 2 o si χ 2 > χ 2 α 2
Tabla VI.
Para comparar las varianzas de dos muestras independientes, var1 y var 2 , se calcula el cociente entre
ellas. Este cociente se conoce como estadístico F (en honor a R. A. Fisher). El test F se basa en dos
supuestos:
(a) las muestras siguen una distribución normal; y
(b) las muestras son independientes entre sí.
Si estas condiciones se cumplen y H 0 es cierta, siendo H 0 : σ x = σ y , el estadístico F sigue una
2 2
distribución F.
Los cocientes de las varianzas empíricas por las varianzas exactas siguen leyes de ji-cuadrado. El cociente
ponderado de dos variables aleatorias independientes que siguen leyes de ji-cuadrado sigue una ley de
Fisher.
Así pues, el cociente:
nx s 2x
n x −1 σ 2x
ny s 2y
n y −1 σ 2y
sigue la ley de Fisher Fn x −1 , n y −1 .
Se rechazará H 0 si el valor observado para T es muy grande o muy pequeño. Es, por tanto, un test
bilateral cuya regla de rechazo al umbral α es:
x y 2 x
( )
rechazo de H 0 ⇔ T ∉ Q F ( n −1 , n −1) α , Q F ( n −1 , n −1) 1 − α
y 2 ( )
8
test unilateral test bilateral
H0 : σ ≥ σ
2
1
2
2 H0 : σ ≤ σ
2
1
2
2 H 0 : σ 21 = σ 22
hipótesis
H1 : σ21 < σ 22 H1 : σ21 > σ22 H1 : σ21 ≠ σ22
s 22 s 12 mayor varianza muestral
estadístico F = 2
F = 2
F =
s 1 s 2
menor varianza muestral
g .l.1 = n1 − 1
grados de libertad
g .l. 2 = n 2 − 1
rechazo de H 0 si F < Fα si F > Fα 2
Tabla VII.
Ejemplo
Supóngase que entre los 30 pacientes del grupo de control se observó un nivel medio de colesterol de 6,24
mmol/L (240 mg/dL) con una desviación típica de 1,3 mmol/L (50 mg/dL). En los 20 pacientes en tratamiento
se observó un promedio de 5,46 mmol/L (210 mg/dL) con una desviación típica de 1,3 mmol/L (50 mg/dL).
El estadígrafo del test de Fisher toma el valor 0,629, que corresponde a un valor p (para el test bilateral)
de: 2 F F ( 29,19 ) ( 0, 629 ) = 0, 2538 . En consecuencia se aceptará la hipótesis de la igualdad de las
varianzas. Asumido que se ha comprobado previamente la condición de normalidad, el estadígrafo del test
de Student toma el valor 2,30, con un valor p de: 1 − FT ( 48) ( 2,30 ) = 0, 0129 .
4. Métodos no paramétricos
La mayoría de los tests no paramétricos se basan en el principio de aleatorización. La idea subyacente es
que la probabilidad de que un valor particular de un test estadístico se calcula evaluando todos los posibles
valores del test estadístico. Dado que el número de valores posibles de un test estadístico puede ser
elevado, incluso para muestras pequeñas, a menudo no es práctico (o incluso imposible) calcular la
probabilidad directamente.
Una posible estrategia es reducir la cantidad de cálculos requeridos mediante lo que se denomina un
remuestreo: en lugar de calcular todas las posibles combinaciones, se seleccionan numerosas muestras
aleatorias y se calcula la probabilidad a partir de las mismas.
Dos de los principales inconvenientes de los tests de aleatorización son el elevado tiempo computacional
que requieren y el hecho de que sea necesario realizar una aleatorización para cada grupo particular de
datos. Los tests de aleatorización basados en rangos proporcionan una solución a este problema,
manteniendo la independencia de las distribuciones.
9
Estos tests se aplican previa conversión de las puntuaciones en rangos y calculando a continuación el test
de aleatorización. Sin embargo, la aleatorización se puede obviar empleando tablas precalculadas para
determinar el nivel de significación.
10
4.2. Comparación de medidas de localización de una muestra
4.2.1. Test de los signos de una muestra
Supone una alternativa no paramétrica al test t para una muestra.
Se utiliza para resolver el contraste
H 0 : Me = Me 0
H1 : Me ≠ Me 0
donde: Me es la mediana poblacional.
Al aplicar el test de los signos a una muestra, cada valor muestral mayor que Me 0 se sustituye por un signo
“+” y cada valor muestral menor que Me 0 por un signo ”–“. Se descartan los valores muestrales iguales a
Me 0 .
Bajo la H 0 el número de signos “+” que aparecen en la muestra sigue una distribución B n , 1 ( 2 ).
Denominando T exp al número de signos positivos que aparecen en la muestra y T a una variable aleatoria
α 0 = Pr (T ≤ Texp ) .
Existe también una versión del test de los signos como alternativa al test t de Student para muestras
apareadas, como se verá más adelante.
4.2.2. Test de Wilcoxon de los rangos con signo para una muestra
El problema obvio del test de los signos es que descarta mucha información de los datos. Tiene en cuenta
la dirección de la diferencia pero no la magnitud de dicha diferencia entre cada par de puntuaciones. El test
de los signo de Wilcoxon permite comparar los datos con una mediana teórica (por ejemplo, un valor
publicado en un artículo). Pero a diferencia del test de los signos tiene en cuenta (al menos en alguna
medida) la magnitud de la diferencia y es más potente. Es un test de simetría de una variable con respecto
a un valor teórico dado.
Sean: Me {
la mediana frente a la que se van a contrastar los valores x1 , x 2 ,… , x n } observados; y
{x 1 − Me , x 2 − Me , … , x n − Me} las diferencias entre los datos y la mediana.
Si la hipótesis nula H 0 fuera cierta, estas diferencias se distribuirían de forma simétrica en torno a cero.
Para efectuar este test se calculan las diferencias en valor absoluto x i − Me y se ordenan de menor a
mayor, asignándoles su rango (número de orden). Si hubiera dos o más diferencias con igual valor
(empates), se les asigna el rango medio (es decir que si hay un empate en las posiciones 2 y 3 se asigna a
ambas el valor 2,5). Seguidamente se calcula la suma R + de todos los rangos de las diferencias positivas,
aquellas en las que x i es mayor que Me , y la suma R − de todos los rangos correspondientes a las
diferencias negativas. Si la hipótesis nula fuera cierta ambos estadísticos deberían ser parecidos, mientras
que si los datos tendieran a ser más grandes que la mediana Me se reflejaría en un valor mayor de R + y
al contrario si son más pequeños. Se trata de contrastar si la menor de las sumas de rangos es
excesivamente pequeña para ser atribuida al azar, o, lo que es equivalente, si la mayor de las dos sumas de
rangos es excesivamente grande.
El parámetro del test es:
11
n ( n + 1)
T+ −
Z = 4
n ( n + 1) ( 2 n + 1)
24
La variable Z tiene una distribución conocida:
• Para n > 15 , sigue aproximadamente una distribución N ( 0 , 1) ;
• Para n ≤ 15 sigue una distribución particular objeto de la tabla del test de Wilcoxon;
• Para n ≤ 6 este test no permite rechazar la hipótesis nula.
Los programas estadísticos proporcionan el valor del parámetro y la significación del test.
Para dos muestras, la probabilidad real de encontrar unos resultados tanto o más extremos que los nuestros
se obtiene mediante una distribución hipergeométrica:
m n
a b
P* =
N
a +b
Para k muestras, se tienen en cuenta todas las poblaciones, según:
12
n1 n 2 n k
…
P* = a 1 a 2 a k
N
A! B !
⇒
∏ ( n i!)
N ! ∏ ( a i!) ∏ ( b i !)
( )
A
El test de la mediana es más potente cuanto mayor tamaño muestral. Ha de considerarse que en términos
de la eficacia relativa asintótica, se necesitan más recursos para crear un test de la mediana con igual
eficacia que un test basado en rangos. Se recomienda este test únicamente cuando las muestras
comparadas vulneran algún requisito para emplear otras alternativas (como es el caso de muestras con
grandes diferencias en la forma).
Alternativas al test de la mediana para dos muestras:
• Test de Mann-Whitney (MW) y test de Wilcoxon (asumen que las medianas de las distribuciones
comparadas sólo difieren en una cantidad aditiva constante. El resto de requisitos son los mismos que
en el test de la mediana);
• Puntuaciones normales (mismos supuestos que en MW);
• Test de Kolmogorov-Smirnov (KS) de dos muestras (asume que se trata de dos muestras aleatorias
independientes).
Alternativas para k muestras:
• Test de Kruskal-Wallis (KW) (asume dos poblaciones idénticas excepto por una posible diferencia en la
localización);
• Puntuaciones normales (mismos supuestos que en KW);
• ANOVA con puntuaciones generales (asume misma distribución, igualdad de varianzas y resto de
supuestos anteriores).
grupo) y W 0 y W1 (media de rangos en cada grupo), que permiten obtener los valores U 0 y U 1 .
n 0 ( n 0 + 1)
U 0 = n 0 × n1 + − W0
2
n1 ( n1 + 1)
U 1 = n 0 × n1 + − W1
2
13
Para verificar los cálculos se debe cumplir que U 0 + U 1 = n 0 n1
El índice U 0 es el número de veces que el valor de cada uno de los datos del grupo 0 precede (es inferior)
a cada uno de los valores del grupo 1. A su vez U 1 indica el número de veces que cada valor del grupo 1
precede al de los sujetos del grupo 0.
( )
El contraste de hipótesis se efectúa con el mayor de los dos índices U máx , y la significación de las
diferencias se estudia comparando este valor con el límite superior del correspondiente intervalo de las
tablas, que habitualmente tienen ya incorporados los programas estadísticos, y proporcionan la significación
para un contraste bilateral.
• ( )
Si U máx < U s n 0 , n1 ; α , la diferencia no es significativa ( p > 0, 05 ) ;
• Si U máx ≥ U s (n 0 , n ; α ) , la diferencia es significativa ( p < 0, 05 ) .
1
El valor p responde a la siguiente cuestión: si las distribuciones son iguales, ¿cuál es la probabilidad de
que en un muestreo aleatorio se obtengan sumas de rangos tan diferentes como las obtenidas en el
experimento?
Si las muestras son pequeñas ( n <10 ) , y no hay empates, es necesario recurrir a las tablas de Mann-
Whitney-Wilcoxon, y se debe interpretar únicamente el valor p exacto, en caso de efectuar el test mediante
un programa estadístico como SPSS.
Si el tamaño muestral de ambos grupos es mayor de 10 casos, así como en el caso de que haya empates o
con variables ordinales, se aproxima el valor p mediante una aproximación gaussiana. Donde el término
“gaussiana” tiene relación con la distribución de la suma de rangos, y no implica que la distribución de datos
siga una distribución gaussiana. Esta aproximación es adecuada para muestras grandes y es la utilizada en
general por las aplicaciones estadísticas:
n 0 n1
U max −
z = 2 → z α ( ley normal )
n 0 n1 ( n 0 + n1 + 1)
12
Interpretación: Si el valor p es pequeño se puede rechazar la idea de que la diferencia sea una
coincidencia, y se concluye que las distribuciones son diferentes.
Si el valor p es grande, los datos no proporcionan ningún motivo para concluir que sean diferentes. Esto no
significa que sean iguales. Simplemente que no se tiene evidencia suficiente de que sean diferentes.
Para muestras pequeñas, el test MW tiene poca potencia. De hecho, si el tamaño muestral es menor o igual
a 7, siempre se obtendrá una p > 0, 05 independientemente de cuánto difieran los grupos comparados.
Antes de interpretar los resultados de un test estadístico, es fundamental asegurarse de que se ha
seleccionado el test adecuado. Por ello, antes de aceptar los resultados del test MW, se recomienda
plantearse las siguientes cuestiones:
• ¿Son independientes los errores?
Con el término "error" nos referimos a la diferencia entre cada valor y la mediana del grupo. Los resultados
del test MW sólo tienen sentido si la dispersión es aleatoria, de modo que cualquier factor que cause que un
valor sea demasiado alto o demasiado bajo afecta sólo a ese valor. Es preciso pensar en el diseño
experimental. Por ejemplo, los errores no son independientes si se tienen seis datos en cada grupo que se
hayan obtenido de dos sujetos de cada grupo (por ejemplo en triplicado). En este caso, algún factor puede
hacer que los triplicados de un sujeto sean superiores o inferiores
• ¿Son los datos apareados?
El test MW se aplica a todos los valores dispuestos en orden ascendente, y comparando las medias de los
rangos de ambos grupos. Si los datos son apareados, se debe aplicar el test de Wilcoxon de los rangos con
signo.
• ¿Se están comparando exactamente dos grupos?
14
El test MW sólo puede comparar dos grupos. Para comparar tres o más grupos independientes se aplica el
test KW seguido de tests a posteriori (véase apartado 4.4.1).
• ¿Es idéntica la forma de ambas distribuciones?
El test MW no requiere que las poblaciones sigan una distribución de Gauss, pero asume que la forma de
ambas distribuciones sea idéntica. Las medianas pueden diferir, y además no se trata de un test de
comparación de medianas sino de la distribución completa; pero si los dos grupos tienen distribuciones muy
diferentes, una transformación de los datos puede hacer que las mismas sean más parecidas.
• Seleccionando un valor p unilateral, ¿se ha hecho la predicción adecuada?
Si se elige un valor p unilateral, se obtendrá una predicción de qué grupo tenía mayor mediana antes de
recoger los datos.
• ¿Se han recogido datos de poblaciones no gaussianas?
Seleccionando un test no paramétrico, se evita asumir que los datos se hayan tomado de distribuciones
gaussianas. Pero hay inconvenientes asociados al uso de tests no paramétricos. Si las distribuciones son
en realidad gaussianas, los métodos no paramétricos tienen menor potencia (la probabilidad de que
proporcionen un valor p pequeño es menor), especialmente con tamaños muestrales pequeños. Además,
los programas generalmente no calculan los intervalos de confianza cuando se aplican tests no
paramétricos. Si la distribución claramente no es gaussiana se debe considerar la posibilidad de transformar
los valores para crear una distribución gaussiana y aplicar un test t .
Los supuestos del test MW son:
• Las dos muestras han sido muestreadas aleatoria e independientemente
• La variable evaluada es intrínsecamente continua, capaz en principio, si no en la práctica, de producir
las medidas realizadas hasta el n-ésimo decimal
• Las medidas han sido realizadas al menos en escala ordinal, de modo que tiene sentido hablar de
comparaciones cuantitativas (mayor que, menor que o igual a)
• El tamaño muestral ha de ser el mismo en ambos grupos, aunque pequeñas desviaciones de este
requisito no producen generalmente diferencias sustanciales en las conclusiones.
La forma de realizar el test MW requiere el cálculo de un índice estadístico (U ) que es más simple que la
W de Wilcoxon. En SPSS se muestran ambos valores, U y W , cuando se solicita el procedimiento MW
para muestras independientes, cuya significación coincide.
15
correspondiente nivel de probabilidad. En la práctica, paquetes estadísticos como SPSS aportan este dato
por lo que se puede obviar el uso de las tablas.
Ejemplo
El test K-S establece si la mayor diferencia proporcional acumulada observada ha sido causada por la
fluctuación del azar o no. En este caso, esta diferencia es [0,14] (celda superior derecha). El valor de ji-
cuadrado de la diferencia proporcional mayor esperada es χ = 3, 673 y el valor p de dicha diferencia para
2
dos grados de libertad es 0,15933, de modo que la diferencia en el orden observado entre hombres y
mujeres puede estar causada por las fluctuaciones del azar. El valor de probabilidad presentado es
unilateral. En la bibliografía se considera que el test KS tiene muy poca potencia con la probabilidad de
cometer un error de tipo II, esto es, de no encontrar diferencias cuando existen.
16
% de casos más extremos del grupo control antes de realizarlo. Este porcentaje se puede modificar en la
sintaxis, pero se suele recomendar eliminar un número fijo de 2 ó 3 casos a cada extremo.
grupo
A B C
6,4 2,5 1,3
6,8 3,7 4,1
7,2 4,9 4,9
8,3 5,4 5,2
8,4 5,9 5,5
9,1 8,1 8,2
9,4 8,2
9,7
media 8,2 5,5 4,9
Tabla X.
La “mecánica” del test KW comienza tomando las medidas de las k muestras como una única muestras de
tamaño N . Todas las medidas se ordenan por rangos de menor (rango #1) a mayor (rango # N ),
incluyendo los rangos repetidos; los rangos resultantes se devuelven a los correspondientes grupos, A , B ,
o C , a los que pertenecen, sustituyendo las medidas raíz que dieron lugar a ellos.
Por tanto, las medidas raíz de la anterior tabla quedarían sustituidas por la siguiente tabla (derecha)
2
Ver módulo 2: ANOVA_Notas.
17
medidas originales rangos de las medidas
A B C A B C
6,4 2,5 1,3 11 2 1
6,8 3,7 4,1 12 3 4
7,2 4,9 4,9 13 5,5 5,5
8,3 5,4 5,2 17 8 7
8,4 5,9 5,5 18 10 9
9,1 8,1 8,2 19 14 15,5
9,4 8,2 20 15,5 A, B, C
9,7 21 combinados
suma de rangos 131 58 42 231
media de rangos 16,4 8,3 7,0 11
Tabla XI.
Con el test KW, sin embargo, tenemos en cuenta no solo la suma de rangos de cada grupo sino también los
promedios. Por tanto se emplea la siguiente notación:
TA suma de los n A rangos en el grupo A ;
Ejemplo 1
A B C todos
recuentos 8 7 6 21
sumas 131 58 42 231
medias 16,4 8,3 7,0 11,0
Tabla XII.
La desviación cuadrática de cualquier grupo en particular es igual a la diferencia entre la media de dicho
grupo y la del conjunto de datos, elevada al cuadrado, multiplicada por el número de valores en que se basa
la media de cada grupo.
18
A → 8 (16, 4 − 11, 0 ) = 233,3
2
B → 7 ( 8,3 −11, 0 )
2
= 51, 0
A → 6 ( 7, 0 − 11, 0 )
2
= 96, 0
SCb( R ) = 380,3
Por analogía con las fórmulas de SCb descritas para el ANOVA, se puede hablar de SCb ( R ) como:
∑(n ( x )
k
− xtodos )
2
SCb ( R ) = j j
j =1
(T )
2
k 2
Ttodos
∑
j
SC b ( R ) = −
j =1 nj N
Para k = 3 muestras, la formula equivalente sería:
(131) ( 58 ) ( 42 ) ( 231)
2 2 2 2
SC b ( R ) = + + − = 378, 7
8 7 6 21
Hipótesis nula de SCb ( R )
La hipótesis nula en cualquier situación que implique varias muestras independientes de datos ordenados
es que la media de los rangos de los k grupos no difiere sustancialmente. En este contexto, se puede
suponer que la hipótesis nula del valor SCb ( R ) como medida conjunta de las diferencias entre los grupos,
sería sencillamente cero. Sin embargo esto no es así, como se verá a continuación.
Ejemplo 2
Considérese un caso muy simple donde hay tres grupos, cada uno con d observaciones. Análogamente
supongamos que se tienen 6 cartas pequeñas representando los rangos “1”, “2”, “3”, “4”, “5” y “6”. Si se
extrajesen estas cartas en todas las posibles combinaciones de dos rangos por grupo, se obtendría el
número total de combinaciones
A B C
x x x
x x x
Tabla XIII.
N! 6!
= = 90
n A ! n B ! nC ! 2! 2! 2!
Los valores de SCb ( R ) producidos por esas 90 combinaciones constituirían la distribución muestral de
SCb ( R ) para este caso particular. De estas 90 combinaciones, sólo 6 darían valores de SCb ( R ) exactamente
igual a 0. El resto producirían valores mayores que 0. Del mismo modo, la media de esta distribución
muestral no es 0, sino algo mayor que 0.
En cualquier caso particular de este tipo, la media de la distribución muestral de SCb ( R ) vendrá dada por la
fórmula
19
N ( N + 1)
(k − 1) ×
12
En el ejemplo 2:
6 (6 + 1)
( 3 − 1) × = 7, 0
12
En el ejemplo 1, por lo tanto, sabemos que el valor observado de SCb ( R ) = 378, 7 pertenece a una
distribución muestral cuya media es igual a:
21 (21 + 1)
( 3 − 1) × = 77, 0
12
Estadístico H de Kruskal-Wallis
SC b ( R )
H =
N ( N + 1)
12
Cuando cada una de las k muestras incluye al menos cinco observaciones, la distribución muestral de H
es una aproximación muy cercana a la distribución de χ para k − 1 grados de libertad. En realidad, esto se
2
k T2
12 ∑ j
j =1 n j
− 3 N +1
H = ( )
N ( N + 1)
Cuando sea imperativo usar un método no paramétrico, una vez se hay rechazado la hipótesis de igualdad
de las medianas mediante un contraste KW significativo, se harán comparaciones por parejas con la U de
MW, pero penalizando los valores de p para no incrementar artificialmente la posibilidad de falsos positivos
(errores de tipo I, esto es, decir que algo es diferente cuando no lo es). Para ello, el modo más simple es
20
multiplicar cada valor p por el número total de comparaciones entre parejas realizado (método de
Bonferroni). En realidad, es más exacto aplicar como p penalizada la calculada según la fórmula
expresión más cómoda p′ = c × p . Sólo hay que tener la precaución de redondear p′ = 1 cuando el
producto c × p > 1 . El procedimiento de Bonferroni es muy conservador y no se aconseja si hay cinco o más
grupos (10 comparaciones) porque penaliza mucho la p . Pero cuando el resultado es significativo, un
procedimiento tan conservador como éste aporta más credibilidad a las conclusiones del estudio.
La corrección de Bonferroni ha de hacerse manualmente, ya que SPSS no tiene opción para aplicarla. Un
ejemplo para tres comparaciones sería:
valor p hallado en una número de
p’ penalizada
comparación comparaciones (c)
0,05 3 0,15
0,01 3 0,03
0,005 3 0,015
Tabla XIV.
21
hipótesis nula H 0 es que el tratamiento no manifiesta un efecto significativo. Se rechazará H 0 (decidiendo
que el tratamiento es eficaz) si se observa una cantidad suficiente de disminuciones. El estadígrafo del test
es el número de descensos:
n
T = ∑I( −∞ ,0] (d ) i
i =1
Esta situación puede generalizarse para cualquier cuantil. Si {x , x 1 2 ,… , x n } es una muestra de la ley P ,
] [
de función cuantil Q y u ∈ 0,1 es un número real fijo, se considerará la hipótesis nula:
H 0 : Q (u ) = q 0
donde: q 0 es un número real fijo.
El caso particular en el que u = 0,5 y q 0 = 0 , como en el ejemplo, se denomina test de los signos.
Supongamos que en un grupo de 46 individuos se observaron 29 descensos en la concentración de
colesterol. El valor p correspondiente es:
p ( 29 ) = 1 − FB ( 46,0,5) ( 28 ) = 0, 0519 .
Para llevar a cabo un test de los signos, el estadístico de contraste puede ser, pues, el número de signos
positivos. Pero es preciso tener en cuenta que el investigador no ha predicho en ningún caso ningún
resultado, sino que desea saber si dos grupos de medidas difieren. Esto significa que la hipótesis alternativa
no es direccional y el contraste es bilateral.
Para una muestra grande se puede remplazar la ley binomial por su aproximación normal. Bajo H 0 , el
estadígrafo:
T − nu
T′ =
n u (1 − u )
que está centrado y reducido, sigue la ley normal N ( 0,1) . En el ejemplo anterior T ′ toma el valor 1,7693.
El valor p correspondiente es:
22
Si la población bajo estudio es simétrica, la mediana poblacional coincide con la media poblacional. Al
aplicar el test de los signos a una muestra, cada valor muestral mayor que Me 0 se sustituye por un signo
“+” y cada valor muestral menor que Me 0 se sustituye por un signo “–“. Los valores muestrales que sean
iguales a Me 0 se descartan.
4.5.2. Test de Wilcoxon de los rangos con signo para dos muestras
El test de Wilcoxon de los rangos con signo para dos muestras es un método no paramétrico que compara
dos grupos apareados. Se debe usar en lugar del test t para datos apareados cuando los datos
comparados son ordinales o cuando son cuantitativos pero la muestra es pequeña ( n < 30 ) y además no
sigue una distribución normal en la variable diferencia entre las dos mediciones emparejadas.
Se calcula la diferencia entre cada par de datos y se analiza la lista de diferencias. El valor p responde en
este caso a la cuestión: “si la diferencia entre las medianas de la población entera es cero (por ejemplo, en
la comparación de los resultados obtenidos antes y después de un tratamiento, esto significará que dicho
tratamiento no es eficaz), ¿cuál es la probabilidad de que un muestreo aleatorio nos proporcione una
diferencia entre las medianas tan alejada de cero como la observada en este experimento?”
Para calcular el test de Wilcoxon, se eliminan los empates (diferencias iguales a cero) y se ordenan de
menor a mayor el resto de diferencias entre cada par de datos, prescindiendo del signo (en valor absoluto)
en dos columnas, diferencias positivas T + ( ) ( )
y negativas T − . A los sujetos con igual diferencia se les
asigna la media de los números de orden que les habría correspondido si en lugar del mismo valor tuvieran
valores consecutivos.
A continuación se debe obtener la suma de los rangos correspondientes a los sujetos con diferencias
positivas ( ∑ T ) y negativas ( ∑ T ) y se comparan ambas sumas. Si los cálculos están bien realizados
+ −
se verificará que:
n ( n + 1)
∑T + + ∑T − =
2
El contraste se realiza con la suma de números de orden con signo más frecuente. Si el valor obtenido
∑ T es igual o superior al dado en las tablas para un tamaño muestral n y un riesgo de error α , se
rechaza la hipótesis nula.
Si T < T n , α , la diferencia no es significativa ( p > 0, 05 ) .
Si T ≥ T n , α , la diferencia es significativa ( p < 0, 05 ) .
Si las sumas de rangos son muy diferentes, el valor de p será pequeño. El valor p responde a la cuestión:
“si el tratamiento no tiene efecto, ¿cuál es la probabilidad de que un muestreo aleatorio proporcione una
suma de rangos como la observada?”
Si las muestras son pequeñas y no hay rangos repetidos, se calcula el valor p exacto.
Si las muestras son grandes ( n ≥ 20 ) o hay repeticiones de rangos, se calcula el valor p mediante una
aproximación gaussiana, que, al igual que se explicó para el test MW, tiene relación con la distribución
gaussiana de las sumas de rangos y no con que la distribución de datos siga una distribución normal. Basta
pensar que, dada la hipótesis nula planteada, se espera que T se aproxime a cero, dentro de los límites de
la variabilidad aleatoria, de modo que cualquier valor individual observado de T pertenece a una
distribución de media cero, es decir µ T = 0 . Como la desviación típica de dicha distribución está deducida,
podemos aplicar como aproximación gaussiana la siguiente:
n ( n + 1)
T −
z = 4 → z α ( ley normal )
n ( n + 1) ( 2 n + 1)
24
23
El motivo para usar un diseño con datos apareados es controlar la variabilidad experimental. Algunos
factores que no se pueden controlar en el experimento afectarán del mismo modo a las medidas pre- y post-
que se comparan, de modo que no alteran la diferencia observada entre los rangos. Analizando sólo dichas
diferencias, por lo tanto, un test apareado corrige estas fuentes de dispersión.
Si el diseño apareado es eficaz, se espera que las medidas pre- y post- varíen conjuntamente. Algunos
programas cuantifican esto calculando el coeficiente de correlación de Spearman y a partir de éste, se
calcula un valor p que responde a la cuestión: Si los dos grupos realmente no están correlacionados en
absoluto, ¿cuál es la probabilidad de que un muestreo aleatorio de los sujetos proporcionaran un coeficiente
de correlación tan alto como el observado? Aquí, el valor p es unilateral, dado que no se está interesado
en la posibilidad de observar una fuerte correlación negativa.
Si el apareamiento fue eficaz, el coeficiente de correlación de Spearman será positiva y el valor p
pequeño. Esto significa que los grupos están correlacionados significativamente, de modo que tiene sentido
el haber seleccionado un test para datos apareados.
Si el valor de p es grande (> 0,05) se cuestiona si tiene sentido usar un test para datos apareados. La
selección de un test para datos apareados no debe basarse en el resultado del valor p , sino en el diseño
experimental y en los resultados observados en experimentos similares. Si el coeficiente de correlación de
Spearman es negativo, significa que el apareamiento ha sido contraproducente. Se espera que los valores
de los pares se mueva conjuntamente (si uno es más alto, también lo ha de ser su pareja) Pero si el
coeficiente de correlación es negativo se está indicando lo contrario (al aumentar uno disminuye el otro) Lo
más probable es que sea cuestión de azar, pero si el coeficiente de correlación es próximo a –1, deben
revisarse los procedimientos empleados.
Los supuestos del test de Wilcoxon son:
• Los datos apareados x A y x B han sido muestreados aleatoria e independientemente (cada par ha sido
extraído de la población independientemente del resto de pares de datos);
• La variable evaluada es intrínsecamente continua, capaz en principio, si no en la práctica, de producir
las medidas realizadas hasta el n -ésimo decimal;
• Las medidas de x A y x B han sido realizadas al menos en escala ordinal, de modo que tiene sentido
hablar de comparaciones cuantitativas (mayor que, menor que o igual a).
Es importante tener en cuenta que SPSS sólo aporta el valor p del test de Wilcoxon para datos apareados
mediante aproximación asintótica. Esto significa que, para tamaños muestrales inferiores a 20, será
necesario recurrir a la tabla de valores críticos de Wilcoxon correspondiente.
24
(a) En primer lugar se reemplazan los datos de cada sujeto por su rango dentro de cada fila (posición
ordenados de menor a mayor en el conjunto de cada sujeto) y se suman los rangos por columnas.
Deberá verificarse que la suma total de rangos es:
n
número de medidas + 1
∑R
i =1
i = número de medidas ×
2
× número de sujetos
Ri
(b) A continuación se calculan los rangos medios de cada columna (medida), como
ni
(c) Se calcula el estadístico de contraste:
k
12 ∑ R 2j
− 3 n ( k + 1)
j =1
χ2 =
n k ( k + 1)
donde: k es el número de observaciones repetidas (número de medidas);
n es el número de sujetos; y
Ri es la suma de rangos para la medición i .
(d) Este estadístico se ha de comparar con una distribución ji-cuadrado con k − 1 grados de libertad.
Existe un factor de corrección para el caso de que existan empates:
n
∑T
i =1
i
f .c. = 1 −
n k (k 2 − 1)
donde: Ti = ∑th
3
ih − ∑t
h
ih ;y
Ejemplo 3
Se quieren probar tres violines, A , B y C en una galería musical para incluirlos en una colección y se
decide que cada uno de ellos sea tocado por 10 violinistas profesionales a ojos tapados y en una secuencia
aleatoria de modo que no saben cuál están tocando en cada momento. Al acabar de tocar cada violín se le
pide al músico que puntúe el instrumento en una escala de 10, siendo 1 el valor más bajo y 10 el más alto.
Se permite dar una cifra decimal en la puntuación.
El test de Friedman se prepara ordenando por rangos las medidas de cada sujeto. En el presente ejemplo,
se asignó el rango "3" a la mayor puntuación de las medidas de cada sujeto, "2" a la intermedia y "1" a la
más baja. Así, para el individuo 1, la medida más alta es la de la columna A , la siguiente la B y la peor la
C . Se obtiene la siguiente tabla haciendo lo mismo para el resto de sujetos:
violín violín
individuos A B C individuos A B C
1 9,0 7,0 6,0 6 7,5 8,0 6,5
2 9,5 6,5 8,0 7 8,0 6,0 6,0
3 5,0 7,0 4,0 8 7,0 6,5 4,0
4 7,5 7,5 6,0 9 8,5 7,0 6,5
5 9,5 5,0 7,0 10 6,0 7,0 3,0
Tabla XV.
25
medidas originales rangos
individuos A B C A B C
1 9,0 7,0 6,0 3 2 1
2 9,5 6,5 8,0 3 1 2
3 5,0 7,0 4,0 2 3 1
4 7,5 7,5 6,0 2,5 2,5 1
5 9,5 5,0 7,0 3 1 2
6 7,5 8,0 6,5 2 3 1
7 8,0 6,0 6,0 3 1,5 1,5
8 7,0 6,5 4,0 3 2 1
9 8,5 7,0 6,5 3 2 1
10 6,0 7,0 3,0 2 3 1
Tabla XVI.
rangos
sujetos A B C
1 3 2 1
2 3 1 2
3 2 3 1
4 2,5 2,5 1
5 3 1 2
6 2 3 1
7 3 1,5 1,5
8 3 2 1
9 3 2 1
10 2 3 1
sumas 26,5 21,0 12,5
Tabla XVI.
La hipótesis nula es que los tres violines no difieren con respecto a que cualquier violinista juzgue a ojos
tapados la excelencia global del instrumento.
Esto implica que cada una de las 6 posibles secuencias de rangos de A , B y C :
1,2,3
1,3,2
2,1,3
2,3,1
3,1,2
3,2,1
es igualmente probable, y por tanto que las tres columnas tenderán a incluir una secuencia aleatoria de
números 1, 2 y 3 “revueltos”, en aproximadamente las mismas proporciones. En este caso, las sumas y las
medias de las columnas también tenderían a comportarse del mismo modo.
En la mayoría de los aspectos la lógica del test de Friedman es bastante similar a la del test KW. Para cada
valor particular de k (número de medidas por sujeto), la media de rangos para cualquiera de los n sujetos
particulares es
( k + 1) .
2
26
Por tanto para k = 3 , como en el presente ejemplo, es 4 = 2 ; para k = 4 , sería 5 = 2,5 ; y así
2 2
sucesivamente. Bajo la hipótesis nula, este sería también el valor esperado de la media de cada una de las
k columnas. Análogamente, el valor esperado para cada una de las sumas de las columnas sería la
n ( k + 1)
cantidad multiplicada por el número de sujetos: . Para el presente ejemplo, con n = 10 , sería
2
10 × 4 = 20 .
2
Medida de las diferencias del grado de “agregación” del grupo
Se puede calcular el grado de “agregación” al cual difieren las medias de los k grupos.
A B C todos
recuentos 10 10 10 30 n = 10 [individuos]
sumas ( R i ) 26,5 21,0 12,5 60,0 k = 3 [medidas por individuo]
medias 2,65 2,10 1,25 2,0 n × k = 30
Tabla XVII.
Nuestra compañía musical puede por tanto concluir con considerable confianza que las diferencias
observadas entre las medias de los rangos para los tres violines refleja algo más que una mera variabilidad
aleatoria o una coincidencia entre los juicios de los violinistas.
27
t =
( F −1 ) n−2
2 F (1 − r 2 )
donde n es el número de pares de puntuaciones; y
r es el coeficiente de correlación entre las puntuaciones de la muestra 1 y las de la muestra 2;
(c) Se evalúa esta t con una t de Student para n − 2 grados de libertad.
7. Bibliografía
http://www2.chass.ncsu.edu/garson/PA765/index.htm
http://www.seh-lelha.org/stat1.htm
http://www.graphpad.com/articles/interpret/principles/stat_principles.htm
http://www.chups.jussieu.fr/polys/biostats/poly/stats.pdf
Chan YH. Quantitative Data – Parametric & Non-parametric Tests. Singapore Med J 2003; 44(8): 391-396.
Anexos
28
11 2,009 2,276 2,454
12 2,008 2,322 2,479
13 1,964 2,313 2,523
14 1,952 2,329 2,517
15 1,965 2,306 2,533
Tabla A1. Se indican los valores de W α para diferentes α :0, 05, 0, 02, 0, 01 .
29