Vous êtes sur la page 1sur 24

U. T. 10. ENSAYOS DE SIGNIFICACIÓN.

0. INTRODUCCIÓN

Una de las propiedades más importantes de un método analítico es que debería estar libre
de errores sistemáticos. Esto significa que el valor dado para la cantidad de analito debería ser el
valor verdadero. Esta propiedad de un método analítico se puede contrastar al aplicar el método a
una muestra de ensayo estándar que contenga una cantidad conocida de analito. Sin embargo,
incluso si no existieran errores sistemáticos, los errores aleatorios hacen poco probable que la
cantidad medida sea exactamente igual que la cantidad patrón conocida. Para deci dir si la diferencia
entre la cantidad medida y la cantidad conocida se puede atribuir a estos errores aleatorios, se puede
aplicar una prueba estadística denominada contraste de significación. Esta aproximación contrasta si
son significativas las diferencias entre los dos resultados, o si se pueden justificar sólo por variaciones
aleatorias. Los contrastes de significación se utilizan ampliamente en la evaluación de los resultados
experimentales.

1. LA HIPÓTESIS NULA Y SU NIVEL DE SIGNIFICACIÓN.

Ensayar una hipótesis es realizar un comparación entre un dato o un descriptor muestral un y


valor de referencia, o bien, entre dos o más descriptores muestrales. La comparación se realiza
formulando una hipótesis denominada “hipótesis nula”, Ho, que establece que los parámetros son
iguales. Ejemplos de hipótesis nulas habituales son:

a) Igualdad de dos varianzas muestrales, Ho: s12 = s22.


b) Igualdad de dos medias muestrales, Ho: X1 = X2.
c) Igualdad de una media muestral y un valor de referencia, Ho: X1 = x r.
d) Igualdad de varias medias muestrales, Ho: X1 = X2 = X3 =...= X h.

La decisión de aceptar o rechazar Ho se toma en cada caso estableciendo previamente su


“nivel de significación crítico” o “límite de decisión”, αc. El nivel de significación es la probabilidad de
que, siendo cierta la hipótesis nula, se produzcan casos extremos en los que (incorrectamente) se
rechace. También se puede definir como “el riesgo que se asume de tomar la decisión errónea de
rechazar la hipótesis nula siendo en realidad cier ta”. Por su parte, el “nivel de confianza crítico” es 1 -
αc .

1
Supóngase, por ejemplo, que se investiga la orina de un deportista bajo la sospecha de que
ha incurrido en dopaje. Sobre el espectro de masas aparece un pico de altura x i = 0,9. Para saber si ha
habido dopaje es necesario decidir si dicho pico es significativo, o si se trata de una desviación
anormalmente alta de la línea base. Tomando la línea base como valor de referencia igual a cero, la
hipótesis nula es Ho: x i = 0. Si en un estudio aparte se ha establecido la desviación estándar de la
línea base, cuyo valor es σ = ±0,5, entonces el valor tipificado de x i es zi = 1,8. Por otro lado, se habrá
tomado la decisión de rechazar Ho para un cierto porcentaje de casos extremos, αc · 100%.
Supóngase que se adopta como límite de decisión α c = 0,05, esto es, Ho se rechazará
equivocadamente, como máximo, para el 5% de los casos. Dichos casos extremos (ver UT2) son los
que están más allá de z = 1,64, que es el valor de z a cuya dere cha se encuentra el 5% del área bajo la
curva. Puesto que zi = 1,8, la probabilidad de que Ho, siendo cierta, se rechace incorrectamente, es
menor del 5%. Por tanto, se rechaza Ho, esto es, el dopaje queda demostrado con un nivel de con-
fianza del 95%.

Para cualquier ensayo de hipótesis, se calcula directamente la “significación observada”, αo.


En este caso, Ho se rechaza si αo es menor que la significación previamente adoptada como límite de
decisión, αc. Para el ejemplo del dopaje se tiene α o = 0,036. El área subtendida más allá de z i = 1,8 es
0,036. Este resultado se interpreta como sigue: si se fijara como límite z = 1,8 para tomar la decisión
de rechazar Ho, se tomaría la decisión errónea de rechazarla un α o = 0,036 = 3,6% de los casos. Para
este valor observado de α o, si el riesgo asumido como limite de decisión es mayor, tal como α c = 0,05
= 5%, se rechaza Ho. En cambio, si el riesgo asumido es menor, tal como α c = 0,01 = 1%, se acepta Ho.

Supóngase ahora que se ha adoptado un nivel de significación límite de α c = 0,05 y se


presenta un caso tal como xi = 0,82, para el que zi = 1,64. Para este valor, el nivel de significación
observado es exactamente αo = 0,05. Cuando el riesgo observado es igual que el asumido como límite
de decisión, se produce el “caso crítico”. Para un caso crítico, la decisión de aceptar o rechazar la
hipótesis nula sólo se puede tomar si se aumenta o se reduce el valor aceptado como límite, α c, o si
se toman nuevas medidas experimentales.

2
2. ERRORES α Y β.

Cuando la hipótesis nula, siendo cierta, se rechaza incorrectamente, se dice que se comete
un “error α” o de “tipo I”. La probabilidad de incurrir en un error a es igual al nivel de signifi cación
observado. En el ejemplo del dopaje, si z i = 1,8, el error a es del 3,6%. Análogamente, si se adopta
como límite de decisión α c = 0,05, el error a del caso crítico es del 5%. En el ámbito de los ensayos de
laboratorio, el error a es la probabilidad de incurrir en un “falso positivo” cuando se quiere verificar
la ausencia de un analito. Por ejemplo, se decide que el deportista se ha dopado cuando en realidad
no es así, o que el paciente está enfermo cuando en realidad no lo está, o que se ha vertido un
contaminante al ambiente cuando no es cierto, etc.

El error contrario, aceptar Ho cuando en reali dad es falsa, se denomina “error β” o de “tipo
II“. El valor del error β depende del valor de a con el que se tome la decisión de aceptar o rechazar
Ho, y también del valor o valores que realmente ten gan los parámetros poblacionales desconocidos
cuyos estimadores se están comparando. En la figura siguiente se esquematiza esta situación para el
caso de la comparación de una medida cualquiera con una media muestral, Ho: x i = X. La variable se
ha tipificado de modo que X = 0 y s = ±1. Para un nivel de significación de α c = 0,05, el límite de
decisión se encuentra en el valor crítico zc = 1,64.

La parte superior de la figura representa el caso de que Ho sea en realidad cierta. Puesto que
Ho se rechaza para cualquier medida que caiga a la derecha de este límite, el error a es del 5%.

La parte inferior de la figura representa el caso de que Ho sea en realidad falsa, y de que el
valor verdadero de la magnitud, el que se obtendría repitiendo las medidas un elevado número de
veces, sea mayor que z c = 1,64, tal como por ejemplo z i = 3,13. Las medidas presentarían una
distribución en torno a z v, tal que un cierto porcentaje de las mismas caerían a la izquierda de la línea

3
decisoria zc = 1,64. Dicho porcentaje corresponde al área subtendida bajo la curva a una distancia por
debajo de zv de valor 3,13 - 1,64 = 1,49. Dicha área es β = 0,068 = 6,8%. En el ámbito de los ensayos
de laboratorio, el error β es la pro babilidad de incurrir en un “falso negativo”: no se acepta el dopaje
cuando en realidad sí lo hubo, no se acepta la presencia del contaminante cuan do en realidad sí hubo
vertido, etc.

Observando la figura anterior se advierte que para una muestra con un valor dado de z v el
error β aumenta cuando se reduce el error α, y vice versa. Salvo si existe una especial razón en contra,
suele adoptarse el valor de compromiso αc = 0,05, si bien el valor αc = 0,01 es también muy habitual.
Se adoptan valores bajos de α c cuando rechazar Ho puede acarrear consecuencias graves. Así, en el
ejemplo del dopaje la decisión de rechazar Ho implica una sanción con consecuencias graves para la
vida profesional del deportista, por lo que es probable que Ho se compruebe con α c = 0,001, lo que
implica un riesgo de falso positivo del 0,1%. El riesgo de tomar una decisión equivocada es mucho
menor si el resultado se comprueba con otro método.

El riesgo de falso negativo o error β se reduce si aumenta z v, pero también disminuye si en


lugar de una medida aislada, se toman n medidas y se extrae la media. La media pertenece a una
población cuya desviación estándar es s / n1/2. Puesto que la distribución en torno a z v se estrecha, se
reduce también el área a la izquierda de la línea de decisión.

4
3. LA HIPÓTESIS ALTERNATIVA.

La hipótesis nula va indisolublemente unida a una “hipótesis alternativa”, H1. El rechazo de la


hipótesis nula supone la aceptación de H 1. Para una Ho dada se pueden formular dos hipó tesis
alternativas distintas:

a) H1 de dos lados o dos colas: los parámetros que se comparan son distintos.
b) H1 de un lado o una cola: un parámetro es mayor que el otro no siendo posible el caso inverso, en
el que dicho parámetro sea menor que el otro.

Formular la hipótesis alternativa afecta el nivel de significación de Ho, puesto que la


probabilidad de que se cumpla la H 1 de dos lados es mayor que la probabilidad de que se cumpla la
correspondiente H1 de un lado. Para distribuciones de probabilidad simétricas, como las de z y t, la
probabilidad de que se cumpla la H 1 de dos lados es el doble de la probabilidad de que se cumpla la
H1 de un lado. Por esta razón, la comprobación de Ho implica elegir entre dos ensa yos diferentes
denominados “de un lado” (o una cola) y “de dos lados” (o dos colas). Algunas situaciones a modo
de ejemplo serían:

- Para el ejemplo del dopaje, sólo es posible la hipótesis alternativa, H 1: xi > 0, puesto que es
absurdo el caso contrario, que correspondería a un pico negativo sobre el espectro. El ensayo
que se ha aplicado en los apartados anteriores es el de un lado.

- Si se compara la varianza de medidas obtenidas a lo largo de una sesión de trabajo de un solo


día con la varianza obtenida a lo largo de varios días, la hipótesis alternativa no puede ser
más que la de un lado, puesto que el cambio de día es una fuente de varianza adi cional que
aumenta la variabilidad de los datos. La hipótesis alternativa es H 1: sl > s2, siendo sl la
varianza inter-día y s2 la intra-día.

- Si se comparan las varianzas obtenidas al aplicar el mismo método a la misma muestra en dos
laboratorios distintos, puesto que no hay ninguna razón por la que uno de los laboratorios
deba obtener resultados más precisos que el otro, el ensayo es el de dos lados. Se tiene H1: s1
≠ s2.

5
- En un estudio ambiental se desea saber si las concentraciones de contaminantes y nutrientes
han variado con respecto a las observadas el año anterior. Puesto que es igualmente
probable que las concentraciones aumenten o disminuyan, el ensayo adecuado para
comparar las medias de dos años consecutivos es el de dos lados. Se tiene H 1: X1 ≠ X2.

- Para el mismo ejemplo anterior, se quiere saber si con la puesta en funciona miento de una
depuradora de aguas residuales se ha conseguido reducir la contaminación. Si existen
razones suficientes para creer que la contaminación no puede haber aumentado por otras
causas, el ensayo a aplicar es el de un lado, H 1: X1 > X2, siendo X1 la media del año anterior a
la puesta en marcha de la depuradora.

3.1. ALGUNAS APLICACIONES DE ENSAYOS DE UN LADO.

Una aplicación típica de los ensayos de un lado es la comprobación del cumplimiento de


límites legales: límite de peso en camiones, límite de velocidad en carretera, concentración de
contaminantes en efluentes industriales, conservantes y otros aditivos en alimentación, parámetros
biomédicos (como hematocrito y cociente testosterona/epitestosterona en ciclistas), etc.

Los estudios de estabilidad de sustancias químicas implican también la aplicación de ensayos


de un lado: se realiza una serie de medidas para determinar su concentración, X1, y se repite la serie
al cabo de un tiempo para obtener X2. La hipótesis sólo puede ser H 1: X1 > X2, puesto que la
concentración sólo puede mantenerse constante o disminuir, pero no aumentar. En cambio, en los
estudios de estabilidad de materiales certificados de referencia el ensayo puede ser de dos lados,
puesto que la alteración indeseada del material puede conducir tanto al aumento como a la
disminución de la concentración del analito.

Ejemplos de ensayos de un lado se encuentran también en las transacciones comerciales.


Supóngase que comprador y vendedor deben ajustar el precio de una partida de mineral. El vendedor
garantiza una riqueza mínima de 10 g de metal por kg. Al comprador sólo le interesa asegurar que ese
límite se alcanza, esto es, que no hay menos. El ensayo que debe aplicar es el de un lado, puesto que
sólo le interesa saber el riesgo que corre si la partida tiene menos metal que el esperado, esto es, el
riesgo de que se cumpla H1: X < 10 g/kg. El ensayo es el mismo para el vendedor, a quien sólo le
interesa saber que no entrega más metal que el necesario para cumplir el contrato, esto es, le
interesa conocer el riesgo de que se cumpla H 1: X > 10 g/kg.

6
Finalmente, la comparación de la varianza observada con una varianza de referencia permite
comprobar la calidad o estado de conservación de la instrumentación científica, o también, la calidad
de los procedimientos de análisis y su correcta puesta a punto en un laboratorio dado. En estos casos,
el ensayo es de un lado puesto que no se espera que la varianza hallada sea mejor que la de
referencia, sino tan sólo que no sea peor. Por ejemplo, si se quiere saber si la incertidumbre de un
instrumento se encuentra dentro de sus especificaciones, la hipótesis alternativa es H1: s2 > sr2, siendo
sr2 la varianza de referencia indicada por el fabricante.

4. RECHAZO DE RESULTADOS ANÓMALOS.

La hipótesis nula para rechazo de resultados anómalos o atípicos, x*, es Ho: x* = X, siendo H1:
x* ≠ X. Salvo en casos especiales, muy poco frecuentes, los ensayos de rechazo de datos anómalos
son de dos lados. Es así porque el dato anómalo tiene la misma probabilidad de produ cirse hacia el
extremo inferior que hacia el extre mo superior de la serie. Rechazar Ho equivale a afirmar que el dato
no es representativo de esa población, por lo que su eliminación de la mues tra mejora los
estimadores X y s.

Un dato anómalo se rechaza tan sólo cuando la probabilidad de rechazarlo incorrectamente


es suficientemente baja, esto es, se rechaza para un nivel de significación suficientemente bajo de
Ho. Por otra parte, es muy importante rechazar los datos anómalos antes de aplicar cualquier otra
herramienta estadística, puesto que alteran gra vemente las conclusiones de cualquier estudio.
Además, la presencia de datos anómalos es con frecuencia la causa de la falta de normalidad de las
series de datos. Los datos anómalos se suelen rechazar aplicando el ensayo ks, o bien, el ensayo no
paramétrico de Dixon o el ensayo de Grubbs.

7
4.1. ENSAYO ks.

El ensayo ks se basa en construir un modelo de distribución normal. En primer lugar, se


identifica x*, que siempre será el valor menor o mayor de la serie, y se encontrará ostensiblemente
alejado de los demás datos. A continuación, se construye el modelo utilizando sólo los datos que se
consideran aceptables para calcular X y s. Se evita así el riesgo de que se pierda la normalidad, y se
tienen unos estimadores que probablemente son mejores que los que se obtendrían si el mode lo se
construyese incluyendo el valor sospechoso. Finalmente, se comprueba a qué distancia de la media,
en unidades de desviación estándar, se halla x*. El dato sospechoso se rechaza si la dis tancia es
superior a ks. Es lo mismo que decir que x* se rechaza cuando /z*/ > k. Como se deduce de la tabla
de distribución normal, si se quiere comprobar Ho para α c = 0,05 debe utilizarse k = 1,96, lo que
supone rechazar incorrectamente el 2 · 0,025 = 5% de los datos (ensayo de dos lados). Igualmente, si
se adopta el valor k = 2,58, se rechazará incorrectamente el 2 · 0,005 = 1% de los datos. Con un valor
más alto de k se aceptarán también incorrectamente un mayor número de datos realmente
anómalos.

4.2. ENSAYO DE DIXON.

El ensayo no paramétrico de Dixon está indicado cuando la muestra tiene menos de 10


datos. Se calcula el estadístico:

Qo = (x* - xp) / (x* - xl)

xp: valor más próximo al dato sospechoso.


xl: valor más lejano al dato sospechoso.

El dato sospechoso se rechaza cuando la distancia al dato más próximo es excesivamente


grande en comparación con la distancia al dato más lejano. Para tomar la decisión, Qo se compara
con el valor crítico, Qc, que se toma de la tabla de Dixon de dos lados (ver cuadro siguiente), para n
datos (incluyendo el dato anómalo) y para un nivel de sig nificación dado, αc. El dato sospechoso se
rechaza si /Qo/ > Qc.

8
4.3. CONTRASTE DE GRUBBS.

Otro contraste utilizado frecuentemente para datos anómalos es el contraste de Grubbs, que
compara la desviación entre el valor sospechoso y la media muestral, con la desviación estándar de la
muestra. Este contraste lo recomienda ISO preferiblemente al de Dixon.

Para usar el contraste de Grubbs para un valor anómalo, todas las medidas proceden de la
misma población, se calcula el estadístico G:

Go = /x* - X/ / s

s se calcula incluyendo el valor sospechoso.

El contraste supone que la población es normal. Los valores críticos de G para α = 0,05 están
en la tabla siguiente. Si el valor Go supera al valor crítico G c, se rechaza la hipótesis de que el dato
sospechoso no es anómalo.

9
4.4. CONSIDERACIONES SOBRE EL RECHAZO DE DATOS ANÓMALOS.

Es importante tener en cuenta que para un nivel de significación del 5% hay todavía un 5% de
riesgo, o 1 de cada 20, de rechazar incorrectamente el valor sospechoso. Esto puede tener un efecto
considerable a la hora de estimar la precisión de un experimento.

Es de gran importancia ser cauto al rechazar datos anómalos. Cuando las medidas se repiten
solo unas pocas veces (lo que es normal en un trabajo analítico), el rechazo de un valor origina una
gran variación sobre la media y sobre la desviación estándar. En concreto, el hecho de tomar tres
medidas y rechazar la que difiere más de las otras dos debe evitarse. Se puede demostrar que se
obtiene una estimación más fiable de la media, en promedio, utilizando la mediana que utilizando la
media de os dos que no fueron rechazados.

Si un conjunto de datos contiene dos o más resultados sospechosos, al decidir si se justifica el


rechazo, surgen otras complicaciones. La figura siguiente ilustra en forma de diagrama de puntos dos
ejemplos de tales dificultades En el caso a) hay dos resultados (2.9 y 3.1), los cuales son altamente
sospechosos al compararlos con la media de los datos. Incluso, si Q fuese calculado de forma no
crítica utilizando:

Q = (3,1 – 2,9) / (3,1 – 2) = 0,18

10
El valor calculado es inferior al crítico para α = 0,05. Claramente el posible valor anómalo ha
sido enmascarado por el otro valor anómalo posible (2,9), dando un valor de Q pequeño. Una
situación diferente sería la b), donde los datos sospechosos están en lugares opuestos del conjunto
de datos. Esto trae consigo un valor grande para el intervalo. Como resultado Q es pequeño y, por
tanto, no significativo. Las extensiones del contraste de Grubbs proporcionan contrastes para parejas
de datos anómalos.

Los contrastes de datos anómalos descritos suponen que las muestras proceden de una
distribución normal. Es importante señalar que un resultado que parece ser un valor anómalo
suponiendo una población normal, puede que no sea un valor anómalo si la muestra procede
realmente de otro tipo de distribución, log-normal por ejemplo. Estas dificultades explican la
utilización de métodos estadísticos no paramétricos, al ser menos sensibles a los datos extremos, o al
menos tienen poco peso en los cálculos, evitándose el problema de si se rechazan o no los datos
anómalos.

11
5. ENSAYOS DE COMPARACIÓN DE VARIANZAS.

5.1. COMPARACIÓN DE DOS VARIANZAS MUESTRALES CON EL ENSAYO F.

Para comparar dos varianzas muestrales se utiliza el ensayo F. La hipótesis nula es: Ho: s12 =
s22, y la hipótesis alternativa H1: s12 > s22; para el ensayo de un lado, y H1: s12 ≠ s22, para el de dos lados.
Si se acepta Ho se dice que las series son “homogéneas” u “homocedásticas”, y en el caso opuesto
las series son “heterogéneas” o “heterocedásticas”. El ensayo se basa en el cálculo del estadístico F,
que es el cociente entre la varianza mayor y la menor:

Fo = s12 / s22

Para aplicar el ensayo F debe establecerse previamente si la comparación se va a realizar


para un lado o para dos lados. El nivel de significación se reduce en las circunstancias siguientes:

a) Cuando aumenta F alejándose de 1.


b) Cuando aumentan τ1, τ2, o ambos: al crecer los grados de libertad se tienen mejores estimaciones
de las varianzas poblacionales. Si se conociesen las varianzas poblacionales, el nivel de significación
sería cero para cualquier cociente infinitesimalmente superior a 1.
c) Cuando el ensayo es de un lado en com paración con el ensayo de dos lados, puesto que la
probabilidad de que se cumpla H1: s12 > s22 es la mitad de la probabilidad de que se cumpla H 1: s12 ≠
s22.

El ensayo se realiza utilizando tablas, seleccionando previamente el nivel de significación


crítico con el que se va a aceptar o rechazar Ho. Habitualmente se acepta como valor crítico α c = 0,05.
En las tablas siguientes se muestran los valores de F para los ensayos de uno y de dos lados para este
nivel de significación. Los valores de F para el ensayo de dos lados y α c = 0,05 coinciden con los de un
lado y αc = 0,025. En cada caso, el valor crítico, F c, se encuentra en la fila τ 1 y en la columna τ 2 de la
tabla. La hipótesis nula se acepta si Fo < Fc.

12
13
5.2. COMPARACIÓN DE UNA VARIANZA MUESTRAL CON UN VALOR DE REFERENCIA.

Cuando se dispone de una serie de medidas cuya varianza es s 2, y de una varianza de


referencia, sr2, que no debe ser superada, pueden darse dos casos:

a) que se conozca el número de grados de libertad de la varianza de referencia, τ 2.


b) que dicho valor no se conozca.

El primer caso se tiene cuando se compara s 2 con la varianza indicada en el certificado de un


material de referencia, o con la especificada por el fabricante de un instrumento. El segundo caso se
presenta cuando se compara s2 con una varianza límite establecida por alguna norma de calidad o
por alguna otra autoridad. El primer caso se resuelve aplicando el ensayo F visto anteriormente.

En el segundo caso, el ensayo F no debe aplicarse porque sr2 es un valor fijo que se conoce
con certeza, esto es, no tiene sentido hablar de grados de libertad de sr2. Por ello, σ2 = sr2, y se
formula la hipótesis nula Ho: s2 = σ2. Para comprobar esta hipótesis para un nivel de significación
crítico, αc, se calculan los límites de confianza inferior y superior de la varianza muestral, Li y Ls:

Li < σ2 <Ls (αc)

Los límites a la izquierda (o inferior) y a la derecha (o superior) de σ 2 son distintos, porque


son funciones del estadístico χ2. Este estadístico varía entre cero e infinito. Se tiene:

Li = (n - 1) · s2 / χα2

Ls = (n - 1) · s2 / χ(1-α)2

El cuadro siguiente, para valores crecientes del número de grados de libertad, τ = (n - 1), se
muestran los valores de χ2.

14
Si el ensayo es de dos lados, Ho se acepta si Li < σ2 < Ls, donde los límites se calculan para α =
αc /2. Una forma más simple de aplicar el ensayo es calcular χo 2:

χo2 = (n – 1) · s2 / σ2

Ho se acepta si χ(1-α)2 < χo2 < χα2.

Si el ensayo es de un lado se distinguen dos casos:

- Si H1: s2 < σ2, la hipótesis nula se acepta si χo2 > χ(1-α)2, siendo α = αc.
- Si H1: s2 > σ2, la hipótesis nula se acepta si χo2 < χα2, siendo α = αc.

Los valores de χ(1-α)2 y χα2 se obtienen del cuadro anterior para τ = (n-1) y α.

15
6. ENSAYOS DE COMPARACIÓN DE MEDIAS.

6.1. COMPARACIÓN DE UNA MEDIA MUESTRAL, X, CON UN VALOR DE REFERENCIA.

Se da este caso cuando se dispone de una serie de medidas y de un valor de referencia, x r,


que puede ser, por ejemplo, el valor indicado en el certificado del material de referencia que se ha
analizado, o bien un límite legal, un valor de seguridad, un valor recomendado a partir del cual debe
realizarse una actuación ambiental, industrial o médica, etc. Se considera que el valor de referen cia
no está sujeto a incertidumbre, sino que es un valor fijo que debe aceptarse sin discusión. Por esta
razón, se hace µ = xr, y se formula la hipótesis Ho: X = µ. El ensayo es de un lado si H1: X > µ, o bien si
H1: X < µ, no siendo posible más que una de estas dos hipótesis alternativas. Por el contrario, el
ensayo es de dos lados si H1: X ≠ µ.

Para cada caso, el nivel de significación de Ho será tanto menor cuanto:

a) Mayor sea la diferencia entre X y µ.


b) Mayor sea el número de grados de liber tad, τ, con que se conocen X y s. Para X este valor es τ = n,
y para s vale τ = n - 1.
c) Puesto que la significación del ensayo depende de la distribución del estadístico t, que es
simétrica, si el ensayo es de un lado en vez de dos, el nivel de significación se reduce exactamente a
la mitad.

Si el ensayo se aplica utilizando tablas, se comienza por calcular el estadístico to:

to = /X - µ/ · n1/2 / s

El valor de to se compara con el valor crítico, tc, tomado de la tabla de Student de uno o de
dos lados para un determinado nivel de significación y n-1 grados de libertad. Si to < tc, se acepta Ho.

16
6.2. COMPARACIÓN DE DOS MEDIAS MUESTRALES HOMOGÉNEAS.

El ensayo que debe utilizarse para comparar dos medias muestrales es distinto dependiendo
de que las varianzas de las dos muestras sean homogéneas o heterogéneas. Para comprobar este
punto se realiza un ensayo F. Si se acepta Ho: s12 = s22, ambas varianzas pertenecen a la misma
población, esto es, son estimaciones de la misma varianza poblacional, por lo que es posible calcular
una varianza conjunta o promedia, s2. El valor de s2 se obtiene como media pondera da, utilizando
los grados de libertad de las dos series como pesos:

s2 = [(n1 - 1) · s12 + (n2 - 1) · s22] / (n1 - 1) + (n2 - 1)

Es lógico que sea así, puesto que la varianza que se conoce con más grados de libertad debe
influir más en el cálculo de la varianza conjunta. La ventaja de realizar este cálculo es que aumenta el
número de grados de libertad con el que se conoce la varianza común de las dos series, que ahora es
τ = n1 + n2 - 2.

La hipótesis nula es Ho: X1 = X2, siendo H1: X1 > X2 para el ensayo de un lado, y H1: X1 ≠ X2
para el de dos. A continuación, se calcula to mediante:

to = /X1 – X2/ / [ s2 · ( 1 / n1 + 1 / n2) ]1/2

Finalmente, se busca en la tabla de Student de uno o dos lados el valor crítico de t para n1 +
n2 - 2 grados de libertad, tc, y se compara con to. Si to < tc, se acepta Ho, esto es, no se habrá
demostrado que exista diferencia entre las medias para el nivel de significación exigido.

6.3. COMPARACIÓN DE DOS MEDIAS MUESTRALES HETEROGÉNEAS.

17
Este ensayo se utiliza cuando no puede calcularse la varianza conjunta por ser las series
heterogéneas. El valor de to se obtiene mediante la ecuación de Cochran:

to = /XI - X2/ / (s12 / n1 + s22 / n2)1/2

Para hallar tc es necesario calcular antes el número de grados de libertad. Para ello, se utiliza
la fórmula aproximada:

τ = {(s12 / n1 + s22 / n2)2 / [(s12 / n1)2 / (n1 +1) + (s22 / n2)2 / (n2 + 1)]} - 2

El valor de τ es el número entero más próximo al resultado. Si to < tc, se acepta Ho.

7. ENSAYO DE COMPARACIÓN DE RESULTADOS APAREADOS.

El ensayo de comparación de resultados apareados se utiliza para comparar dos conjuntos de


n resultados cada uno, cuyos datos en función de algún criterio objetivo se pueden reunir de dos en
dos formando parejas: (x1, y1), (x2, y2),..., (x i, yi),..., (xn, yn). Por una parte, existe una variable que
distingue una pareja de otra, y que sabemos (o suponemos) que es significativa , esto es, sabemos
que x1 ≠ x2 ≠…≠ xn, y también que y1 ≠ y2 ≠…≠ yn. Por otra parte, existe otra variable, la que
distingue los dos valores dentro de cada pareja (x1 de y1, x2 de y2, etc), cuya significación se desea
evaluar. La hipótesis nula es Ho: xi = yi, para todos los valores de i. La hipótesis alternativa es H1: xi >
yi, o bien xi < yi, pero no ambas a la vez, para el ensayo de un lado, y H1: xi ≠ yi para el de dos lados.

Ejemplos de este tipo de ensayo serían:

- Se toman medidas de un contaminante en diversos lugares, A, B, C, etc, en dos años


consecutivos. Puesto que la concentración del contaminante cambia de un lugar a otro, la
diferencia de lugar es un factor significativo. El año es el factor cuya significación se desea
comprobar.

- Se toman medidas de un parámetro biomédico (por ejemplo, concentración de


hemoglobina, o presión arterial) sobre una serie de voluntarios antes y después de un

18
tratamiento. El individuo es un factor significativo, puesto que el parámetro es distinto de un
individuo a otro, y el efecto del tratamiento es el factor cuya significación se quiere evaluar.

- Se comparan los resultados obtenidos al aplicar dos procedimientos analíticos distintos a un


conjunto de muestras de referencia, todas ellas con concentraciones distintas de analito. La
concentración de analito es el factor significativo (distinta entre muestra y muestra), y el
cambio de procedimiento es el factor cuya significación se quiere comprobar.

Para realizar el ensayo se hallan las diferencias, di = xi – yi, para cada pareja (con su signo), y
se calcula la media aritmética de las diferen cias, Xd, y su desviación estándar, s d. La hipótesis nula es
Ho: Xd = 0, y el estadístico a calcular:

to = /Xd/ · n1/2 / sd

n: número de parejas.

Esta expresión se obtiene de la ecuación anterior para la comparación de una media


muestral con un valor de referencia, teniendo en cuenta que en este caso particular µ = 0. El
estadístico calculado con la ecuación sigue la distribución de la t de Student. Si to < tc para τ = n - 1 y
para el valor crítico de α adoptado, se acepta Ho.

8. ENSAYOS DE COMPARACIÓN DE VARIAS VARIANZAS.

En la comparación de tres o más varianzas se decide, con una cierta probabilidad, si son

19
todas iguales, o si, por el contrario, al menos una de ellas es distinta de las demás. Esta comparación
es útil en calibración analítica, para establecer si la varianza de un método de análisis se mantiene
constante, o si varía al aumentar la concentración de analito. Es importante tomar una decisión
sobre este particular puesto que, en cada caso, la recta de calibrado se construye con una regresión
distinta: ordinaria si hay homogeneidad, o ponderada en caso contrario. También es útil en los
ejercicios de comparación interlaboratorio, en los que se compara la precisión obtenida por varios
laboratorios que aplican el mismo método a porciones de una misma muestra. Si se demuestra que
las varianzas no son homogéneas, al menos uno de los laboratorios trabaja con una precisión distinta
que los demás. Finalmente, para poder estudiar conjuntos de tres o más series de medidas mediante
las herramientas estadísticas del ANOVA (análisis de la varianza), es necesario demostrar pre-
viamente la homogeneidad de las series.

La comparación de tres o más varianzas no se puede realizar dividiendo la mayor de las


varianzas por la menor, como se ha hecho en el ensayo F. Entre otras razones, el ensayo F no es
válido porque la probabilidad de que las dos varianzas extremas sean distintas entre sí aumenta con
el número de varianzas.

9. COMPARACIÓN DE VARIAS MEDIAS MUESTRALES MEDIANTE ANOVA DE UNA ENTRADA.

El análisis de la varianza o ANOVA es una herramienta estadística que permite comparar

20
simultáneamente varias medias muestrales. Las medias se comparan para establecer si son todas
iguales (hipótesis nula), o si al menos una de ellas es distinta de las demás (hipótesis alternativa) .
Para las series de resultados 1, 2, 3,..., j,..., h, Ho se formula como sigue:

Ho: X1 = X2 = X3 =...= Xj =...= Xh

El nombre de ANOVA hace alusión a que la comparación de más de dos medias se realiza
mediante el cálculo y la comparación de dos varianzas, pero se debe tener presente que el objetivo
es comparar medias y no varianzas.

La necesidad de aplicar un ANOVA es relativamente frecuente en el ámbito del laboratorio


analítico. Así, en los ejercicios de comparación interlaboratorio se comparan las medias de los
resultados obtenidos por un grupo de laboratorios que analizan una misma muestra. Si se rechaza Ho
se pasa a identificar el laboratorio o laboratorios cuyos resultados discrepan de los obtenidos por la
mayoría de los participantes. Sólo estos últimos quedan validados para la realización de análisis de
un determinado tipo.

Igualmente, el ANOVA es útil para comparar los efectos producidos por diversos cambios en
las condiciones de trabajo (pH, concentraciones de reactivos, tiempos de reacción, etc) sobre los
resultados de los experimentos. En este sentido, el ANOVA es una herramienta esencial cuando se
optimizan procedimientos de laboratorio, o industriales en general, examinando las diversas
variables implicadas a varios niveles.

Análogamente, los resultados obtenidos aplicando varios tratamientos en agricultura


(abonado, humedad del aire, temperatura, riego, etc), en alimentación (colorantes, espesantes,
conservantes, tiempo de curado, etc), en medicina (distintos fármacos, distintas dosis, etc), etc, se
comparan mediante ANOVA. En estudios ambientales, un ANOVA se puede utilizar para decidir si las
concentraciones de contaminantes o de nutrientes en diversos lugares, o a lo largo de varios años,
son las mismas, estableciendo por separado los efectos del cambio de lugar, del paso del tiempo, o
de diversas intervenciones humanas.

9.1. CONDICIONES PREVIAS PARA APLICAR UN ANOVA.

Para que pueda aplicarse el ANOVA se han de cumplir, al menos de forma aproximada, las

21
tres condiciones siguientes:

a) Independencia: cada serie de datos debe ser independiente de las demás, esto es, los datos de
una serie no deben estar correlacionados con los de otra.
b) Normalidad: la distribución interna de cada serie debe ser normal, lo que conviene comprobar con
un ensayo de normalidad.
c) Homogeneidad: las varianzas de las series deben ser iguales, esto es, debe ser aceptable Ho: s12 =
s22 =…= sj2 =…= sh2.

Si estos requisitos no se cumplen en un grado satisfactorio, los resultados del ANOVA serán
incorrectos.

9.2. FUNDAMENTO Y CÁLCULOS DE ANOVA PARA MUESTRAS DEL MISMO TAMAÑO.

El ANOVA de una entrada se aplica a series de datos como las que se muestran en el cuadro
siguiente. Para su aplicación, en primer lugar, deben hallarse las medias y varianzas de las series (ver
segundo cuadro). A continuación, y para mayor sencillez, se expone el caso particular en el que todas
las series tienen el mismo tamaño, esto es, para todo valor de j: n j = n.

En primer lugar, se calcula la media global, o media de las h medias, y su desviación estándar.
Se tiene: Xm ± sm. Si se cumple Ho, la dispersión de los datos dentro de cada serie y la dispersión de
las medias de las series son ambas debidas a una única fuente de varianza, que es la asociada al

22
método de medida, y que se conoce como “varianza del error aleatorio”, o “varianza residual”, sres2.
Por ello, si se cumple Ho existen dos formas de estimar la varianza residual:

a) Como media de las varianzas de las h series, o varianza intra-series:

sres2 = Σ sj2 / h

que es cierta en cualquier circunstancia.

b) Como n veces la varianza de las h medias, o varianza inter-series:

sres2 = n · sm2

que es cierta sólo si es aceptable Ho. Al multiplicar por n se tiene en cuenta que la varianza de las
medias es n veces menor que la varianza de los datos individuales.

Estas dos estimaciones de la varianza residual se comparan mediante un ensayo F de un


lado:

Fo = n · sm2 / sres2

Los grados de libertad son:

a) Para el numerador (fila de la tabla de F): τ1 = h - 1, puesto que se pierde un grado de libertad al
calcular la media global, que es necesaria para conocer s m2.
b) Para el denominador (columna de la tabla de F): τ2 = h · (n - 1), puesto que se pierde un grado de
libertad al calcular la media de cada serie.

El ensayo es de un lado porque n·s m2, sólo puede ser igual o superior a sres2. Si se rechaza Ho
queda demostrada la hipótesis alternativa, H1: n.sm2 > sres2, esto es, existe una fuente de varianza
adicional; el factor que distingue las medias aumenta significativamente la dispersión entre ellas.
Cuando se rechaza Ho se dice que el resul tado es “positivo”.

9.3. ANÁLISIS DE UN RESULTADO POSITIVO PARA FACTORES NO ALEATORIOS.

23
Un resultado positivo indica que al menos una de las medias es distinta de las demás . Antes
de continuar con el estudio de los resultados, es necesario distinguir entre dos tipos de resultados
positivos:

a) El factor o factores que distinguen las medias no son de naturaleza aleatoria. En este caso,
dependiendo de cómo se hayan diseñado los experimentos, las medias se distribuirán en uno o
varios grupos, o incluso, serán todas distintas entre sí.
b) El factor que distingue las medias es alea torio. En tal caso es absurdo preguntar qué medias son
distintas de cuáles, puesto que se distribuyen al azar. A cambio, tiene sentido, y puede tener interés,
calcular la varianza del factor que distingue las medias, o varianza de comparación, sc2.

El análisis de los resultados del ANOVA para los casos a) y b) se realiza de distinta manera.
Cuando el factor o factores implicados no son aleatorios, se aplican diversos ensayos que permiten
averiguar qué medias forman grupos, siendo iguales entre ellas y distintas de las demás. Un ensayo
muy sencillo es el de la “diferencia significativa menor” (DSM). Las medias se ordenan de menor a
mayor, y se calculan las diferencias que las separan. Además, se calcula la DSM como:

DSM = sres · t · (2 / n)1/2

t se lee en la tabla de Student de dos lados para τ = h · (n - 1) grados de libertad. El ensayo es de dos
lados porque, en principio, cualquier media puede ser mayor o menor que otra. Las medias se
separan de forma individual, o por grupos, por los lugares donde la diferencia entre dos medias
sucesivas supera la DSM.

24

Vous aimerez peut-être aussi