Vous êtes sur la page 1sur 33

Muestras grandes Robustos.

Valor P bastante correcto incluso si la poblacin no es gaussiana Casi tanta Potencia como un test paramtrico para muestras grandes. Si la poblacin es Gaussiana, el valor P sera casi idntico al que se obtendra con un test paramtrico

Muestras pequeas

Tests Parametricos

No robustos. Si la poblacin no es Gaussiana el valor P puede ser errneo No son potentes para muestras pequeas Si la poblacin es Gaussiana el valor P ser mayor que el obtenido con un mtodo paramtrico. Con muestras muy pequeas puede obtenerse un resultado significativo independientemente de lo que difieran los valores No muy tiles. Poca potencia para discriminar entre poblaciones gaussianas y no gaussianas Las muestras pequeas simplemente no contienen suficiente informacin para hacer inferencia acerca de la forma de la poblacin

Tests No parametricos

Tests de Normalidad

tiles para determinar si los datos se han extrado de una poblacin gaussiana

Se dice que una prueba estadstica es robusta si se pueden violar sus supuestos sin que ello repercuta substancialmente en las conclusiones. La robustez es la habilidad de una prueba estadstica especfica para suministrar una estimacin exacta de la probabilidad de los errores tipo I y II, aun cuando sus suposiciones sean violadas. Algunas pruebas de hiptesis son ms robustas a desviaciones de ciertos supuestos subyacentes que otras. El tipo y magnitud de la desviacin de los datos de las condiciones requeridas por un test es a menudo importante en la seleccin apropiada del test estadstico que hay que aplicar. Las pruebas de hiptesis son usadas en muchas situaciones en las que las condiciones subyacentes son violadas. Por lo tanto la robustez es una propiedad deseable. Las hiptesis con las que se trabaja en los tests no paramtricos son menos detalladas y menos numerosas que en los tests paramtricos y los tests no paramtricos son menos sensibles a su violacin. Por eso los tests no paramtricos son ms robustos que los paramtricos. Adems estas violaciones son ms fciles de ver en los tests no paramtricos.. Para tamaos muestrales menores de 10, las violaciones en las hiptesis de los tests paramtricos son ms graves, por lo que los tests no paramtricos son los ms apropiados.

Contrastes no paramtricos

Generalmente son vlidos cualquiera que sea la distribucin de la poblacin

Contrastes de ajuste de una distribucin muestral a una distribucin terica. En particular, contrastes de Normalidad

Contrasta la posible independencia de distintas caractersticas observadas en la muestra, con independencia del tipo de distribucin que siga cada una de ellas

Contrastes de Bondad de ajuste

Idea bsica: Consiste en comparar las frecuencias observadas en la muestra para cada suceso relevante, con las que debera haberse obtenido en una poblacin que perteneciese a una distribucin de probabilidad especfica. Puede aplicarse tanto a distribuciones discretas como continuas. No obstante, previamente, debe establecerse una particin del espacio muestral en k sucesos mutuamente excluyentes

Bondad de ajuste: Contrastes de normalidad

La prueba de K-S de una muestra es una prueba de bondad de ajuste. Se utiliza para contrastar si una variable se distribuye con una ley determinada (normal, exponencial)

Este contraste, que es vlido para variables continuas, compara la funcin de distribucin (probabilidad acumulada) terica con la observada. Es adecuado cuando los datos no estn agrupados y adems el tamao muestral es pequeo.

Bondad de ajuste: Contrastes de normalidad

1. Ordenar los valores muestrales

2. Calcular la funcin de distribucin emprica de la muestra Fn(x) (Frecuencia acumulada relativa)

3. Calcular la discrepancia mxima entre las funciones de distribucin observada (o emprica) y terica con el estadstico:

Bondad de ajuste: Contraste de Shapiro-Wilks


Mide el ajuste de la muestra al dibujarla en papel probabilstico normal a una recta. Se rechaza si el ajuste es malo Valores pequeos del estadstico

h es n/2 si n es par y (n-1)/2 si n es impar aj,n estn tabulados x(j) es el valor ordenado en la muestra que ocupa el lugar j

Bondad de ajuste: Contraste de K-S-Lilliefors

1. Contrastes de aleatoriedad. Test de rachas 2. Contrastes de localizacin 2.1 Contraste del signo 2.1.1 Localizacin de una poblacin (mediana) 2.1.2 Diferencia de medianas para parejas de datos relacionados 2.2 Contraste del rango signado (Wilcoxon) 2.2.1 Localizacin de una poblacin (mediana) 2.2.2 Diferencia de medianas para parejas de datos relacionados 2.3 Contraste de Mann-Whitney (dos muestras independientes). 2.4 Contraste de Kruskal-Wallis (ms de dos muestras independientes)

Contraste de aleatoriedad: Test de rachas


Aplicable con variables de escala ordinal. Racha: sucesin de valores situados por encima (racha positiva) o por debajo de la mediana (racha negativa). Longitud de una racha: nmero de observaciones consecutivas. Ejemplo: 23 32 43 45 21 35 33 54 22 (mediana=33 se eliminan los valores iguales a la mediana):

Hay cinco rachas, de longitudes 2, 2, 1, 2 y 1, respectivamente. Tres son de signo negativo y dos de signo positivo.

Contraste de aleatoriedad: Test de rachas


Nmero de rachas (r ) es un estadstico que est tabulado bajo la hiptesis de aleatoriedad y es funcin del nmero de signos positivos (k ). Si no hay valores repetidos, es n/2 (n par) o (n-1)/2 (n impar) Por tanto, es funcin del tamao de la muestra: correlacin positiva r pequeo en relacin con lo esperado r grande en relacin con lo esperado correlacin negativa r toma valores intermedios hiptesis de aleatoriedad cierta Se trata de un test de dos colas. Si n es suficientemente grande (k>50; n>100), se puede aproximar con

Contraste del signo: localizacin de una poblacin


Mediana: instrumento para la localizacin o tendencia central de una poblacin Variables ordinal o estadsticas de rangos (imposible usar medias) Media no representativa: asimetra y valores extremos (outliers) No es vlida la hiptesis de normalidad en la poblacin (imposible test sobre la media con la normal o la t) En cualquier distribucin, la mediana tiene una propiedad interesante:

El ms utilizado para contrastar hiptesis sobre la mediana (localizacin). Se puede adaptar para parejas de datos relacionados (igualdad de medianas). Supondremos que X es continua. La hiptesis a contrastar es: H0 : M = M0 Si esta hiptesis es cierta y xi es una observacin de la muestra (tamao n):

Contraste del signo: localizacin de una poblacin


Se construye una variable auxiliar, W, en la siguiente forma: Wi =1, si (xi M0) = 0 signo positivo (+) Wi =0, en caso contrario signo negativo (-) Por tanto, Wi es un experimento de Bernouilli, con p=1/2 Si las observaciones muestrales son independientes, la repeticin de este experimento n veces, ser una variable, U, que sigue una binomial:

Si H0 es cierta, el valor de U (S Wi), debiera ser prximo a n/2. Discrepancias grandes, llevaran a rechazar dicha hiptesis nula.

Contraste del signo: localizacin de una poblacin


La eleccin de la regin crtica depende de H1:

Contraste del signo: localizacin de una poblacin


Al tratarse de una distribucin discreta (binomial) no siempre es posible encontrar la regin crtica del tamao predeterminado. Pero, al ser p=1/2 :

para n 10. Por aproximacin de discreta a continua, suele utilizarse U+1/2, para RC izquierda, y U-1/2, para RC derecha.

Test del signo: diferencia de medianas


(datos relacionados)

Test del signo: diferencia de medianas


(datos relacionados) Si Ho es cierta y la muestra es aleatoria, cabe esperar n/2 diferencias + La regin crtica depende de H1 (similar al caso anterior):

Contraste del rango signado (Wilcoxon): una poblacin

Extensin del test del signo, para variables de escala superior a la ordinal. Adems del signo de (xi M0), considera la amplitud de la diferencia Puede aplicarse, tanto a una muestra como a datos apareados La poblacin se supone continua y simtrica

Contraste del rango signado (Wilcoxon): una poblacin

Contraste del rango signado (Wilcoxon): una poblacin

Contraste del rango signado (Wilcoxon): diferencia de medianas. Datos relacionados

Contraste de la suma de rangos: 2 Muestras independientes

Contraste de la suma de rangos: Regin crtica

Contraste de la suma de rangos: Regin crtica

Contraste de Mann-Whitney. Muestras independientes

Contraste de Mann-Whitney. Muestras independientes

Contraste de Mann-Whitney. Regin crtica

Contraste de Mann-Whitney. Regin crtica

Contraste de Kruskal-Wallis: k poblaciones


Coincide con Mann-Whitney para k=2. Es un ANOVA no paramtrico. La hiptesis a contrastar es: H0 : Todas las poblaciones tienen idntica distribucin de probabilidad H1 : Al menos dos de las k poblaciones difieren en su localizacin (mediana) Los pasos a seguir son: 1. Se ordenan en una muestra nica, considerando que H0 es cierta, el conjunto de las observaciones del experimento, de menor a mayor.

2. Se asigna un rango a cada observacin, aplicando el criterio que ya se vio para el test de Wilcoxon si hay valores repetidos. 3. Se calcula para cada muestra la suma de los rangos, que llamaremos R.j 4. Para muestras no muy pequeas (nj > 5) el estadstico muestral:

Contraste de Kruskal-Wallis: k poblaciones


Si H0 es cierta, estas diferencias cuadrticas tendern a ser nulas y H estara prximo a cero. Por el contrario, si no fuese cierta, seran grandes y H tomara un valor tanto ms alto cuanto mayores fuesen las diferencias entre las medias muestrales y la global de la muestra conjunta (RC a la derecha) Para valores muestrales inferiores tales que nj = 5, existen tablas estadsticas que dan los valores crticos para diferentes niveles de significacin y distintos tamaos ordenados de las k muestras.

Contraste de Kruskal-Wallis: k poblaciones

Ventajas de los tests no paramtricos


1. Si el tamao muestral es muy pequeo,puede no haber otra alternativa que emplear estadstica no paramtrica a menos que se conozca la distribucin poblacional exactamente 2. Los tests No parametricos requieren menos condiciones acerca de los datos y pueden ser ms relevantes en algunos casos. Las hiptesis pueden ser ms adecuadas 3. Se pueden aplicar para analizar datos que inherentemente aparecen en rangos asi como datos de puntuaciones numricas. Esto suele ocurrir en estudios donde las variables se caracterizan por grados (ej: estudiar la variable ansiedad, podemos establecer una comparacin entre el grado de ansiedad de dos sujetos sin cuantificar con exactitud la diferencia entre ambos salvo en trminos de rangos: ms o menos, mejor o peor) En estos casos un mtodo paramtrico requrira el cumplimiento de condiciones poco realistas acerca de las distribuciones subyacentes. 4. Los mtodos No parametricos permiten tratar datos categricos, medidos incluso en escala nominal

Desventajas de los tests paramtricos


1 Los tests no paramtricos son menos potentes porque los paramtricos utilizan ms informacin disponible en los datos, consistente con las medidas de escala de intervalo, mientras que los no paramtricos suelen usar informacin ordinal exclusivamente 2 Los paramtricos son mucho ms flexibles y permiten chequear mayor cantidad de hiptesis. Por ej, el diseo de ANOVA factorial permite chequear interacciones entre variables de un modo que es mucho ms limitado con las alternativas no paramtricas. Cuando se cumplan las condiciones para aplicar un mtodo paramtrico, es casi siempre preferible utilizarse antes que uno no paramtrico

Vous aimerez peut-être aussi