Tabla de contenido Tabla de contenido ................................................................................................................... 2 Introduccin ............................................................................................................................. 3 Desarrollo ................................................................................................................................. 4 Definicin .............................................................................................................................. 4 Mtodos no paramtricos ..................................................................................................... 4 Pruebas de bondad de ajuste...7 Test de suma de rangos de Wilcoxon..9 Prueba de aleatoriedad ...10 Conclusiones11 Bibliografa12
3
Introduccion
Cuando algunos elementos de una poblacin desconocida tienen un comportamiento aleatorio, se desea determinar si sus resultados pueden asumirse como similares a los provenientes de alguna distribucin de probabilidad terica. En consecuencia, se requiere evaluar la hiptesis de que una determinada distribucin de probabilidad pueda ser usada para representar o modelar los valores errticos que muestra el sistema. Modelar datos aleatorios exige determinar si alguna distribucin estadstica puede representarlos adecuadamente
Las pruebas de bondad de ajuste se aplican para comparar los resultados de una muestra con los que se espera obtener cuando la hiptesis nula es verdadera. Esta tienen por objetivo determinar si los datos se ajustan a una determinada distribucin, la cual puede estar completamente especificada (hiptesis simple) o perteneciente a una clase paramtrica (hiptesis compuesta)
El siguiente informe pretende explicar los mtodos utilizados para el ajuste de datos en un modelo estadstico que describe cun bien se ajusta a un conjunto de observaciones. Las medidas de bondad en general resumen la discrepancia entre los valores observados y los valores esperados en el modelo de estudio.
4
Desarrollo
Mtodos no paramtricos Los mtodos no paramtricos son la manera ms directa de solucionar el problema de falta de normalidad. Estos mtodos son muy simples de usar y estn disponibles en SPSS. Pero tienen dos desventajas. Primero que tienen menos poder que las equivalentes soluciones paramtricas. Tambin es importante distinguir que las pruebas de hiptesis no paramtricas no contestan a la misma pregunta que las pruebas paramtricas. Por ejemplo si queremos hacer un test para decimar sobre el centro de la distribucin, el test no paramtrico establece la hiptesis en trminos de la mediana y el test paramtrico usa la media.
Test de Kruskal-Wallis . El test de Kruskal-Wallis es un test de rangos que reemplaza al test F de ANOVA. El supuesto acerca de la independencia de las poblaciones sigue siendo importante, pero ya no necesitamos normalidad. Asumiremos que la respuesta tiene una distribucin continua en cada poblacin. H0: las k distribuciones son iguales H1: una de ellas tiene valores sistemticamente mayores Si todas las distribuciones tienen la misma distribucin, esta hiptesis la podemos simplificar. H0: las k poblaciones tienen la misma mediana H1: no todas las medianas son iguales Recordemos la idea del ANOVA: tenemos una variacin total observada de la respuesta como la suma de dos partes, una que mide la variacin entre los grupos o tratamientos (suma de cuadrados entre tratamientos, SCE) y la otra que mide la variacin entre las mediciones de un mismo tratamiento (suma de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA rechaza la hiptesis nula de que las medias son iguales si la SCE es grande relativa a la SCD.
5
La idea del test de Kruskal-Wallis es calcular los rangos de todas las respuestas y luego aplicar el ANOVA a los rangos en vez de las observaciones originales. Test de Kruskal-Wallis Se tienen k muestras aleatorias de tamaos n1, n2,...,nk. Hay n observaciones en total, donde n es la suma de los ni . Se calcula el rango de las n observaciones y sea Ri la suma de los rangos en el i-esima muestra o grupo. El estadstico de Kruskal-Wallis es:
Cuando los tamaos ni son grandes y las k poblaciones tienen la misma distribucin, H tiene aproximadamente una distribucin de Ji-cuadrado con (k-1) grados de libertad. El test de Kruskal-Wallis rechaza la hiptesis nula de que todas las poblaciones tienen la misma distribucin cuando H es grande. Vemos que as como el test de suma de rangos de Wilcoxon, el test de Kruskal-Wallis est basado en suma de rangos, mientras mayor sea la diferencia entre los rangos de los grupos mayor evidencia de que las respuestas son diferentes. La distribucin exacta del estadstico H de Kruskal-Wallis bajo la hiptesis nula depende de los tamaos muestrales n1, n2,...,nk, por lo tanto las tablas son terribles. El clculo de la distribucin exacta es tan complicado que los softwares generalmente usan la aproximacin de 2 para obtener el valor p.
Correlacin por rangos de Spearman El uso de este coeficiente es apropiado cuando la escala de medida de las variables de inters no es cuantitativa sino que es ordinal.
6
La r de Spearman es en realidad el coeficiente de correlacin lineal r de Pearson, aplicado a los datos que satisfacen los requisitos de una escala ordinal. La ecuacin ms sencilla para el clculo de rs cuando no existen empates, o existen pocos, con respecto al nmero de pares de datos (x, y) es:
Donde: ( ) R Xi es el rango del i-simo dato X y ( ) R Yi es el rango del i- simo dato Y.
Pruebas de bondad de ajuste Prueba de Kolmogrov-Smirnov En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es una prueba no paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre s.
Para dos colas el estadstico viene dado por:
Donde F(x) es la distribucin presentada como hiptesis.
7
Prueba de Anderson-Darling La prueba de Anderson-Darling es una prueba estadstica que permite determinar si una muestra de datos se extrae de una distribucin de probabilidad. En su forma bsica, la prueba asume que no existen parmetros a estimar en la distribucin que se est probando, en cuyo caso la prueba y su conjunto de valores crticos siguen una distribucin libre. Sin embargo, la prueba se utiliza con mayor frecuencia en contextos en los que se est probando una familia de distribuciones, en cuyo caso deben ser estimados los parmetros de esa familia y debe tenerse estos en cuenta a la hora de ajustar la prueba estadstica y sus valores crticos. Cuando se aplica para probar si una distribucin normal describe adecuadamente un conjunto de datos, es una de las herramientas estadsticas ms potentes para la deteccin de la mayora de las desviaciones de la normalidad. En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina si los datos vienen de una distribucin con funcin acumulativa F.
Donde:
Prueba de Pearson La prueba de Pearson es considerada como una prueba no paramtrica que mide la discrepancia entre una distribucin observada y otra terica (bondad de ajuste), indicando en qu medida las diferencias existentes entre ambas, de haberlas, se deben al azar en el contraste de hiptesis. Tambin se utiliza para probar la independencia de dos variables entre s, mediante la presentacin de los datos en tablas de contingencia. La frmula que da el estadstico es la siguiente:
8
Cuanto mayor sea el valor de , menos verosmil es que la hiptesis sea correcta. De la misma forma, cuanto ms se aproxima a cero el valor de chi- cuadrado, ms ajustadas estn ambas distribuciones. Los grados de libertad gl vienen dados por :gl= (r-1)(k-1). Donde r es el nmero de filas y k el de columnas.
Prueba de ShapiroWilk En estadstica, el Test de ShapiroWilk se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hiptesis nula que una muestra x1, ..., xn proviene de una poblacin normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk. Se considera uno de los test ms potentes para el contraste de normalidad, sobre todo para muestras pequeas (n<30). El estadstico del test es:
x(i) (con el subndice i entre parntesis) es el nmero que ocupa la i-sima posicin en la muestra. = (x1 + ... + xn) / n es la media muestra las variables ai se calculan:
Donde:
9
Siendo m1, ..., mn son los valores medios del estadstico ordenado, de variables aleatorias independientes e idnticamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadstico de orden.
Test de suma de rangos de Wilcoxon Se tiene una muestra de tamao n1 de una poblacin, y una segunda muestra de tamao n2 de otra poblacin. Hay n observaciones en total, donde n = n1 + n2. Se calcula el rango de las n observaciones. El test estadstico ser la suma W de los rangos del grupo con menor suma de rangos, este ser el estadstico de suma de rangos de Wilcoxon. Si las dos poblaciones tienen la misma distribucin continua, entonces W tiene media:
Y desviacin estndar:
Donde n1 ser el tamao muestral del grupo con menor suma de rangos. El test de suma de rangos de Wilcoxon rechaza la hiptesis nula de que las dos poblaciones tienen la misma distribucin cuando la suma de rangos W est lejos de su media. El estadstico de suma de rangos W se aproxima a la distribucin Normal cuando n es grande. Entonces podemos formar un test z para estandarizar a W:
10
Prueba de Aleatoriedad El contraste de rachas permite verificar la hiptesis nula de que la muestra es aleatoria, es decir, si las sucesivas observaciones son independientes. Este contraste se basa en el nmero de rachas que presenta una muestra. Una racha se define como una secuencia de valores muestrales con una caracterstica comn precedida y seguida por valores que no presentan esa caracterstica. As, se considera una racha la secuencia de k valores consecutivos superiores o iguales a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte) siempre que estn precedidos y seguidos por valores inferiores a la media muestral (o a la mediana o a la moda, o a cualquier otro valor de corte).
El nmero total de rachas en una muestra proporciona un indicio de si hay o no aleatoriedad en la muestra. Un nmero reducido de rachas (el caso extremo es 2) es indicio de que las observaciones no se han extrado de forma aleatoria, los elementos de la primera racha proceden de una poblacin con una determinada caracterstica (valores mayores o menores al punto de corte) mientras que los de la segunda proceden de otra poblacin. De forma idntica un nmero excesivo de rachas puede ser tambin indicio de no aleatoriedad de la muestra.
Si la muestra es suficientemente grande y la hiptesis de aleatoriedad es cierta, la distribucin muestral del nmero de rachas, R, puede aproximarse mediante una distribucin normal de parmetros:
11
Donde n1 es el nmero de elementos de una clase, n2 es el nmero de elementos de la otra clase y n es el nmero total de observaciones.
12
Conclusiones
Los ajustes de bondad son tiles a la hora de determinar discrepancias entre datos observados y esperados.
Se requiere la realizacin de diferentes tipos de pruebas de acuerdo a el tamao de la muestra
La utilizacin de estos mtodos se hace recomendable cuando no se puede asumir que los datos se ajusten a una distribucin conocida
Se debe tener conocimiento de la teora estadstica de las decisiones.
Los ajustes de bondad son mtodos principales en los procesos de normalizacin.
13
Bibliografa
CASAS SNCHEZ, J. M. Inferencia estadstica para economa y administracin de empresas. Editorial Centro de Estudios Ramn Areces, S.A. SALAMA, David Estadstica Metodologa y aplicaciones. Quinta Edicin. Editorial Torino, Caracas, Venezuela Infografa http://www.rosaweb.org/descargas/temasei.pdf http://www.academia.edu/7801929/UNET_Decanato_de_Postgrado_Ingenieri a_Industrial_Bondad_de_Ajuste_F._Ibarra_2010 http://www.uoc.edu/in3/e-math/docs/Q1P_EI_04.pdf