Vous êtes sur la page 1sur 13

Repblica Bolivariana de Venezuela

Ministerio del Poder Popular para la Educacin Superior


Universidad Nacional Experimental Politcnica
Antonio Jos de Sucre.
Vicerrectorado Puerto Ordaz



Ajuste de datos por el mtodo de bondad de ajuste




Profesor:
Emerson Suarez Bachiller: C.I.:
Elas Silva 25487170
Jenner Astudillo 19157780



Ciudad Guayana, Agosto de 2014


2

Tabla de contenido
Tabla de contenido ................................................................................................................... 2
Introduccin ............................................................................................................................. 3
Desarrollo ................................................................................................................................. 4
Definicin .............................................................................................................................. 4
Mtodos no paramtricos ..................................................................................................... 4
Pruebas de bondad de ajuste...7
Test de suma de rangos de Wilcoxon..9
Prueba de aleatoriedad ...10
Conclusiones11
Bibliografa12















3


Introduccion

Cuando algunos elementos de una poblacin desconocida tienen
un comportamiento aleatorio, se desea determinar si sus resultados
pueden asumirse como similares a los provenientes de alguna
distribucin de probabilidad terica. En consecuencia, se requiere
evaluar la hiptesis de que una determinada distribucin de
probabilidad pueda ser usada para representar o modelar los valores
errticos que muestra el sistema. Modelar datos aleatorios exige
determinar si alguna distribucin estadstica puede representarlos
adecuadamente

Las pruebas de bondad de ajuste se aplican para comparar los
resultados de una muestra con los que se espera obtener cuando la
hiptesis nula es verdadera. Esta tienen por objetivo determinar si los
datos se ajustan a una determinada distribucin, la cual puede estar
completamente especificada (hiptesis simple) o perteneciente a una
clase paramtrica (hiptesis compuesta)

El siguiente informe pretende explicar los mtodos utilizados para
el ajuste de datos en un modelo estadstico que describe cun bien se
ajusta a un conjunto de observaciones. Las medidas de bondad en
general resumen la discrepancia entre los valores observados y los
valores esperados en el modelo de estudio.





4


Desarrollo

Mtodos no paramtricos
Los mtodos no paramtricos son la manera ms directa de solucionar el
problema de falta de normalidad. Estos mtodos son muy simples de usar y
estn disponibles en SPSS. Pero tienen dos desventajas. Primero que tienen
menos poder que las equivalentes soluciones paramtricas. Tambin es
importante distinguir que las pruebas de hiptesis no paramtricas no
contestan a la misma pregunta que las pruebas paramtricas. Por ejemplo si
queremos hacer un test para decimar sobre el centro de la distribucin, el
test no paramtrico establece la hiptesis en trminos de la mediana y el test
paramtrico usa la media.

Test de Kruskal-Wallis
.
El test de Kruskal-Wallis es un test de rangos que reemplaza al test F de
ANOVA. El supuesto acerca de la independencia de las poblaciones sigue
siendo importante, pero ya no necesitamos normalidad. Asumiremos que la
respuesta tiene una distribucin continua en cada poblacin. H0: las k
distribuciones son iguales H1: una de ellas tiene valores sistemticamente
mayores Si todas las distribuciones tienen la misma distribucin, esta
hiptesis la podemos simplificar.
H0: las k poblaciones tienen la misma mediana
H1: no todas las medianas son iguales
Recordemos la idea del ANOVA: tenemos una variacin total observada
de la respuesta como la suma de dos partes, una que mide la variacin entre
los grupos o tratamientos (suma de cuadrados entre tratamientos, SCE) y la
otra que mide la variacin entre las mediciones de un mismo tratamiento
(suma de cuadrados dentro de los tratamientos, SCD). El test F de ANOVA
rechaza la hiptesis nula de que las medias son iguales si la SCE es grande
relativa a la SCD.

5

La idea del test de Kruskal-Wallis es calcular los rangos de todas las
respuestas y luego aplicar el ANOVA a los rangos en vez de las
observaciones originales.
Test de Kruskal-Wallis
Se tienen k muestras aleatorias de tamaos n1, n2,...,nk. Hay n
observaciones en total, donde n es la suma de los ni . Se calcula el rango de
las n observaciones y sea Ri la suma de los rangos en el i-esima muestra o
grupo. El estadstico de Kruskal-Wallis es:

Cuando los tamaos ni son grandes y las k poblaciones tienen la misma
distribucin, H tiene aproximadamente una distribucin de Ji-cuadrado con
(k-1) grados de libertad.
El test de Kruskal-Wallis rechaza la hiptesis nula de que todas las
poblaciones tienen la misma distribucin cuando H es grande.
Vemos que as como el test de suma de rangos de Wilcoxon, el test de
Kruskal-Wallis est basado en suma de rangos, mientras mayor sea la
diferencia entre los rangos de los grupos mayor evidencia de que las
respuestas son diferentes.
La distribucin exacta del estadstico H de Kruskal-Wallis bajo la hiptesis
nula depende de los tamaos muestrales n1, n2,...,nk, por lo tanto las tablas
son terribles. El clculo de la distribucin exacta es tan complicado que los
softwares generalmente usan la aproximacin de 2 para obtener el valor p.

Correlacin por rangos de Spearman
El uso de este coeficiente es apropiado cuando la escala de medida de
las variables de inters no es cuantitativa sino que es ordinal.


6

La r de Spearman es en realidad el coeficiente de correlacin lineal r de
Pearson, aplicado a los datos que satisfacen los requisitos de una escala
ordinal. La ecuacin ms sencilla para el clculo de rs cuando no existen
empates, o existen pocos, con respecto al nmero de pares de datos (x, y)
es:

Donde: ( ) R Xi es el rango del i-simo dato X y ( ) R Yi es el rango del i-
simo dato Y.

Pruebas de bondad de ajuste
Prueba de Kolmogrov-Smirnov
En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es
una prueba no paramtrica que se utiliza para determinar la bondad de
ajuste de dos distribuciones de probabilidad entre s.

Para dos colas el estadstico viene dado por:


Donde F(x) es la distribucin presentada como hiptesis.





7

Prueba de Anderson-Darling
La prueba de Anderson-Darling es una prueba estadstica que permite
determinar si una muestra de datos se extrae de una distribucin de
probabilidad. En su forma bsica, la prueba asume que no existen
parmetros a estimar en la distribucin que se est probando, en cuyo caso
la prueba y su conjunto de valores crticos siguen una distribucin libre. Sin
embargo, la prueba se utiliza con mayor frecuencia en contextos en los que
se est probando una familia de distribuciones, en cuyo caso deben ser
estimados los parmetros de esa familia y debe tenerse estos en cuenta a la
hora de ajustar la prueba estadstica y sus valores crticos. Cuando se aplica
para probar si una distribucin normal describe adecuadamente un conjunto
de datos, es una de las herramientas estadsticas ms potentes para la
deteccin de la mayora de las desviaciones de la normalidad.
En estadstica, la prueba de Anderson-Darling es una prueba no
paramtrica sobre si los datos de una muestra provienen de una distribucin
especfica. La frmula para el estadstico A determina si los datos vienen de
una distribucin con funcin acumulativa F.

Donde:


Prueba de Pearson
La prueba de Pearson es considerada como una prueba no paramtrica
que mide la discrepancia entre una distribucin observada y otra terica
(bondad de ajuste), indicando en qu medida las diferencias existentes entre
ambas, de haberlas, se deben al azar en el contraste de hiptesis. Tambin
se utiliza para probar la independencia de dos variables entre s, mediante la
presentacin de los datos en tablas de contingencia.
La frmula que da el estadstico es la siguiente:


8



Cuanto mayor sea el valor de , menos verosmil es que la hiptesis sea
correcta. De la misma forma, cuanto ms se aproxima a cero el valor de chi-
cuadrado, ms ajustadas estn ambas distribuciones.
Los grados de libertad gl vienen dados por :gl= (r-1)(k-1). Donde r es el
nmero de filas y k el de columnas.

Prueba de ShapiroWilk
En estadstica, el Test de ShapiroWilk se usa para contrastar la
normalidad de un conjunto de datos. Se plantea como hiptesis nula que una
muestra x1, ..., xn proviene de una poblacin normalmente distribuida. Fue
publicado en 1965 por Samuel Shapiro y Martin Wilk. Se considera uno de
los test ms potentes para el contraste de normalidad, sobre todo para
muestras pequeas (n<30).
El estadstico del test es:

x(i) (con el subndice i entre parntesis) es el nmero que ocupa la i-sima
posicin en la muestra.
= (x1 + ... + xn) / n es la media muestra
las variables ai se calculan:

Donde:


9

Siendo m1, ..., mn son los valores medios del estadstico ordenado, de
variables aleatorias independientes e idnticamente distribuidas,
muestreadas de distribuciones normales. V es la matriz de covarianzas de
ese estadstico de orden.

Test de suma de rangos de Wilcoxon
Se tiene una muestra de tamao n1 de una poblacin, y una segunda
muestra de tamao n2 de otra poblacin. Hay n observaciones en total,
donde n = n1 + n2. Se calcula el rango de las n observaciones. El test
estadstico ser la suma W de los rangos del grupo con menor suma de
rangos, este ser el estadstico de suma de rangos de Wilcoxon. Si las dos
poblaciones tienen la misma distribucin continua, entonces W tiene media:

Y desviacin estndar:

Donde n1 ser el tamao muestral del grupo con menor suma de rangos.
El test de suma de rangos de Wilcoxon rechaza la hiptesis nula de que
las dos poblaciones tienen la misma distribucin cuando la suma de rangos
W est lejos de su media.
El estadstico de suma de rangos W se aproxima a la distribucin Normal
cuando n es grande. Entonces podemos formar un test z para estandarizar a
W:


10


Prueba de Aleatoriedad
El contraste de rachas permite verificar la hiptesis nula de que la muestra
es aleatoria, es decir, si las sucesivas observaciones son independientes.
Este contraste se basa en el nmero de rachas que presenta una muestra.
Una racha se define como una secuencia de valores muestrales con una
caracterstica comn precedida y seguida por valores que no presentan esa
caracterstica. As, se considera una racha la secuencia de k valores
consecutivos superiores o iguales a la media muestral (o a la mediana o a la
moda, o a cualquier otro valor de corte) siempre que estn precedidos y
seguidos por valores inferiores a la media muestral (o a la mediana o a la
moda, o a cualquier otro valor de corte).

El nmero total de rachas en una muestra proporciona un indicio de si hay
o no aleatoriedad en la muestra. Un nmero reducido de rachas (el caso
extremo es 2) es indicio de que las observaciones no se han extrado de
forma aleatoria, los elementos de la primera racha proceden de una
poblacin con una determinada caracterstica (valores mayores o menores al
punto de corte) mientras que los de la segunda proceden de otra poblacin.
De forma idntica un nmero excesivo de rachas puede ser tambin indicio
de no aleatoriedad de la muestra.

Si la muestra es suficientemente grande y la hiptesis de aleatoriedad es
cierta, la distribucin muestral del nmero de rachas, R, puede aproximarse
mediante una distribucin normal de parmetros:






11


Donde n1 es el nmero de elementos de una clase, n2 es el nmero de
elementos de la otra clase y n es el nmero total de observaciones.



















12


Conclusiones

Los ajustes de bondad son tiles a la hora de determinar
discrepancias entre datos observados y esperados.

Se requiere la realizacin de diferentes tipos de pruebas de acuerdo a
el tamao de la muestra

La utilizacin de estos mtodos se hace recomendable cuando no se
puede asumir que los datos se ajusten a una distribucin conocida

Se debe tener conocimiento de la teora estadstica de las decisiones.

Los ajustes de bondad son mtodos principales en los procesos de
normalizacin.












13


Bibliografa

CASAS SNCHEZ, J. M. Inferencia estadstica para economa y
administracin de empresas. Editorial Centro de Estudios Ramn Areces,
S.A.
SALAMA, David Estadstica Metodologa y aplicaciones. Quinta Edicin.
Editorial Torino, Caracas, Venezuela
Infografa
http://www.rosaweb.org/descargas/temasei.pdf
http://www.academia.edu/7801929/UNET_Decanato_de_Postgrado_Ingenieri
a_Industrial_Bondad_de_Ajuste_F._Ibarra_2010
http://www.uoc.edu/in3/e-math/docs/Q1P_EI_04.pdf

Vous aimerez peut-être aussi