Vous êtes sur la page 1sur 4

1 Centro de Matemtica a BIOESTADISTICA Curso 2006

Pruebas de Bondad de Ajuste


En esta seccin estudiaremos el problema de ajuste a una distribucin. Dada una muestra X1 , X2 , , Xn o o de variables i.i.d. con distribucin F , un problema bsico en estad o a stica es encontrar un modelo para los datos. Por ejemplo, supongamos que nos interesa ver hasta qu punto es razonable suponer que e los datos provienen de una cierta distribucin F0 . o Las pruebas estad sticas destinadas a la resolucin de este tipo de problemas son las llamadas Pruebas o de Bondad de Ajuste. La mayor de ellas se basa en la convergencia de la funcin de distribucin a o o
n

emp rica de la muestra: Fn (x) =


i=1

1{Xi x} , a la funcin de distribucin subyacente a la muestra o o

F . Dicha convergencia est garantizada en condiciones muy generales por el Teorema de Glivenkoa Cantelli, tambin llamado Teorema Fundamental de la Estad e stica. En esta seccin se incluyen algunas pruebas muy generales y conocidas (2 , Kolmogorov-Smirnov, y o otras pruebas ms espec a cas (Lilliefors, DAgostino, Filliben).

La Prueba 2 de Pearson

La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el ao 1900. n Pearson propuso evaluar el ajuste de una funcin de distribucin F0 a una muestra de variables i.i.d., o o mediante el uso de un estad stico de tipo cuadrtico. Este planteamiento constituye la primera evalua acin rigurosa de la calidad del ajuste a una distribucin. Anteriormente a Pearson slo se intentaron o o o comparaciones subjetivas. Baste como ejemplo el de la utilizacin de la distribucin normal en la teor de errores. Dicha diso o a tribucin fue introducida por Gauss en 1801 para modelar los errores en la determinacin de la posicin o o o del asteroide Ceres. Aos despus Laplace y Poisson llegaron a ella en versiones primigenias del Teon e rema Central del L mite. Poisson agregar contraejemplos con l a mites no gaussianos. La primera justicacin de la aplicabilidad del modelo fue dada por un ingeniero alemn: G. Hagen, en 1837. o a Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera vericar la adecuacin del o modelo. En el caso de hiptesis nula compuesta, en que es necesario estimar parmetros, las distribuciones o a

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

asintticas de los estad o sticos del tipo 2 dependen del mtodo de estimacin utilizado. e o Fundamentacin de la prueba o Dada una muestra X1 , X2 , , Xn de variables i.i.d., con funcin de distribucin F , y una distribucin o o o F0 , Pearson considera la particin en k clases A1 , A2 , , Ak del soporte de F0 y a partir de ella o propone el estad stico k (Xni npi )2 S= npi i=1
n

donde Xni =
j=1

1Ai (Xj ) y pi = F (Ai ). La distribucin de S depende en general del nmero de clases o u

k, del vector de probabilidades (p1 , , pk ) y del tamao de muestra n. En un art n culo de 1973, Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin demostracin, S tiene, bajo la hiptesis nula distribucin 2 con k 1 grados de libertad, mientras o o o que bajo la alternativa F = F0 , S tiende casi seguramente a innito. Teorema Sea p1 , p2 , , pk una k-upla de nmeros no negativos que suman 1, y sean Z1 , Z2 , vectores multinou
n

miales e independientes con parmetros {(p1 , p2 , , pk ), 1}. Si denimos Xn = a


m=1 k

Zm , el estad stico

S=
i=1

(Xni npi )2 npi

tiene distribucin asinttica 2 con k 1 grados de libertad o o

La Prueba de Kolmogorov y Smirnov

Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estad stica, que enunciamos a continuacin o Teorema Fundamental de la Estad stica (Glivenko-Cantelli) Sea X1 , X2 , , Xn , una sucesin de variables aleatorias i.i.d. con distribucin F , y sea Fn la o o funcin de distribucin emp o o rica para la muestra de tamao n, es decir n
n n

Fn (x) =
i=1

1(Xi ,+) (x) =


i=1

1[,x) (Xi )

entonces supxI |Fn (x) F (x)| 0 R

LA PRUEBA DE KOLMOGOROV Y SMIRNOV

con probabilidad 1. Supongamos entonces que tenemos una muestra X1 , X2 , , Xn proveniente de una distribucin F o y queremos realizar la prueba de hiptesis H0 : F = F0 y H1 : F = F0 para una cierta distribucin o o F0 . El teorema anterior sugiere el uso del siguiente estad stico KS = supxI |Fn (x) F0 (x)| R Bajo la hiptesis nula KS (que depende de n) tender a cero, mientras que, bajo la hiptesis alternao a o tiva, la descomposicin o KS = supxI |Fn (x) F0 (x)| = supxI |Fn (x) F (x) + F (x) F0 (x)| R R nos muestra que KS tiende a supxI |F (x) F0 (x)| = 0 R de modo que la prueba es consistente frente a cualquier alternativa. Observaciones 1. Ntese en primer lugar que, por la forma de la funcin de distribucin emp o o o rica, si el supremo involucrado en el clculo del estad a stico KS no se alcanza en alguno de los puntos de la muestra, entonces tomar en valor a = limxX |Fn (x) F0 (Xi )| i
i

para alguno de los puntos de la muestra. Calcular KS se reduce entonces a calcular: KS = max max1in {|Fn (Xi ) F0 (Xi )|}, max1in { } = i max {max1in {|i/n F0 (Xi )|}, max1in {|(i 1)/n F0 (Xi )|}}} 2. La distribucin bajo H0 del estad o stico KS no depende de la distribucin subyacente a la muestra. o Sea la muestra X1 , X2 , , Xn de variables i.i.d. con distribucin F = F0 . Si hacemos el cambio o de variables Ui = F0 (Xi ) y u = F0 (x) tendremos
n

KS = supxI |Fn (x) F0 (x)| = supxI | R R


i=1 n

1{Xi x} F0 (x)| =
n

supxI | R
i=1

1{F0 (Xi )F0 (x)} F0 (x)| = supu[0,1] |


i=1

1{Ui u} u|

Es decir que la distribucin del estad o stico de Kolmogorov y Smirnov para la muestra X1 , X2 , , Xn es igual a la del estad stico para la muestra uniforme U1 , U2 , , Un (recurdese que las variables e Ui tienen distribucin uniforme en [0,1]). o Para tamaos muestrales pequeos una tabla de Montecarlo basada en la distribucin uniforme, n n o da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov.

LA PRUEBA DE NORMALIDAD DE LILLIEFORS

3. En el caso asinttico, los percentiles para la aplicacin de la prueba vienen dados por un famoso o o resultado debido a Donsker (1952). 4. En caso en que la distribucin dependa de algunos parmetros desconocidos, si la muestra o a es sucientemente grande, podemos dividirla en dos, usando una primera parte para estimar los parmetros y la segunda para aplicar la prueba de ajuste a la distribucin en la que se a o sustituyen los parmetros por sus respectivos estimadores. Esta forma de proceder involucra a varias decisiones sobre la divisin de la muestra. En particular, decidir qu parte de la muestra o e se usar para estimar los parmetros y qu parte para aplicar la prueba, es una arbitrariedad; a a e para evitarla, se puede volver a aplicar el procedimiento estimando los parmetros con la segunda a parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable rechazar si alguna de las dos pruebas arrojara un resultado signicativo).

La Prueba de Normalidad de Lilliefors

Esta prueba de normalidad utiliza el estad stico de Kolmogorov y Smirnov, en el caso en que la media y el desv de la distribucin (desconocidos) se estiman utilizando toda la muestra. Es decir que el o o estad stico vale x Xn )| KSL = supxI |Fn (x) ( R sn donde es la funcin de distribucin normal t o o pica, Si determinamos la regin cr o tica usando la tabla de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por el mtodo de Montecarlo los percentiles de este estad e stico.

La Prueba de Normalidad de DAgostino

Este estad stico compara (a menos de una constante) un estimador lineal del desv t o pico en el caso de una distribucin normal, con el desv muestral. o o Para la muestra aleatoria simple X1 , X2 , , Xn y la prueba cuya hiptesis nula es H0 : la mueso tra tiene distribucin normal y cuya hiptesis alternativa es la complementaria, el estad o o stico de DAgostino vale: n i n+1 Xi 2 D= n2 sn i=1
1 donde s2 = n n (Xi X)2 . n i=1 1 El valor esperado de este estad stico es aproximadamente 2 . Para tamaos muestrales pequeos se n n dispone de una tabla de simulacin que da un criterio de decisin. Para muestras de tamao grande, o o n la variable 1 D 2 n 1 12 327+2 24
2

se puede aproximar por una variable normal t pica.

Vous aimerez peut-être aussi