Académique Documents
Professionnel Documents
Culture Documents
F . Dicha convergencia est garantizada en condiciones muy generales por el Teorema de Glivenkoa Cantelli, tambin llamado Teorema Fundamental de la Estad e stica. En esta seccin se incluyen algunas pruebas muy generales y conocidas (2 , Kolmogorov-Smirnov, y o otras pruebas ms espec a cas (Lilliefors, DAgostino, Filliben).
La Prueba 2 de Pearson
La primera prueba de bondad de ajuste fue propuesta por Karl Pearson en el ao 1900. n Pearson propuso evaluar el ajuste de una funcin de distribucin F0 a una muestra de variables i.i.d., o o mediante el uso de un estad stico de tipo cuadrtico. Este planteamiento constituye la primera evalua acin rigurosa de la calidad del ajuste a una distribucin. Anteriormente a Pearson slo se intentaron o o o comparaciones subjetivas. Baste como ejemplo el de la utilizacin de la distribucin normal en la teor de errores. Dicha diso o a tribucin fue introducida por Gauss en 1801 para modelar los errores en la determinacin de la posicin o o o del asteroide Ceres. Aos despus Laplace y Poisson llegaron a ella en versiones primigenias del Teon e rema Central del L mite. Poisson agregar contraejemplos con l a mites no gaussianos. La primera justicacin de la aplicabilidad del modelo fue dada por un ingeniero alemn: G. Hagen, en 1837. o a Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera vericar la adecuacin del o modelo. En el caso de hiptesis nula compuesta, en que es necesario estimar parmetros, las distribuciones o a
asintticas de los estad o sticos del tipo 2 dependen del mtodo de estimacin utilizado. e o Fundamentacin de la prueba o Dada una muestra X1 , X2 , , Xn de variables i.i.d., con funcin de distribucin F , y una distribucin o o o F0 , Pearson considera la particin en k clases A1 , A2 , , Ak del soporte de F0 y a partir de ella o propone el estad stico k (Xni npi )2 S= npi i=1
n
donde Xni =
j=1
k, del vector de probabilidades (p1 , , pk ) y del tamao de muestra n. En un art n culo de 1973, Katti da tables exactas para el caso uniforme. De acuerdo al siguiente teorema, que enunciamos sin demostracin, S tiene, bajo la hiptesis nula distribucin 2 con k 1 grados de libertad, mientras o o o que bajo la alternativa F = F0 , S tiende casi seguramente a innito. Teorema Sea p1 , p2 , , pk una k-upla de nmeros no negativos que suman 1, y sean Z1 , Z2 , vectores multinou
n
Zm , el estad stico
S=
i=1
Esta prueba de ajuste se basa en el llamado Teorema Fundamental de la Estad stica, que enunciamos a continuacin o Teorema Fundamental de la Estad stica (Glivenko-Cantelli) Sea X1 , X2 , , Xn , una sucesin de variables aleatorias i.i.d. con distribucin F , y sea Fn la o o funcin de distribucin emp o o rica para la muestra de tamao n, es decir n
n n
Fn (x) =
i=1
1[,x) (Xi )
con probabilidad 1. Supongamos entonces que tenemos una muestra X1 , X2 , , Xn proveniente de una distribucin F o y queremos realizar la prueba de hiptesis H0 : F = F0 y H1 : F = F0 para una cierta distribucin o o F0 . El teorema anterior sugiere el uso del siguiente estad stico KS = supxI |Fn (x) F0 (x)| R Bajo la hiptesis nula KS (que depende de n) tender a cero, mientras que, bajo la hiptesis alternao a o tiva, la descomposicin o KS = supxI |Fn (x) F0 (x)| = supxI |Fn (x) F (x) + F (x) F0 (x)| R R nos muestra que KS tiende a supxI |F (x) F0 (x)| = 0 R de modo que la prueba es consistente frente a cualquier alternativa. Observaciones 1. Ntese en primer lugar que, por la forma de la funcin de distribucin emp o o o rica, si el supremo involucrado en el clculo del estad a stico KS no se alcanza en alguno de los puntos de la muestra, entonces tomar en valor a = limxX |Fn (x) F0 (Xi )| i
i
para alguno de los puntos de la muestra. Calcular KS se reduce entonces a calcular: KS = max max1in {|Fn (Xi ) F0 (Xi )|}, max1in { } = i max {max1in {|i/n F0 (Xi )|}, max1in {|(i 1)/n F0 (Xi )|}}} 2. La distribucin bajo H0 del estad o stico KS no depende de la distribucin subyacente a la muestra. o Sea la muestra X1 , X2 , , Xn de variables i.i.d. con distribucin F = F0 . Si hacemos el cambio o de variables Ui = F0 (Xi ) y u = F0 (x) tendremos
n
1{Xi x} F0 (x)| =
n
supxI | R
i=1
1{Ui u} u|
Es decir que la distribucin del estad o stico de Kolmogorov y Smirnov para la muestra X1 , X2 , , Xn es igual a la del estad stico para la muestra uniforme U1 , U2 , , Un (recurdese que las variables e Ui tienen distribucin uniforme en [0,1]). o Para tamaos muestrales pequeos una tabla de Montecarlo basada en la distribucin uniforme, n n o da los percentiles para poder aplicar la prueba de Kolmogorov-Smirnov.
3. En el caso asinttico, los percentiles para la aplicacin de la prueba vienen dados por un famoso o o resultado debido a Donsker (1952). 4. En caso en que la distribucin dependa de algunos parmetros desconocidos, si la muestra o a es sucientemente grande, podemos dividirla en dos, usando una primera parte para estimar los parmetros y la segunda para aplicar la prueba de ajuste a la distribucin en la que se a o sustituyen los parmetros por sus respectivos estimadores. Esta forma de proceder involucra a varias decisiones sobre la divisin de la muestra. En particular, decidir qu parte de la muestra o e se usar para estimar los parmetros y qu parte para aplicar la prueba, es una arbitrariedad; a a e para evitarla, se puede volver a aplicar el procedimiento estimando los parmetros con la segunda a parte de la muestra y aplicando la prueba de ajuste con la primera (en este caso es razonable rechazar si alguna de las dos pruebas arrojara un resultado signicativo).
Esta prueba de normalidad utiliza el estad stico de Kolmogorov y Smirnov, en el caso en que la media y el desv de la distribucin (desconocidos) se estiman utilizando toda la muestra. Es decir que el o o estad stico vale x Xn )| KSL = supxI |Fn (x) ( R sn donde es la funcin de distribucin normal t o o pica, Si determinamos la regin cr o tica usando la tabla de Kolmogorov y Smirnov, el resultado es una prueba muy conservadora. Lilliefors ha tabulado por el mtodo de Montecarlo los percentiles de este estad e stico.
Este estad stico compara (a menos de una constante) un estimador lineal del desv t o pico en el caso de una distribucin normal, con el desv muestral. o o Para la muestra aleatoria simple X1 , X2 , , Xn y la prueba cuya hiptesis nula es H0 : la mueso tra tiene distribucin normal y cuya hiptesis alternativa es la complementaria, el estad o o stico de DAgostino vale: n i n+1 Xi 2 D= n2 sn i=1
1 donde s2 = n n (Xi X)2 . n i=1 1 El valor esperado de este estad stico es aproximadamente 2 . Para tamaos muestrales pequeos se n n dispone de una tabla de simulacin que da un criterio de decisin. Para muestras de tamao grande, o o n la variable 1 D 2 n 1 12 327+2 24
2