Vous êtes sur la page 1sur 8

El siguiente material se encuentra en etapa de correccin y no deber

ser considerado una versin final.


Para hacer comentarios y sugerencias, o reportar errores, enviar mail
a Alejandro D. Zylberberg <alejandro@probabilidad.com.ar>
Versin Actualizada al: 12 de julio de 2004
Prueba de bondad de ajuste
Esta prueba es un poco diferente de las dems pruebas estudiadas en este captulo,
porque las hiptesis no son slo sobre los parmetros de determinadas
distribuciones sino tambin sobre distribuciones en s.
La prueba de bondad de ajuste sirve para determinar si es razonable pensar que
determinados datos recogidos provienen de una determinada distribucin especfica.
Ejemplo con distribucin discreta
Durante 30 das se ha registrado la cantidad de veces por da que un determinado
servidor ha cado en downtime. Se obtuvieron los siguientes resultados:
0, 2, 4, 2, 3, 0, 1, 1, 2, 1, 3, 1, 2, 0, 2, 1, 1, 3, 2, 3, 2, 6, 0, 4, 1, 4, 2, 1, 3, 2.
Puede afirmarse, a un nivel de significacin del 5%, que la cantidad de fallas por
da sigue una distribucin Poisson con

= 2 ?
Ejemplo con distribucin continua
Se ha registrado la duracin en horas de 25 componentes electrnicos. Se
obtuvieron los siguientes resultados:
6.88, 17.68, 9.74, 20.05, 16.43, 19.99, 10.84, 3.54, 1.37, 5.87, 3.26, 4.20, 35.01,
8.45, 7.28, 4.32, 3.30, 4.20, 10.70, 7.93, 21.18, 19.33, 8.26, 5.03, 1.46
Puede afirmarse, a un nivel de significacin del 5%, que la duracin de los
componentes tiene una distribucin exponencial negativa con

= 0.1?
Mtodo
1) Debe conocerse la distribucin que se desea probar, aunque no necesariamente
el valor de sus parmetros. (Ejemplo: podemos suponer una distribucin Poisson,
aunque no necesariamente saber qu valor proponer para el parmetro

).
2) Si no se sabe qu valores proponer para uno o ms parmetros, estimarlos a
partir de la muestra. Se recomienda usar el estimador habitual de ese parmetro, o
bien estimar mediante mxima verosimilitud.
3) Plantear las hiptesis:
H0: Los datos recogidos provienen de una distribucin xxxx con parmetro(s) xxxx.
HA: Los datos recogidos no provienen de tal distribucin.
4) Si la distribucin a probar es discreta:
Hacer una tabla con la cantidad de veces que aparece en la muestra cada uno
de los valores posibles de la distribucin.
Si la distribucin a probar es continua:
Dividir los valores posibles de la distribucin en intervalos, y hacer una tabla
con la frecuencia de cada uno de los intervalos (es decir, la cantidad de
elementos de la muestra que caen en cada uno de los intervalos). En
principio, hacer los intervalos con longitudes pequeas.
En cualquiera de los dos casos, la tabla debe cumplir con lo siguente:

Si hay filas con frecuencia cero, se deben agrupar con el anterior o el


siguiente, de modo tal que no queden filas con frecuencia cero.

Si hay filas con frecuencias muy pequeas (en relacin con las dems)
puede ser conveniente agruparlas de modo tal que no queden filas con
frecuencias muy pequeas.
5) Calcular para cada fila de la tabla la probabilidad de que una variable aleatoria
distribuida segn la distribucin que se desea probar asuma el valor o los valores
agrupados en dicha fila.
6) Calcular el estadstico:
( )

=
k
1 i
i
2
i i 2
p n
x p n
donde:

k es la cantidad de filas de la tabla

xi es la frecuencia de la fila

pi es la probabilidad de la fila

n es el tamao de la muestra
7) Rechazar H0 si
2
c k ; 1
2

>
donde:

es el nivel de confianza

k es la cantidad de filas de la tabla

c es 1 + la cantidad de parmetros que fueron estimados en base a la


muestra para poder proponer la distribucin.
Resolucin del ejemplo con distribucin discreta
1) Vamos a ensayar si los datos recogidos vienen de una distribucin Poisson con

= 2.
2) No necesitamos estimar ningn parmetro. El nico parmetro de la distribucin
de Poisson es

, y ya sabemos qu valor vamos a proponer para l.


3) Planteamos:
H0: Los datos recogidos provienen de una distribucin Poisson con parmetro

= 2
HA: Los datos recogidos no provienen de tal distribucin.
4) Armamos la tabla de frecuencias:
Cadas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 0
6 1
7 0
8 0
... 0
Hay filas con frecuencia cero. Si agrupamos los ceros del 7 en adelante con el 6, la
tabla queda as:
Cadas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 0
6 ms 1
Sigue quedando una fila con cero. Agrupemos el "5" con el "6 ms":
Cadas Frecuencia
0 4
1 8
2 9
3 5
4 3
5 ms 1

Ya no queda ninguna fila con frecuencia cero.

Observamos que ninguna fila ha quedado con frecuencia extremadamente


pequea con respecto a las dems.
Entonces hemos construido una tabla que cumple con las dos condiciones.
5) Calculamos la probabilidad de los valores agrupados en cada fila de la tabla:
13534 , 0
! 0
2 e
) 0 X ( P
0 2
= = =

27067 , 0
! 1
2 e
) 1 X ( P
1 2
= = =

27067 , 0
! 2
2 e
) 2 X ( P
2 2
= = =

18045 , 0
! 3
2 e
) 3 X ( P
3 2
= = =

09022 , 0
! 4
2 e
) 4 X ( P
4 2
= = =

05265 , 0 ) 4 X ( P ) 3 X ( P ) 2 X ( P ) 1 X ( P ) 0 X ( P 1 ) 5 X ( P 1 ) 5 X ( P
= = = = = = = < =
Le agregamos estas probabilidades a la tabla:
Cadas Frecuencia Probabilidad
0 4 0,13534
1 8 0,27067
2 9 0,27067
3 5 0,18045
4 3 0,09022
5 ms 1 0,05265
6) Calculamos:
( )
37397 , 0
p n
x p n
k
1 i
i
2
i i 2
=

=
=
7)

= 0,05; k = 6; c = 1, porque no se estim ningn parmetro.


Buscamos en la tabla:
071 , 11
2
5 ; 95 , 0
=
Como
2
c k ; 1
2

<
, no rechazamos H0, y por lo tanto con un nivel de
significacin del 5% decimos que los datos recogidos efectivamente provienen de
una distribucin de Poisson con

= 2.
Resolucin del ejemplo con distribucin continua
1) Vamos a ensayar si los datos recogidos provienen de una distribucin
exponencial negativa con

= 0.1
2) No necesitamos estimar ningn parmetro. El nico parmetro de la distribucin
exponencial negativa es

, y ya sabemos qu valor vamos a proponer para l.


3) Planteamos:
H0: Los datos recogidos provienen de una distribucin Exponencial negativa con
parmetro

= 0.1
HA: Los datos recogidos no provienen de tal distribucin.
4) Elegimos intervalos 0-1.99, 2-3.99, 4-5.99, etc. y la tabla queda:
Duracin Frecuencia Duracin Frecuencia
0 - 1.99 2 18 - 19.99 2
2 - 3.99 3 20 - 21.99 2
4 - 5.99 5 22 - 23.99 0
6 - 7.99 3 24 - 25.99 0
8 - 9.99 3 26 - 27.99 0
10 - 11.99 2 28 - 29.99 0
12 - 13.99 0 30 - 31.99 0
14 - 15.99 0 32 - 33.99 0
16 - 17.99 2 34 - 35.99 1
Quedaron algunos intervalos con frecuencia cero. Para solucionarlo, agruparemos
algunos intervalos, y la tabla nos queda:
Duracin Frecuencia
0 - 1.99 2
2 - 3.99 3
4 - 5.99 5
6 - 7.99 3
8 - 9.99 3
10 - 13.99 2
14 - 17.99 2
18 - 19.99 2
20 - 21.99 2
22 ms 1

Ya no queda ninguna fila con frecuencia cero.

Observamos que ninguna fila ha quedado con frecuencia extremadamente


pequea con respecto a las dems.
Entonces hemos construido una tabla que cumple con las condiciones pedidas.
5) Calculamos la probabilidad de que una variable distribuida exponencialmente con

= 0.1 caiga en los intervalos de cada fila, y por comodidad agregamos dichos
valores a la tabla:
Duracin Frecuencia Probabilidad
0 - 1.99 2 0.18127
2 - 3.99 3 0.14841
4 - 5.99 5 0.12151
6 - 7.99 3 0.09948
8 - 9.99 3 0.08145
10 - 13.99 2 0.12128
14 - 17.99 2 0.08130
18 - 19.99 2 0.02996
20 - 21.99 2 0.02453
22 ms 1 0.11080
6) Calculamos:
( )
087 , 10
p n
x p n
k
1 i
i
2
i i 2
=

=
=
7)

= 0,05; k = 10; c = 1, porque no se estim ningn parmetro.


Buscamos en la tabla:
919 , 16
2
9 ; 95 , 0
=
Como
2
c k ; 1
2

<
, no rechazamos H0, y por lo tanto con un nivel de
significacin del 5% decimos que los datos recogidos efectivamente provienen de
una distribucin exponencial negativa con

= 2.
Problemas tpicos
Adems de los dos ejemplos ya resueltos, deben considerarse problemas tpicos
aquellos en los cuales hay que estimar el valor de los parmetros antes de poder
hacer la prueba. A continuacin, un ejemplo de ello:
1) En una determinada ciudad, las precipitaciones para el mes de abril de los
ltimos 40 aos han sido:
12.62, 6.54, 7.00, 5.24, 9.98, 10.23, 11.79, 6.13, 6.82, 10.22, 6.58, 6.31,
10.88, 7.82, 6.61, 4.22, 6.72, 10.56, 9.66, 5.16, 7.14, 14.78, 10.46, 0.48, 8.94,
3.96, 1.84, 11.83, 10.07, 9.39, 1.78, 7.35, 5.81, 8.11, 9.71, 9.39, 7.73, 7.81,
9.20, 2.13
Determine, a un nivel de significacin del 5%, si las precipitaciones siguen
una distribucin normal.
Resolucin
Vamos a probar si las precipitaciones siguen una distribucin normal. Para hacer
una prueba de bondad de ajuste necesitamos probar una distribucin concreta, por
lo cual para poder proponer una distribucin hay que proponerla completa junto
con sus parmetros. Si no sabemos qu valores de los parmetros tendr la
distribucin que vamos a proponer, primero debemos estimarlos.
La distribucin normal tiene dos parmetros:

. Usaremos los estimadores


habituales de dichos parmetros. Obtenemos:
7256 . 7
n
x
X
n
1 i
i
= =

=

( )
1243 . 3
1 n
X X
S
n
1 i
2
i
=

=
Entonces vamos a proponer que las precipitaciones son X:N(7.7256 ; 3.1243). Las
hiptesis nos quedan:
H0: Los datos recogidos provienen de una distribucin normal con parmetros

=
7.7256,

= 3.1243
HA: Los datos recogidos no provienen de tal distribucin.
Elegimos intervalos 0-0.99, 1-1.99, 2-2.99, etc. y la tabla queda:
Precipitaciones Frecuencia Precipitaciones Frecuencia
0

X < 1
1
9

X < 10
6
1

X < 2
2
10

X < 11
6
2

X < 3
1
11

X < 12
2
3

X < 4
1
12

X < 13
1
4

X < 5
1
13

X < 14
0
5

X < 6
3
14

X < 15
1
6

X < 7
7
15

X < 16
0
7

X < 8
6
16

X < 17
0
8

X < 9
2 ... 0
Agrupamos algunos intervalos para que no quede ninguno con frecuencia,
controlamos que ninguno quede con frecuencia extremadamente pequea, y
calculamos las probabilidades de cada intervalo (para lo cual debemos estandarizar
y usar la tabla de la normal estndar). La tabla queda:
Precipitaciones Frecuencia Probabilidad
X < 1 1 0.01567
1

X < 2
2 0.01776
2

X < 3
1 0.03177
3

X < 4
1 0.05134
4

X < 5
1 0.07496
5

X < 6
3 0.09887
6

X < 7
7 0.11781
7

X < 8
6 0.12682
8

X < 9
2 0.12333
9

X < 10
6 0.10836
10

X < 11
6 0.08601
11

X < 12
2 0.06167
12

X < 13
1 0.03995
13

X
1 0.04569
Calculamos:
( )
979 , 10
p n
x p n
k
1 i
i
2
i i 2
=

=
=

= 0,05; k = 14; c = 1 + 2 = 3, porque se estimaron 2 parmetros.


Buscamos en la tabla:
675 , 19
2
11 ; 95 , 0
=
Como
2
c k ; 1
2

<
, no rechazamos H0, y por lo tanto con un nivel de
significacin del 5% decimos que los datos recogidos efectivamente provienen de
una distribucin normal.
Este material se encuentra en etapa de correccin y no deber ser
considerado una versin final.
Para hacer comentarios y sugerencias, o reportar errores, enviar mail
a Alejandro D. Zylberberg <alejandro@probabilidad.com.ar>
Versin Actualizada al: 12 de julio de 2004

Vous aimerez peut-être aussi