Vous êtes sur la page 1sur 9

Mtodos de ajuste

de curvas.


3.1 INTRODUCCIN

Una prueba de Bondad de Ajuste se utiliza para determinar si una
poblacin tiene una distribucin terica especificada. sta prueba corresponde
al rea de la denominada estadstica no paramtrica. La estadstica no
paramtrica en contraste con la estadstica paramtrica no se ocupa de hacer
estimaciones y pruebas de hiptesis acerca de parmetros y no depende del
conocimiento de cmo se distribuye la poblacin, por ejemplo, en investigacin
exploratoria, Ms an, otra ventaja es que, por lo general, los clculos necesarios
son ms sencillos. Sin embargo, no podemos esperar que en el caso de una cierta
distribucin, la cantidad de informacin dada por un mtodo no paramtrico sea la
misma que dara un mtodo paramtrico que slo se aplica a esa distribucin
especfica. Es decir, si se conoce que la distribucin es normal, una prueba
paramtrica es ms eficiente que una no paramtrica.
Los mtodos no paramtricos pueden ser usados para analizar datos de tipo
cualitativo, ya sean ordinales o nominales; as como tambin para datos
cuantitativos, mientras que los mtodos paramtricos solo pueden usarse para
datos cuantitativos (discretos o continuos).
Se presentarn tres pruebas no paramtricas que permitirn ajustar la
distribucin emprica de los datos a una distribucin terica especfica.

3.2 PRUEBA
2
_

Esta prueba se utiliza para determinar si una poblacin tiene una
distribucin terica especificada. La prueba esta basada en que tan bueno es un
ajuste entre la frecuencia de ocurrencia, o
i
, de observaciones en una muestra
investigada y las frecuencias esperadas, e
i
, obtenidas de la distribucin terica
especificada.
La prueba de bondad de ajuste entre las frecuencias observadas y esperadas
se basa en la cantidad:

=
k
i
i
i i
e
e o
1
2
2
) (
_
(3.1)


En donde, _
2
es un valor de una variable aleatoria cuya distribucin muestral
es muy aproximada a la distribucin chi-cuadrada con v = k -1 grados de libertad;

k es el nmero de celdas o resultados diferentes de el experimento; o
i
y e
i
son las
frecuencias observadas y esperadas respectivamente para la i-sima celda .

Si las frecuencias observadas son cercanas a las frecuencias esperadas
correspondientes, el valor de _
2
ser pequeo, indicando un buen ajuste. Ahora
bien, si las frecuencias observadas difieren considerablemente de las
frecuencias esperadas el valor de _
2
ser grande y por lo tanto el ajuste ser
pobre.

Un buen ajuste en la prueba conduce a la aceptacin de Ho, mientras que un
ajuste deficiente conduce a su rechazo.
La regin crtica caer entonces en el extremo derecho de la distribucin chi-
cuadrada.
NOTA: Este criterio de decisin es vlido solo si e
i
es mayor o igual con 5.

Para determinar la frecuencia esperada e
i
, se ocupa:

N k p e
i i
). ( =
(3.2)

donde:
p(k
i
) .-es la probabilidad de la k-sima celda, que se calcula con la
distribucin terica que este siendo probada bajo la hiptesis nula.

N = E o
i
(3.3)

N.- Total de observaciones en el experimento.

Se proponen las siguientes etapas para llevar a cabo sta prueba:

Etapa 1. Establecer la hiptesis nula y la hiptesis alterna.
Etapa 2. Calcular la probabilidades P(k
i
) por medio de la distribucin terica a
probar, establecida en H
0
.
Etapa 3. Calcular las frecuencias esperadas e
i
utilizando (3.2). Reagrupar las
frecuencias esperadas e
i
en caso de requerirse (ei >5).
Etapa 4. Establecer las zonas de aceptacin y de rechazo, utilizando la
distribucin chi-cuadrada, considerando si se reagruparon o no clases para definir
los grados de libertad.
Etapa 5. Calcular el estadstico de prueba, ocupando (3.1):

=
k
i
i
i i
e
e o
1
2
2
) (
_

Etapa 6. Concluir segn que el valor calculado, etapa 5, haya quedado en la zona
de aceptacin o de rechazo.
Ejemplo 3.2.1 Se observ durante algn tiempo el nmero de accidentes sufridos
por maquinistas en cierta industria, con los resultados que se muestran en la tabla

siguiente. Prueba, con un nivel de significancia del 1%, la hiptesis de que los
datos proceden de una distribucin de Poisson con media = 0.45
No. de accidentes (x) 0 1 2 3 4 5
No. de maquinistas (oi) 296 74 26 8 4 4

Etapa 1.
H
0
: El nmero de accidentes observados sigue una distribucin de Poisson.
H
1
: El nmero de accidentes observados no sigue una distribucin de Poisson.

Etapa 2.
De acuerdo a H
0
,calcular las p(k
i
) ocupando la distribucin de Poisson:

!
.
) , (
x
e
x P
x


=
63763 . 0
! 0
. ) 45 . 0 (
) 45 . 0 , 0 (
45 . 0 0
= =

e
P 00968 . 0
! 3
. ) 45 . 0 (
) 45 . 0 , 3 (
45 . 0 3
= =

e
P
28693 . 0
! 1
. ) 45 . 0 (
) 45 . 0 , 1 (
45 . 0 1
= =

e
P 00109 . 0
! 4
. ) 45 . 0 (
) 45 . 0 , 4 (
45 . 0 4
= =

e
P
06456 . 0
! 2
. ) 45 . 0 (
) 45 . 0 , 2 (
45 . 0 2
= =

e
P 0001 . 0
! 5
. 5 ) 45 . 0 (
) 45 . 0 , 5 (
45 . 0
= =

e
P

Etapa 3.
Calcular e
i
ocupando (5.2),
N k p e
i i
). ( =
Se tiene N = E oi = 412

e1 = (0.63763)(412) = 262.7 *se redondea a un decimal
e2 = (0.28693)(412) = 118.2
. .
. .
. .

Por facilidad se forma la siguiente tabla:

x 0 1 2 3 4 5
o
i
296 74 26 8 4 4
p(k
i
) 0.63763 0.28693 0.06456 0.00968 0.00109 0.0001
e
i
262.7 118.2 26.6 4.0 0.5 0.0

Una condicin es que e
i
> 5, por lo que se reagrupan clases, quedando las
frecuencias observadas y esperadas como:
o
i
296 74 42
e
i
262.7 118.2 31.1
Hubo necesidad de reagrupar las ltimas cuatro clases.



Etapa 4. Inicialmente k = 6, pero al reagrupar clases k = 3. Por lo que v = k-1 = 2

0506 . 0 2 , 975 . 0
2
= _ 38 . 7 2 , 025 . 0
2
= _










Etapa 5.
Calcular el estadstico para la prueba
=

=
k
i
i
i i
e
e o
1
2
2
) (
_


Se tiene: o
i
296 74 42
e
i
262.7 118.2 31.1 entonces:



6 . 24
1 . 31
) 1 . 31 42 (
2 . 118
) 2 . 118 74 (
7 . 262
) 7 . 262 296 ( ) (
2 2
1
2 2
2
=

=
k
i
i
i i
e
e o
_


Etapa 6.
El valor calculado o estadstico de prueba ha quedado en la zona de rechazo. La
conclusin es entonces, que el nmero de accidentes sufridos por los maquinistas
no sigue una distribucin de Poisson














7.38 0 0.0506
_
2

Zona de
aceptacin
de H0
Zona de
rechazo
de H0
Zona de
rechazo
de H0


3.3 PRUEBA DE KOLMOGOROV-SMIRNOV

Cuando se aplica la prueba de bondad de ajuste
2
_ y el modelo
propuesto bajo Ho es continuo, es necesario aproximar la distribucin de valores
mediante el agrupamiento de estos en un nmero finito de intervalos de clase.
Este requisito de agrupar los datos implica tener una muestra de tamao ms o
menos grande.
De esta manera la prueba de bondad de ajuste chi-cuadrada se encuentra
limitada cuando la distribucin estudiada es continua y la muestra aleatoria
disponible tiene un tamao pequeo . Una prueba de bondad de ajuste ms
apropiada que la chi-cuadrada, cuando la distribucin estudiada es continua,
es la basada en la estadstica de Kolmogorov-Smirnov.
La prueba de Kolmogorov_Smirnov, prueba k-s, no necesita que los datos se
encuentren agrupados y es aplicable a muestras de tamao pequeo. Esta se
basa en una comparacin entre las funciones de distribucin acumulativa que se
observan en la muestra ordenada F
o
(x) y la distribucin propuesta bajo la
hiptesis nula F
e
(x), dada tambin en forma acumulada.
Si esta comparacin revela una diferencia suficientemente grande entre las
funciones de distribucin muestral y la propuesta, entonces la hiptesis nula
se rechaza.
La estadstica de k-s se define por :
D
n
= max | F
o
(x) - F
e
(x) | (3.4)
esto es, la diferencia mxima entre la frecuencia acumulativa observada y la
frecuencia acumulativa esperada segn el modelo propuesto en Ho.
La estadstica D
n
tiene una distribucin que es independiente del modelo
propuesto bajo la hiptesis nula. Por esta razn se dice que D
n
es una
estadstica independiente de la distribucin. Lo anterior da como resultado
que la funcin de distribucin de D
n
pueda evaluarse solo en funcin del tamao
de la muestra y despus usarse para cualquier distribucin propuesta en Ho.

De la tabla de k-s si :
D
n
s D no se rechaza la hiptesis
D
n
> D se rechaza la hiptesis.

D es el valor de la tabla de k - s

Etapas para aplicar la prueba k-s.
Etapa 1. Establecer las hiptesis nula y alternativa.
Etapa 2. Ordenar los datos en una tabla de frecuencias para obtener F
o
(x) .
Etapa 3. Utilizando la distribucin terica establecida en H
o
calcular F
e
(x).
Etapa 4. Determinar | F
o
(x) - F
e
(x) | para cada observacin, determinar Dn.
Etapa 5. Comparar el valor D
n
con el de la tabla de k-s para establecer la
conclusin.


Ejemplo 5.3.1
Se obtuvieron los siguientes resultados para el punto de ebullicin, en grados
centgrados, de un compuesto de silicio : 166, 141, 136, 153, 170, 162, 155,
146, 183, 157, 148, 132, 160, 175 y 150. Emplear la prueba de k-s con un
nivel de significancia de 0.01 para probar la hiptesis de que los puntos de
ebullicin provienen de una poblacin normal con parmetros = 160 C y
o = 10 C.

Etapa 1.
H
0
: Los puntos de ebullicin del compuesto de silicio provienen de una
poblacin normal con parmetros = 160 C y o = 10 C.
H
1
: Los puntos de ebullicin del compuesto de silicio no provienen de una
poblacin normal con parmetros = 160 C y o = 10 C.

Etapas 2 y 3.
Se tienen que formar una tabla de frecuencias para obtener la frecuencia
acumulada observada F
0
(x
i
), y como est establecido en H
0
, para determinar la
frecuencia acumulada esperada F
e
(x
i
) se tiene que ocupar la distribucin normal.
Entonces se utiliza:
o

=
x
z , por lo que:
3 . 2
10
160 183
, . . . , 4 . 1
10
160 136
, 8 . 1
10
160 132
=

= =

= =

= z z
x
z
o


Con los valores anteriores y la tabla de la distribucin normal estndar, dada en
forma acumulada, se encuentran los valores de Fe(x
i
).

Etapa 4. Formar la columna | F
o
(x) - F
e
(x) | en la tabla de frecuencias, para
determinar el valor D
n
.

X
i
f(x
i
) F(x
i
) F
o
(x
i
) z Fe(x
i
) | F
o
(x) - F
e
(x) |
132 1 1 0.0667 -2.8 0.0026 0.0641
136 1 2 0.1333 -2.4 0.0082 0.1251
141 1 3 0.2000 -1.9 0.0287 0.1713
146 1 4 0.2667 -1.4 0.0808 0.1859
148 1 5 0.3333 -1.2 0.1151 0.2182
150 1 6 0.4000 -1.0 0.1587 0.2413
153 1 7 0.4667 -0.7 0.2420 0.2247
155 1 8 0.5333 -0.5 0.3085 0.2248
157 1 9 0.6000 -0.3 0.3821 0.2179
160 1 10 0.6667 0.0 0.5000 0.1667
162 1 11 0.7333 0.2 0.5793 0.1540
166 1 12 0.8000 0.6 0.7257 0.0743
170 1 13 0.8667 1.0 0.8413 0.0254
175 1 14 0.9333 1.5 0.9332 0.0001
183 1 15 1.0000 2.3 0.9893 0.0107

De la tabla anterior se tiene que: D
n
= 0.2413

Etapa 5.
De la tabla de k-s con n = 15 y o = 0.01, se tiene D = 0.404

Como Dn < D, H
0
no se puede rechazar. Por lo que se puede concluir que los
puntos de ebullicin del compuesto de silicio provienen de una poblacin
normal con parmetros = 160 C y o = 10 C.


3.4 PRUEBA DE ANDERSON-DARLING.

La prueba de Anderson-Darling, al igual que la prueba de Kolmogorov-Smirnov, es
utilizada para probar si un conjunto de datos muestrales provienen de una
poblacin con una distribucin de probabilidad continua especfica (por lo general
la distribucin normal). La prueba de Anderson-Darling se basa en la comparacin
de la distribucin de probabilidades acumulada emprica (resultado de los datos)
con la distribucin de probabilidades acumulada terica (definida en H
0
).
Hiptesis:
H
0
: La variable aleatoria en estudio sigue una distribucin normal (, o)
H
1
: La variable aleatoria en estudio no sigue una distribucin normal (, o)
Estadstico de prueba.
El estadstico de prueba, A
2
, est dado por:

A
2
= -n S (3.5)

| | )) ( 1 ln( ) ( ln
) 1 2 (
1 i n i i
Y F Y F
n
i
S
+
+

= (3.6)

=
=
n
i
i
S S
1
(3.7)
donde n es el nmero de observaciones, F(Y) es la distribucin de probabilidades
acumulada normal con media y varianza especificadas a partir de la muestra y Yi
son los datos obtenidos en la muestra, ordenados de menor a mayor.
Regla de decisin:
La hiptesis nula se rechaza con un nivel de significacin o si A
2
es mayor que el
valor crtico A
2
crit
. Aunque la prueba de Anderson-Darling puede ser aplicada a
cualquier distribucin continua, no se dispone de tablas para todos los casos. Se
presenta enseguida la tabla (5.1) de valores crticos A
2
crit.
para la prueba a la
distribucin normal.

o 0.10 0.05 0.025 0.01
A
2
crit.
0.631 0.752 0.873 1.035

Tabla 3.1 Valores crticos para la prueba de Anderson-Darling.



Ejemplo 3.4.1 Aplicando la prueba de Anderson-Darling, con o=5%, determina si
los siguientes datos pueden ser ajustados por medio de la distribucin normal.
0.25 0.05 -0.05 -0.65 0.55 -0.15 0.50 0.00 -0.20 -0.40 0.20 -0.10
-0.40 0.10 0.70 -0.30 -0.10 -0.64 -0.04 0.26 -0.14 0.56

A partir de la muestra se especifica: = 0.0 y o = 0.3708

i (2i-1) Y
i
Y
n+1-i
F(Y
i
) F(Y
n+1-i
) Ln((F(Yi)) Ln(1-
F(Y
n+1-i
))
Si
1 1 -0.65 0.70 0.0398 0.9705 -3.224 -3.523 -0.307
2 3 -0.64 0.56 0.0422 0.9345 -3.166 -2.726 -0.803
3 5 -0.40 0.55 0.1403 09310 -1.964 -2.674 -1.054
4 7 -0.40 0.50 0.1403 0.9113 -1.964 -2.422 -1.395
5 9 -0.30 0.26 0.2092 0.7584 -1.564 -1.421 -1.221
6 11 -0.20 0.25 0.2948 0.7499 -1.221 -1.386 -1.304
7 13 -0.15 0.20 0.3429 0.7052 -1.070 -1.221 -1.354
8 15 -.014 0.10 0.3529 0.6063 -1.042 -0.932 -1.346
9 17 -0.10 0.05 0.3937 0.5536 -0.932 -0.807 -1.344
10 19 -0.10 0.00 0.3937 0.5000 -0.932 -0.693 -1.404
11 21 -0.05 -0.04 0.4464 0.4570 -0.807 -0.611 -1.353
12 23 -0.04 -0.0.5 0.4570 0.4464 -0.783 -0.591 -1.437
13 25 0.00 -0.10 0.5000 0.3937 -0.693 -0.500 -1.356
14 27 0.05 -0.10 0.5536 0.3937 -0.591 -0.500 -1.340
15 29 0.10 -0.14 0.6063 0.3529 -0.500 -0.435 -1.233
16 31 0.20 -0.15 0.7052 0.3429 -0.349 -0.420 -1.084
17 33 0.25 -0.20 0.7499 0.2948 -.0288 -0.349 -0.956
18 35 0.26 -0.30 0.7584 0.2092 -0.277 -0.235 -0.813
19 37 0.50 -0.40 0.9113 0.1403 -0.093 -0.151 -0.411
20 39 0.55 -0.40 0.9310 0.1403 -0.071 -0.151 -0.395
21 41 0.56 -0.64 0.9345 0.0422 -0.068 -0.043 -0.206
22 43 0.70 -0.65 0.9705 0.0398 -0.030 -0.041 -0.138


Se utiliz (5.6) para determinar S
i
y se utiliza (5.7) para determinar S.

253 . 22 ) 138 . 0 ( ) 206 . 0 ( . . . ) 395 . 1 ( ) 054 . 1 ( ) 803 . 0 ( ) 307 . 0 (
1
= + + + + + + = =

=
n
i
i
S S


Con (3.5) ya se puede determinar el estadstico de prueba A
2
:
A
2
= -n S = -22 (-22.253) = 0.253

De la tabla 3.1 con o=5%, se lee un valor crtico A
2
crit.
= 0.752.


Como A
2
< A
2
crit.
,la hiptesis nula no se puede rechazar. Por lo que, se concluye
que los datos observados pueden ser ajustados por medio de la distribucin
normal