Ajustar Distribuciones Datos

UNIVERSIDAD SAN PEDRO
Escuela de Ingeniera Informtica y Sistemas

Simulacin de Sistemas
AJUSTE DE DISTRIBUCIONES DE LAS VARIABLES ALEATORIAS

Definicin de la Variable Aleatoria
A lo largo de clases anteriores hemos mencionado que un modelo de simulacin permite lograr un
mejor entendimiento de prcticamente cualquier. Sistema. Para ello resulta indispensable obtener la
mejor aproximacin a la realidad, lo cual se consigue componiendo el modelo a base de variables
aleatorias que interactan entre s. Pero, Cmo podemos determinar qu tipo de distribucin tiene
una variable aleatoria? En esta clase comentaremos los mtodos y herramientas que pueden dar
contestacin a estas interrogantes clave para la generacin del modelo.
Podemos decir que las variables aleatorias son aquellas que tienen un comportamiento probabilstico
en la realidad. Por ejemplo, el nmero de clientes que llegan hora a un banco depende del momento del
da, del da de la semana y de otros factores: por lo general, la afluencia de clientes ser mayor al
medioda que muy temprano por la maana, le demanda ser ms alta el viernes que el mircoles;
habr ms clientes un da de pago que un da normal, etc. Dadas estas caractersticas, las variables
aleatorias deben cumplir reglas de distribucin de probabilidad como stas:
o
o
o
o
La suma de las probabilidades asociadas a todos los valores posibles de la variable aleatoria x es
uno.
La probabilidad de que un posible valor de las variables x se presente siempre es mayor que o igual
a cero.
El valor esperado de la distribucin de la variable aleatoria es la media de la misma, la cual a su
vez estima la verdadera media de la poblacin.
Si la distribucin de probabilidad asociada a la variable aleatoria est definida por ms de un
parmetro, dichos parmetros pueden obtenerse mediante un estimador no sesgado. Por ejemplo,
2
la varianza de la poblacin
puede ser estimada usando la varianza de una muestra que es S .
De la misma manera, la desviacin estndar de la poblacin, , puede ser estimada mediante la
desviacin estndar de la muestra S.
Tipos de Variables Aleatorias

Podemos diferencia las variables aleatorias de acuerdo con el tipo de valores aleatorios que
representan. Por ejemplo, si hablramos del nmero de clientes que solicitan cierto servicio en un
periodo de tiempo determinado, podramos encontrar valores tales como 0,1,2,,n, es decir, un
comportamiento como el que presentan las distribuciones de probabilidad discretas. Por otro lado, si
hablramos del tiempo que tarda en ser atendida una persona, nuestra investigacin tal vez arrojara
resultados como 1.54 minutos, 0.028 horas o 1.37 das, es decir, un comportamiento similar al de las
distribuciones de probabilidad continuas. Considerando lo anterior podemos diferenciar entre variables
aleatorias discretas y variables aleatorias continuas.
Variables Aleatorias Discretas
Este tipo de variables deben cumplir con estos parmetros:
P(x)
0
=1
P(a
)=
Pa + + Pb
Algunas distribuciones discretas de probabilidad son Uniforme Discreta, la de Bernoulli, la

Hipergeomtrica, la de Poisson y la Binomial. Podemos asociar a estas u otras distribuciones de
probabilidad el comportamiento de una variable aleatoria. Por ejemplo, si nuestro propsito al analizar
un muestreo de calidad consiste en decidir si la pieza bajo inspeccin es buena o no, estamos
realizando un experimento con dos posibles resultados: la pieza es buena o la pieza es mala. Este tipo
de comportamiento est asociado a una distribucin de Bernoulli. Por otro lado, si lo que queremos es
modelar el nmero de usuarios que llamaran a un telfono de atencin a clientes, el tipo de
comportamiento puede llegar a parecerse a una distribucin de Poisson . Incluso podra ocurrir que el
comportamiento de la variable no se pareciera a otras distribuciones de probabilidad conocidas. Si ste
fuera el caso, es perfectamente vlido usar una distribucin emprica que se ajuste a las condiciones
reales de probabilidad. Esta distribucin puede ser una ecuacin o una suma de trminos que cumplan
con las condiciones necesarias para ser consideradas una distribucin de probabilidad.
Variables Aleatorias
Docente: Ing. J. Paredes C.

Distribucin de probabilidad de una variable aleatoria discreta
Variables aleatorias Continuas

Este tipo de variables se representan mediante una ecuacin que se conoce como funcin de densidad
de probabilidad. Dada esta condicin, cambiamos el uso de la sumatoria por la de una integral para
conocer la funcin acumulativa de la variable aleatoria. Por lo tanto, las variables aleatorias continuas
deben cumplir los siguientes parmetros:
P(x) 0
P(x=a) = 0
=1
P(a
) =P(a<x<b) =
Entre las distribuciones de probabilidad tenemos la Uniforme Continua, la exponencial, la Normal, la de

Weibull, la Chi-cuadrada, la Erlang, etc. Al igual que en el caso de las distribuciones discretas, algunos
procesos pueden ser asociados a ciertas distribuciones.
Por ejemplo, es posible que el tiempo de llegada de cada cliente a un sistema tenga una distribucin
de probabilidad muy semejante a una exponencial, o que el tiempo que toma a un operario realizar una
serie de tareas se comporte de manera muy similar a la dispersin que presenta una distribucin
normal. Sin embargo, debemos hacer notar que este tipo de distribucin tiene sus desventajas, dado
que el rango de valores posibles implica que existe la probabilidad de tener tiempos infinitos de llegada
de clientes o tiempos de ensamble infinitos, situaciones lejanas a la realidad. Por fortuna, es muy poco
probable que se presenten este tipo de eventos, aunque el analista de la simulacin debe estar
consciente de cmo pueden impactar valores como los descritos en los resultados del modelo.
Distribucin de probabilidad de una variable aleatoria contina
DETERMINACION DEL TIPO DE DISTRIBUCION DE UN CONJUNTO DE DATOS

La distribucin de probabilidad de los datos histricos puede determinarse mediante las pruebas Chicuadrada, de Kolmogorov-Smirnov y de Anderson-Darling. En esta seccin se revisarn los
procedimientos de cada una de estas pruebas, as como la forma de realizarlos a travs de Stat::fit, una
herramienta complementaria de ProModel.

1. Prueba Chi-cuadrada
Se trata de una prueba de hiptesis a partir de datos, basada en el clculo de un valor llamado
estadstico de prueba, al cual suele comparrsele con un valor conocido como valor crtico, mismo que
se obtiene, generalmente, de tablas estadsticas, el procedimiento general de la prueba es:
a. Obtener al menos 30 datos de la variable aleatoria a analizar
b. Calcular la media y varianza de los datos
c. Crear un histograma de m =
intervalos, y obtener la frecuencia observada en cada intervalo
FOi
d. Establecer explcitamente la hiptesis nula, proponiendo una distribucin de probabilidad que se
ajuste a la forma del histograma.
e. Calcular la frecuencia esperada, FEi , a partir de la funcin de probabilidad propuesta
f. Calcular el estadstico de prueba: c =

g. Definir el nivel de significancia de la prueba, , y determinar el valor critico de la prueba,
(k
es el nmero de parmetros estimados en la distribucin propuesta)
h. Comparar el estadstico de prueba con el valor crtico. Si el estadstico de prueba es menor que el
valor critico no se puede rechazar la hiptesis nula.
Ejemplo 1: Estos son los datos del nmero de automviles que entran a una gasolinera cada hora.
14
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
Determinar la distribucin de probabilidad con un nivel de significancia

0-7
8-9
10-11
12-13
10
14-15
11
16-17
10
18-19
20-21
22-23
24-25
25-
de 5%.

El histograma (vea la figura anterior) de los n = 50 datos, considerando m = 11 intervalos, la media
muestral de 15.04 y la varianza muestral de 13.14, permiten establecer la siguiente hiptesis:
H0: Los datos analizados siguen una distribucin de Poisson ( = 15 automviles / hora)
Ha: Los datos analizados no siguen una distribucin de Poisson
Comenzaremos por calcular la probabilidad de cada intervalo a partir de la funcin de probabilidad de
Poisson:
x=0, 1, 2
P(x) =
x=0, 1, 2,
P(n) =
Por ejemplo para el intervalo 8-9
P(n=8,9) =
= 0.0519
Enseguida calculamos la frecuencia esperada en cada intervalo, multiplicando la probabilidad p(n) por
el total de datos de la muestra.
FEi = np(x)
FEi = 50p(x)
Y luego estimamos el estadstico de prueba:
c=
= 1.7848
A partir de los clculos anteriores se obtiene la tabla siguiente:
Intervalo
0-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
25Total
FOi
1
2
4
10
11
10
6
4
1
1
0
50
P(x)
0.0180
0.0519
0.1149
0.1785
0.2049
0.1808
0.1264
0.0717
0.0336
0.0133
0.0062
1.0000
FEi = 50*P(x)
0.9000
2.5950
5.7450
8.9250
10.2450
9.0400
6.3200
3.5850
1.6800
0.6650
0.3100
50.0000
C=
0.0111
0.1364
0.5300
0.1295
0.0556
0.1019
0.0162
0.0480
0.2752
0.1688
0.3100
1.7829
El valor del estadstico de prueba, c = 1.7848, comparado con el valor de tablas critico,
=
18.307, indica que no podemos rechazar la hiptesis de que la variable aleatoria se comporta de
acuerdo con una distribucin de Poisson, con una media de 15 automviles/hora.
Ejemplo 2. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una
graduacin de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide verificar la
hiptesis de que los puntajes se pueden ajustar a una distribucin normal.
29
78
48
29
30
44
72
73
45
82
84
71
75
84
45
45
47
32
33
54
56
33
62
63
64
36
38
53
54
38
40
57
42
51
52
53
56
57
58
71
76
77
58
60
60
62
65
65
14
16
73
74
45
21
23
66
67
42
43
51
67
70
57
78
55
27
78
48
49
50
51
86
58
59
89
36
37
91
92
93
Promedio 55.8
Desviacin Estndar 18.6

Solucin. A continuacin se hace el desarrollo completo de la prueba de bondad de ajuste, partiendo
de distribucin de los datos en intervalos de frecuencia y la construccin del histograma.
La muestra tiene un puntaje promedio de 55.8 y una desviacin estndar de 18.6 puntos.
El puntaje mnimo fue de 14 y el mximo de 93.
La amplitud o rango est dado por Rango = R = Rango = X max - Xmin = 93 - 14 = 79
El nmero de intervalos de clase, calculado usando la frmula de Sturgess, est dado por:
k = 1 +3.32 Log10(80) = 7.32 8
La amplitud o ancho del intervalo est dado por =
= 9.875 10
La distribucin de frecuencia muestra que los puntajes se pueden aproximar razonablemente bien
por una distribucin normal. Por lo tanto la hiptesis formuladas son:
Polgono de Frecuencia. Valores observados en cada intervalo de clase
Limite
Superior
20
15
10
Limite
Superior
5
0
14
24
34
44
54
64
74
84
H0: Los datos analizados siguen una distribucin Normal N( , ) con

Ha: Los datos analizados no siguen una distribucin Normal
= 55.8 y
= 18.6
La tabla siguiente presenta los valores distribuidos en los intervalos de clase y la frecuencia absoluta de
cada intervalo, correspondiente al nmero de observaciones que caen en l. Igualmente se presentan
en la tabla los clculos necesarios para realizar la prueba Chi cuadrado.
Los principales clculos se resumen a continuacin:
En general Pi, la probabilidad de que una observacin quede en el intervalo i est dada por:
Pi = P(Xi-1
= F(Xi) F(Xi-1)
Xi ) =
Como la variable aleatoria X se distribuye normalmente (

Pi = P(
) = P(Zi-1
Z i)
), entonces Pi puede expresarse como:
Donde (Zi-1) y (Zi) son las probabilidades de que la variable aleatoria normal estndar Z sea menor o
igual a Zi-1 y Zi, respectivamente.
Al realizar los clculos para Pi se tuvieron en cuenta los intervalos extremos como casos especiales, a
saber:
Clculo de P1. El clculo de P1 corresponde a la probabilidad de que la variable aleatoria sea menor o
igual que X1, (igual a 24). Es decir:
P1 = P(X<24) = P(-
24) =
= F(24)

P1 = P(
) =P(Z < -1.71) = 0.04363
Clculo de P2. El clculo de P2 acumulado corresponde a la probabilidad de que la variable aleatoria

sea menor o igual que X2, (igual a 34). Es decir:
P2 = P(X<34) = P(P1 = P(
34) =
= F(34)
) =P(Z < -1.17) = 0.12100
La probabilidad del intervalo seria P (Zi

0.12100 0.04363 = 0.07737
Z < Zi-1) = P (-1.17
Z < -1.71) = P(Z=-1.17)-P(Z=-1.71) =
Clculo de P8. El ltimo intervalo corresponde a los valores de la poblacin que sean mayores que Xn
(84 en nuestro caso). Por lo tanto, P8 se calcula como:
P8 = P(X 84) = P(84 X < +
P8 = 1 0.9353 = 0.0647
= 1 F(84)
)=
Para los dems valores Pi se calcul como: Pi = F(Xi) - F(Xi-1) = (Zi)- (Zi-1)
Prueba de Bondad de ajuste Chi Cuadrado
Puntajes obtenidos por empleados en las pruebas de habilidad espacial
Intervalo
de clase
Lmite
Inferior
Limite
Superior
Frecuencia
Observadas
Valor
Tpico
Probabilidad
Acumulada
Probabilidad
del Intervalo
Xi-1
Xi
FOi
Zi
F(xi)
P(x)
Nmero
esperado
FEi
=80*P(x)
14
24
-1.71
0.044
0.044
3.5
0.0714
24
34
-1.17
0.121
0.077
6.2
0.1032
34
44
-0.63
0.263
0.142
11.4
0.5053
44
54
16
-0.10
0.462
0.199
15.9
0.0006
54
64
17
0.44
0.670
0.209
16.7
0.0054
64
74
12
0.98
0.836
0.166
13.3
0.1271
74
84
1.52
0.935
0.099
7.9
0.0013
84
94
2.05
0.980
0.065
5.2
0.6231
1.000
80
1.4373
Total
80
Valor Chi
C=
El valor Chi cuadrado calculado es C =

= 1.44. El valor crtico con un nivel de significancia del 5% y 7
grados de libertad es 14.07. Por lo tanto, se concluye que no hay evidencia para rechazar la hiptesis
de que el puntaje obtenido en la prueba de habilidad se puede representar mediante una distribucin
normal con un puntaje medio de 55.8 puntos, y una desviacin estndar de 18.6 puntos.
Ejemplo 3: La tabla siguiente presenta la distribucin de frecuencia del numero de defectos
encontrados en el anlisis de los ltimos 200 artculos producidos en un proceso de produccin.
Usando un nivel de confianza del 5% se desea verificar mediante una prueba Chi-cuadrada si dichos
valores proceden de una distribucin de Poisson con una media de 3.5 Defectos por artculo.
Nmero de defectos
Frecuencia
0
10
1
31
2
44
3
50
4
31
5
21
6
6
7
5
8
1
9
1
Solucin: Las hiptesis planteadas son las siguientes:

H0: La distribucin de probabilidad f(x, sigue una distribucion Poisson ( = 3.5)
Ha: La distribucin de probabilidad f(x,
no sigue una distribucin Poisson ( = 3.5)
La tabla siguiente presenta los clculos requeridos para realizar la prueba de bondad de ajuste. Para el
clculo de f(x, que es una distribucion de Poisson se uso la siguiente ecuacin:

x=0, 1, 2
P(x) =
x=0, 1, 2,
P(n) =
Por ejemplo para el intervalo 5

P(n=5) =
= 0.1321686
Enseguida calculamos la frecuencia esperada en cada intervalo, multiplicando la probabilidad p(n) por
el total de datos de la muestra.
FEi = np(x)
FEi = 200p(x)
Nmero de Frecuencia
defectos
observada
X
FOi
Frecuencia
esperada
Probabilidad
P(x)
FEi = 200*P(x)
6.03948
Valor Chi
C=
2.59720
10
31
0.10569
21.13817
4.60095
44
0.18496
36.99179
1.32773
50
0.21579
43.15709
1.08500
31
0.18881
37.76246
1.21101
21
0.13217
26.43372
1.11696
0.07710
15.41967
5.75435
0.03855
7.70983
0.95245
0.01687
3.37305
1.66952
1.31174
0.07409
Total
200
199.33701
20.38925
0.03020
0.00656
0.99669

c=
= 20.38925
Solucin: El valor del estadstico de prueba c = 20.38925, comparado con el valor de tablas critico
= 16.9190, para un nivel de significancia del 5%, lo cual nos lleva a rechazar la hiptesis de
que el nmero de defectos del proceso sigue una distribucin de Poisson con una media de 3.5
defectos por articulo.
El nmero medio de defectos observados en la muestra est dado por:
= 2.93
Podra pensarse que el nmero de defectos en el proceso si sigue una distribucin de Poisson, pero
con un parmetro diferente de 3.5, posiblemente 3.0 (Verifique que si se plantea como hiptesis nula

H0; f(x, ) = Poisson (
nula)
= 3.0) el estadistico de prueba es 2.6 y en este caso no se rechaza la hipotesis
Prueba de Kolmogorov-Smirnov
Se comparan la funcin de distribucin terica y la funcin de distribucin de los datos (Emprica).
Esta prueba permite al igual que la prueba Chi-cuadrada-determinar la distribucin de probabilidad de
una serie de datos.
Una limitante de la prueba de Kolmogorov-Smirnov estriba en que solamente se puede aplicar al
anlisis de variables continuas. El procedimiento general de la prueba es:
a. Obtener al menos 30 datos de la variable aleatoria a analizar
b. Calcular la media y la varianza de los datos
c. Crear un histograma de m =
intervalos, y obtener la frecuencia observada en cada intervalo FO i
d. Calcular la probabilidad observada en cada intervalo PO i =
, esto es, dividir la frecuencia
observada FOi entre el nmero total de datos n.
e. Acumular las probabilidades POi para obtener la probabilidad observada hasta el i-simo intervalo,
POAi.
f. Establecer explcitamente la hiptesis nula, proponiendo una distribucin de probabilidad que se
ajuste a la forma del histograma.
g. Calcular la probabilidad esperada acumulada para cada intervalo, PEAi, a partir de la funcin de
probabilidad propuesta.
h. Calcular el estadstico de prueba:
C = Max|PEAi POAi|
i = 1, 2, 3, ., k, .m
i. Definir el nivel de significancia de la prueba , y determinar el valor critico de la prueba,
(Consulta la tabla de valores criticos de la prueba de Kolmogorov-Smirnov)
j. Comparar el estadstico de prueba con el valor crtico. Si el estadstico de prueba es menor que el
valor critico no se puede rechazar la hiptesis nula.
Ejemplo 4:
Estudio del comportamiento del tiempo entre roturas de cierto filamento, medido en minutos/rotura, se
muestra a continuacin:
4.33
1.61
2.16
2.88
0.70
0.44
1.59
2.15
8.59
7.36
9.97
7.86
5.49
0.98
4.52
2.12
4.44
0.82
6.96
3.04
2.81
14.39 3.44
9.92
4.38
8.04
2.18
6.19
4.48
9.66
4.34
1.76
5.24
11.65 10.92 12.16 6.60
0.85
4.82
2.30
1.36 3.53 6.58 1.45 8.42 3.69 2.44 0.28 1.90 2.89
Determinar la distribucin de probabilidad con un nivel de significancia de de 5%.
El histograma (vea la figura siguiente) de los n = 50 datos con m = 8 intervalos, la media muestral de
4.7336 y la varianza muestral de de 12.1991 permiten estimar un parmetro de forma de 1.38 y un
parmetro de escala de 5.19, y establecer la hiptesis:
H0 : Weibull ( = 1.38, = 5.19) minutos/rotura
Ha : Otra distribucin
Histograma de frecuencias del tiempo entre roturas
14
12
10
8
6
4
2
0
Series1

Iniciamos el procedimiento calculando la probabilidad observada en cada intervalo

POi =
Para despus calcular la probabilidad observada acumulada hasta el intervalo i.

POAi =
= {0.24, 0.50, ,1}
Posteriormente calculamos la probabilidad esperada acumulada de cada intervalo PEAi a partir de la

funcin de probabilidad acumulada de Weibull:
F(x) =
F(x) = 1 -
F(x) = 1 Por ejemplo para el intervalo con el lmite superior de 8:

PEA8 = F(x) = 1 = 0.8375
Por ltimo, calculamos el estadstico de prueba
C = Max|POAi PEAi| = Max{|0.24-0.2353|, |0.50-0.5025|, , |1-1|} = 0.0375
A partir de los clculos anteriores se obtiene la tabla siguiente:
Clculos para la prueba de Kolmogorov-Smirnov
Intervalo
0-2
2-4
4-6
6-8
8-10
10-12
12-14
14-
FOi
12
13
9
6
6
2
1
1
50
POi
0.24
0.26
0.18
0.12
0.12
0.04
0.02
0.02
1
POAi
0.24
0.50
0.68
0.80
0.92
0.96
0.98
1.00
PEAi
0.23526
0.50247
0.70523
0.83747
0.91559
0.95839
0.98042
1
c
|POAi - PEAi|
0.00474
0.00247
0.02523
0.03747
0.00441
0.00161
0.00042
0.0000
0.03747
El valor del estadstico de prueba, c = 0.0375, comparado con el valor de tablas critico, D 0.05, 50 =
acurdo con una distribucin de Weibull con parmetro de escala 5.19 y parmetro de forma 1.38
Ejemplo 5: Supngase que los 50 tiempos interarribos (en minutos) son coleccionadas sobre los
siguientes 100 minutos de intervalo (pg. 349)
0.44
0.53
2.04
2.74
2.00
0.30
2.54
0.52
2.02
1.89
1.53
0.21
2.80
0.04
1.35
8.32
2.34
1.95
0.10
1.42
0.46
0.07
1.09
0.76
5.55
3.93
1.07
2.26
2.88
0.67
1.12
0.26
4.57
5.37
0.12
3.19
1.63
1.46
1.08
2.06
0.85
0.83
2.44
2.11
3.15
2.90
6.58
0.64
La hiptesis nula y alternativa son las siguientes

H0: Los tiempos interarribos estn distribuidos exponencialmente
Ha: Los tiempos interarribos, no estn distribuidos exponencialmente
= 2.01
= 0.4975

P(x) = 1 P(0.75) = 1 Intervalo
= 0.0.3114
FOi
POi
POAi
0.00 - 1.50
Marca de clase (M i)
0.75
PEAi
|POAi - PEAi|
23
0.4792
0.4792 0.3114
0.1678
1.50 - 3.00
2.25
17
0.3542
0.8333 0.6735
0.1598
3.00 - 4.50
3.75
0.0625
0.8958 0.8452
0.0506
4.50 - 6.00
5.25
0.0625
0.9583 0.9266
0.0317
6.00 mas
6.75
0.0417
0.9652
0.0348
48
0.1678
0.4975
El valor del estadstico de prueba, c = 0.1678, comparado con el valor de tablas critico, D0.05, 48 =
acuerdo con una distribucin de exponencial con parmetro de escala = 0.4975
Ejemplo 6:
Considere de nuevo el ejemplo 2 de la prueba de habilidad aplicada a un grupo de 80 empleados.
Mediante la prueba de Kolmogorov-Smirnov, con un nivel de significancia del 5%, pruebe la hiptesis
de que los puntajes obtenidos siguen una distribucin normal.
= 55.8 y
= 18.6
Solucin: De la tabla construida para realizar la prueba Chi-cuadrado tomaremos la informacin

pertinente y la complementaremos con la informacin faltante. Los clculos se muestran a continuacin:
Prueba de Bondad de Ajuste Kolmogorov-Smirnov

Puntajes obtenidos por empleados en las pruebas de habilidad espacial
Intervalo de Lmite Lmite
clase
inferior superior
I
1
2
3
4
5
6
7
8
Xi-1
Xi
14
24
34
44
54
64
74
84
Probabilidad
Probabilidad
Diferencia
Frecuencia Probabilidad observada
Valor esperada
|POAi - PEAi|
observada observada
acumulada
tpico acumulada
FOi
24
34
44
54
64
74
84
94
POi
4
7
9
16
17
12
8
7
80
POAi
0.0500
0.0875
0.1125
0.2000
0.2125
0.1500
0.1000
0.0875
1.0000
Zi
0.0500
0.1375
0.2500
0.4500
0.6625
0.8125
0.9125
1.0000

PO1 =
Z1 =
PEAi
-1.71
-1.17
-0.63
-0.10
0.44
0.98
1.52
2.05
0.0436
0.1210
0.2644
0.4602
0.6700
0.8365
0.9357
0.9798
c
= 55.8 y
0.0064
0.0165
0.0144
0.0102
0.0075
0.0240
0.0232
0.0202
0.0240
= 18.6
= 0.0500
= -1.71
PEA1 se busca en la tabla de distribucin normal con z1 = -1.71, es igual a 0.0436

El valor critico para n = 80 valores y un nivel de significancia del 5% se encuentra de la siguiente forma
D0.05, 80 =
= 0.1521. Como la diferencia maxima observada fue de c = Max|PEAi POAi| = 0.0240
no hay razn para dudar que los puntajes se pueden aproximar mediante una distribucin normal.
10

Ejemplo: Se necesita estudiar a los tiempos de interarribo de vehculos al estacionamiento de un centro
comercial y para ello es necesario analizar los siguientes datos que se proporcionan:
Tiempos entre arribos de autos a un centro comercial (en segundos):
1
89
48
65
49
98
32
40
76
52
25
115
45
138
37
21
10
9
85
17
28
3
31
2
25
4
163
1
72
15
52
5
57
23
18
43
5
2
19
10
79
38
45.42
El promedio o la media es
Determine si es posible ajustarlos (o representarlos) con una funcin exponencial con parmetro
= 0.022 de los datos agrupados. Agrupe los datos en 6 clases de ancho 30 seg.
Paso 1. Agrupar los datos para generar un histograma.
Nro. de
Observaciones
FOi
Intervalo
0 - 30
30 - 60
60 - 90
90 - 120
120 - 150
150 - 180
Total
20
12
6
2
1
1
42
Nro de Observaciones F0i

25
20
15
Nro de
Observaciones F0i
10
5
0
0 - 30 30 60
60 - 90 - 120 - 150 90 120 150 180
Paso 2. Calcule la probabilidad acumulada con base en las frecuencias que gener en el paso 1.
Probabilidad
11

Intervalo
Marca de clase (M i)
15
0 30
FOi
POi
0.4762
POAi
PEAi
|POAi - PEAi|
0.4762 0.2811
0.1951
0.2857
0.7619 0.6284
0.1335
0.1429
0.9048 0.8080
0.0968
0.0476
0.9524 0.9007
0.0516
120 150
135
0.0238
0.9762 0.9487
0.0275
150 180
165
0.0238
1.0000 0.9735
0.0265
0.1951
20
30 60
45
12
60 90
75
90 - 120
105
0.022
Paso 3. Encontrar la expresin para la funcin exponencial de probabilidad acumulada F(x).

F(x) =
Ejemplo:
F(15) = 1 -
dx = 1 = 1 - 0.7189 = 0.2811
Paso 4. Encuentre la mxima diferencia en valor absoluto entre la probabilidad acumulada observada y
la esperada (Dmax).
Para ello, tabule los valores de F(x) evaluada en las marcas de clase como se muestra en la anterior
tabla: (recuerde que el mejor estimador para es 1/ )
Media ( )
45.4211
0.022
Paso 5. Se calcula la diferencia mxima en valor absoluto entre las probabilidades acumuladas |POAi PEAi| calculadas para los distintos valores de las marcas de clases y se le llama Dmax.
Total datos
42
Mxima diferencia|POAi - PEAi|

0.1951
Valor de tablas D0.05, 42

0.207743
Como la diferencia mxima encontrada (Dmax) es menor que la diferencia mxima permitida (la
tabulada para la prueba de Kolmogorov-Smirnov) entonces se dice que: "no se encuentra evidencia
estadstica para afirmar que los datos no siguen el comportamiento que el propuesto, con el nivel de
significancia que se emplee en la prueba (usualmente 5 %)".
Es decir; se acepta que la exponencial con media = 45.4211, ajusta al histograma de los datos, con
significancia del 5%.
AJUSTE DE DATOS CON STAT::FIT

La herramienta Stat::Fit de Promodel se para analizar y determinar el tipo de distribucin de
probabilidad de un conjunto de datos. Esta utilera permite comparar los resultados entre varias
distribuciones analizadas mediante una calificacin. Entre sus procedimientos emplea las pruebas Chicuadrada, de Kolmogorov-Smirnov y de Anderson Darling. Adems calcula los parmetros apropiados
para cada tipo de distribucin, e incluye informacin estadstica adicional como media, moda, valor
mnimo, valor mximo y varianza, entre otros datos. Stat::Fit se puede ejecutar desde la pantalla de
inicio de Promodel, o bien desde el comando Stat::Fit del men Tools, como se aprecia en la figura
siguiente:
12

Haga clic ac
Pantalla de inicio de ProModel
Una vez que comience a ejecutarse el comando Stat::Fit, haga clic en el icono de la hoja en blanco de
la barra de herramientas estndar para abrir un nuevo documento (tambin puede abrir el men File y
hacer clic en New). Enseguida se desplegara una ventana con el nombre Data Table (vea la figura
siguiente), en la que, deber introducir los datos de la variable a analizar, ya sea utilizando el teclado o
mediante los comandos Copiar y Pegar (Copy/Paste) para llevar dichos datos desde otra aplicacin,
como puede ser Excel o el Bloc de notas de Windows.
Introduzca los datos de la variable que desea analizar en esta ventana de Stat::Fit
Una vez introducida la informacin es posible seleccionar una serie de opciones de anlisis estadstico,
entre ellas las de estadstica descriptiva y las de pruebas de bondad de ajuste, de las cuales nos
ocuparemos en los siguientes ejemplos.
Ejemplo 1: Los datos del nmero de automviles que entran a una gasolinera por hora son:
14
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
13

Los datos de la variable deben ser introducidos en la ventana Stat::Fit, como se observa a continuacin:
Determinar la distribucin de probabilidad con un nivel de significancia de 5%.

Despus de introducir estos datos en Stat::Fit, despliegue el men Statistics y seleccione el comando
Descriptive. Enseguida aparecer una nueva ventana con el nombre de Descriptive Statistics, en
donde se muestra el resumen estadstico de la variable (vea la figura siguiente)
Ventana de resultados estadsticos de Stat::Fit
Para determinar el tipo de distribucin de probabilidad de los datos, seleccione el comando AutoFit del
men Fit en la pantalla principal de Stat::Fit. A continuacin se desplegara un cuadro de dialogo similar
al que se ilustra en la figura siguiente, en el cual se tienen que seleccionar el tipo de distribucin que se
desea probar, si dicha distribucin es no acotada en ambos extremos (unbounded), o si el lmite inferior
14

esta acotado; en este ultimo caso se puede aceptar la propuesta de que la cota del lmite inferior
(assigned bound). Pa este ejemplo seleccionamos una distribucin de tipo discreto: discrete
distributions, ya que los datos de la variable aleatoria (automviles/hora) tienen esa caracterstica.
Este cuadro de dialogo permite seleccionar el tipo de variable aleatoria
Haga clic en el botn OK para que el proceso de ajuste se lleve a cabo. El resultado de desplegara en
la ventana Automatic Fiting, donde se describen las distribuciones de probabilidad analizadas, su
posicin de acuerdo con el ajuste, y los datos siguen o no alguna de las distribuciones. En la figura
siguiente se observa el resultado delo anlisis de ajuste del ejemplo, el cual nos indica que no se puede
rechazar la hiptesis de que los datos provengan de cualquiera de dos distribuciones, Binomial, con N =
102, p = 0.148, o de Poisson, con media 15.1 (esta ltima coincide con el resultado que obtuvimos en el
ejemplo 1 de la separata de Variables Aleatorias mediante la prueba de bondad de ajuste Chicuadrada)
Ventana de resultados del anlisis de la variable aleatoria
Haga clic en cualquiera de las

distribuciones
Haga clic con el ratn en cualquiera de las dos distribuciones (vea la figura anterior); enseguida se
desplegar el histograma que se ilustra en la figura siguiente, presentndose un histograma: las barras
azules representan la frecuencia observada de los datos; la lnea roja indica la frecuencia esperada de
la distribucin terica.
El formato del histograma puede ser modificado mediante el comando Graphics style del men
Graphics (esta opcin solamente est disponible cuando se tienen activa la ventana Comparison
Graph, vea la figura siguiente
15

Histogramas terico y real de la variable aleatoria.
Ejemplo 2: Estos son los datos de un estudio del tiempo de atencin a los clientes en una florera,
medido en minutos/cliente:
9.400
8.620
9.346
13.323
7.112
13.466
5.764
8.974
9.831
7.445
6.619
9.260
6.775
8.306
5.633
8.864
13.944
8.952
9.355
10.489
6.306
12.685
11.078
6.957
9.532
9.192
11.731
11.350
14.389
12.553
8.045
9.829
11.804
9.274
12.190
10.270
14.751
9.237
6.515
12.397
8.453
9.628
13.838
9.935
7.827
9.269
8.690
11.515
8.527
10.056
de 5%.
Dadas las caractersticas de la variable aleatoria a analizar, al desplegarse el cuadro de dialogo

Auto::Fit (vea la figura siguiente) debemos activar la opcin Continuous distributions.
16

El resumen de resultados que se ilustra en la figura anterior, indica que la muestra puede provenir de
cualquiera de las dos distribuciones listadas.
En la ventana Comparison Graph puede compararse la forma de la distribucin LogNormal, y
Uniforme propuestas por Stat::Fit
AJUSTAR DISTRIBUCIONES A LOS DATOS CON @RISK

Ajustar la distribucin del ejemplo 4, con @RISK
Estos son los datos de un estudio del tiempo de atencin a los clientes en una florera, medido en
minutos/cliente:
9.400
8.620
9.346
13.323
7.112
13.466
5.764
8.974
9.831
7.445
6.619
9.260
6.775
8.306
5.633
8.864
13.944
8.952
9.355
10.489
6.306
12.685
11.078
6.957
9.532
9.192
11.731
11.350
14.389
12.553
8.045
9.829
11.804
9.274
12.190
10.270
14.751
9.237
6.515
12.397
8.453
9.628
13.838
9.935
7.827
9.269
8.690
11.515
8.527
17
10.056
de 5%.

Despues de haber ingresado los datos en Excel, lo seleccionamos y hacemos clic en el icono Ajuste de
distribucion, ubicado en la barra de herramientas.
Seleccionamos, la opcin Ajustar distribuciones a datos. A continuacin observamos la ventana Ajustar

distribuciones a los datos. Observe que en la opcin Rango, ya aparece el conjunto de celdas
seleccionadas, en la seccin Tipo, se debe seleccionar la opcin Datos mustrales continuos.
El resto de opciones lo dejamos por defecto
18

A continuacin hacemos clic en ajuste, y observamos las siguientes distribuciones:
Esta distribucin es una curva normal con
= 9.6963 y
= 2.2616.
Tambin observamos la distribucin BetaGeneral, con un mismo valor Chi-cuadrado; asimismo

observamos otras distribuciones de probabilidad con valores Chi-cuadrado ms grandes.
En la figura siguiente se observa la comparacin de dos distribuciones de probabilidad, esto se
consigue pulsando la tecla Control y cliqueando sobre las distribuciones que queremos comparar.
19

Si cliqueamos en el icono Grafico de comparacin de ajuste, y elegimos Cumulativo ascendente, como

se aprecia en la siguiente figura.
Obtendremos la distribucin acumulativa
En el cuadro siguiente se observa el resumen estadstico de las distribuciones, esto lo logramos

cliqueando en el icono
20

Para efectos de generar las variables aleatorias, elegimos la distribucin normal.

Para esto generamos en el Excel 4 nmeros aleatorios: 0.60997, 0.23821, 0.48570, 0.91874 y
usaremos el mtodo directo:
X1 =
X2 =
Donde:
= Desviacin estndar de la distribucin normal = 2.2616
= Media de la distribucin normal = 9.6963
R = Nmero aleatorio
X = Variable aleatoria con distribucin normal
X1 =
= [0.99433*(-0.689711)]*2.2616+9.6963
= (-0.6858)*(2.2616) = -1.551+9.6963 = 8.1453
X1 = 8.1453
X2 =
= [0.99433*0.02612]*2.2616+9.6963 =
(0.02597)*(2.2616) = 0.05874+9.6963 = 9.7550
X2 = 9.7550
X3 =
= [1.2018*0.87246]*2.2616+9.6963 =
1.0485*2.2616 = 2.3714+9.6963 = 12.0676
X3 = 12.0676
X4 =
= [1.2018*(-0.48867)]*2.2616+9.6963 =
(0.5873)*(2.2616) = -1.3288+9.6963 = 8.3675
X4 = 8.3675
Nota: La calculadora del sistema operativo, requiere que los ngulos estn en grados , y la funcin
Seno o Coseno de Excel, requiere que los ngulos estn radianes.
Ajustar la distribucin del ejemplo 1, con @RISK

Ejemplo 1: Estos son los datos del nmero de automviles que entran a una gasolinera cada hora.
14
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
de 5%.
Ingresar los datos en Excel y ejecutar @RISK

21

Seleccione el rango de datos y del cuadro de dialogo, seleccione en la opcin tipo: Datos mustrales
discretos, porque as son los arribos, de acuerdo al problema; y en arreglo de intervalos: Intervalos
iguales. A continuacin haga clic en el botn de comando Ajuste.
22

Distribucin de probabilidad
Grafica acumulativa descendente
23

24

Ajustar Distribuciones Datos

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ajustar Distribuciones Datos

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSIDAD SAN PEDRO

Escuela de Ingeniera Informtica y Sistemas

AJUSTE DE DISTRIBUCIONES DE LAS VARIABLES ALEATORIAS

Tipos de Variables Aleatorias

Algunas distribuciones discretas de probabilidad son Uniforme Discreta, la de Bernoulli, la

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Distribucin de probabilidad de una variable aleatoria discreta

Variables aleatorias Continuas

Entre las distribuciones de probabilidad tenemos la Uniforme Continua, la exponencial, la Normal, la de

Distribucin de probabilidad de una variable aleatoria contina

DETERMINACION DEL TIPO DE DISTRIBUCION DE UN CONJUNTO DE DATOS

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

f. Calcular el estadstico de prueba: c =

Determinar la distribucin de probabilidad con un nivel de significancia

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Por ejemplo para el intervalo 8-9

A partir de los clculos anteriores se obtiene la tabla siguiente:

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

La amplitud o ancho del intervalo est dado por =

H0: Los datos analizados siguen una distribucin Normal N( , ) con

Como la variable aleatoria X se distribuye normalmente (

), entonces Pi puede expresarse como:

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

) =P(Z < -1.71) = 0.04363

Clculo de P2. El clculo de P2 acumulado corresponde a la probabilidad de que la variable aleatoria

) =P(Z < -1.17) = 0.12100

La probabilidad del intervalo seria P (Zi

Z < Zi-1) = P (-1.17

Z < -1.71) = P(Z=-1.17)-P(Z=-1.71) =

El valor Chi cuadrado calculado es C =

Solucin: Las hiptesis planteadas son las siguientes:

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Por ejemplo para el intervalo 5

Y luego estimamos el estadstico de prueba:

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

= 3.0) el estadistico de prueba es 2.6 y en este caso no se rechaza la hipotesis

11.65 10.92 12.16 6.60

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Iniciamos el procedimiento calculando la probabilidad observada en cada intervalo

Para despus calcular la probabilidad observada acumulada hasta el intervalo i.

= {0.24, 0.50, ,1}

Posteriormente calculamos la probabilidad esperada acumulada de cada intervalo PEAi a partir de la

F(x) = 1 Por ejemplo para el intervalo con el lmite superior de 8:

La hiptesis nula y alternativa son las siguientes

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Solucin: De la tabla construida para realizar la prueba Chi-cuadrado tomaremos la informacin

Prueba de Bondad de Ajuste Kolmogorov-Smirnov

H0: Los datos analizados siguen una distribucin Normal N( , ) con

PEA1 se busca en la tabla de distribucin normal con z1 = -1.71, es igual a 0.0436

= 0.1521. Como la diferencia maxima observada fue de c = Max|PEAi POAi| = 0.0240

Docente: Ing. J. Paredes C.

UNIVERSIDAD SAN PEDRO

Nro de Observaciones F0i

60 - 90 - 120 - 150 90 120 150 180