Académique Documents
Professionnel Documents
Culture Documents
La suma de las probabilidades asociadas a todos los valores posibles de la variable aleatoria x es
uno.
La probabilidad de que un posible valor de las variables x se presente siempre es mayor que o igual
a cero.
El valor esperado de la distribucin de la variable aleatoria es la media de la misma, la cual a su
vez estima la verdadera media de la poblacin.
Si la distribucin de probabilidad asociada a la variable aleatoria est definida por ms de un
parmetro, dichos parmetros pueden obtenerse mediante un estimador no sesgado. Por ejemplo,
2
la varianza de la poblacin
puede ser estimada usando la varianza de una muestra que es S .
De la misma manera, la desviacin estndar de la poblacin, , puede ser estimada mediante la
desviacin estndar de la muestra S.
0
=1
P(a
)=
Pa + + Pb
Variables Aleatorias
) =P(a<x<b) =
Variables Aleatorias
1. Prueba Chi-cuadrada
Se trata de una prueba de hiptesis a partir de datos, basada en el clculo de un valor llamado
estadstico de prueba, al cual suele comparrsele con un valor conocido como valor crtico, mismo que
se obtiene, generalmente, de tablas estadsticas, el procedimiento general de la prueba es:
a. Obtener al menos 30 datos de la variable aleatoria a analizar
b. Calcular la media y varianza de los datos
c. Crear un histograma de m =
intervalos, y obtener la frecuencia observada en cada intervalo
FOi
d. Establecer explcitamente la hiptesis nula, proponiendo una distribucin de probabilidad que se
ajuste a la forma del histograma.
e. Calcular la frecuencia esperada, FEi , a partir de la funcin de probabilidad propuesta
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
8-9
10-11
12-13
10
14-15
11
16-17
10
18-19
20-21
22-23
24-25
25-
Variables Aleatorias
de 5%.
P(x) =
x=0, 1, 2,
P(n) =
P(n=8,9) =
= 0.0519
Enseguida calculamos la frecuencia esperada en cada intervalo, multiplicando la probabilidad p(n) por
el total de datos de la muestra.
FEi = np(x)
FEi = 50p(x)
Y luego estimamos el estadstico de prueba:
c=
= 1.7848
Intervalo
0-7
8-9
10-11
12-13
14-15
16-17
18-19
20-21
22-23
24-25
25Total
FOi
1
2
4
10
11
10
6
4
1
1
0
50
P(x)
0.0180
0.0519
0.1149
0.1785
0.2049
0.1808
0.1264
0.0717
0.0336
0.0133
0.0062
1.0000
FEi = 50*P(x)
0.9000
2.5950
5.7450
8.9250
10.2450
9.0400
6.3200
3.5850
1.6800
0.6650
0.3100
50.0000
C=
0.0111
0.1364
0.5300
0.1295
0.0556
0.1019
0.0162
0.0480
0.2752
0.1688
0.3100
1.7829
El valor del estadstico de prueba, c = 1.7848, comparado con el valor de tablas critico,
=
18.307, indica que no podemos rechazar la hiptesis de que la variable aleatoria se comporta de
acuerdo con una distribucin de Poisson, con una media de 15 automviles/hora.
Ejemplo 2. A un grupo de 80 empleados se les ha aplicado una prueba de habilidad espacial. En una
graduacin de 0 a 100 han obtenido las puntuaciones dadas en la tabla siguiente. Se pide verificar la
hiptesis de que los puntajes se pueden ajustar a una distribucin normal.
29
78
48
29
30
44
72
73
45
82
84
71
75
84
45
45
47
32
33
54
56
33
62
63
64
36
38
53
54
38
40
57
42
51
52
53
56
57
58
71
76
77
58
60
60
62
65
65
14
16
73
74
45
21
23
66
67
42
43
51
67
70
57
78
55
27
78
48
49
50
51
86
58
59
89
36
37
91
92
93
Promedio 55.8
Desviacin Estndar 18.6
Variables Aleatorias
= 9.875 10
La distribucin de frecuencia muestra que los puntajes se pueden aproximar razonablemente bien
por una distribucin normal. Por lo tanto la hiptesis formuladas son:
Polgono de Frecuencia. Valores observados en cada intervalo de clase
Limite
Superior
20
15
10
Limite
Superior
5
0
14
24
34
44
54
64
74
84
= 55.8 y
= 18.6
La tabla siguiente presenta los valores distribuidos en los intervalos de clase y la frecuencia absoluta de
cada intervalo, correspondiente al nmero de observaciones que caen en l. Igualmente se presentan
en la tabla los clculos necesarios para realizar la prueba Chi cuadrado.
Los principales clculos se resumen a continuacin:
En general Pi, la probabilidad de que una observacin quede en el intervalo i est dada por:
Pi = P(Xi-1
= F(Xi) F(Xi-1)
Xi ) =
) = P(Zi-1
Z i)
Donde (Zi-1) y (Zi) son las probabilidades de que la variable aleatoria normal estndar Z sea menor o
igual a Zi-1 y Zi, respectivamente.
Al realizar los clculos para Pi se tuvieron en cuenta los intervalos extremos como casos especiales, a
saber:
Clculo de P1. El clculo de P1 corresponde a la probabilidad de que la variable aleatoria sea menor o
igual que X1, (igual a 24). Es decir:
P1 = P(X<24) = P(-
Variables Aleatorias
24) =
= F(24)
34) =
= F(34)
Clculo de P8. El ltimo intervalo corresponde a los valores de la poblacin que sean mayores que Xn
(84 en nuestro caso). Por lo tanto, P8 se calcula como:
P8 = P(X 84) = P(84 X < +
P8 = 1 0.9353 = 0.0647
= 1 F(84)
)=
Para los dems valores Pi se calcul como: Pi = F(Xi) - F(Xi-1) = (Zi)- (Zi-1)
Prueba de Bondad de ajuste Chi Cuadrado
Puntajes obtenidos por empleados en las pruebas de habilidad espacial
Intervalo
de clase
Lmite
Inferior
Limite
Superior
Frecuencia
Observadas
Valor
Tpico
Probabilidad
Acumulada
Probabilidad
del Intervalo
Xi-1
Xi
FOi
Zi
F(xi)
P(x)
Nmero
esperado
FEi
=80*P(x)
14
24
-1.71
0.044
0.044
3.5
0.0714
24
34
-1.17
0.121
0.077
6.2
0.1032
34
44
-0.63
0.263
0.142
11.4
0.5053
44
54
16
-0.10
0.462
0.199
15.9
0.0006
54
64
17
0.44
0.670
0.209
16.7
0.0054
64
74
12
0.98
0.836
0.166
13.3
0.1271
74
84
1.52
0.935
0.099
7.9
0.0013
84
94
2.05
0.980
0.065
5.2
0.6231
1.000
80
1.4373
Total
80
Valor Chi
C=
0
10
1
31
2
44
3
50
4
31
5
21
6
6
7
5
8
1
9
1
Variables Aleatorias
P(x) =
x=0, 1, 2,
P(n) =
= 0.1321686
Enseguida calculamos la frecuencia esperada en cada intervalo, multiplicando la probabilidad p(n) por
el total de datos de la muestra.
FEi = np(x)
FEi = 200p(x)
Y luego estimamos el estadstico de prueba:
Nmero de Frecuencia
defectos
observada
X
FOi
Frecuencia
esperada
Probabilidad
P(x)
FEi = 200*P(x)
6.03948
Valor Chi
C=
2.59720
10
31
0.10569
21.13817
4.60095
44
0.18496
36.99179
1.32773
50
0.21579
43.15709
1.08500
31
0.18881
37.76246
1.21101
21
0.13217
26.43372
1.11696
0.07710
15.41967
5.75435
0.03855
7.70983
0.95245
0.01687
3.37305
1.66952
1.31174
0.07409
Total
200
199.33701
20.38925
0.03020
0.00656
0.99669
= 20.38925
Solucin: El valor del estadstico de prueba c = 20.38925, comparado con el valor de tablas critico
= 16.9190, para un nivel de significancia del 5%, lo cual nos lleva a rechazar la hiptesis de
que el nmero de defectos del proceso sigue una distribucin de Poisson con una media de 3.5
defectos por articulo.
El nmero medio de defectos observados en la muestra est dado por:
= 2.93
Podra pensarse que el nmero de defectos en el proceso si sigue una distribucin de Poisson, pero
con un parmetro diferente de 3.5, posiblemente 3.0 (Verifique que si se plantea como hiptesis nula
Variables Aleatorias
Prueba de Kolmogorov-Smirnov
Se comparan la funcin de distribucin terica y la funcin de distribucin de los datos (Emprica).
Esta prueba permite al igual que la prueba Chi-cuadrada-determinar la distribucin de probabilidad de
una serie de datos.
Una limitante de la prueba de Kolmogorov-Smirnov estriba en que solamente se puede aplicar al
anlisis de variables continuas. El procedimiento general de la prueba es:
a. Obtener al menos 30 datos de la variable aleatoria a analizar
b. Calcular la media y la varianza de los datos
c. Crear un histograma de m =
intervalos, y obtener la frecuencia observada en cada intervalo FO i
d. Calcular la probabilidad observada en cada intervalo PO i =
, esto es, dividir la frecuencia
observada FOi entre el nmero total de datos n.
e. Acumular las probabilidades POi para obtener la probabilidad observada hasta el i-simo intervalo,
POAi.
f. Establecer explcitamente la hiptesis nula, proponiendo una distribucin de probabilidad que se
ajuste a la forma del histograma.
g. Calcular la probabilidad esperada acumulada para cada intervalo, PEAi, a partir de la funcin de
probabilidad propuesta.
h. Calcular el estadstico de prueba:
C = Max|PEAi POAi|
i = 1, 2, 3, ., k, .m
i. Definir el nivel de significancia de la prueba , y determinar el valor critico de la prueba,
(Consulta la tabla de valores criticos de la prueba de Kolmogorov-Smirnov)
j. Comparar el estadstico de prueba con el valor crtico. Si el estadstico de prueba es menor que el
valor critico no se puede rechazar la hiptesis nula.
Ejemplo 4:
Estudio del comportamiento del tiempo entre roturas de cierto filamento, medido en minutos/rotura, se
muestra a continuacin:
4.33
1.61
2.16
2.88
0.70
0.44
1.59
2.15
8.59
7.36
9.97
7.86
5.49
0.98
4.52
2.12
4.44
0.82
6.96
3.04
2.81
14.39 3.44
9.92
4.38
8.04
2.18
6.19
4.48
9.66
4.34
1.76
5.24
0.85
4.82
2.30
1.36 3.53 6.58 1.45 8.42 3.69 2.44 0.28 1.90 2.89
Determinar la distribucin de probabilidad con un nivel de significancia de de 5%.
El histograma (vea la figura siguiente) de los n = 50 datos con m = 8 intervalos, la media muestral de
4.7336 y la varianza muestral de de 12.1991 permiten estimar un parmetro de forma de 1.38 y un
parmetro de escala de 5.19, y establecer la hiptesis:
H0 : Weibull ( = 1.38, = 5.19) minutos/rotura
Ha : Otra distribucin
Histograma de frecuencias del tiempo entre roturas
14
12
10
8
6
4
2
0
Variables Aleatorias
Series1
F(x) = 1 -
FOi
12
13
9
6
6
2
1
1
50
POi
0.24
0.26
0.18
0.12
0.12
0.04
0.02
0.02
1
POAi
0.24
0.50
0.68
0.80
0.92
0.96
0.98
1.00
PEAi
0.23526
0.50247
0.70523
0.83747
0.91559
0.95839
0.98042
1
c
|POAi - PEAi|
0.00474
0.00247
0.02523
0.03747
0.00441
0.00161
0.00042
0.0000
0.03747
El valor del estadstico de prueba, c = 0.0375, comparado con el valor de tablas critico, D 0.05, 50 =
0.18841, indica que no podemos rechazar la hiptesis de que la variable aleatoria se comporta de
acurdo con una distribucin de Weibull con parmetro de escala 5.19 y parmetro de forma 1.38
Ejemplo 5: Supngase que los 50 tiempos interarribos (en minutos) son coleccionadas sobre los
siguientes 100 minutos de intervalo (pg. 349)
0.44
0.53
2.04
2.74
2.00
0.30
2.54
0.52
2.02
1.89
1.53
0.21
2.80
0.04
1.35
8.32
2.34
1.95
0.10
1.42
0.46
0.07
1.09
0.76
5.55
3.93
1.07
2.26
2.88
0.67
1.12
0.26
4.57
5.37
0.12
3.19
1.63
1.46
1.08
2.06
0.85
0.83
2.44
2.11
3.15
2.90
6.58
0.64
= 0.4975
Variables Aleatorias
= 0.0.3114
FOi
POi
POAi
0.00 - 1.50
Marca de clase (M i)
0.75
PEAi
|POAi - PEAi|
23
0.4792
0.4792 0.3114
0.1678
1.50 - 3.00
2.25
17
0.3542
0.8333 0.6735
0.1598
3.00 - 4.50
3.75
0.0625
0.8958 0.8452
0.0506
4.50 - 6.00
5.25
0.0625
0.9583 0.9266
0.0317
6.00 mas
6.75
0.0417
0.9652
0.0348
48
0.1678
0.4975
El valor del estadstico de prueba, c = 0.1678, comparado con el valor de tablas critico, D0.05, 48 =
0.19221, indica que no podemos rechazar la hiptesis de que la variable aleatoria se comporta de
acuerdo con una distribucin de exponencial con parmetro de escala = 0.4975
Ejemplo 6:
Considere de nuevo el ejemplo 2 de la prueba de habilidad aplicada a un grupo de 80 empleados.
Mediante la prueba de Kolmogorov-Smirnov, con un nivel de significancia del 5%, pruebe la hiptesis
de que los puntajes obtenidos siguen una distribucin normal.
H0: Los datos analizados siguen una distribucin Normal N( , ) con
Ha: Los datos analizados no siguen una distribucin Normal
= 55.8 y
= 18.6
I
1
2
3
4
5
6
7
8
Xi-1
Xi
14
24
34
44
54
64
74
84
Probabilidad
Probabilidad
Diferencia
Frecuencia Probabilidad observada
Valor esperada
|POAi - PEAi|
observada observada
acumulada
tpico acumulada
FOi
24
34
44
54
64
74
84
94
POi
4
7
9
16
17
12
8
7
80
POAi
0.0500
0.0875
0.1125
0.2000
0.2125
0.1500
0.1000
0.0875
1.0000
Zi
0.0500
0.1375
0.2500
0.4500
0.6625
0.8125
0.9125
1.0000
PEAi
-1.71
-1.17
-0.63
-0.10
0.44
0.98
1.52
2.05
0.0436
0.1210
0.2644
0.4602
0.6700
0.8365
0.9357
0.9798
c
= 55.8 y
0.0064
0.0165
0.0144
0.0102
0.0075
0.0240
0.0232
0.0202
0.0240
= 18.6
= 0.0500
= -1.71
no hay razn para dudar que los puntajes se pueden aproximar mediante una distribucin normal.
Variables Aleatorias
10
25
115
45
138
37
21
10
9
85
17
28
3
31
2
25
4
163
1
72
15
52
5
57
23
18
43
5
2
19
10
79
38
45.42
El promedio o la media es
Determine si es posible ajustarlos (o representarlos) con una funcin exponencial con parmetro
= 0.022 de los datos agrupados. Agrupe los datos en 6 clases de ancho 30 seg.
Paso 1. Agrupar los datos para generar un histograma.
Nro. de
Observaciones
FOi
Intervalo
0 - 30
30 - 60
60 - 90
90 - 120
120 - 150
150 - 180
Total
20
12
6
2
1
1
42
10
5
0
0 - 30 30 60
Paso 2. Calcule la probabilidad acumulada con base en las frecuencias que gener en el paso 1.
Probabilidad
Variables Aleatorias
11
Intervalo
Marca de clase (M i)
15
0 30
FOi
POi
0.4762
POAi
PEAi
|POAi - PEAi|
0.4762 0.2811
0.1951
0.2857
0.7619 0.6284
0.1335
0.1429
0.9048 0.8080
0.0968
0.0476
0.9524 0.9007
0.0516
120 150
135
0.0238
0.9762 0.9487
0.0275
150 180
165
0.0238
1.0000 0.9735
0.0265
0.1951
20
30 60
45
12
60 90
75
90 - 120
105
0.022
dx = 1 = 1 - 0.7189 = 0.2811
Paso 4. Encuentre la mxima diferencia en valor absoluto entre la probabilidad acumulada observada y
la esperada (Dmax).
Para ello, tabule los valores de F(x) evaluada en las marcas de clase como se muestra en la anterior
tabla: (recuerde que el mejor estimador para es 1/ )
Media ( )
45.4211
0.022
Paso 5. Se calcula la diferencia mxima en valor absoluto entre las probabilidades acumuladas |POAi PEAi| calculadas para los distintos valores de las marcas de clases y se le llama Dmax.
Total datos
42
Como la diferencia mxima encontrada (Dmax) es menor que la diferencia mxima permitida (la
tabulada para la prueba de Kolmogorov-Smirnov) entonces se dice que: "no se encuentra evidencia
estadstica para afirmar que los datos no siguen el comportamiento que el propuesto, con el nivel de
significancia que se emplee en la prueba (usualmente 5 %)".
Es decir; se acepta que la exponencial con media = 45.4211, ajusta al histograma de los datos, con
significancia del 5%.
Variables Aleatorias
12
Haga clic ac
Una vez que comience a ejecutarse el comando Stat::Fit, haga clic en el icono de la hoja en blanco de
la barra de herramientas estndar para abrir un nuevo documento (tambin puede abrir el men File y
hacer clic en New). Enseguida se desplegara una ventana con el nombre Data Table (vea la figura
siguiente), en la que, deber introducir los datos de la variable a analizar, ya sea utilizando el teclado o
mediante los comandos Copiar y Pegar (Copy/Paste) para llevar dichos datos desde otra aplicacin,
como puede ser Excel o el Bloc de notas de Windows.
Introduzca los datos de la variable que desea analizar en esta ventana de Stat::Fit
Una vez introducida la informacin es posible seleccionar una serie de opciones de anlisis estadstico,
entre ellas las de estadstica descriptiva y las de pruebas de bondad de ajuste, de las cuales nos
ocuparemos en los siguientes ejemplos.
Ejemplo 1: Los datos del nmero de automviles que entran a una gasolinera por hora son:
14
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
Variables Aleatorias
13
Para determinar el tipo de distribucin de probabilidad de los datos, seleccione el comando AutoFit del
men Fit en la pantalla principal de Stat::Fit. A continuacin se desplegara un cuadro de dialogo similar
al que se ilustra en la figura siguiente, en el cual se tienen que seleccionar el tipo de distribucin que se
desea probar, si dicha distribucin es no acotada en ambos extremos (unbounded), o si el lmite inferior
Variables Aleatorias
14
Haga clic en el botn OK para que el proceso de ajuste se lleve a cabo. El resultado de desplegara en
la ventana Automatic Fiting, donde se describen las distribuciones de probabilidad analizadas, su
posicin de acuerdo con el ajuste, y los datos siguen o no alguna de las distribuciones. En la figura
siguiente se observa el resultado delo anlisis de ajuste del ejemplo, el cual nos indica que no se puede
rechazar la hiptesis de que los datos provengan de cualquiera de dos distribuciones, Binomial, con N =
102, p = 0.148, o de Poisson, con media 15.1 (esta ltima coincide con el resultado que obtuvimos en el
ejemplo 1 de la separata de Variables Aleatorias mediante la prueba de bondad de ajuste Chicuadrada)
Haga clic con el ratn en cualquiera de las dos distribuciones (vea la figura anterior); enseguida se
desplegar el histograma que se ilustra en la figura siguiente, presentndose un histograma: las barras
azules representan la frecuencia observada de los datos; la lnea roja indica la frecuencia esperada de
la distribucin terica.
El formato del histograma puede ser modificado mediante el comando Graphics style del men
Graphics (esta opcin solamente est disponible cuando se tienen activa la ventana Comparison
Graph, vea la figura siguiente
Variables Aleatorias
15
Ejemplo 2: Estos son los datos de un estudio del tiempo de atencin a los clientes en una florera,
medido en minutos/cliente:
9.400
8.620
9.346
13.323
7.112
13.466
5.764
8.974
9.831
7.445
6.619
9.260
6.775
8.306
5.633
8.864
13.944
8.952
9.355
10.489
6.306
12.685
11.078
6.957
9.532
9.192
11.731
11.350
14.389
12.553
8.045
9.829
11.804
9.274
12.190
10.270
14.751
9.237
6.515
12.397
8.453
9.628
13.838
9.935
7.827
9.269
8.690
11.515
8.527
10.056
de 5%.
Variables Aleatorias
16
El resumen de resultados que se ilustra en la figura anterior, indica que la muestra puede provenir de
cualquiera de las dos distribuciones listadas.
En la ventana Comparison Graph puede compararse la forma de la distribucin LogNormal, y
Uniforme propuestas por Stat::Fit
8.620
9.346
13.323
7.112
13.466
5.764
8.974
9.831
7.445
6.619
9.260
6.775
8.306
5.633
8.864
13.944
8.952
9.355
10.489
6.306
12.685
11.078
6.957
9.532
9.192
11.731
11.350
14.389
12.553
8.045
9.829
11.804
9.274
12.190
10.270
14.751
9.237
6.515
12.397
8.453
9.628
13.838
9.935
7.827
9.269
8.690
11.515
8.527
Variables Aleatorias
17
10.056
de 5%.
Variables Aleatorias
18
= 9.6963 y
= 2.2616.
Variables Aleatorias
19
Variables Aleatorias
20
X1 =
X2 =
Donde:
= Desviacin estndar de la distribucin normal = 2.2616
= Media de la distribucin normal = 9.6963
R = Nmero aleatorio
X = Variable aleatoria con distribucin normal
X1 =
= [0.99433*(-0.689711)]*2.2616+9.6963
= (-0.6858)*(2.2616) = -1.551+9.6963 = 8.1453
X1 = 8.1453
X2 =
= [0.99433*0.02612]*2.2616+9.6963 =
(0.02597)*(2.2616) = 0.05874+9.6963 = 9.7550
X2 = 9.7550
X3 =
= [1.2018*0.87246]*2.2616+9.6963 =
1.0485*2.2616 = 2.3714+9.6963 = 12.0676
X3 = 12.0676
X4 =
= [1.2018*(-0.48867)]*2.2616+9.6963 =
(0.5873)*(2.2616) = -1.3288+9.6963 = 8.3675
X4 = 8.3675
Nota: La calculadora del sistema operativo, requiere que los ngulos estn en grados , y la funcin
Seno o Coseno de Excel, requiere que los ngulos estn radianes.
13
16
16
13
14
17
15
16
13
15
10
15
16
14
12
17
14
12
13
20
17
19
11
12
17
18
20
10
18
15
13
16
24
18
16
18
12
14
20
15
10
13
21
23
15
18
de 5%.
21
Seleccione el rango de datos y del cuadro de dialogo, seleccione en la opcin tipo: Datos mustrales
discretos, porque as son los arribos, de acuerdo al problema; y en arreglo de intervalos: Intervalos
iguales. A continuacin haga clic en el botn de comando Ajuste.
Variables Aleatorias
22
Distribucin de probabilidad
Variables Aleatorias
23
Variables Aleatorias
24