Académique Documents
Professionnel Documents
Culture Documents
Curso de Estadstica
Dirigido a:
Estudiantes de Carreras Tcnicas e Ingenieras
De Institutos Profesionales
Edicin revisada
Marzo del 2006
Autor:
Profesor Edgardo Ojeda Barcos
Licenciado en Organizacin de la Produccin,
Universidad Argentina de la Empresa.
Posttulo en Ingeniera de Calidad,
Universidad de Santiago de Chile.
Derechos de autor en trmite
NDICE
Derechos de autor en trmite
Pgina 1 de 152
Captulo 1
1.1
1.2
Captulo 2
2.1
2.2
2.3
Captulo 3
3
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
Captulo 4
4
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
Captulo 5
5
5.1
5.2
5.3
5.4
5.5
5.6
Promedios
Media Aritmtica
Media Aritmtica Ponderada
Propiedades de la Media Aritmtica
Clculo de la Media Aritmtica para datos agrupados
Ejercicios de aplicacin.
La Mediana
La Moda
Relacin emprica entre la media aritmtica, la mediana y la
moda
Medidas de la dispersin de una distribucin de datos
Dispersin o variacin
Rango o Intervalo
La Desviacin Tpica
Desarrollo de tres frmula para el clculo de la Desviacin
Tpica
Propiedades de la desviacin Tpica
Varianza
Desviacin Media
Ejercicios en clase.
Ejercicios de Aplicacin
5.7
5.8
CuantilosCuantilos
Definicin
Medidores de Tendencia Central
Medidores de la Dispersin
Procedimiento de Clculo
Procedimiento de Calculo para datos Agrupados
Obtencin de los valores correspondientes cuando el
nmero de datos es distinto de 100
Ejercicios en clase.
Ejercicios de aplicacin.
Captulo 6
6
6.1
6.1.1
6.1.2
6.2
Pgina 2 de 152
6.3
6.4
6.5
6.6
6.7
6.8
Captulo 7
7
7.1
7.2
7.3
7.4
7.5
7.6
7.7
Captulo 8
8
8.1
8.2
8.3
8.5
8.6
8.7
8.8
8.98
Captulo 9
9
9.1
9.2
9.3
9.4
Correlacin y Regresin
Introduccin
Anlisis de Correlacin
Anlisis de Regresin
Ejercicios de Aplicacin
Captulo 10
10
10.1
10.2
10.3
8.4
Captulo 11
11
11.1
11.2
11.3
11.4
11.5
Estimacin
Estimacin por punto y por intervalo
Intervalo de confianza
Estimacin de la media aritmtica.
Margen de error y coeficiente de confianza.
No siempre se conoce el valor de la desviacin tpica
poblacional.
Pgina 3 de 152
11.6
11.7
Captulo 12
12
12.1
12.2
12.3
12.4
12.5
12.6
12.7
12.7.1
12.7.2
12.8
Capitulo 13
13
13.1
13.2
13.3
Capitulo 14
14
14.1
14.2
14.3
14.4
14.5
14.6
14.7
14.8
14.9
14.10
Capitulo 15
15
15.1
15.2
Nmeros ndices.
Relaciones de precios.
Relaciones de Cantidad o de Volumen
Relaciones de valor
Relaciones de Enlace y en Cadena.
El mtodo de agregacin simple.
El mtodo de agregacin Simple de relaciones.
El mtodo de agregacin ponderada.
Indice de Laspeyres.
Indice de Paasche.
Deflacin de series en el tiempo.
Series de Tiempo
Anlisis de series en el tiempo
Estimacin de las variaciones estacionales. El ndice
Estacional
Ejercicios de Aplicacin
Pruebas de Hiptesis
Hiptesis Estadsticas.
Contrastes de Hiptesis y significacin, o reglas de
decisin.
Errores de Tipo I y de Tipo II .
Nivel de significacin.
Contrastes mediante la distribucin normal.
Tres distintos niveles de significancia.
Seleccin de un nivel de significancia.
Uso de la distribucin t para la toma de decisiones.
Ejercicios de aplicacin desarrollados.
Ejercicios de Aplicacin.
Anlisis de Varianza
Distribucin F
Anlisis de Varianza y Clculo de F, con una variable de
clasificacin.
Bibliografa
Pgina 4 de 152
Pgina 5 de 152
Pgina 6 de 152
Captulo 1
1.1 Introduccin al concepto de la Estadstica
La palabra estadstica es un concepto muy conocido y por cierto muy amplio.
Podramos decir que la estadstica tiene que ver con la recopilacin y comprensin de
datos numricos.
Sin embargo, para comprender mejor el campo de la Estadstica nos referiremos a un
ejemplo y dejaremos al estudiante la generalizacin de dicho ejemplo.
Supongamos que por necesidades acadmicas necesitamos conocer la edad
promedio de todos los alumnos del Inacap en todo el pas. La forma perfecta de
hacerlo sera consultar a los miles de alumnos a lo largo del pas, y luego de una
larga, tediosa y cara tarea, sumaramos todas las edades, las dividiramos por el total
de alumnos y obtendramos el dato buscado.
Sin embargo, la Estadstica nos ofrece un camino, ms corto, ms rpido y
conveniente para obtener la informacin, suficientemente vlida y muy cercana al
dato anterior.
Imaginemos que tenemos un gran recipiente donde colocramos tantas fichas como
alumnos y cada ficha tuviera el dato de la edad de cada alumno. Ese gran recipiente
sera nuestro Universo o Poblacin.
Alguien con sentido comn propondra tomar algunas fichas al azar y calcular el
promedio de dicho pequeo grupo de unidades. Intuitivamente podremos aceptar
que el dato obtenido no necesariamente ser el valor verdadero del total de las
fichas, pero sin duda guardar cierta relacin y adems ser la mejor informacin
disponible.
DEFINICION DE ESTADISTICA
Generalizando, podremos decir que la Estadstica es la metodologa cientfica
que se encarga de INFERIR los valores de los parmetros de la Poblacin o
Universo mediante la extraccin sistemtica de MUESTRAS.
Estas tcnicas pueden adems, darnos informacin acerca de la confiabilidad,
(certeza) con que los datos son obtenidos.
En los trabajos estadsticos podemos distinguir dos reas de trabajo, la primera se
llama Estadstica descriptiva, y es la que se encarga de la recopilacin, el
ordenamiento e interpretacin de la informacin o datos.
La segunda rea, es la llamada Estadstica Inductiva o Inferencia Estadstica, es
decir la que por elaboracin de los datos anteriores, nos ofrecen respuestas a los
interrogantes planteados unidos a
informacin probabilstica acerca de la
confiabilidad de dicha informacin.
1.2 Grficos
Derechos de autor en trmite
Pgina 7 de 152
1860 70 80
31
40 50
90 1900 10 20 30 40 50 60 70 80
63 76
92 106 123 132 151 179 203 227
250
Millones
200
150
100
50
0
1860
70
80
90
1900
10
20
30
40
50
60
70
80
Aos
200
150
100
50
0
1860
70
80
90
1900
10
20
30
40
50
60
70
80
Aos
Otros Grficos
Pgina 8 de 152
Tn trigo
Tn maz
Total
75
76
77
78
79
80
81
82
200
185
225
250
240
195
210
225
75
90
100
85
80
100
110
105
275
275
325
335
320
295
320
330
Porcentual
trigo
73 %
67 %
69 %
75 %
75 %
66 %
66 %
68 %
Grfico de trazos
250
200
150
Trigo
Tn
Maiz
100
50
0
75
76
77
78
79
80
81
82
Aos
Grfico de Barras
Pgina 9 de 152
300
250
200
Trigo
Tn 150
Maiz
100
50
0
75
76
77
78
79
80
81
82
Aos
Maiz
Tn 200
Trigo
150
100
50
0
75
76
77
78
79
80
81
82
Aos
Pgina 10 de 152
120
100
80
Maiz
Tn 60
Trigo
40
20
0
75
76
77
78
79
80
81
82
Aos
81
79
Aos
Trigo
77
75
0
50
100
150
200
250
300
Tn
Pgina 11 de 152
praderas
34%
bosques
12%
areas urbanas
desiertos
bosques
desiertos
10%
huertas
10%
praderas
huertas
areas sem bradas
areas urbanas
6%
areas sembradas
28%
Pgina 12 de 152
Captulo 2
2.1 Distribuciones de frecuencias, Histogramas
Cuando se realiza una recoleccin de datos muy extensa, por ejemplo, 50 o ms
datos, resulta muy difcil interpretar la informacin recibida.
Una primera investigacin que podramos realizar, sera la de encontrar el mayor valor
y el menor de ellos lo cual nos informara acerca del INTERVALO el cual se
encuentran todos los datos.
Lo segundo podra ser ordenarlos de menor a mayor, pero aun seguira siendo una
larga lista de nmeros.
El siguiente procedimiento, nos permitir ordenarlos e interpretar valiosa informacin
estadstica.
Este ordenamiento consiste en crear CLASES, dentro de las cuales clasificaremos
los datos. El procedimiento es dividir la distancia del INTERVALO en intervalos ms
cortos que llamaremos clases. La pregunta que nos haremos es: en cuantas clases
dividiremos el INTERVALO?
Existe una regla emprica, (prctica) que dice lo siguiente:
Si el total de datos es n, el nmero de clases que buscamos ser
880
875
883
874
915
907
905
890
889
891
846
881
933
928
874
925
892
893
872
911
878
866
885
905
861
955
904
869
866
924
882
893
939
868
910
876
877
867
901
894
885
903
890
920
894
891
916
887
898
879
859
901
915
901
863
899
886
912
923
888
896
897
865
892
857
907
878
870
902
921
891
880
906
883
867
895
889
882
955
846
El INTERVALO es
109
Pgina 13 de 152
ANCHO DE CLASE.
Bien, este ANCHO DE CLASE: 11, nos servir para construir nuestras CLASES.
Por cual nmero comenzaremos?
Es costumbre comenzar exactamente por el menor de los datos encontrados, es
decir 846, pero podramos empezar por algn otro nmero, algo menor por ejemplo
840 y el resultado obtenido sera igualmente vlido.
Para nuestro ejemplo comenzaremos con el mnimo ledo, esto es 846 y lo
utilizaremos como LMITE INFERIOR DE LA CLASE 1.
Para hallar el LMITE DE LA CLASE 2, sumaremos 11 a 846, es decir que el lmite de
la clase 2 es: 857, y el de la clase 3 ser 868.
Nos queda ahora, determinar el LMITE SUPERIOR DE LA CLASE 1 y subsiguientes.
El LMITE SUPERIOR DE LA CLASE 1 ser una unidad significativa menor que el
lmite inferior de la clase 2, es decir: 856 y el lmite superior de la clase 2 ser: 867.
De esta forma las clases sern:
CLASES
1
2
3
4
5
6
7
8
9
10
LIMITE INFERIOR
846
857
868
879
890
901
912
923
934
945
LIMITE SUPERIOR
856
867
878
889
900
911
922
933
944
955
Pgina 14 de 152
CLASES
LMITE
LMITE
DIAGRAMA
FRECUENCIA
INFERIOR
SUPERIOR
DE TILDES
DE CLASE
846
856
857
867
//// ////
868
878
//// //// /
11
879
889
19
890
900
16
901
911
14
912
922
//// //
923
933
////
934
944
10
945
955
84
84
TOTAL
Este perfil obtenido con el diagrama de frecuencias ya nos est dando valiosa
informacin estadstica, vemos que los datos estn concentrados con preferencia
alrededor de la CLASE 4 y que un valor representativo del grupo debera estar
dentro de esa clase.
Para terminar con el estudio de los diagramas de frecuencia, veremos algunas
caractersticas ms que sern necesarias en clculos futuros:
ANCHO DE CLASE, en nuestro ejemplo es 11, y se obtiene como diferencia entre el
lmite inferior de una clase y el lmite inferior de la clase inmediatamente anterior.
MARCA DE CLASE, es el promedio entre los lmites superior e inferior de una clase
determinada. Por ejemplo, para la clase 1 de nuestro ejemplo, tenemos:
Limite inferior de la clase:
Limite superior de la clase:
846
856
Promedio: (846+856)/2 =
851
Por lo tanto, la MARCA DE CLASE del grupo 1 ser 851.En ste punto recordaremos
que al principio de stos clculos mencionamos que era conveniente utilizar un
nmero impar. Ahora explicaremos el porqu de esa recomendacin.
Si el numero no hubiera sido impar, la MARCA DE CLASE, no hubiera sido un
nmero exacto, hubiera tenido un valor decimal que habra que mantener,
necesariamente, y esto trae aparejado, un aumento de las posibilidades de error en
los clculos.
Sin embargo, si pese a la recomendacin de usar impar, prefiri un nmero par, no
habr error si mantiene durante todos los clculos, el valor decimal que se genera
por dicha causa.
Derechos de autor en trmite
Pgina 15 de 152
En nuestro caso, no hay decimales, la marca de clase de la clase uno dio 851
exacto. Luego sumamos el ancho de clase, 11, para hallar las marcas de clases
sucesivas.
CLASES
LMITE
LMITE
MARCA
CLASE
INFERIOR
SUPERIOR
846
856
851
857
867
862
868
878
873
11
879
889
884
19
890
900
895
16
901
911
906
14
912
922
917
923
933
928
934
944
939
10
945
955
950
TOTAL
DE FRECUENCIA
DE CLASE
84
DISTRIBUCIN DE FRECUENCIA:
Se denomina Distribucin de Frecuencia, al resultado de la marca de clase, que
posteriormente ser la variable X y la frecuencia que corresponde para cada valor de
la marca de clase.
Distribucin de Frecuencia:
MARCA
DE FRECUENCIA
CLASE (X)
DE CLASE
851
862
873
11
884
19
895
16
906
14
917
Derechos de autor en trmite
928
939
950
Pgina 16 de 152
84
HISTOGRAMA
Con los datos de la distribucin de frecuencias se procede a construir el histograma.
HISTOGRAMA
19
20
18
16
FRECUENCIA
16
14
14
11
12
9
10
6
4
2
939
950
0
851
862
873
884
895
906
917
928
CLASES
FRONTERA DE CLASE:
La FRONTERA DE CLASE , es un punto en la Clasificacin de clases intercalado
entre las marcas de manera que no caiga en ninguna de las dos clases contiguas.
Esto se logra promediando el Lmite Superior de una clase con el Lmite Inferior de la
siguiente, y tomando un decimal ms que la ltima cifra significativa, segn los datos
que se estudian.
En nuestro ejemplo, la FRONTERA DE CLASE entre la 1 y 2 clase ser: 856,5
Luego entre la 3 y 4 ser : 878.5
Pgina 17 de 152
CLASES
L. I.
L. S.
MARCA
FRONTERAS
FRECUENCIA
846
856
851
845.5
857
867
862
856.5
868
878
873
867.5
11
879
889
884
878.5
19
890
900
895
889.5
16
901
911
906
900.5
14
912
922
917
911.5
923
933
928
922.5
934
944
939
933.5
10
945
955
950
944.5
Total
84
Para terminar de interpretar los HISTOGRAMAS, el alumno puede imaginar que los
valores de las fronteras de clases, estn exactamente en las lneas que separan
cada uno de los bloques del HISTOGRAMA.
2.2 Distribuciones de Frecuencias Acumuladas y Ojivas
La frecuencia total de todos los valores menores que la frontera de clase superior de
un intervalo de clase dado se llama FRECUENCIA ACUMULADA hasta ese intervalo
de clase inclusive.
Una tabla que presente tales frecuencias acumuladas se denomina una
DISTRIBUCIN ACUMULADA.
Un grfico que represente las frecuencias acumuladas por debajo de cualquiera de
las fronteras de clase superiores respecto de dicha frontera se llama un POLGONO
DE FRECUENCIAS ACUMULADAS U OJIVA
A continuacin, desarrollaremos un ejemplo, la altura de 100 estudiantes de una
universidad XYZ, este ejemplo fue tomado del libro Estadstica de Murray R,
Spiegel y lo utilizaremos para varios desarrollos como el que sigue:
Altura en metros.
1.51 - 1.59
1.60 - 1.68
1.69 - 1.77
1.78 - 1.86
1.87 - 1.95
Total
Marca
1.55
1.64
1.73
1.82
1.91
Frecuencias
5
18
42
27
8
100
F. Acumulada F. relativa
5
5
23
18
65
42
92
27
100
8
100
Pgina 18 de 152
Nota: la frecuencia relativa coincide con las frecuencias, simplemente por n=100, si n
es cualquier otro valor, ambas columnas, no coincidirn.
Otros detalles son
Limite inferior
......
1.51
1.60
1.69
1.78
1.87
Limite Superior
......
1.59
1.68
1.77
1.86
1.95
Frontera
1.505
1.595
1.685
1.775
1.865
1.955
Ancho de Clase
.09
.09
.09
.09
.09
100
HISTOGRAMA Y OJIVA
80
60
42
40
20
27
18
0
1,55
1,64
1,73
1,82
1,91
Altura
Pgina 19 de 152
Captulo 3
3 Promedios
La palabra PROMEDIO, es una palabra genrica, es decir, existen varios tipos de
PROMEDIOS.
Los PROMEDIOS que estudiaremos son : MEDIA, MEDIANA, MODA, MEDIA
GEOMTRICA Y MEDIA ARMNICA.
Los promedios tienen en comn que buscan el valor central de los datos estudiados.
Por esta razn se los denomina: MEDIDORES DE LA TENDENCIA CENTRAL.
3.1 Media Aritmtica
Para definir la Media Aritmtica, primero describiremos algunos conceptos bsicos:
NOTACIN DE NDICES:
de los N datos.
NOTACIN DE SUMA:
X1 X 2 ... XN
J 1
X 1 X 2 ... X N
X
N
Muy frecuentemente, uno o varios datos de los registrados se repiten, es dicho caso
la frmula anterior de interpreta de la siguiente manera:
Si los datos : X1, X 2 ,..., XN
se repiten con frecuencia f1 , f2 ,..., fk veces,
entonces la MEDIA ARITMTICA se define de la siguiente forma:
k
f . X f . X ... fk . Xk
X 1 1 2 2
f1 f2 ... fk
fX
j
j1
k
j1
Pgina 20 de 152
3 * 5 2 * 8 4 * 6 1* 2
5.7
3 2 41
Con respecto a los ndices utilizados en las frmulas de las medias, el estudiante
habr notado que en la primera frmula, el subndice utilizado, es N, esto es el total
de unidades consideradas y en el segundo caso, cuando hay repeticin de algunos
datos, el subndice utilizado es k.
En ste ltimo caso k es el numero de datos distintos, sin repeticin, de sta manera,
la sumatoria de las frecuencias ser igual a N
El siguiente ejemplo, aclara lo que hemos dicho:
Datos
3
4
5
8
9
Frecuencia
2
1
3
5
3
De esta forma, la
es:
X 1 W1 X 2 W2 ... X k Wk
W1 W2 ... WK
6. 1
Pgina 21 de 152
menos
8
4
3
11
7
6
3, 11,
Media
Aritmtica
6.5
6.5
6.5
6.5
6.5
6.5
7 y 6
respecto de su MEDIA
igual
Desviacin
=
=
=
=
=
=
+1.5
-2.5
-3.5
+4.5
+0.5
-0.5
total:
+0.00
Probar genricamente que la suma de las desviaciones de X1, X2, ... Xn respecto de
su MEDIA ARITMTICA es cero
Las desviaciones con respecto a la media se denotan de la siguiente manera:
d1 X1
X
d2 X 2
X
...
... ... ...
dN XN
X
Entonces:
n
dj
j1
X
n
j 1
X X
N X
X X
X NX X
N
X X
0
Pgina 22 de 152
(X
a)2
minimo
j1
si y solo si
a= X
Esta propiedad la podemos comprobar usando los datos que se dieron en el ejemplo
de la propiedad n 1
Si a es 6,5 o sea la media aritmtica el resultado de la sumatoria de los cuadrados es
: 41.50
Si a fuera 6 el resultado de dicha suma es 43,00
Se sugiere al alumno calcular el resultado para a = 8
Esta propiedad es conceptualmente importante para futuros desarrollos.
Propiedad n 3
Si n1 nmeros tienen media m1, y n2 nmeros tienen media m2, y ..., nk nmeros
tienen media mk , entonces la media de todos los nmeros es:
Veamos un ejemplo:
Los 90 empleados de la sucursal A de una Empresa ganan en promedio $ 230.000, y
los 75 empleados de la sucursal B ganan en promedio $ 325.000. Cual es el
promedio de sueldos de las dos sucursales?
Propiedad n 4
Esta propiedad parte de la suposicin de que empezamos los clculos suponiendo o
estimando cual podra ser el valor de la MEDIA ARITMTICA, tcnicamente esto
significa que estamos conjeturando la media.
La propiedad se enuncia de la siguiente manera:
Derechos de autor en trmite
Pgina 23 de 152
Donde:
d
N
fd
N
N = f
fd
N
Solucin:
Como dj = Xj - A
es
X j = A + di
N X
X
(A + d)
N
A d A + d
N
Pgina 24 de 152
b)
Para el caso en que X1, X2, ...,XN tengan frecuencias f1, f2, ..., fN
d1 = X1 - A
d2 = X2 - A
...
...
...
dk = Xk - A
Probar que:
fX f(A + d) fA fd A + fd
N
Pues f = N
3.4 Clculo de la media aritmtica para datos agrupados
Para el clculo de la media aritmtica, utilizaremos tres tipos de frmulas. Estas se
denominan frmulas larga, corta y de compilacin respectivamente.
La frmula larga es la aplicacin de la definicin de la MEDIA ARITMTICA es decir
la frmula madre:
fX
X
N
La frmula corta es la aplicacin del mtodo de la MEDIA CONJETURADA, es decir,
donde desde el principio del clculo, conjeturamos el valor de la MEDIA ARITMTICA
como un valor A y determinamos el valor de las diferencias entre dicho valor A y
cada una de las X,
X A+
fd
N
Pgina 25 de 152
X A + c
fu
N
frecuencia
05
18
42
27
08
f=N=100
frecuencia
05
18
42
27
08
f=N=100
fX
07.55
29.52
72.66
49.14
15.28
fX=174.35
fX 174.15 1.74
100
f
frecuencia = f
05
18
desviacin d=X-A
-0.18
-0.09
fd
-0.90
-1.62
Pgina 26 de 152
A: ===>
1.73
1.82
1.91
X A
42
27
08
f=N=100
+0.00
+0.09
+0.18
+0.00
+2.43
+1.44
fd=+1.35
100
5
18
42
27
8
f=100
X A
u
-2
-1
+0
+1
+2
fu
-10
-18
+00
+27
+16
fu=15
fu
15
c 1.73
0.09 1.74
100
N
5, 6, 8, 9, 11, 15, 17
Pgina 27 de 152
6.54
Ejercicio:
En la tabla que sigue, se estudian los pesos de 40 unidades de un producto X, con la
precisin de 1 gramo. Construir la tabla de frecuencias, hallar la media aritmtica, y
calcular la mediana por interpolacin y por clculo directo
138, 146, 168, 146, 161, 164, 158, 126, 173, 145, 150, 140, 138, 142, 135, 132, 147,
176, 147, 142, 144, 136, 163, 135, 150, 125, 148, 119, 153, 156, 149, 152, 154, 140,
145, 157, 144, 165, 135, 128
Los pesos mximo y mnimo son: 176 y 119, el intervalo o rango es 57. Elegiremos un
ancho impar = 7. El diagrama de frecuencias resultante es:
Clases
118-124
125-131
132-138
139-145
146-152
153-159
160-166
167-173
174-180
Marca
clase
121
128
135
142
149
156
163
170
177
de Distribucin
marcas
/
///
///// //
///// ///
///// ////
/////
////
//
/
de frecuencias
1
3
7
8
9
5
4
2
1
f=40
fu
-4
-3
-2
-1
0
1
2
3
4
- 4
- 9
-14
- 8
0
5
8
6
4
fu=-12
Pgina 28 de 152
X A
fu
f
12
7 147
40
c 149
X 147
3
de la MEDIANA, necesitamos 1, que lo toma7 19 datos remos de la clase 149
8 __
9 _ _
5
1 _ _
de las X, 1 producir,
Para hallar la MEDIANA sumaremos este valor hallado, 0,8 a la frontera de la clase
correspondiente, en ste caso, 145.5,
145.5 + 0.8 = 146.3
El resultado del clculo de la MEDIANA por interpolacin es
146.3
Por ltimo, podramos darnos la tarea de ordenar todos los datos, y encontrar el
valor 20 y 21 y hallar la media:
119, 125, 126, 128, 132, 135, .................., 145, 145, 146, 146, 147...........
1. 2, 3, 4,
5, 6, ................., 18, 19, 20, 21, 22..........
De acuerdo a la definicin, la MEDIANA es la media entre los valores 20 y 21, esto
es: 146
3.7 La Moda
Otro de los medidores de la tendencia central es la MODA.
La MODA el valor que ms se repite, es decir el de mayor frecuencia. La MODA
puede no existir, e incluso, puede no ser nica.
Derechos de autor en trmite
Pgina 29 de 152
X1. X2 . ... . XN
G 3 2.4.8 3 64 4
Ejercicio 2 : Hallar a) la media geomtrica y b) la media aritmtica de los nmeros
3, 5, 6, 6, 7, 10 y 12
G
log G
453.600
1
(log 453 .600) 0.8081
7
G 6. 4
1
3 5 6 6 7 10 12 7
7
Pgina 30 de 152
Ejercicio 3 : Los nmeros X1,X2, ... XK ocurren con frecuencia f1, f2 ... fk
f2 veces
logG
Xk Xk ...Xk
fk veces
f2
X1f1 X 2
...X kfk
1
1
f2
f1logX1.f2logX 2 ...fk logX k
log(X1f1 X 2
...X kfk )
N
N
1
N
f logX
j
f.logX
N
j 1
1
1
N
X
j 1
N
1
H N
Ejemplo: Una persona viaja de A a B con una velocidad media de 40 km. por hora y
regresa a 100 Km. por hora. La distancia entre A Y B es de 400 Km.
Entonces:
400 Km
10 h
Tiempo para ir de A a B =
40 Km
h
Tiempo para ir de B a A =
400 Km
4h
100 Km
h
800
Km
57.14 hora
14
Pgina 31 de 152
1
1
N
X
j 1
1
X
2
Km
57.14 hora
1
1
40 100
Pgina 32 de 152
Capitulo 4
4 Medidas de la dispersin de una distribucin de datos.
4.1 Dispersin o Variacin.
La dispersin o variacin de los datos intenta dar una idea de cun repartidos se
encuentran stos.
Hay varias medidas de tal dispersin, siendo las ms comunes el RANGO o
INTERVALO y la DESVIACION TIPICA.
Existen otros estimadores, pero estn fuera del propsito de ste curso.
4.2 Rango o Intervalo
Es la diferencia entre el valor mayor y el valor menor de todos ellos.
Ejercicio:
Hallar el RANGO de los conjuntos :
Grupo 1: 12, 6, 7, 3, 15, 10, 18, 5
Grupo 2: 9, 3, 8, 8, 9, 8, 9, 18
Solucin:
En primer lugar tendremos que ordenar los datos:
Grupo 1 : 3, 5, 6, 7, 10, 12, 15, 18
Grupo 2 : 3, 8, 8, 8, 9, 9, 9, 18
X
N
j 1
j X
X X
Si X1, X2, ...,Xk se repiten con frecuencias f1, f2, ..., fk, la desviacin tpica se expresa
como:
Derechos de autor en trmite
Pgina 33 de 152
f X
k
j 1
f X X
N
pues f=N
j 1
Sobre el tamao de N:
Hay un aspecto importante con respecto al tamao de N. Si N es 30 o menor a 30, el
cociente en la frmula, deber ser N 1. La demostracin de esta conveniencia no
entra en los alcances de este curso, pero debe considerarse que la respuesta es
mejor cuando se divide por N 1. Esta consideracin es extensiva a todos los
desarrollos de frmulas que veremos a continuacin.
Ahora es necesario analizar un aspecto de las denominaciones. Existe en la
bibliografa diversos criterios para la denominacin de la desviacin tpica y de la
media aritmtica.
Pgina 34 de 152
a)
X
N
76
9.5
8
a)
j1
b)
9.5
8 1
3, 8, 8, 8, 9, 9, 9, 18
X
b)
72
9
8
X
8
5.2
b)
j1
9. 0
8 1
4. 1
Ejercicio:
Hallar la DESVIACION TIPICA de las alturas de los 100 estudiantes.
La MEDIA ARITMETICA calculada en el captulo anterior fue de 1.74 mts.
La siguiente tabla contiene la informacin para hacer los clculos:
X
1.55
1.64
1.73
1.82
1.91
F
05
18
42
27
8
(X-1.74)
-0.19
-0.10
-0.01
+0.08
+0.17
(X-1.74)2
0.04
0.01
0.00
0.01
0.03
f(X-1.74)2
0.18
0.18
0.00
0.17
0.23
Pgina 35 de 152
f(X-X)2=0.77
S
f X X
0.77
0.09
100
f (X X )
f (X X )
elevando al cuadrado
f X
fX
N
2XX X 2
N
2XX X 2
fX
fX
N
2 X fX
fX
fX
N
fX
N
fX
N
Pgina 36 de 152
de f
05
18
42
27
08
f=100
X2
fX2
2.40
2.69
2.99
3.31
3.65
12.01
48.41
125.7
89.43
29.18
fX2=304.75
304.75
1.7435 2 0.09
100
por lo tanto
X = A+ d
X A d A d A d
N
entonces : X X A d A d d d
y reemplazan do :
f X - X
f d d
Ahora bien, con sta segunda frmula podemos hacer el mismo desarrollo que
hicimos con la primera y el resultado ser el mismo, por lo tanto la frmula 2 es
fd
N
fd
Pgina 37 de 152
X
1.55
1.64
1.73 ==> A
1.82
1.91
f
05
18
42
27
08
f=100
fd
n
d=X-A
-0.18
-0.09
+0.00
+0.09
+0.18
fd
fd2
0.16
0.15
0.00
0.22
0.26
fd2 = 0.79
fd
-0.90
-1.62
+0.00
+2.43
+1.44
fd = 1.35
0.79 1.35
100 100
0.09
fd
N
fd
f cu
f cu
c*
fu
N
fu
c*
fu
N
fu
Pgina 38 de 152
f
05
18
42
27
08
f = 100
u
-2
-1
+0
+1
+2
fu2
20.00
18.00
00.00
27.00
32.00
fu2 = 97
fu
-10.00
-18.00
+00.00
+27.00
+16.00
fu = 15
SC*
fu
fu
0.09 *
97
15
100 100
0.09
Propiedad n 1
La desviacin tpica puede generalizarse como:
f X a
Propiedad n 2
Es la ms importante de las propiedades de la desviacin tpica.
Pgina 39 de 152
Desviacin Media:
DM
X
j 1
XX
N
XX
Ejemplo:
Hallar la Desviacin Media del conjunto :
2, 3, 6, 8,11
Derechos de autor en trmite
Pgina 40 de 152
Media Aritmtica: 6
DM
2 6 3 6 6 6 8 6 11 6
5
2.8
Si X1, X2, ...,Xk se repiten con frecuencia f1, f2, ..., fk,
Entonces la DM, se puede escribir como:
k
f X
j
DM
j 1
fX X
N
X X
Donde:
f f N
j1
Ejercicio:
Hallar la DM del conjunto a) 3, 5, 6, 7, 10, 12, 15, 18.
b) 3, 8, 8, 8, 9, 9, 9, 18.
Solucin:
a) La media aritmtica es 9.5
DM
X X
N
34
4.25
8
18
2.25
8
X X
N
Ejercicio:
Hallar la DM de las alturas de los 100 estudiantes de la Universidad XYZ.
La Media Aritmtica ya calculada era 1.74
Pgina 41 de 152
Altura = X
1.55
1.64
1.73
1.82
1.91
DM
frecuencia
5
18
42
27
8
f=N=100
fX X
N
X-1.74
0.19
0.10
0.01
0.08
0.17
f X-1.74
0.95
1.80
0.42
2.16
1.36
=6.69
6.69
0.07
100
Limite Superior
1.59
1.68
1.77
1.86
1.95
Frontera
1.595
1.685
1.775
1.865
1.955
Marca de clase
1.55
1.64
1.73
1.82
1.91
Frecuencias
50
1.67
42
1.81
40
27
30
18
20
10
0
1,55
1,64
1,73
1,685
1,82
1,91
1,775
Pgina 42 de 152
Pgina 43 de 152
el Rango o Intervalo.
La Desviacin Tpica.
La Varianza.
La Desviacin Media.
Pgina 44 de 152
Captulo 5
5
CUANTILOS
5.1 DEFINICIN:
Los cuantilos son una familia de Estimadores Estadsticos que se utilizan
indistintamente tanto para estimar la tendencia central de una distribucin como para
calcular valores que nos informe acerca de la dispersin que estos presentan y poder
compararlos entre distribuciones.
Si bien por la importancia de la MEDIANA se la toma fuera de la familia de los
cuantilos, en rigor sta es el primer cuantilo. Es decir, es el valor que, habiendo
ordenado la serie de datos, se encuentra exactamente en el medio de la fila.
Con el mismo criterio podremos encontrar los valores que dividen serie en 4 partes
iguales, es decir, si tenemos una serie de 100 datos, ordenados de menor a mayor,
los datos nmeros 25, 50 y 75 dividen la lista en 4 partes iguales.
Por sta razn, estos cuantilos se denominan : CUARTILOS
Si la serie no fuera de 100 datos, fuera por ejemplo de 180, los datos buscados
serian el 45, el 90 y el 135. Es decir aquel valor que separe el 25%, el 50% y el 75%.
Con el mismo criterio, existen los DECILES, que dividen la serie en 10 partes y los
PERCENTILES, que dividen la serie en 100 partes iguales.
Los QUARTILOS son tres, Q1, Q2 Y Q3
Los DECILES son 9, D1, D2, ... , D9
Los PERCENTILES son 99, P1, P2, ..., P99.
Ntese que la MEDIANA es igual a Q2 = D5 = P50
5.2 MEDIDORES DE LA TENDENCIA CENTRAL
Una buena propiedad de los cuantiles es que no estn afectados por los valores
extremos o de borde, los cuales a veces reflejan anomalas o valores que se apartan
de la distribucin por causas especficas. Los cuantilos utilizan valores que estn
adentro de la distribucin y por lo tanto son valores normales.
Para medir la tendencia central comenzamos por definir los estimadores del
PROMEDIO o valor central de la distribucin:
PROMEDIO CUARTLICO = (Q3 + Q1)/2
PROMEDIO PERCENTLICO, 10 - 90 = (P90+P10)/2
Ntese con mucha atencin que estos valores, no tienen por que coincidir con la
MEDIANA = Q2 = D5 = P50, esto sucede, nicamente si la distribucin es
simtrica , solo as, coincidirn todos los estimadores de la tendencia central. Ms
adelante, al estudiar las distribuciones Gaussianas comprenderemos mejor ste
asunto. En general, las distribuciones reales, no son perfectas, por lo tanto, cada uno
de los estimadores, darn valores parecidos pero no iguales. El estudioso
estadstico, determina, cual de los valores se ajusta mejor a los fines que persigue.
5.3 MEDIDORES DE LA DISPERSIN
Derechos de autor en trmite
Pgina 45 de 152
Q3 - Q1
C90 - C10
(Q3 - Q1)/2
(C90 - C10)/2
dato
18
19
19
21
21
21
23
24
25
26
26
29
30
31
31
32
32
33
33
33
#
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
dato
33
33
34
35
35
35
35
35
35
36
36
38
38
39
39
39
39
40
40
41
#
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
dato
42
43
44
45
46
49
50
55
55
56
57
59
60
60
60
65
65
67
67
68
#
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
dato
70
70
71
73
73
74
75
75
76
78
80
83
83
86
89
92
92
93
95
99
#
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
dato
100
102
105
105
106
108
110
111
112
113
115
118
119
120
122
122
123
124
125
Pgina 46 de 152
X/99:
62
56
62
69.5
(Q3+Q1)/2: (89+35)/2:
(P90+P10)/2 : (113+26)/2:
32.3
27.0
43.5
Como puede observarse, los resultados son bien diferentes, esto se debe a varios
factores, en primer lugar, la distribucin de los datos seleccionados, no son simtricos
ni se parecen a una distribucin Normal o Gaussiana. Si bien an no hemos
estudiado el tema de la distribucin NORMAL o Gaussiana, el alumno ya puede
formarse una idea de que esta importante distribucin es de forma de campana, y
tiende a ser simtrica.
La distribucin que hemos utilizado no lo es, y eso asegura que los distintos
estimadores estadsticos difieran entre si. La pregunta es entonces: para que
sirven? La respuesta es: para comparar, es decir, podemos comparar sucesivas
distribuciones entre s, y ver si se dispersan ms o menos que la anterior y si los
valores centrales se acercan a lo que se especifica. Cual usar?, el que a criterio del
analista responda mejor a los objetivos que se buscan. Lo importante es que una vez
determinado cual ser el estadstico a utilizar, seamos coherentes y utilicemos para
comparar siempre el mismo estadstico.
clase n 1
clase n 2
clase n 3
clase n 4
clase n 5
Fronteras de Lmites de
clases
clases
1.505
1.51-1.59
1.595
1.60-1.68
1.685
1.69-1.77
1.775
1.78-1.86
1.865
1.87-1.95
Marca de frecuencia
clase
de clases
1.55
5
1.64
18
1.73
42
1.82
27
1.91
8
Ojiva
05
23
65
92
100
Pgina 47 de 152
f=100
Supongamos que nos interesa buscar el valor de Q1, esto es el valor 25
De acuerdo con la ojiva, el valor 25 se encuentra en la clase n 3, en esta clase hay
42 datos, pero solo necesitamos 2 para llegar a 25. El razonamiento por interpolacin
es el siguiente:
42 valores que estn en la clase n 3, producen un cambio en el ordenamiento de
dimensin 0.09, es decir el ancho de clase., proporcionalmente, 2, que son los que
necesito, produciran,:0.004
Este valor es la alcuota que debe sumarse, a quin? a la frontera de clase: 1.685,
por lo cual el valor buscado es 1,689, y aproximando, 1,69.
Resultado, Q1 = 1,69
De igual forma., podemos calcular Q3 y con ambos saber cuanto es el intervalo y el
promedio INTERCUARTLICO.
Por ltimo y para dejar el tema completo, calcularemos otro dato, en ste caso, el
valor del percentilo 90, es decir P90.
De acuerdo a la ojiva, el valor 90,
anterior ser:
Pgina 48 de 152
Pgina 49 de 152
Captulo 6
6 Teora elemental de Probabilidades
6.1 Definicin de Probabilidad
6.1.1 Definicin Clsica:
Supongamos que un suceso tiene h posibilidades de ocurrir entre n posibilidades,
cada una de las cuales tiene la misma oportunidad de ocurrir que las dems.
Entonces, la probabilidad de que ocurra E (xito), se describe como:
p Pr E
h
n
n h
h
1 1 p 1 Pr E pues p + q = 1
n
n
Pgina 50 de 152
Certeza absoluta
100%
95%
90%
85%
80%
75%
70%
65%
60%
55%
50%
45%
40%
35%
30%
25%
20%
15%
10%
05%
00%
100%
50%
Imposibilidad absoluta
Casos favorables
Total de casos
12
0.324
37
tambin 32.4%
0 P 100
Pgina 51 de 152
P4 5
1
0.333
3
Pgina 52 de 152
P4 y 5
1 1
1
*
6 6 36
Del ejemplo precedente, se ve que la probabilidad total, en estos casos, esa menor
que la menor probabilidad de los sucesos intervinientes.
Es decir:
Pt Pi
El alumno deber notar que las probabilidades en la segunda regla son menores que
en la primera regla, la circunstancia de que la regla de multiplicar, intuitivamente
generadora de valores mayores que la suma, se explica por la circunstancia de que la
multiplicacin se efecta con nmeros decimales, y esto arroja siempre un valor ms
pequeo, ejemplo:
0.2 * 0.3 = 0.06
donde 0.06 es, pese a la multiplicacin, menor que 0.2 y 0.3.
6.5 Aplicacin de ambas reglas
Se arrojan dos dados, calcular la probabilidad de que se obtenga un 4 y un 5.
Este problema parece el mismo que el anterior pero no es as. el 4 el 5 puede salir
en cualquiera de los dados. Supongamos que un dado es rojo y el otro azul.
Podemos obtener 4 en el rojo y 5 en el azul. o bien 5 en el rojo y 4 en el azul. en
ambos casos satisfacemos lo que el enunciado pide.
Si sale 4 en el rojo (suceso simple), nada impide que salga el 5 en el azul. Entonces
corresponde el producto de las probabilidades.
Lo mismo ocurre para el 4 en el azul y el 5 en el rojo.
Pero, si sale 4 en el rojo y 5 en el azul(suceso compuesto) no puede salir el 5 en el
rojo y el 4 en el azul. Por lo tanto corresponde la suma de las probabilidades de cada
uno de estos sucesos compuestos.
Derechos de autor en trmite
Pgina 53 de 152
1
0.167
6
1
P5 0.167
6
1 1
1
P4 y 5 *
0.0278
6 6 36
1 1
1
P5 y 4 *
0.0278
6 6 36
P4
Pgina 54 de 152
Veamos otro ejemplo, Calcular la probabilidad de hallar una pieza defectuosa y otra
buena si se toman dos piezas de un lote de 20 piezas cuya fraccin defectuosa es
del 5%.
Esto quiere decir que 19 piezas son buenas y una es mala.
Con reposicin:
P(buena) = 19/20 = 0.95
P(mala)
= 1/20 = 0.05
Por lo tanto la probabilidad de que la primera sea buena y la segunda mala es:
0.95 * 0.05 = 0.0475
Pero, otro resultado posible, y que tambin satisface el enunciado del problema es
que la primera sea mala y la segunda buena, el resultado ser el mismo:
0.05 * 0.95 = 0.0475
Y el resultado final ser:
Sin reposicin
Los sucesos posibles son, a)buena - defectuosa y b) defectuosa - buena
Para a) sin reponer la pieza extrada:
19
20
1
Pb
20
Pa
1
0.05
19
19
*
0.05
19
*
Pgina 55 de 152
P blA
Wi pi
Wi pi
Donde:
P blA
Pgina 56 de 152
P blA
4 7
.
Wi pi
28
4 7 10 10 6 2 0.70
Wi pi 10 . 10 10 . 10 40
P blB
6 2
.
Wi pi
12
4 7 10 10 6 2 0.30
Wi pi 10 . 10 10 . 10 40
Ejercicios de comprensin:
Los siguientes problemas se les sugieren resolver al alumno. Los resultados estn al
terminar el enunciado.
Problema 1:
Se tiene un grupo M formado por 4 urnas, con 4 bolillas rojas y 2 azules cada una.
Otro grupo N, formado por 6 urnas conteniendo cada una 3 bolillas rojas y 5 azules.
Se selecciona una urna al azar del grupo de diez y de ella se extrae una bolilla,
tambin al azar, resultando roja.
Cual es la probabilidad de que la urna seleccionada provenga del grupo N ?
Respuesta: 45.80%
Problema 2 :
Supongamos que una caja contiene bolillas blancas y rojas marcadas con P; Q; R
como sigue:
Marcadas con P : 5 blancas y 3 rojas,
Marcadas con Q : 4 blancas y 4 rojas,
Marcadas con R : 1 blanca y 7 rojas.
Se extrae una bolilla al azar y resulta blanca, Cual es la probabilidad de que la
bolilla blanca seleccionada est marcada con la letra P? Cul con la letra Q ? y con
la letra R?
Respuesta: 50,0%, 40,0% y 10,0% respectivamente.
6.8 Ejercicios de aplicacin.
Pgina 57 de 152
Pgina 58 de 152
Captulo 7
7. Anlisis Combinatorio y Probabilidades
7.1 Principio fundamental del anlisis combinatorio.
El anlisis combinatorio nos provee una herramienta muy importante para el clculo
de probabilidades complejas y que no podramos valorizar con los mtodos que
hemos aprendido hasta ahora. Este clculo matemtico se unir a lo visto en el
captulo anterior para desarrollar lo que llamaremos distribucin binomial en el
prximo captulo
El principio fundamental dice:
Si un suceso puede ocurrir de n1 maneras y si cuando ste ha ocurrido, otro
suceso puede ocurrir de n2 maneras, entonces el nmero de maneras en que
ambos pueden ocurrir en el orden especificado es:
n1 * n2
Ejemplo: Si hay 3 candidatos para gobernador y 5 para alcalde, los dos cargos se
pueden ocupar de 3 * 5 = 15 formas.
7.2 Factorial de n.
La factorial de n, denotada por n! se define como:
n! : n(n-1)(n-2)....3*2*1
.
Ejemplos:
5! = 5*4*3*2*1 = 120
4!*5! = 4*3*2*1*5*4*3*2*1 = 2880
Y se define:
Factorial del nmero cero = uno
0! = 1
7.3 Permutaciones.
Una permutacin de n objetos tomados de r en r es una seleccin ordenada de r
objetos de entre n.
El nmero de permutaciones de n objetos tomados de n en n se denota por Pn,r y
viene dado por:
Derechos de autor en trmite
Pgina 59 de 152
7.4 Combinaciones.
Una combinacin de n objetos tomados de r en r es una seleccin de r de ellos,
sin importar el orden de los r escogidos.
El nmero de combinaciones de n objetos tomados de r en r se denota por:
n
n(n 1)(n 2)...(n r 1)
n!
r!
r !(n r )!
r
Son ab, bc y ac
Ntese que ab y ba son la misma combinacin pero no la misma permutacin.
7.5 Probabilidades y anlisis combinatorio.
Para interpretar el tema lo haremos a travs de un ejercicio.
Una caja contiene 8 bolas rojas, 3 blancas y 9 azules.
Si se sacan 3 bolas al azar, determinar la probabilidad de que:
a) las 3 sean rojas
b) las 3 sean blancas
Derechos de autor en trmite
Pgina 60 de 152
8 7 6
14
0.0491, 4.91%
.
.
20
19
18
285
P r1,r2 ,r3
d) Para resolver este caso, que al menos una sea blanca, tenemos dos caminos, el
primero sera calcular la probabilidad de que una sea blanca, de que dos sean
blancas y que las tres sean blancas y luego sumar los tres resultados. Pero otro
camino, que suele ser ms corto, es calcular que ninguna sea blanca y esto restarlo
de uno. Nosotros resolveremos por el segundo camino y se sugiere al alumno que lo
confirme por la otra va.
Pgina 61 de 152
17
3
34
0.5965,
57
20
59.65%
por o tanto :
Pal menos una blanca 1
34 23
0.4035,
57 57
40.35%
e) Una de cada color. Aqu debemos prestar atencin de que no estn pidiendo que
salgan en un orden determinado, El clculo por la va del nmero combinatorio nos
da precisamente el resultado acumulado de todas las alternativas posibles.
8
1
3
1
9
1
20
3
18
0.1895,
95
18.95%
ejemplo:
6
o
6
6
6
6
6
6
6
6
6
Ahora bien la probabilidad de un suceso como cualquiera de los dos descritos es:
Pgina 62 de 152
1 1 5 1 5 1 5
P 66666 * * * *
6 6 6 6 6 6 6
la respuesta es
5 1 5
P
3 6 6
125
0.0322,
3888
3.22%
Pgina 63 de 152
Pgina 64 de 152
Captulo: 8
LAS DISTRIBUCIONES BINOMIAL, POISSON Y NORMAL.
8.1 LA DISTRIBUCIN BINOMIAL
Definicin: Si p es la probabilidad de que ocurra un suceso en un solo intento
(llamada probabilidad de xito),entonces la probabilidad de que el suceso ocurra
exactamente X veces en N intentos ( o sea X xitos y N-X fracasos viene dado por :
N X N X
N!
p X qN X
p q
X ! N X !
X
P X
1 1
2 2
6 2
6!
2!4!
1 1
15
0.2344, 23.44%
2 2
64
Pgina 65 de 152
q p N
N N 1
N N 2 2
N
q p q p ... p
1
2
qN
donde:
N N
, ,... se llaman
1 2
1,
Coeficientes Binomiales
Npq
TRINGULO DE PASCAL
El tringulo de Pascal, nos da los valores de cada trmino del binomio:
1
1
1
1
1
1
2
3
4
1
3
1
4
1
1
5 10
10
5
1
....................................................
Si observamos el desarrollo del binomio de Newton, vemos que cada sumando
representa una probabilidad y, si N, p y q son constantes, cada trmino nos da la
probabilidad para X = 0, 1, 2, ... hasta N.
Por esta razn se lo denomina tambin DISTRIBUCIN BINOMIAL
Si generalizamos tenemos:
q p N P0 P1 P2 ...PN
Por otra parte, q+p = 1 por lo cual la suma anterior tambin es igual a uno.
Pgina 66 de 152
En otra palabras, la probabilidad de que el suceso esperado se cumpla cero vez, una
vez, dos veces, hasta N veces, es igual a uno.
Si graficamos en un sistema de coordenadas un polgono de frecuencias, que
represente la distribucin binomial, tenemos:
P (X)
...
...
...
...
P(3)
P(2)
P(1)
P(0)
P(Np)
P(0)
0
P(1)
|
1
P(2)
|
|
2
P(3)
|
|
|
3
...
Np
...
P(n-3)
|
|
|
n-3
P(n-2)
|
|
n-2
P(n-1)
|
n-1
P(n)
n
Pgina 67 de 152
si p es igual a 0,10
45
probabilidad
40
35
30
25
20
15
10
5
0
0
2
4
6
valor de las X
10
si p es igual a 0,20
35
probabilidad
30
25
20
15
10
5
0
0
2
4
6
valor de las X
10
si p es igual a 0,30
30
probabilidad
25
20
15
10
5
0
0
2
4
6
valor de las X
10
Pgina 68 de 152
si p es igual a 0,40
30
probabilidad
25
20
15
10
5
0
0
2
4
6
valor de las X
probabilidad
25
10
si p es igual a 0,50
20
15
10
5
0
0
1 2 3 4 5 6 7 8 9 10
si p es igual a 0,60
30
probabilidad
25
20
15
10
5
0
0
2
4
6
valor de las X
10
Pgina 69 de 152
si p es igual a 0,70
30
probabilidad
25
20
15
10
5
0
0
2
4
6
valor de las X
10
si p es igual a 0,80
35
probabilidad
30
25
20
15
10
5
0
0
2
4
6
valor de las X
10
si p es igual a 0,90
40
probabilidad
35
30
25
20
15
10
5
0
0
2
4
6
valor de las X
10
Pgina 70 de 152
P X
N
X
N X
p q
X
se reduce a:
P X
Xe
x!
donde
X =
0, 1, 2,...
P X
Np
Np X e Np
X!
Pgina 71 de 152
MEDIA
VARIANZA
DESVIACIN TPICA
BINOMIAL
= Np
2 = Npq
= Npq
POISSON
=
2 =
=
Ejercicio de comprensin:
Entre las 2 y las 4 de la madrugada, el nmero medio de llamadas telefnicas por
minuto que recibe una pequea central telefnica es de 2,5.
Hallar la probabilidad de que durante un minuto concreto se produzcan:
a) cero llamadas
b) una llamada
c) dos llamadas
d) tres llamadas
e) cuatro llamadas o menos
f) ms de seis llamadas
Pgina 72 de 152
a) P(0)
2.5 0 e 2.5
1
1
2.5
0.0821,
0!
12.18
e
b) P(1) =
2.51 e 2.5
2.5
0.2052,
1!
12.18
20.52%
c) P(2) =
2.5 2 e 2.5
6.25
0.2565,
2!
24.37
25.65%
d) P(3) =
2.5 3 e 2.5
15.63
0.2138,
3!
73.10
21.38%
e) P(4) =
2.5 4 e 2.5
39.06
0.1336,
4!
292.38
8.21%
13.36%
P(5) =
2.5 5 e 2.5
97.66
0.0668,
5!
1461.90
6.68%
P(6) =
2.5 6 e 2.5
244.14
0.0278,
6!
8771.40
2.78%
1
2
21
( X
Pgina 73 de 152
curva entre X=a y X=b con a < b representa la probabilidad de que X est entre a y
b . Esta probabilidad se denota por:
Pr{ a < X < b }
VARIABLE CANNICA : Z
Esta importante variable Z , se utiliza para transformar la anterior frmula de Gauss.
La expresin, denominada Unidades Estandard, se define:
Z
Estas unidades Estandard o unidades de Desviacin Tpica, ( pues est dividido por
sigma ) transforma a la ecuacin de Gauss en la siguiente:
1
1 Z2
e 2
2
PROBABILIDADES
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
VALORES DE Z
Pgina 74 de 152
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
DESDE -1 A +1 DESVIACION TIPICA
PROBABILIDADES
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
DESDE -2 A +2 DESVIACION TIPICA
Pgina 75 de 152
PROBABILIDADES
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
DESDE -3 A +3 DESVIACION TIPICA
X Np
Npq
Pgina 76 de 152
40
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
Area bajo la curva entre z = 0 y z = 1,2
b) Entre z = - 0.68 y z = 0
CURVA NORMAL DE GAUSS
45
PROBABILIDADES
40
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
Area bajo la curva entre z = -0,68 y z = 0
Pgina 77 de 152
PROBABILIDADES
40
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
Area bajo la curva entre z = -0,46 y z = 2,21
PROBABILIDADES
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
Area bajo la curva entre z = 0,81 y z = 1,94
Pgina 78 de 152
PROBABILIDADES
30
25
20
15
10
5
0
-3
-2
-1
y z = - 0,6
PROBABILIDADES
35
30
25
20
15
10
5
0
-3
-2
-1
0
1
2
3
Area entre z = -1,28 y z = + infinito
Pgina 79 de 152
14
12
10
8
6
4
2
0
-3
-2
-1
Pgina 80 de 152
La probabilidad de que el dimetro de las bolillas sea mayor que 0.6170 mm es del
11.51%
c) z= (0.6080 - 0.6140) / 0.0025 = 2.40
Para z = 2.40, es 0.4918
El rea buscada es 0.5000 - 0.4918 = 0.0082
Probabilidad = 0.82 %
Ejercicios en clase:
Se desarrollan ejercicios inversos, dado un rea, determinar z.
Ejemplo 1: determinar la nota mnima para el 10% mejor de un curso con media 65 y
desviacin tpica 9.
Ejemplo 2: Calcular a las cuantas horas debern cambiarse las ampolletas de
una ciudad, si la vida media es 750 horas y la desviacin tpica es 35
horas, y se desea hacerlo cuando falle el 20% de las ampolletas.
Pgina 81 de 152
L d d
c
n c c
n
L
n
Para c = 0
20 2
0
5 0
5
20
2
0
0.553
Para c = 1
20 2 2
5 1 1
1
P
0.395
20
5
Para c = 2
20 2 2
5 2 2
2
P
0.053
20
5
Pgina 82 de 152
0,800
0,600
0,400
0,200
0,000
Hipergeomtrica
0,553
0,395
0,053
0,000
0,000
0,000
Binomial
0,591
0,328
0,073
0,008
0,000
0,000
Poisson
0,607
0,303
0,092
0,006
0,000
0,000
Tngase presente que de los tres resultados, los nicos correctos son los de la
Hipergeomtrica, y en los otros datos puede apreciarse el grado de error con los
resultados correctos.
Problema:
En una editorial, en la produccin de un determinado tipo de libro, se espera una
probabilidad de 0.10 de encontrar un error en una hoja de los mismos. Para la
impresin de un libro de 70 hojas deseamos conocer, al revisar 3 hojas al azar, que
probabilidad existe de encontrar ninguna hoja con error.
Solucin:
L = 70
d=7
n=3
c=0
p = 0,10
70 7 7
3 0 0
0
P
0.7254
70
3
Respuesta: 72.54 %
Pgina 83 de 152
n no sea grande,
Para: n = 12 y p = 1/3
La familia binomial tiene las siguientes probabilidades:
P(0)=0.008
P(1)=0.046
P(2)=0.127
P(3)=0.212
P(4)=0.238
P(5)=0.191
P(6)=0.111
P(7)=0.048
P(8) =0.015
P(9) =0.003
P(10)=0.000
P(11)=0.000
P(12) = 0.000
0,238
0,212
0,191
0,127
0,046
0,008
0,111
0,048
0,015
0,0030
0
2
4
6
8
10 12
Distribucin binom ial para p=1/3 y n=12
12
1.63
Pgina 84 de 152
La curva normal, superpuesta, tiene los datos calculados con la frmula anterior:
resulta evidente que existe una buena aproximacin, pese a que n es solo 12.
0
2
4
6
8
10 12
Distribucin binomial para p=1/3 y n=12, con curva
norm al superpuesta
x - 5.5 4
0.92
1.63
Pgina 85 de 152
Por Gauss, la respuesta la da el rea bajo la curva normal entre 5.5. y 6.5.
6.5 4
1.53
1.63
z2
z1
5.5 4
= 0.92
1.63
A 2 0.4370
A 1 0.3212
Restando una de otra rea, el resultado es : 0.116, que, comparada con 0.111
tambin es una buena aproximacin.
Si utilizamos la frmula de 8.1 podremos averiguar z con la siguiente expresin:
z
x np
npq
x
p
z n
pq
n
Es decir que, cuando los datos son entregados en la forma de proporcin de xitos, o
fraccin defectuosa, la curva normal de aproximacin, ser la que se obtiene
utilizando
p
y
pq
n
Pgina 86 de 152
Distribucin Normal: 7.14, 7.15, 7.16, 7.17, 7.18, 7.20, 7.21, 7.22, 7.23, 7.49, 7.50,
7.51, 7.52, 7.54, 7.57, 7.58.
Aproximacin normal a binomial: 7.24, 7.25, 7.26.
Distribucin de Poisson: 7.27, 7.28, 7.29, 7.67, 7.68, 7.71
Pgina 87 de 152
Capitulo 9
Correlacin y Regresin
9.1 Introduccin
Si mediante procedimientos estadsticos, y basndonos en datos histricos,
procedemos a predecir informacin futura, estamos realizando un ANLISIS DE
REGRESIN.
Por ejemplo, con la informacin de las ventas, estacionarias de los tres ltimos aos,
podemos PREDECIR las ventas futuras para los mismos perodos. Otro caso, de
acuerdo con las notas obtenidas por un alumno en la enseanza bsica, podramos
PREDECIR los resultados acadmicos en la Universidad. En ambos casos
estaramos aplicando tcnicas de REGRESIN.
Rpidamente puede advertir, el alumno, las dificultades del mtodo. En el primer
caso, la probabilidad de que la prediccin sea buena, depende de que no hallan
cambios en el escenario de donde se obtuvieron los datos histricos. Si para este
ao, tenemos un nuevo competidor en el mercado, todos los datos histricos no
sern de la misma utilidad y los resultados sern inciertos. En el segundo caso, es
sabido que los estudiantes tienen un marcado cambio en su pasaje de la Bsica a la
Universidad, las razones son mltiples, distinto grado de adaptacin a los nuevos
mtodos de enseanza, cambios biolgicos importantes, motivaciones distintas,
madurez intelectual, etc., Por lo tanto la prediccin, en ste caso, hay que tomarla
con reservas.
Ahora bien, aunque las dificultades existen, el mtodo es matemticamente muy
bueno, y adems los cambios del escenario tambin pueden de alguna manera
considerarse, de manera que es una herramienta valiosa para Marketing, la Gestin
de Compras, Control de Calidad, etc.
Luego de este ANLISIS DE REGRESIN, nos queda el problema de saber que tan
bueno es el ajuste entre las distintas variables, esto significa conocer que tan bueno
es el ajuste entre las variables.
Es decir, el ANLISIS DE CORRELACIN, nos dice con que precisin nos estn
informando la prediccin.
Por ejemplo, un problema de correlacin puede ser, existe relacin entre el consumo
del tabaco y las muertes por afecciones cardacas? Entre la recepcin de radio y la
actividad de las manchas solares? entre la belleza y la inteligencia?.
Por ejemplo, la correlacin entre el consumo de tabaco y las muertes por afecciones
cardacas es elevada, esto quiere decir que, conociendo el consumo de tabaco,
podemos hacer una buena prediccin de la probabilidad de muerte temprana por
afeccin cardaca.
Pgina 88 de 152
x
34
37
36
32
32
y
37
37
34
34
33
x
28
30
32
41
38
y
30
34
30
37
40
x
39
33
30
33
43
y
36
29
29
40
42
x
35
29
34
35
36
y
35
36
37
39
40
x
33
32
33
37
36
y
31
31
36
40
42
x
34
36
34
38
31
y
32
38
31
40
29
Notas de ciencias
Una simple inspeccin visual, nos sugiere que existe una razonable relacin entre los
puntos, la nube sugiere una tendencia a crecer, es decir, a mejores notas en ciencias,
mejores notas en lenguaje, y viceversa. Esta sugerencia es la CORRELACIN, y
nuestro inters ahora es medir esa relacin entre los valores.
Por otra parte, el aspecto general del diagrama de dispersin, es el de una lnea
recta. Para determinar la naturaleza de una tendencia, se busca cualquier propensin
de los puntos de agruparse sobre ambos lados de alguna curva simple o bien a
ambos lados de una lnea recta. Para estas variables seria conveniente poder medir
en alguna forma el grado en que ambas variables se encuentran relacionadas
linealmente. Con el objeto de obtener esta medida, considrense las propiedades
que seria conveniente que tuviera.
Una medida de la relacin tendr que ser independiente de la eleccin del origen
para las variables. Esta propiedad puede obtenerse usando las desviaciones de las
variables mismas. Esto es igual a la definicin de la Desviacin Tpica.
As, se usan las variables xi X e yi Y en lugar de las variables xi e yi para
formar la medida de relacin deseada.
La notacin xi , yi denota el i-simo nmero de nuestra tabla.
Tambin deber ser independiente de la escala de medidas empleada para x e y.
Esta propiedad puede obtenerse dividiendo x entre cantidades que posean las
mismas unidades que x e y. Esto se logra dividiendo por la DESVIACIN TPICA.
Esto significa que lo reducimos a UNIDADES ESTANDARD o sea a la variable Z.
De esta forma describiremos ahora dos variables ui y vi siendo,
ui
x X
vi
y Y
i
Pgina 89 de 152
3
2
1
0
-3
-2
-1
-1
-2
-3
uv
i
i1
COEFICIENTE DE
n1
CORRELACIN. Este coeficiente se denota con la letra r. Si se reemplaza por las
medidas originales la expresin es la siguiente:
n
x
i 1
X yi Y
n 1 sxsy
El resultado de esta ecuacin es un nmero que va desde cero a uno, siendo, cero,
la inexistencia de correlacin, y uno la correlacin total.
Es decir que r toma valores segn la siguiente relacin:
0 r 1
Si la tendencia del diagrama es a decrecer, es decir si la nube de puntos sugiere que
los valores tienden a decrecer, en lugar de crecer como sucede en el ejemplo de las
Derechos de autor en trmite
Pgina 90 de 152
notas que se dio al comenzar este tema, entonces, r toma valores entre 0 y -1,
indicando con cero, otra vez, la inexistencia de correlacin, y con -1 la absoluta
correlacin.
Ntese, que en realidad, cuando la tendencia de los puntos, es a decrecer, se puede
modificar dicha tendencia, mediante un simple cambio de ejes. Por esta razn, el
alumno, debe fijar, como concepto que r toma valores entre 0 y 1.
Cuando es r = 1, significa que son puntos todos sobre una lnea recta. Cuando r = 0
son puntos totalmente dispersos que no guardan entre s ninguna relacin.
Si se calcula r para la tabla de los estudiantes nos da como resultado
r = 0.66
Este resultado indica que existe correlacin, aunque mas bien pobre, es decir,
que no necesariamente, los alumnos que tengan buenas notas en lenguaje
tienen que tener buenas notas en ciencias y viceversa. Lo mismo ocurre con los
alumnos con malas notas.
Una buena correlacin que nos da oportunidad de pasar al anlisis de regresin, es
cuando r supera 0.80. Por supuesto, esto es una sugerencia, el analista es el que
determina el nivel de riesgo con el cual desea trabajar. La regresin es siempre
posible hacerla aunque r sea igual a valores muy bajos cercanos a cero. Lo que
sucede, en estos casos, es que las predicciones no se cumplen.
CALCULO DE r
La frmula dada para definir a r no siempre es conveniente para fines de clculo. Se
obtiene una forma mejor multiplicando factores, insertando valores para Sx y Sy,
empleando algo de lgebra, con los siguientes resultados:
n x
n xy x y
2
n y
Esta ltima frmula, (de no ser necesarias las medias aritmticas de x e y), tiene la
ventaja de que solo se requieren las sumas de: x e y, sus cuadrados y sus
productos.
9.3 Anlisis de Regresin
Como lo sugiere el estudio anterior, la regresin, consiste en reemplazar, la nube de
puntos, por una recta que mejor se ajuste, mediante la cual, podremos leer datos, en
lugares donde la informacin no exista. es decir, que podremos predecir.
Pgina 91 de 152
12
5.27
18
5.68
24
6.25
30
7.21
36
8.02
42
8.71
48
8.42
9
8
7
6
5
12
18
24
30
36
42
48
.
En ste grfico, resulta que x e y estn relacionados en forma aproximadamente
lineal, para sta clase de valores de x.
Por ello, una lnea recta podr ser aplicada a ste grupo de puntos para PREDECIR
los valores de y partiendo de x .
El procedimiento para trazar la lnea recta, partiendo de los datos, se denomina
MTODO DE LOS CUADRADOS MNIMOS. La recta pasar por los puntos que
mejor se ajusten a los datos disponibles, esto es, por los puntos donde las distancias
a los datos sean menores.
Mtodo De Los Cuadrados Mnimos
Por todo lo visto en los prrafos anteriores, la prediccin se reduce al problema de
ajustar una lnea recta a un grupo de puntos.
Ahora bien, la ecuacin de la recta se escribe en la siguiente forma:
y = a + bx
en donde a y b son los parmetros que determinan la recta.
Pgina 92 de 152
As pues:
y = 2 + 3x
e
y = 4 - 2x
representan:
y=2+3x
16
y=4-2x
11
6
1
-7 -4 -4-1
-9
y = a + bx
Pgina 93 de 152
y b x
n
n xy x y
n x 2
X
65
63
67
64
68
62
70
66
Y
68
66
68
65
69
66
68
65
X2
4225
3969
4489
4096
4624
3844
4900
4356
XY
4420
4158
4556
4160
4692
4092
4760
4290
Y2
4624
4356
4624
4225
4761
4356
4624
4225
Pgina 94 de 152
68
67
69
71
71
67
68
70
4624
4489
4661
5041
4828
4489
4692
4970
5041
4489
4624
4900
X=800
y=811
X2=53418
XY=54107
Y2=54849
0.7027
0.4764
35.82
64
66
68
70
72
Pgina 95 de 152
PREDICCIN PARA Y
60
77
79
Pgina 96 de 152
Captulo 10
10 Teora del muestreo
10.1 Muestreo aleatorio
En todas las discusiones referentes al muestreo y a las distribuciones de frecuencias
de muestras siempre se supuso que las muestras se escogan al azar, esto es que el
muestreo era aleatorio.
En trminos de probabilidad, esto implica que la probabilidad de que un cierto
miembro cualquiera sea escogido es igual a 1/N donde N es el nmero total de
individuos de que consta la poblacin.
10.2 Distribucin de muestreo
Matemticamente, y por la teora de probabilidades, puede demostrarse que la
distribucin de X poseer una distribucin normal, si es que X la posee, con el
1
mismo promedio que X, pero con una desviacin tpica que es
veces la
n
desviacin tpica de X. (n es el tamao de una muestra seleccionada de entre N).
Estos resultados matemticos se expresan en la forma de un teorema:
TEOREMA UNO: Si X posee una distribucin normal cuyo promedio es y cuya
desviacin es , entonces el promedio de muestra X en una muestra al azar de
tamao n, poseer tambin una distribucin normal cuya media ser y cuya
X 0.6
3
25
En el siguiente grfico podemos ver las dos distribuciones, la primera, con trazo
delgado, es la distribucin de las X, la segunda, con trazo grueso, es la distribucin
de las medias, en el primer caso, la desviacin tpica vale 3 Kg. y en el segundo
caso, vale 0.6, de acuerdo con los clculos vistos ms arriba.
Por otra parte, el tamao de la muestra que se consulta es, n es igual a 25.
Pgina 97 de 152
70
60
Probabilidad
50
Distribucin de las X
40
30
Distribucin de las
m edias
20
10
0
59
62
65
68
71
Kilogram os
74
77
Pgina 98 de 152
0,25
0,2
0,15
0,1
0,05
0
1
Esta distribucin tiene una media aritmtica = 2.75 y una desviacin tpica igual a
1.48
De esta poblacin, supongamos de 1000 unidades, sacaremos 100 muestras, (con
reposicin) de 10 unidades cada una, se obtuvo el siguiente resultado real:
Clases
1.5 - 1.6
1.7 - 1.8
1.9 - 2.0
2.1 - 2.2
2.3 - 2.4
2.5 - 2.6
2.7 - 2.8
2.9 - 3.0
3.1 - 3.2
3.3 - 3.4
3.5 - 3.6
3.7 - 3.8
X
1.55
1.75
1.95
2.15
2.35
2.55
2.75
2.95
3.15
3.35
3.55
3.75
Tildes
/
//
///// //
///// /////
///// /////
///// /////
///// /////
///// /////
///// ////
/
//
Total
///
///// /
///// ////
///// /
////
Frecuencias
1
0
2
7
13
16
19
16
14
9
1
2
100
Pgina 99 de 152
1.48
0.47
n
10
Por lo tanto vemos que se cumple: a) una muy buena aproximacin de los valores
tericos a los prcticos, y b) que el perfil de la distribucin de las medias se parece
a una normal, pese a que la distribucin de las X es lo menos parecido a una normal.
10.3 Muestreo de Poblaciones Pequeas
En todos los clculos anteriores se ha supuesto que la poblacin era suficientemente
grande como para que la extraccin de la muestra no afectara los resultados, Pero, si
la poblacin es pequea, esta presuncin no es correcta, y debemos corregir de la
siguiente manera:
Si N indica el tamao de la poblacin que se muestrea y n denota el tamao de la
muestra que se toma sin reposicin, entonces puede demostrarse que la frmula :
X
N n
N1
b) n = 10% de N
c) n = 20% de N
Puesto que rara vez tiene objeto tomar muestras de poblaciones menores de 100, y
puesto que N - 1 diferir de N por menos del 1%, entonces, el factor de correccin
se puede simplificar as:
a)
5
0.97
100
b)
10
0.95
100
c)
20
0.89
100
Como recomendacin final sera: usar la frmula original mientras que la muestra sea
menor que el 10% con respecto a N, y la frmula corregida desde el 10% para arriba.
10.4 Distribucin de Muestreo de Proporciones.
El mismo factor de correccin, visto en el prrafo anterior, puede aplicarse a la
desviacin tpica de las proporciones, cuando el tamao de la poblacin es lo
bastante pequeo como para justificarlo.
Las frmulas vistas en el captulo correspondiente para las distribuciones discretas,
esto es, las distribuciones binomiales, nos enseo que el valor ms probable es np
(Ntese que ste valor ms probable, es el equivalente a la media aritmtica de las
distribuciones continuas), siendo n el tamao de las muestras y p la fraccin
defectuosa, es decir la proporcin de defectos que tiene la muestra, el producto
indicado, es decir un nmero discreto, por esto en Control de Calidad a los grficos
np se les llama grficos de defectuosos, porque son las unidades con uno o ms
defectos que encontramos durante las inspecciones. En ese contexto, la desviacin
tpica fue definida cmo: npq . De acuerdo con esto podremos deducir fcilmente
las frmulas correspondientes a la proporcin p dividiendo ambas expresiones por n,
con lo cual np queda reducido a p y la desviacin tpica que era npq quedar
como :
pq
, ntese que al dividir por n entra dentro de la raz como n al cuadrado.
n
pq N n
n N1
x1 x 2 2x1 2x 2
12 22
n1 n 2
Estas frmulas son vlidas para muestreo de poblaciones infinitas o con reposicin.
Los mismos resultados los obtenemos para distribuciones de muestreo de diferencias
de proporciones de dos poblaciones binomialmente distribuidas con parmetros
(p1,q1) y (p2, q2) respectivamente. En este caso las frmulas se expresan como sigue:
p 1 p 2 p 1 - p 2 p 1 - p 2
p1 p 2 p21 p22
p1q1 p 2 q2
n1
n2
Todos los desarrollos vistos sirven para el caso de la suma en lugar de la resta, as
para el primer caso tendramos:
s1 s 2 s1 s 2
y
s1 s2 2s1 2s2
5
0.5
100
XX
1
0.5
5
100
500 100
0.45
500 1
XX
1
2,22
0,45
pq
0.50 * 0.50
0,03536
200
X 0,4000 - 0,5000
2,83
0,03536
Para este valor de z, la tabla nos da un rea de 0,4977, por lo cual, el rea
correspondiente a menos de 40 % ser: 0,500 0,4977 = 0,0023
Respuesta: 0.23 %
b) en este caso tenemos que hacer dos clculos:
z1
0,43 0,50
1.98
0,03536
z2
0,57 0,50
1.98
0,03536
95,22%
c)
z1
0,54 0,50
1,13
0,03536
Solucin:
a) d1 d2 = d1 - d2 = 27.3 15.6 = 11.7 cm
d1 d2
2d1 2d2
b)
d1 d2
Captulo 11
11 Intervalos de confianza
11.1 Estimacin por punto y por intervalo
Uno de los usos ms frecuentes de la estadstica, es la ESTIMACIN de
propiedades de la poblacin.
Las dos distribuciones de frecuencias de poblaciones que se han estudiado han sido
la Binomial y la Normal, por lo tanto, consideraremos sus propiedades.
La Distribucin Binomial,
N X N X
p q
X
PX
pueden
reducirse
X 3 X2
------------------------------------I---I-----I------I-------I----------I--I--I-------------------->
I1
0
I2
eje de las X
Supongamos tener n datos X de una muestra extrada de una poblacin N, de los
cuales en el eje de las X hemos ubicado los 4 primeros datos y el ltimo dato, estos
son X1 , X2 , X3 , X4 y Xn , est implcito que sobre este eje estarn todos los datos de
la muestra.
La media aritmtica de esta muestra es X la cual fue ubicada en un lugar central de
los datos escritos. Por todo lo explicado hasta ahora, la media de la poblacin,
estar cerca del valor anterior pero, probablemente, no coincidir con el valor anterior.
En el grfico, lo hemos escrito a la derecha de X .
con una unidad igual a la desviacin normal. Es decir la tabla normal de Gauss es
una distribucin donde la desviacin tpica vale 1 y la media aritmtica vale cero.
Por otra parte, la variable z
99.73
80.0 68.27
50.0
38.30
1.28 1
0.6745
0.500
1.96 1.645
200
x
20kg / cm2
n
100
Puesto que n es 100, o sea es mayor de 30, de acuerdo con lo visto en la Teora del
Muestreo, Captulo 10, la distribucin de las medias de muestreo, ser normal.
Supongamos ahora que queremos saber cual es la probabilidad de que el valor
encontrado X , no difiera en ms de 50 Kg../cm2de la media de la poblacin :
Este planteo supone dos hiptesis:
a) 5500 -
50
5500-50
b) - 5500 50
5500+50
5500 + 50
5550
Estos sern los valores extremos que nos interesan, transformemos estos valores en
unidades de la variable z (es ambos lados iguales)
z=
5550 5500 50
2.50
20
20
5550
5500
5450
Si lo que queremos hacer es una estimacin del error que tiene una probabilidad de
ser menor al 5%, significar que el intervalo, que comprende el interior de la curva
gaussiana, ser el 95% del rea de la curva normal.
Por otra parte, si queremos que afuera del intervalo, exista 5%, como es simtrico,
ser, 2,5 % a cada lado del intervalo.
Por lo tanto, si en el interior de la figura, entre ambos lmites, tenemos el 95% del
rea, de la mitad hacia cualquiera de los dos lados tendremos el 47.5% del rea, y si
buscamos en la tablas de Gauss, para el dato ms cercanos a dicho a dicho valor,
tenemos que z = 1,96
De acuerdo con lo desarrollado, podemos concluir, que el error de la estimacin, de
un 95% va desde z = -1.96 a z = +1.96.
De esta forma llegamos al concepto de Lmites de Confianza y es el intervalo dentro
del cual estimamos que puede encontrarse el valor de la Media Poblacional llamada
.
La frmula generalizada, la podemos describir como sigue:
Xz
en el caso que hemos desarrollado, estos lmites con 95% de confianza sern:
5500 1.96
200
5500 39
100
200
5500 33
100
o bien:
5467<<5533
Esto ltimo significa que, con un margen de error del 10%, o dicho de otra manera,
con una confianza del 90% podemos decir, que el desconocido valor de la media
poblacional se encuentra entre 5467 y 5533.
Rehacemos el clculo para un 99% de confianza o 1% de error:
200
5500 2.58
5500 52
100
o bien:
5449<<5551
Como se puede apreciar, a medida que aumentamos la confianza, los Limites se
abren ms, cuando somos menos exigentes, los lmites se juntan.
Nivel de Confianza
Lmites de Confianza
90%
95%
99%
5467<<5533
5461<<5539
5449<<5551
n
n 1
El valor de es el que se obtiene de la muestra mayor a 30, y el valor que figura bajo
el signo radical, es el factor que permite estimar, en funcin del valor hallado, cual
sera el valor del parmetro de la poblacin.
n 1
DISTRIBUCIN
de
Student
Error
Grados
De
Libertad
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
60
120
0,50
0,50
0,75
0,25
0,80
0,20
0,85
0,15
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,681
0,679
0,677
2,414
1,604
1,423
1,344
1,301
1,273
1,254
1,240
1,230
1,221
1,214
1,209
1,204
1,200
1,197
1,194
1,191
1,189
1,187
1,185
1,183
1,182
1,180
1,179
1,178
1,177
1,176
1,175
1,174
1,173
1,167
1,162
1,156
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,303
1,296
1,289
4,165
2,282
1,924
1,778
1,699
1,650
1,617
1,592
1,574
1,559
1,548
1,538
1,530
1,523
1,517
1,512
1,508
1,504
1,500
1,497
1,494
1,492
1,489
1,487
1,485
1,483
1,482
1,480
1,479
1,477
1,468
1,458
1,449
0,90
0,10
0,95
0,05
0,98
0,02
0,99
0,01
Ejemplo 1:
Para obtener el valor de t que corresponde a un rea de 0,10 en ambos extremos de
la distribucin combinada, cuando hay 19 grados de libertad, se busca bajo la
columna correspondiente a 0,10 y se baja por ella hasta el rengln de los 19 grados
de libertad; el valor correspondiente de t es 1.729
Distribucin t
-t = 1,729
+t = 1,729
Ejemplo 2:
5500 2.060
200
26 1
5500 82
o bien:
5418<<5582
Como puede apreciarse, los lmites se han abierto significativamente debido a la falta
de confianza en una muestra chica.
11.7
mas probable X np
Pero ahora nos interesa solo p, es decir el % defectuoso, para ello dividimos las
frmulas por el valor de n y nos queda:
Valor mas probable X p
Desviacin Tpica p
pq
n
As, la frmula para los intervalos de confianza para las proporciones o porcentajes
de defectuosos, estar dada por la siguiente expresin:
pq
pz
n
El siguiente listado de ejercicios pertenece al libro Estadstica de Murray Spieguel,
el alumno deber resolverlos como parte de su desarrollo acadmico.
Captulo 9
Ejercicios: 9.5, 9.6, 9.7, 9.9, 9.10, 9.11, 9.12, 9.22, 9.23, 9.24, 9.25, 9.26,
9.27, 9.28, 9.30, 9.31, 9.32, 9.33, 9.34.
Captulo 12
12 Nmeros ndice
12.1 Relaciones de Precios
La Relacin de Precios es el cociente entre el precio de un artculo en un perodo
dado y su precio en otro perodo, conocido como perodo base o perodo de
referencia
p
Re lacin de precios n
po
Problema
Los precios al por menor, en centavos por libra, del cinc en Usa, durante 1978-84
son:
Ao
Precio
cinc
promedio
1978
del 31.0
1979
37.3
1980
37.4
1981
44.6
1982
38.5
1983
41.4
1984
48.6
a) Con 1978 como base, hallar las relaciones de precios correspondientes a los
aos 1982 y 1984
p 1978 / 1982
38.5
1.242 124.2% 124.2
31.0
p 1978 / 1984
48.6
1.568 156.8% 156.8
31.0
b) Con 1980 como base, hallar las relaciones de precios correspondientes a los aos
dados:
Ao
Relacin de precios
1980 = 100
1978
82.9
1979
99.7
1980
100
1981
119.3
1982
102.9
1983
1107
1984
129.9
1978
88.1
1979
106.0
1980
106.3
1981
126.7
1982
109.4
1983
117.6
1984
138.1
1982
100.0
1980
114.2
1981
133.6
1982
132.7
1983
116.1
1984
124.5
1985
116.4
(1977-1980=100)
120 30
1.25 125% 125
120
$80.000 $12000
1.15 115 % 115
$80.000
Re lacin de precios
Relacin de valor
115
0.92 92% 92
Relacin de cantidad 125
Este es un nmero ndice de costo por empleado. Significa que en julio de 1980 el
costo por empleado era el 92% del de enero de 1980.
1.1%
0.9%
1.5%
Abril
Mayo
Junio
0.5%
0.9%
1.2%
Solucin:
a) En primer trmino se debe escribir la relacin de enlace, en forma de ndice, para
cada dato mensual:
Enero
Febrero
Marzo
1.011
1.009
1.015
Abril
Mayo
Junio
1.005
1.009
1.012
p
p
n
o
1980
13.2
139.3
156.2
1981
14.0
148.0
167.2
1985
12.9
141.1
162.0
p
p
n
0
b)
p
p
n
o
/ po
Problema
Calcular un ndice de precios al por mayor para el ao 1985, usando 1980 como
base.
Precios (centavos por libra)
Leche
Mantequilla
Queso
1980
13.23
139.3
156.2
1981
13.95
148.0
167.2
1985
12.90
141.1
162.0
Relacin de precios.
De la leche:
De la mantequilla:
Del queso:
12.90/13.23= 97.5%
141.1/139.3=101.3%
162.0/156.2=103.7%
/ po
Con el fin de evitar las desventajas del mtodo de agregacin simple, asignamos un
peso al precio de cada artculo, en general la cantidad vendida durante el ao base,
durante el ao dado o durante algn ao tpico. Tales pesos indican la importancia del
artculo en cuestin. Se usan las siguientes frmulas de pendiendo de p o y pn,
p
p
nqo
o qo
p
p
n qn
o qn
Con los datos de la tabla calcular el ndice de Laspeyres para 1985 con a) 1980 b)
con 1980-1981 de base:
a)
p q
p q
b)
Este ejercicio de debe realizar en clase formando grupos de alumnos.
1980
13,23
139,3
156,2
1981
13,95
148,0
167,2
1985
12,90
141,1
162,0
Cantidad
libras)
1980
128500
1145
2381
millones
1981
132800
1228
2664
de
1985
143700
1248
2854
Con los datos de la tabla calcular el ndice de Paasche para 1985 con a) 1980 b)
con 1980-1981 de base:
a) Base: 1980
p q
p q
n
p q
p q
1974
1975
Salario
96.32
102.68 108.86 114.60 121.66 130.20 138.62 147.38 158.03 163.85 171.05
Indice
de
precio
106.2
117.9
128.7
1976
136.1
1977
144.9
1978
155.9
1979
173.5
1980
197.0
1981
217.4
1982
230.7
1983
238.1
Solucin:
Hallamos primero un nmero ndice de precios al consumo con 1973 como base,
dividiendo todos los nmeros de la fila de abajo en la tabla por 106.2, en %, Luego se
divide cada salario promedio por el correspondiente nmero ndice para obtener los
salarios reales.
Ao
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
Indice
(1973
=100)
100.0
111.0
121.2
128.2
136.4
146.8
163.4
185.5
204.7
217.2
224.2
Salario
real
96.32
92.50
89.82
89.39
89.19
88.69
84.83
79.45
77.20
75.44
76.29
El salario real a 1983 es 171.05/224.2%=76.29. Los salarios se han casi doblado, los
salarios reales han decrecido, el salario real en 1983 era 20 pesos menor que el de
1973. En sntesis, el poder adquisitivo disminuy en 20/96.32=21%
Captulo 19: 19.1, 19.4, 19.5, 19.7, 19.8, 19.13, 19.20, 19.39, 19.41, 19.45, 19.48,
19.49, 19.50, 19.51, 19.52, 19.53, 19.55, 19.57, 19.61, 19.62, 19.77
Captulo 13
13 Series en el tiempo.
13.1 Anlisis de series en el tiempo
Una serie en el tiempo son observaciones tomadas en momentos determinados
preferentemente a intervalos regulares. Normalmente estas observaciones se
grafican dando as los llamados Grficos de series de Tiempo.
Para explicar en que consiste el anlisis que nos interesa, recurriremos a un ejemplo
tomado del libro de Estadstica de M. Spieguel. Se trata de la Produccin de energa
elctrica no industrial en E.E.U.U. en el perodo 1976-1981.
En este grfico podremos describir dos tipos de observaciones, dependiendo de que
es lo que queremos averiguar.
La primera observacin del comportamiento alterno, si se quiere violento en sus
variaciones, es que el conjunto muestra una tendencia a crecer, a incrementarse con
el tiempo.
La segunda observacin ser que las ondulaciones del grfico sugieren variaciones
estacionales donde se repiten situaciones sucesivas de crecimientos muy rpidos
seguidos de depresiones de casi iguales caractersticas.
El anlisis de la serie va a depender, precisamente, del tipo de informacin que
necesitamos.
Si lo que buscamos es el comportamiento al largo plazo, nos va a proporcionar la
informacin requerida una regresin lineal o un anlisis de la tendencia. Cualquiera
de estos dos procedimientos, nos proporciona una recta que pasa por los lugares
mas cercanos a todos los puntos representando as a todo el conjunto. Estas rectas
se utilizan especialmente para predecir. Este concepto correlacin y regresin, ya
fue visto en el Captulo 9 de este Apunte.
Pero, si lo que nos interesa son las fluctuaciones en el corto y mediano plazo, nos
interesar conocer las causas de las fluctuaciones, predecirlas pero en el corto plazo,
ver la regularidad, si existe, de dichos ciclos. para eso lo que nos conviene es
suavizar
las movimientos enrgicos de los datos individuales, y para ello
recurriremos a los llamados Promedios Mviles.
La funcin de estos Promedios Mviles es disminuir la variacin de los datos
individuales y los transforma de ondas ms suaves donde podemos analizar la
periodicidad, si existe, asimilarla a perodos temporales como invierno, verano, noche
y da, o cualquier otra causa que pudiera deducirse como responsables de las
variaciones que se estudian.
Existen promedios mviles para tres perodos, cinco perodos, siete, etc. Es
preferible por razones que veremos adelante utilizar promedios mviles impares
para poder representar los grficos correctamente.
Si por necesidad se utiliza un promedio mvil par, se lo denomina no centrado.
Los promedios mviles no centrados pueden centrarse, repitiendo los
promedios de nuevo, pero utilizando la misma serie obtenida.
A continuacin se analiza cada caso.
Derechos de autor en trmite
En las dos primeras pginas figuran en columnas: a) los perodos estudiados, b) los
valores correspondientes a cada perodo considerado (consumos mensuales), c) los
valores que describen la Tendencia, d) los valores que describen la Recta de
Regresin, e) los Promedios Mviles de tres meses, f) los Promedios Mviles de 5
meses.
Los grficos muestran sucesivamente:
Grfico 1: La variacin de los consumos mensuales
Grfico 2: Las rectas de Tendencia y de Regresin Lineal correspondientes a
los consumos anteriores.
Grfico 3: El Promedio Mvil de 3 meses
Grfico 4: El Promedio Mvil de 5 meses.
Grfico 5 : Todos los grficos juntos.
La interpretacin sera la siguiente:
El consumo muestra un crecimiento sostenido a lo largo del perodo estudiado. El
incremento del perodo puede estimarse en 13% considerando los promedios del
primero y el ltimo ao.
El promedio mvil de 3 meses es insuficiente para descubrir las variaciones
estacionales, pero el de 5 meses muestra claramente 6 variaciones estacionales
correspondientes a los aos estudiados, estas variaciones estacionales anuales
corresponden al incremento de consumo en los meses de invierno y su decrecimiento
en la temporada de verano.
Por otra parte, debemos considerar lo siguiente, los promedios mviles estudiados de
3 y 5 meses se los llama centrados pues el valor hallado puede asignarse al mes del
medio de la serie. Si por alguna razn se toma un nmero par de meses, el valor
obtenido se lo denomina no centrado pues el valor hallado se encuentra entre los
dos valores centrales, y esto debe tenerse en cuenta en caso de necesitar
graficarlos. Una buena solucin es volver a promediar de a pares los valores
obtenidos con lo que se vuelven a centrar. Este caso se discute en clase.
Hemos mencionado hasta ahora dos tipos de movimientos de las series estacionales,
al primero lo hemos denominado tendencia y recibe tambin el nombre de
movimiento secular o de largo plazo. Al segundo lo llamamos variaciones
estacionales que se suceden dentro del ao, pero estos no son los nicos
movimientos de una serie, existen los llamados ciclos con las mismas caractersticas
que los estacionales, pero que no se ajustan a un perodo anual sino que pueden ser
menores o mayores a un ao, son muy conocidos los llamados ciclos econmicos
que representan prosperidad, recesin, depresin y recuperacin. Otro caso pueden
ser los llamados Movimientos irregulares o aleatorios, estos movimientos se
producen a consecuencia de hechos muy significativos, como puede ser guerra,
terremotos y otros que producen un cambio del escenario que hasta ahora
funcionaba y este cambio producir una interferencia muy importante hasta que se
establezca un nuevo panorama, que permita nuevamente la prediccin estadstica.
1976
TIEMPO
VALORES
MENSUALES
ERO
FRO
MZO
ABR
178,2
156,7
164,2
153,2
TENDENCIA
170,5
170,8
171,2
171,5
REGRESION
169,9
170,3
170,6
171,0
PROMEDIO
PROMEDIO
MOVIL DE
MOVIL DE
TRES MESES CINCO
MESES
166,4
158,0
158,3
162,0
160,8
1977
1978
1979
1980
MYO
JUN
JUL
AGO
SET
OCT
NOV
DIC
ERO
FRO
MZO
ABR
MYO
JUN
JUL
AGO
SET
OCT
NOV
DIC
ERO
FRO
MZO
ABR
MYO
JUN
JUL
AGO
SET
OCT
NOV
DIC
ERO
FRO
MZO
ABR
MYO
JUN
JUL
AGO
SET
OCT
NOV
DIC
ERO
FRO
MZO
ABR
MYO
JUN
JUL
AGO
SET
157,5
172,6
185,9
185,8
165,0
163,6
169,0
183,1
196,3
162,8
168,6
156,9
168,2
180,2
197,9
195,9
176,0
166,4
166,3
183,9
197,3
173,7
173,2
159,7
175,2
187,4
202,6
205,6
185,6
175,6
176,3
191,7
209,5
186,3
183,0
169,5
178,2
186,7
202,4
204,9
180,6
179,8
177,4
188,9
200,0
188,7
187,5
168,6
175,7
189,4
216,1
215,4
191,4
171,9
172,3
172,6
173,0
173,4
173,7
174,1
174,4
174,8
175,2
175,5
175,9
176,2
176,6
177,0
177,3
177,7
178,0
178,4
178,8
179,1
179,5
179,8
180,2
180,6
180,9
181,3
181,7
182,0
182,4
182,7
183,1
183,5
183,8
184,2
184,5
184,9
185,3
185,6
186,0
186,3
186,7
187,1
187,4
187,8
188,1
188,5
188,9
189,2
189,6
189,9
190,3
190,7
171,4
171,7
172,1
172,4
172,8
173,2
173,5
173,9
174,2
174,6
175,0
175,3
175,7
176,1
176,4
176,8
177,1
177,5
177,9
178,2
178,6
178,9
179,3
179,7
180,0
180,4
180,8
181,1
181,5
181,8
182,2
182,6
182,9
183,3
183,6
184,0
184,4
184,7
185,1
185,5
185,8
186,2
186,5
186,9
187,3
187,6
188,0
188,4
188,7
189,1
189,4
189,8
190,2
161,1
172,0
181,4
178,9
171,5
165,9
171,9
182,8
180,7
175,9
162,8
164,6
168,4
182,1
191,3
189,9
179,4
169,6
172,2
182,5
185,0
181,4
168,9
169,4
174,1
188,4
198,5
197,9
188,9
179,2
181,2
192,5
195,8
192,9
179,6
176,9
178,1
189,1
198,0
196,0
188,4
179,3
182,0
188,8
192,5
192,1
181,6
177,3
177,9
193,7
207,0
207,6
195,1
166,7
171,0
173,4
174,6
173,9
173,3
175,4
175,0
176,0
173,5
170,6
167,3
174,4
179,8
183,6
183,3
180,5
177,7
178,0
177,5
178,9
177,6
175,8
173,8
179,6
186,1
191,3
191,4
189,1
187,0
187,7
187,9
189,4
188,0
185,3
180,7
184,0
188,3
190,6
190,9
189,0
186,3
185,3
187,0
188,5
186,7
184,1
182,0
187,5
193,0
197,6
198,2
196,0
1981
OCT
NOV
DIC
ERO
FRO
MZO
ABR
MYO
JUN
JUL
AGO
SET
OCT
NOV
DIC
178,5
178,6
195,6
205,2
179,6
185,4
172,4
177,7
202,7
220,2
210,2
186,9
181,4
175,6
195,6
191,0
191,4
191,8
192,1
192,5
192,8
193,2
193,6
193,9
194,3
194,6
195,0
195,4
195,7
196,1
190,5
190,9
191,2
191,6
192,0
192,3
192,7
193,1
193,4
193,8
194,1
194,5
194,9
195,2
195,6
182,8
184,2
193,1
193,5
190,1
179,1
178,5
184,3
200,2
211,0
205,8
192,8
181,3
184,2
191,9
189,9
187,5
188,9
187,6
184,1
183,6
191,7
196,6
199,5
200,3
194,9
189,9
230
220
210
200
190
180
170
160
150
1981
1981
1980
1980
1979
1979
1978
1978
1977
1976
1976
1977
140
230
220
210
200
190
180
170
160
150
1981
1981
1980
1980
1979
1979
1978
1978
1977
1977
1976
1976
140
Pgina
RECTAS MUESTRAN LA LINEA
DE133 de 152
REGRESION
(ROJO)
Y LA TENDENCIA
(AZUL)
Uso acadmico exclusivo,
prohibida
su reproduccin
sin consentimiento
del autor
GRAFICO 2
220
210
200
190
180
170
160
150
1981
1980
1980
1979
1979
1978
1978
1977
1976
1976
1977
140
1981
230
230
220
210
200
190
180
170
160
150
1981
1981
1980
1980
1979
1979
1978
1978
1977
1977
1976
1976
140
230
220
210
200
190
180
170
160
150
1981
1981
1980
1980
1979
1979
1978
1978
1977
1976
1976
1977
140
1976
1977
1978
1979
1980
1981
Ero
178.2
196.6
197.3
209.5
200.0
205.2
Fro
156.7
162.8
173.7
186.3
188.7
179.6
Mzo
164.2
168.6
173.2
183.0
187.5
185.4
Abr
153.2
156.9
159.7
169.5
168.6
172.4
Myo
157.5
168.2
175.2
178.2
175.7
177.7
Jun
172.6
180.2
187.4
186.7
189.4
202.7
Jul
185.9
197.9
202.6
202.4
216.1
220.2
Ago
185.8
195.9
205.6
204.9
215.4
210.2
Set
165.0
176.0
185.6
180.6
191.5
186.9
Oct
163.6
166.4
175.6
179.8
178.5
181.4
Nov
169.0
166.3
176.3
177.4
178.6
175.6
Dic
183.1
183.9
191.7
188.9
195.6
195.6
PROMEDIO ANUAL
169.6
176.6
183.7
187.3
190.5
191.1
1976
1977
1978
1979
1980
1981
Total
Media
ERO
105.1
111.2
107.4
111.9
105.0
107.4
648.0
FRO
92.4
92.2
94.6
99.5
99.1
94.0
571.8
MZA
96.8
95.5
94.3
97.7
98.4
97.0
579.7
ABR
90.3
88.8
86.9
90.5
88.5
90.2
535.2
MYO
92.9
95.2
95.4
95.1
92.2
93.0
563.8
JUN
101.8
102.0
102.0
99.7
99.4
106.1
611.0
JUL
109.6
112.1
110.3
108.1
113.4
115.2
668.7
AGO
109.6
110.9
111.9
109.4
113.1
110.0
664.9
SET
97.3
99.7
101.0
96.4
100.5
97.8
592.7
OCT
96.5
94.2
95.6
96.0
93.7
94.9
570.9
NOV
99.6
94.2
96.0
94.7
93.8
91.9
570.2
DIC
108.0
104.1
104.4
100.9
102.7
102.4
622.5
108.0
95.3
96.6
89.2
94.0
101.8
111.5
110.8
98.8
95.2
95.0
103.8
Esta ltima fila son los datos buscados y representan los ndices Estacionales
120
110
100
90
80
70
60
50
ER
O
FR
O
M
ZO
A
B
R
M
YO
JU
N
JU
L
A
G
O
SE
T
O
C
T
NO
V
D
IC
Porcentaje de variacin
Indices Estacionales
Perodo 1976-1986
Meses
Capitulo 14
14 Pruebas de Hiptesis
Los casos prcticos de la toma de decisiones, se ven muchas veces ayudados por
pruebas estadsticas que nos ayudan a decidir si algo es diferente que otro, si ambos
pertenecen a una misma familia o si son estadsticamente diferentes. Estos
procedimientos estadsticos tienen la virtud de que se puede conocer el riesgo que se
tiene al tomar las diferentes decisiones.
14.1 Hiptesis Estadsticas
El siguiente procedimiento es un mtodo formal (y antiguo) de mencionar las
diferentes alternativas de decisiones.
Hiptesis nula = H0
Esta hiptesis se plantea con el propsito de probar si lo que se dice es verdad y se
plantea lo inverso como alternativa. Se dice que no es verdad lo que se quiere
demostrar. Por ejemplo, si sospechamos que una moneda es falsa y queremos
demostrarlo, partimos de la Hiptesis Nula de que la moneda es buena.
Esta Hiptesis la designaremos como H0.
Hiptesis Alternativa = H1
Todo lo que difiera de la Hiptesis Nula, se denomina Hiptesis Alternativa.
Por ejemplo, si una Hiptesis Nula, fuera p = 0,5, Hiptesis Alternativa, podra ser:
P = 0,7 p 0,5 p > 0,5 etc.
La Hiptesis Alternativa se denota como H1.
14.2 Contrastes de Hiptesis y significacin, o reglas de decisin.
En ciertas circunstancias, la informacin que rodea un experimento sustenta la idea
de que algo es de determinada manera, pero los resultados de los ensayos no
parecen apoyar nuestra presuncin. En esas circunstancias, diremos que los
resultados resultan significativamente diferentes y nos veremos inclinados a rechazar
la hiptesis o al menos a no aceptarla.
Por ejemplo, supongamos que tenemos un dado que creemos bueno, pero al
arrojarlo 60 veces el 1 aparece 18 veces, esto esta muy alejado de las probables 10
veces que serian si el dado esta bueno, por ello nos vemos inclinados a rechazar la
Hiptesis de que el dado es bueno. Sin embargo, la duda es factible, pues solo por
azar, el 1 podra salir 18 veces, existe una probabilidad mensurable que apoya que
eso es posible, sin que el dado este realmente malo.
Los ensayos, test o contrastes de hiptesis, significacin o reglas de decisin, nos
ayudan a decidir si aceptamos o rechazamos las Hiptesis.
Derechos de autor en trmite
Tipo II:
Decisin
Acepto H0
Rechazo H0
Si es H0 Verdad
Decisin correcta
Error de Tipo I
Si es H0 Falsa
Error de Tipo II
Decisin correcta
Las reglas de decisin se disean para que los errores de tipo I y II sean los menores
posibles, pero no es sencillo, pues cuando se minimiza unos de ellos, va en perjuicio
del otro. La nica forma de minimizar los dos tipos de errores es aumentando el
tamao de la muestra, y eso no es siempre posible.
14.4 Nivel de significacin
Cuando hacemos un contraste de hiptesis debemos considerar, antes de realizar el
ensayo, cual ser el riesgo que estaremos dispuestos dispuetos a correr respecto del
error Tipo I, o sea de rechazar algo que es verdad. Este riesgo, expresado como
probabilidad, e indicado como , ser el mximo que estamos dispuesto a tolerar y lo
llamaremos Nivel de Significacin del test de Hiptesis.
En la prctica es frecuente un nivel de significacin de 0,05 0,01, aunque hay
otros.
Si se escoge 0,05 (5%), al disear una regla de decisin, significa que hay 5
oportunidades entre 100 de rechazar la hiptesis cuando se debiera haber aprobado.
Es decir, tenemos un 95% de confianza de que hemos adoptado la decisin correcta.
En este caso decimos que la hiptesis ha sido rechazada al nivel de significacin
0,05, lo cual quiere decir que la hiptesis tiene una probabilidad 0,05 de ser falsa.
0,95
Regin crtica
0,025
Regin crtica
0,025
z=-1,96
z=+1,96
La figura nos muestra que podemos tener 95% de confianza de que si la hiptesis
es verdadera, el valor de z para un estadstico de la muestra S,
estar
comprendida entre -1.96 y +1.96. Por otra parte, si al sacar una muestra y calcular su
estadstico, y determinar su correspondiente valor de z nos da un valor fuera del
intervalo indicado, podremos concluir que dicho evento, podra suceder solo en el
5% de los casos y por ello nos veramos inclinados a rechazar la hiptesis. As
decimos que se rechaza a un nivel de significancia del 0.05. o que el valor de z es
significativo al nivel 0.05.
El conjunto de z fuera del rango 1.96 a +1.96 se llama regin crtica de la
hiptesis, regin de rechazo de la hiptesis o regin de significacin. El conjunto
de z en el rango interior se conoce como regin de aceptacin de la hiptesis o
regin de no significacin.
REGION DE
RECHAZO
REGION DE
APROBACION
REGION DE
RECHAZO
0.10
0.05
0.025
-1.28 o -1.645 o -1.96
+1.28
+1.645
+1.96
-1.645 y -1.96
y -2.24
1.645
1.96
2.24
0.01
o -2.33
+2.33
y -2.58
2.58
0.005
0.002
o -2.58 o -2.88 o
+2.58
+2.88
y -2.81
-3.08 y
y 2.81
3.08
Regin crtica
0,005 del rea
Regin crtica
0,005 del rea
x media
Regin crtica
0,05 del rea
Regin crtica
0,05 del rea
x media
Nivel de significancia de 0,5
Regin crtica
0,25 del rea
Regin crtica
0,25 del rea
x media
Si se conoce
Distribucin Normal, tabla z
Distribucin Normal, tabla z
Si no se conoce
Distribucin Normal, tabla z
Distribucin Student, tabla t
Una tienda de artculos deportivos ha iniciado una promocin especial para sus
esqus de alta montaa y piensa que la promocin deber culminar en un cambio de
precio. Sabe que, antes de comenzar la promocin, el precio promedio, al menudeo
del esqu, era de $41,95 con = $5.36. La tienda saca una muestra en 16 de sus
detallistas y descubre que el precio promedio de los esqus, es ahora $38.95. En un
nivel de significancia de 0.02 tiene motivos para pensar que el precio promedio al
menudeo ha disminuido?
Regin crtica
0,02 del rea
38,95
39,2
x = $38.95
n = 16
H0 = $41.95
41,95
= $ 5.36
H0 : = $41.95
H1 : < $41.95
5.36 5.36
x
1.34
4
16
x = $151
n = 121
H0 = $144
= $ 52
H0 : = $144
H1 : > $144
x
52
52
4.73
121 11
x = 13.000 Hs.
n = 25
H0 = 14.500Hs.
= 2.100Hs.
H0 : = 14.500Hs.
H1 : < 14.500Hs.
2.100 2100
x
420 Hs.
5
25
Captulo 15
15 Anlisis de Varianza
15.1 Distribucin F
La razn F llamada tambin razn de varianzas, se utiliza para probar la hiptesis
referida a la igualdad de dos varianzas poblacionales estimadas. Se la utiliza para
analizar diferencias entre varianzas de muestras.
Supongamos tener una poblacin gaussiana y que extraemos de ella dos muestras
de tamao n1 y n2 . De cada muestra calculamos la desviacin tpica, S 1 y S2. La
razn F se expresa as:
s12
s 22
I
36
33
35
34
32
34
II
35
37
36
35
37
36
III
35
39
37
38
39
38
IV
34
31
35
32
34
33
34.00
36.00
37.67
33.17
2X 4.10
Luego :
2X
n 2X
n
n
finalmente :
1.41
0.89
1.51
1.47
2.00
0.79
2.28
2.16
Vc
Vm 6 * 4.10 24.60
Clculo de F:
Vm 24.60
13.60
Vc 1.808
De tablas al 5%:
Para: V1 = 3 y V2 = 20
Es :
F0=3.10
Conclusin:
Se rechaza la Hiptesis de que
el catalizador no tiene efecto en
los rendimientos.
Distribuciones de F
1%
1%
10
11
12
14
16
20
40
100
4052
4999
5404
5624
5764
5859
5928
5981
6022
6056
6083
6107
6143
6170
6209
6286
6334
98,50
99,00
99,16
99,25
99,30
99,33
99,36
99,38
99,39
99,40
99,41
99,42
99,43
99,44
99,45
99,48
99,49
34,12
30,82
29,46
28,71
28,24
27,91
27,67
27,49
27,34
27,23
27,13
27,05
26,92
26,83
26,69
26,41
26,24
21,20
18,00
16,69
15,98
15,52
15,21
14,98
14,80
14,66
14,55
14,45
14,37
14,25
14,15
14,02
13,75
13,58
16,26
13,27
12,06
11,39
10,97
10,67
10,46
10,29
10,16
10,05
9,96
9,89
9,77
9,68
9,55
9,29
9,13
13,75
10,92
9,78
9,15
8,75
8,47
8,26
8,10
7,98
7,87
7,79
7,72
7,60
7,52
7,40
7,14
6,99
12,25
9,55
8,45
7,85
7,46
7,19
6,99
6,84
6,72
6,62
6,54
6,47
6,36
6,28
6,16
5,91
5,75
11,26
8,65
7,59
7,01
6,63
6,37
6,18
6,03
5,91
5,81
5,73
5,67
5,56
5,48
5,36
5,12
4,96
10,56
8,02
6,99
6,42
6,06
5,80
5,61
5,47
5,35
5,26
5,18
5,11
5,01
4,92
4,81
4,57
4,41
10
10,04
7,56
6,55
5,99
5,64
5,39
5,20
5,06
4,94
4,85
4,77
4,71
4,60
4,52
4,41
4,17
4,01
11
9,65
7,21
6,22
5,67
5,32
5,07
4,89
4,74
4,63
4,54
4,46
4,40
4,29
4,21
4,10
3,86
3,71
12
9,33
6,93
5,95
5,41
5,06
4,82
4,64
4,50
4,39
4,30
4,22
4,16
4,05
3,97
3,86
3,62
3,47
13
9,07
6,70
5,74
5,21
4,86
4,62
4,44
4,30
4,19
4,10
4,02
3,96
3,86
3,78
3,66
3,43
3,27
14
8,86
6,51
5,56
5,04
4,69
4,46
4,28
4,14
4,03
3,94
3,86
3,80
3,70
3,62
3,51
3,27
3,11
15
8,68
6,36
5,42
4,89
4,56
4,32
4,14
4,00
3,89
3,80
3,73
3,67
3,56
3,49
3,37
3,13
2,98
16
8,53
6,23
5,29
4,77
4,44
4,20
4,03
3,89
3,78
3,69
3,62
3,55
3,45
3,37
3,26
3,02
2,86
17
8,40
6,11
5,19
4,67
4,34
4,10
3,93
3,79
3,68
3,59
3,52
3,46
3,35
3,27
3,16
2,92
2,76
18
8,29
6,01
5,09
4,58
4,25
4,01
3,84
3,71
3,60
3,51
3,43
3,37
3,27
3,19
3,08
2,84
2,68
19
8,18
5,93
5,01
4,50
4,17
3,94
3,77
3,63
3,52
3,43
3,36
3,30
3,19
3,12
3,00
2,76
2,60
20
8,10
5,85
4,94
4,43
4,10
3,87
3,70
3,56
3,46
3,37
3,29
3,23
3,13
3,05
2,94
2,69
2,54
21
8,02
5,78
4,87
4,37
4,04
3,81
3,64
3,51
3,40
3,31
3,24
3,17
3,07
2,99
2,88
2,64
2,48
22
7,95
5,72
4,82
4,31
3,99
3,76
3,59
3,45
3,35
3,26
3,18
3,12
3,02
2,94
2,83
2,58
2,42
23
7,88
5,66
4,76
4,26
3,94
3,71
3,54
3,41
3,30
3,21
3,14
3,07
2,97
2,89
2,78
2,54
2,37
24
7,82
5,61
4,72
4,22
3,90
3,67
3,50
3,36
3,26
3,17
3,09
3,03
2,93
2,85
2,74
2,49
2,33
25
7,77
5,57
4,68
4,18
3,85
3,63
3,46
3,32
3,22
3,13
3,06
2,99
2,89
2,81
2,70
2,45
2,29
26
7,72
5,53
4,64
4,14
3,82
3,59
3,42
3,29
3,18
3,09
3,02
2,96
2,86
2,78
2,66
2,42
2,25
27
7,68
5,49
4,60
4,11
3,78
3,56
3,39
3,26
3,15
3,06
2,99
2,93
2,82
2,75
2,63
2,38
2,22
28
7,64
5,45
4,57
4,07
3,75
3,53
3,36
3,23
3,12
3,03
2,96
2,90
2,79
2,72
2,60
2,35
2,19
29
7,60
5,42
4,54
4,04
3,73
3,50
3,33
3,20
3,09
3,00
2,93
2,87
2,77
2,69
2,57
2,33
2,16
30
7,56
5,39
4,51
4,02
3,70
3,47
3,30
3,17
3,07
2,98
2,91
2,84
2,74
2,66
2,55
2,30
2,13
31
7,53
5,36
4,48
3,99
3,67
3,45
3,28
3,15
3,04
2,96
2,88
2,82
2,72
2,64
2,52
2,27
2,11
32
7,50
5,34
4,46
3,97
3,65
3,43
3,26
3,13
3,02
2,93
2,86
2,80
2,70
2,62
2,50
2,25
2,08
33
7,47
5,31
4,44
3,95
3,63
3,41
3,24
3,11
3,00
2,91
2,84
2,78
2,68
2,60
2,48
2,23
2,06
34
7,44
5,29
4,42
3,93
3,61
3,39
3,22
3,09
2,98
2,89
2,82
2,76
2,66
2,58
2,46
2,21
2,04
35
7,42
5,27
4,40
3,91
3,59
3,37
3,20
3,07
2,96
2,88
2,80
2,74
2,64
2,56
2,44
2,19
2,02
36
7,40
5,25
4,38
3,89
3,57
3,35
3,18
3,05
2,95
2,86
2,79
2,72
2,62
2,54
2,43
2,18
2,00
37
7,37
5,23
4,36
3,87
3,56
3,33
3,17
3,04
2,93
2,84
2,77
2,71
2,61
2,53
2,41
2,16
1,98
38
7,35
5,21
4,34
3,86
3,54
3,32
3,15
3,02
2,92
2,83
2,75
2,69
2,59
2,51
2,40
2,14
1,97
39
7,33
5,19
4,33
3,84
3,53
3,30
3,14
3,01
2,90
2,81
2,74
2,68
2,58
2,50
2,38
2,13
1,95
40
7,31
5,18
4,31
3,83
3,51
3,29
3,12
2,99
2,89
2,80
2,73
2,66
2,56
2,48
2,37
2,11
1,94
41
7,30
5,16
4,30
3,81
3,50
3,28
3,11
2,98
2,87
2,79
2,71
2,65
2,55
2,47
2,36
2,10
1,92
42
7,28
5,15
4,29
3,80
3,49
3,27
3,10
2,97
2,86
2,78
2,70
2,64
2,54
2,46
2,34
2,09
1,91
43
7,26
5,14
4,27
3,79
3,48
3,25
3,09
2,96
2,85
2,76
2,69
2,63
2,53
2,45
2,33
2,08
1,90
7,25
5,12
4,26
3,78
3,47
3,24
3,08
2,95
2,84
2,75
2,68
2,62
2,52
2,44
2,32
2,07
1,89
10
11
12
14
16
20
40
100
44
Distribuciones de F
5%
5%
3
161
199
216
225
230
234
237
239
241
242
243
244
245
246
248
251
253
18,51
19,00
19,16
19,25
19,30
19,33
19,35
19,37
19,38
19,40
19,40
19,41
19,42
19,43
19,45
19,47
19,49
10,13
9,55
9,28
9,12
9,01
8,94
8,89
8,85
8,81
8,79
8,76
8,74
8,71
8,69
8,66
8,59
8,55
7,71
6,94
6,59
6,39
6,26
6,16
6,09
6,04
6,00
5,96
5,94
5,91
5,87
5,84
5,80
5,72
5,66
6,61
5,79
5,41
5,19
5,05
4,95
4,88
4,82
4,77
4,74
4,70
4,68
4,64
4,60
4,56
4,46
4,41
5,99
5,14
4,76
4,53
4,39
4,28
4,21
4,15
4,10
4,06
4,03
4,00
3,96
3,92
3,87
3,77
3,71
5,59
4,74
4,35
4,12
3,97
3,87
3,79
3,73
3,68
3,64
3,60
3,57
3,53
3,49
3,44
3,34
3,27
5,32
4,46
4,07
3,84
3,69
3,58
3,50
3,44
3,39
3,35
3,31
3,28
3,24
3,20
3,15
3,04
2,97
5,12
4,26
3,86
3,63
3,48
3,37
3,29
3,23
3,18
3,14
3,10
3,07
3,03
2,99
2,94
2,83
2,76
10
4,96
4,10
3,71
3,48
3,33
3,22
3,14
3,07
3,02
2,98
2,94
2,91
2,86
2,83
2,77
2,66
2,59
11
4,84
3,98
3,59
3,36
3,20
3,09
3,01
2,95
2,90
2,85
2,82
2,79
2,74
2,70
2,65
2,53
2,46
12
4,75
3,89
3,49
3,26
3,11
3,00
2,91
2,85
2,80
2,75
2,72
2,69
2,64
2,60
2,54
2,43
2,35
13
4,67
3,81
3,41
3,18
3,03
2,92
2,83
2,77
2,71
2,67
2,63
2,60
2,55
2,51
2,46
2,34
2,26
14
4,60
3,74
3,34
3,11
2,96
2,85
2,76
2,70
2,65
2,60
2,57
2,53
2,48
2,44
2,39
2,27
2,19
15
4,54
3,68
3,29
3,06
2,90
2,79
2,71
2,64
2,59
2,54
2,51
2,48
2,42
2,38
2,33
2,20
2,12
16
4,49
3,63
3,24
3,01
2,85
2,74
2,66
2,59
2,54
2,49
2,46
2,42
2,37
2,33
2,28
2,15
2,07
17
4,45
3,59
3,20
2,96
2,81
2,70
2,61
2,55
2,49
2,45
2,41
2,38
2,33
2,29
2,23
2,10
2,02
18
4,41
3,55
3,16
2,93
2,77
2,66
2,58
2,51
2,46
2,41
2,37
2,34
2,29
2,25
2,19
2,06
1,98
19
4,38
3,52
3,13
2,90
2,74
2,63
2,54
2,48
2,42
2,38
2,34
2,31
2,26
2,21
2,16
2,03
1,94
20
4,35
3,49
3,10
2,87
2,71
2,60
2,51
2,45
2,39
2,35
2,31
2,28
2,22
2,18
2,12
1,99
1,91
21
4,32
3,47
3,07
2,84
2,68
2,57
2,49
2,42
2,37
2,32
2,28
2,25
2,20
2,16
2,10
1,96
1,88
22
4,30
3,44
3,05
2,82
2,66
2,55
2,46
2,40
2,34
2,30
2,26
2,23
2,17
2,13
2,07
1,94
1,85
23
4,28
3,42
3,03
2,80
2,64
2,53
2,44
2,37
2,32
2,27
2,24
2,20
2,15
2,11
2,05
1,91
1,82
24
4,26
3,40
3,01
2,78
2,62
2,51
2,42
2,36
2,30
2,25
2,22
2,18
2,13
2,09
2,03
1,89
1,80
25
4,24
3,39
2,99
2,76
2,60
2,49
2,40
2,34
2,28
2,24
2,20
2,16
2,11
2,07
2,01
1,87
1,78
26
4,23
3,37
2,98
2,74
2,59
2,47
2,39
2,32
2,27
2,22
2,18
2,15
2,09
2,05
1,99
1,85
1,76
27
4,21
3,35
2,96
2,73
2,57
2,46
2,37
2,31
2,25
2,20
2,17
2,13
2,08
2,04
1,97
1,84
1,74
28
4,20
3,34
2,95
2,71
2,56
2,45
2,36
2,29
2,24
2,19
2,15
2,12
2,06
2,02
1,96
1,82
1,73
29
4,18
3,33
2,93
2,70
2,55
2,43
2,35
2,28
2,22
2,18
2,14
2,10
2,05
2,01
1,94
1,81
1,71
30
4,17
3,32
2,92
2,69
2,53
2,42
2,33
2,27
2,21
2,16
2,13
2,09
2,04
1,99
1,93
1,79
1,70
31
4,16
3,30
2,91
2,68
2,52
2,41
2,32
2,25
2,20
2,15
2,11
2,08
2,03
1,98
1,92
1,78
1,68
32
4,15
3,29
2,90
2,67
2,51
2,40
2,31
2,24
2,19
2,14
2,10
2,07
2,01
1,97
1,91
1,77
1,67
33
4,14
3,28
2,89
2,66
2,50
2,39
2,30
2,23
2,18
2,13
2,09
2,06
2,00
1,96
1,90
1,76
1,66
34
4,13
3,28
2,88
2,65
2,49
2,38
2,29
2,23
2,17
2,12
2,08
2,05
1,99
1,95
1,89
1,75
1,65
35
4,12
3,27
2,87
2,64
2,49
2,37
2,29
2,22
2,16
2,11
2,07
2,04
1,99
1,94
1,88
1,74
1,63
36
4,11
3,26
2,87
2,63
2,48
2,36
2,28
2,21
2,15
2,11
2,07
2,03
1,98
1,93
1,87
1,73
1,62
37
4,11
3,25
2,86
2,63
2,47
2,36
2,27
2,20
2,14
2,10
2,06
2,02
1,97
1,93
1,86
1,72
1,62
38
4,10
3,24
2,85
2,62
2,46
2,35
2,26
2,19
2,14
2,09
2,05
2,02
1,96
1,92
1,85
1,71
1,61
39
4,09
3,24
2,85
2,61
2,46
2,34
2,26
2,19
2,13
2,08
2,04
2,01
1,95
1,91
1,85
1,70
1,60
40
4,08
3,23
2,84
2,61
2,45
2,34
2,25
2,18
2,12
2,08
2,04
2,00
1,95
1,90
1,84
1,69
1,59
41
4,08
3,23
2,83
2,60
2,44
2,33
2,24
2,17
2,12
2,07
2,03
2,00
1,94
1,90
1,83
1,69
1,58
42
4,07
3,22
2,83
2,59
2,44
2,32
2,24
2,17
2,11
2,06
2,03
1,99
1,94
1,89
1,83
1,68
1,57