Académique Documents
Professionnel Documents
Culture Documents
Docente:
LEONEL DELGADO ERASO
Especialista en Estadstica
UNIVERSIDAD DE NARIO
DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA
PASTO, 2014
CONTENIDO
ESTADISTICA DESCRIPTIVA.
PRIMERA UNIDAD
CONCEPTOS GENERALES
DEFINICION DE ESTADISTICA
La estadstica es una ciencia que estudia los mtodos, normas, reglas, leyes
para la recoleccin, organizacin y anlisis de datos, para sacar conclusiones
vlidas y tomar decisiones acertadas.
POBLACION: Es el conjunto universal, el conjunto de referencia, el cual est
conformado por todos los elementos que tienen la caracterstica de estudio.
Una poblacin puede ser finita, (de tamao N) o infinita.
MUESTRA: Es un subconjunto de la poblacin. Es una parte de la poblacin, la
cual debe cumplir con dos requisitos fundamentales: ser aleatoria y
representativa. La primera hace referencia a que sus elementos deben
seleccionarse al azar, y la segunda hace referencia al tamao de la muestra.
DATO: Es la medida de la observacin.
VARIABLES ESTADISTICAS.
Una variable estadstica es una caracterstica la cual al ser observada en
diferentes individuos nos genera resultados distintos.
Las variables CUANTITATIVAS son aquellas que las podemos medir mediante
un nmero.
Las variables cuantitativas continas son aquellas, que pueden tomar cualquier
valor entre dos valores, o ms fcilmente, aquellas que admiten decimales, por
ejemplo, El salario de una persona, las utilidades diarias de un negocio, la
puntuaciones en un examen, el cociente intelectual, etc.
Las variables cuantitativas discretas son aquellas que admiten, nicamente
valores enteros, por ejemplo, el nmero de personas que habita en una casa, el
SUMATORIA ( ) .
En las frmulas que utilizamos para obtener varios resultados en estadstica
usamos las letras griegas. El smbolo,
utiliza para simplificar una suma de trminos. Esta letra griega sigma se
acompaa con un valor inicial de la variable y un lmite superior hasta donde
toma el valor la variable, este valor va cambiando de uno en uno. El smbolo,
x i=x 1 + x 2+ x 3 ++ x n
i=1
, y se
x i=x 1 + x 2+ x 3 ++ x n +
i=1
Ejercicio.
Desarrollar y simplificar las siguientes sumatorias:
4
1. 2i
i=1
2.
i =3
3.
x=0
i+1
i2
1
x!
Solucin.
4
2.
i =3
3.
x=0
1
1 1 1 1
1
= + + + + + + =e=2,718281828 .
x ! 0 ! 1 ! 2 ! 3!
n!
PRODUCTORIA
() .
x i=x 1x 2x3xn
i=1
Ejercicio.
Desarrollar y simplificar las siguientes productorias:
4
1. 2i
i=1
2.
i=3
i+1
i2
Solucin.
1. 2i=2122232 4=24816=1024
i=1
2.
i=3
3+1
4+1
32
5+1
i+1
42
=
=
2
2
i
5
4
5
9
6
16
1
=
25
30
SEGUNDA UNIDAD
DISTRIBUCIONES DE FRECUENCIAS
fi
fi
fi
f1 +
f2
f3
+ +
fm
IIII
= 4
IIII III
=8
III
=3
II
=2
Fi
Fi
F1
f1
F2
f 2+ f 1
F3
f 3 + f 2 +f 1
Fm
f m+ + f 3+ f 2 + f 1=
Frecuencias relativas.
hi
fi
hi
fi
n
fi
100
n
h1 +h2 +h 3+ +hm
hi
1 = 100%.
Hi
Hi
Fi
n
Fi
100
n
H1
h1
H2
h2 +h1
H3
h3 +h2 +h 1
Hm
hm + +h3 +h2 +h 1
100%
xi
fi
Fi
x1
f1
F1
x2
f2
F2
x3
f3
F3
.
.
xm
TOTAL
.
.
fm
hi
donde,
xi
h1=
f1
n
H1
h2=
f2
n
H2
h3=
f3
n
H3
.
.
Fm =n
: Variable de estudio
Hi
.
.
hm =
fm
n
1=100%
.
.
H m=100 =1
fi
: Frecuencias absolutas.
Fi
hi
: Frecuencias relativas.
Hi
Ejemplo:
Las pesquera ms grande del Puerto de Tumaco, tiene en su nmina a 40
empleados. Por leyes del gobierno toda empresa debe dar un subsidio de
educacin a cada hijo de los trabajadores. El gerente para hacer ajustes en el
presupuesto de la empresa determina el nmero de hijos de los trabajadores
que estn estudiando y obtiene los siguientes resultados:
2, 3, 1, 0, 3, 2, 0, 1, 3, 2, 3, 4, 3, 1, 1, 2, 3, 2, 4, 1, 0, 0, 1, 2, 3, 2, 1, 0, 3, 4, 2,
3, 3, 3, 4, 2, 1, 1, 0, 2
Construir una distribucin de frecuencias.
Solucin:
La variable es el nmero de hijos de los empleados de la pesquera los cuales
estn actualmente estudiando, esta variable es cuantitativa discreta y toma
valores de 0, 1, 2, 3, 4.
El conteo se indica a continuacin.
# de hijos
0
1
2
3
4
Conteo
IIII
IIII
IIII
IIII
IIII
I
=6
IIII
=9
IIII
= 10
IIII I = 11
=4
# de
emplea
dos
Fi
hi
Hi
0
1
2
3
4
TOTAL
6
9
10
11
4
40
6
15
25
36
40
15%
22,5%
25%
27,5%
10%
100%
15%
37,5%
62,5%
90%
100%
Rango
V mximo
V mnimo
por exceso)
comprendidos entre
, incluyendo a
y excluyendo a
b .
rango
nmero detervalos
R
m
Linf
mnimo la amplitud. Este lmite superior ser el lmite inferior del segundo
intervalo, de aqu en adelante el proceso se repite hasta formar el ltimo
intervalo.
Supongamos que deseamos trabajar con 5 intervalos de amplitud 4 y que el
valor mnimo de los datos es de 23. Los intervalos se forman as:
Primer intervalo
Cuarto intervalo
Quinto intervalo
Conteo o recuento:
Construidos los intervalos empezamos a ubicar cada dato en uno de ellos,
haciendo una marca frente al intervalo que lo contenga. Se recomienda hacer
grupos de cinco marcas.
[27 , 31)
[31 , 35)
II
[35 , 39)
[39 , 43)
III
xi
Linf + L
2
Linf .
L.
Linf
Linf
xi
fi
Fi
x 1=
Linf +L
2
f1
F1
x 2=
Linf + L
2
f2
F2
hi
Hi
h1 =
f1
n
H1
h2=
f2
n
H2
Linf
.
.
x 3=
Linf +L
2
3
.
.
Linf
f3
.
.
x m=
Linf + L
2
m
F3
.
.
m
.
.
fm
Fm
=
h3=
f3
n
.
.
hm =
H3
.
.
fm
n
H m=1=100
n
n
TOTAL
1=100%
donde,
Linf .
L.
xi
fi
: Frecuencias absolutas.
Fi
hi
: Frecuencias relativas.
Hi
Ejemplo.
La ms grande pesquera del Puerto de Tumaco, tiene en su nmina a 40
empleados. Por leyes del gobierno toda empresa debe dar un subsidio de
educacin a cada hijo de los trabajadores, como se mencion y analiz en el
problema anterior. Suponga ahora que la empresa crea un programa
nutricional para sus empleados. La variable ms importante es el peso de los
trabajadores (medidos en kilogramos). Los especialistas en nutricin recogieron
los siguientes datos
60, 70, 78, 80, 66, 59, 86, 88, 97, 68, 46, 61, 76, 45, 77, 70, 62, 73, 64, 72,
102, 74, 75, 82, 89, 66, 52, 90, 84, 57, 76, 87, 62, 73, 93, 69, 55, 75, 94, 54.
Solucin:
La variable de inters es el peso de los empleados, la cual es una variable
cuantitativa continua, por lo tanto calculemos:
Rango.
En la serie de datos podemos observar que el peso mnimo es 45 Kg. y el peso
mximo es de 102 Kg., entonces
Rango
V mximo
V mnimo
102 45
57
Nmero de intervalos.
Aplicando la regla de Sturges, tenemos
1+3,3log ( n)
1+3,3log ( 40)
6,286799
rango
nmero de intervalos
8,142857
R
m
57
7
8,2
Linf .
L.
45
53,2
61,4
69,6
77,8
Conteo
53,2
61,4
69,6
77,8
86
III
IIII I
IIII II
IIII IIII
IIII
=3
=6
=7
I = 11
=4
86
94,2
94,2
102,4
IIII
II
II
=7
=2
Peso(kg.)
Linf .
L.
45
53,2
53,2
61,4
61,4
69,6
69,6
77,8
77,8
86
86
94,2
94,2
102,4
TOTAL
Marcas de clase
xi
# empleados
fi
49,1
57,3
65,5
73,7
81,9
90,1
98,3
Fi
3
6
7
11
4
7
2
40
3
9
16
27
31
38
40
hi
7,5%
15%
17,5%
27,5%
10%
17,5%
5%
100%
Hi
7,5%
22,5%
40%
67,5%
77,5%
95%
100%
25
25
20
20
p o rce n t a je
p o r c e n t a je
H is t ogram a
30
15
10
15
10
0
45
55
65
75
85
95
105
45
55
pes o
65
75
85
95
105
peso
TERCERA UNIDAD
MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE POSICION
NO agrupados
xi
n
x 1 + x 2+ x 3 ++ x n
n
para datos
( xif i )
x 1f 1 + x 2f 2+ + x mf m
n
para datos
agrupados.
Nota: De ahora en adelante los datos NO agrupados sern aquellos que se
vienen dados en una lista de datos. Los datos Agrupados son los que vienen
dados en una distribucin de frecuencias.
Ejemplo.
Un clientes de un local que vende accesorios para computador: una USB en
20.000 pesos, un mouse en 12.000 pesos, un protector de pantalla 9.000 pesos
y un teclado en 17.000 pesos. El precio promedio de los cuatro productos es de
14.500. Se calcula as:
xi
n
x 1 + x 2+ x 3 ++ x n
n
58.000
4
14.500
Ejemplo.
El dueo del local del ejemplo anterior registr la cantidad de los productos de
las ventas del da de hoy. En la siguiente tabla se resume los precios de cada
artculo y las cantidades vendidas de cada producto.
Producto
USB
Mouse
Protector de pantalla
Teclado
Precio
20.000
12.000
9.000
17.000
Cantidad
4
12
9
15
Solucin:
( xif i )
n
x 1f 1 + x 2f 2+ + x mf m
n
20.0004+12.00012+ 9.0009+17.00015
40
560.000
40
14.000
USB
Mouse
Protector de pantalla
Teclado
TOTAL
( xif i )
n
Precio
Cantidad
xi
fi
x if i
20.000
12.000
9.000
17.000
4
12
9
15
80.000
144.000
81.000
255.000
560.000
560.000
40
= 40
14.000
xp
( xiw i)
wi
x 1w1 + x 2w 2+ + x mwm
w 1+ w2 +w 3+ +w m
donde las
wi
Ejemplo.
La alcalda de Pasto tiene una vacante para el cargo de director del rea
contable. Como requisitos se exige: entrevista, examen de conocimientos y
puntaje de la hoja de vida. Adems, se conoce que la entrevista se ponderar
con un 10%, el examen de conocimientos con un 70% y la hoja de vida con un
20%. El mnimo aprobatorio es de 60 puntos en una escala de 0 a 100 puntos,
Conocimientos
68
75
67
72
73
Hoja de vida
72
64
71
69
65
Entrevista
80
78
78
73
88
Solucin:
Como cada prueba tiene diferente importancia ponderacin o peso, no
podemos aplicar la media aritmtica o promedio aritmtico para calcular el
puntaje de cada aspirante. Aqu debemos utilizar la media aritmtica
ponderada
xp
xp
( xiw i)
wi
x 1w1 + x 2w 2+ + x mwm
w 1+ w2 +w 3+ +w m
680,70+720,20+800,10
0.70+0,20+0,10
70
1
70 puntos.
x p ), para los
dems aspirantes.
Nombre
aspirante
Roberto
Luis
Jos
Ana
Rosa
Conocimientos
(70%)
Hoja de vida
(20%)
Entrevista
(10%)
xp
68
75
67
72
73
72
64
71
69
65
80
78
78
73
88
70
73,1
68,9
71,5
72,9
73,3
72,3
72
71,3
75,3
Incorrec
Correcto
Por lo tanto, Luis es el seleccionado para el cargo director del rea contable en
la alcalda de Pasto, con un puntaje promedio de 73,1 puntos.
Observemos que calculado la media aritmtica ( x ), Rosa sera la
seleccionada con un puntaje de 75,3 puntos, cometiendo el error de darle una
ponderacin de 33,3% a la entrevista y a las otras dos pruebas; cambiando as
las reglas de seleccin.
Media Geomtrica.
Se la utiliza cuando los datos crecen en progresin geomtrica, es decir, los
datos aumentan rpidamente.
Las frmulas de clculo son las siguientes:
Mg
( x x x x )
1
( x )
para
datos NO agrupados
Mg
( x
n
f1
1
x 2f x 3f x m f
2
( x
n
fi
i
para datos
agrupados
Los productos dentro de la raz suelen ser muy grandes, una forma de trabajar
con valores pequeos es utilizando los logaritmos en base 10, as:
log x i
Mg
antilog
Mg
antilog
( (
Ejemplo:
f ilog x i)
n
Solucin:
Mg
( x x x x )
4 213' 998.400
4 ( 2561989.650 )
120,95
log x i
Mg
antilog
antilog
( 0,3010+1,7482+4 2,2967+3,9845 )
antilog
antilog ( 2,0826 )
antilog
( 8,3304
4 )
120,9484
Mediana
La mediana de una serie de datos ordenados es el valor que se encuentra en el
centro de los datos. Otra forma es, un valor mayor al 50% de los datos y es
menor que el otro 50%. La mediana se la utiliza cuando existe un valor
extremo o dato atpico, en ingls outlier.
El lugar donde se encuentra la mediana se obtiene as:
LM
n+1
2
Ejemplo:
En internet publican los precios de cinco planes tursticos: 35, 37, 29, 31, 60
dlares. Calcular la mediana.
Solucin:
La serie de datos ordenados es: 29, 31, 35, 37, 60.
El lugar de la mediana es
LM
n+1
=
2
5+ 1
2
3. Esto indica
Ejemplo:
Los pesos de los instrumentos de seis cientficos que inspeccionaron al Volcn
Galeras son: 4530, 4510, 6000, 4700, 4600, 4490 gramos. Calcular y analizar
la mediana.
Solucin:
La serie de datos ordenados es: 4490, 4510, 4530, 4600, 4700, 6000.
El lugar de la mediana es
LM
n+1
=
2
6 +1
2
4530+4600
2
9130
2
Fi
xi
fi
0
1
2
3
7
10
24
30
12
4
donde,
xi
fi
: Nmero de familias.
Solucin:
Antes de calcular la mediana complementemos la tabla con las frecuencias
absolutas acumuladas, como se observa en la siguiente tabla.
xi
fi
0
1
2
3
10
24
30
12
Fi
10
34
64
76
4
80
Total
80
LM
n+1
2
80+1
2
81
2
40,5
, lo cual indica
Fi ), inmediatamente
Me
Linf .
Linf .
[ ]
( n2 F ) c
a
fo
mediana).
Fa
fo
Ejemplo:
A un grupo de personas seleccionadas aleatoriamente se les pregunt cuntos
salarios mnimos invertiran en tecnologa en el ao?. La informacin se resume
en la siguiente tabla.
Salarios mnimos que
se invertiran en tecnologa
1-3
3-5
5-7
7-9
Calcular y analizar la mediana.
Nmero de personas
5
7
12
2
Solucin:
Complementado la tabla, con las frecuencias absolutas acumuladas tenemos
Salarios mnimos que
se invertiran en tecnologa
Nmero de personas
1-3
3-5
5-7
7-9
5
7
12
2
26
TOTAL
Fi
5
12
24
26
El lugar de la mediana es
LM
n+1
2
26 +1
2
27
2
Linf .
Fa
fo
c
5
12
12
7
Me
Linf .
( 1312 )
2
12
[ ]
( n2 F ) c
a
fo
5,17
5 +
[ ]
( 262 12) 2
12
5,2 sm.
La moda o modo.
Mo
M o=2 , el cual es
Ejemplo.
Una aerolnea est planeando descuentos para los hijos de sus clientes. Se
realiz un estudio a un grupo de 40 clientes, en el cual la variable de inters
fue el nmero de hijos por cliente. Se obtuvo la siguiente informacin
Nmero de hijos
0
1
2
3
4
Calcular la moda
nmero de clientes
5
10
15
8
2
Solucin.
La moda es
Mo
Linf .
Linf .
1
c
1 + 2
moda).
Ejemplo.
Una empresa de turismo tiene en su nmina 60 empleados, clasificados por
edad, como lo indica la siguiente tabla.
Edad
Linf .
# de empleados
L.
fi
20
25
25
30
30
35
35
40
40
45
Calcular y analizar la moda.
5
12
18
15
10
Solucin:
La mayor frecuencia es 18 y corresponde al tercer rengln. Este intervalo
recibe el nombre de clase modal, en el cual se tiene que:
Linf .
30
18 12 = 6
18 15 = 3
35-30 = 5
Mo
30
( 69 )5
Linf .
1
c
1 + 2
30
( 6+36 )5
33,3 aos.
Cuartiles
Qk
LQ
k( n+ 1 )
4
Qk
Linf .
( nk4 F ) c
a
fo
donde,
Linf .
encuentra el cuartil
k ).
(Intervalo donde se
Fa
fo
Como las frmulas son muy similares a las de la mediana se procede y analiza
de manera equivalente.
Deciles
Dk )
LD
El decil
Dk
k( n+ 1 )
10
se calcula asi:
Linf .
F )
( nk
10
c
a
fo
Linf .
el decil
k ).
Fa
fo
LP
k( n+ 1 )
100
El percentil
Pk
se calcula as:
Linf .
F )
( nk
100
c
a
fo
donde,
Linf .
encuentra el percentil
(Intervalo donde se
k ).
Fa
fo
Como las frmulas son muy similares a la mediana, los cuartiles y los deciles,
se procede y analiza de manera equivalente.
Ejemplo:
Se realiz un estudio en el cual se preguntaba de las utilidades mensuales que
tenan 45 empresas catalogadas como las ms grandes del pas. Por convenio
con las empresas no se debe publicar sus nombres ni mucho menos
directamente el valor informado, por lo tanto se construy una distribucin de
frecuencias con intervalos. Los resultados se muestran en la siguiente tabla.
Utilidad mensual
(millones de pesos)
# de empresas
Linf .
L.
fi
Fi
2
5
8
11
14
5
8
11
14
17
4
10
15
13
3
45
4
14
29
42
45
TOTAL
Q3 , D 4 , P29
Calcular y analizar
Solucin.
Clculo del cuartil 3. (Equivalente al 75% de los datos).
Lugar del cuartil
LQ
indica que el
k( n+ 1 )
4
Q3
3( 45+1 )
4
138
4
34,5. Esto
Utilidad mensual
(millones de pesos)
# de empresas
Linf .
L.
fi
Fi
2
5
8
11
14
5
8
11
14
17
4
10
15
13
3
45
4
14
29
42
45
TOTAL
Por lo tanto
Linf .
11
Fa
29
fo
13
14 11
Q3
Linf .
( nk4 F ) c
a
fo
11
29)
( 453
4
13
*3
12,096154
Esto significa que el 75% de las empresas ms grandes del pas, tienen
utilidades mensuales inferiores a 12096.154 pesos y el 25% de las empresas
ms grandes del pas tienen utilidades mensuales superiores a 12096.154.
LD
k( n+ 1 )
10
D4
indica que el
4( 45+ 1 )
10
184
10
18,4. Esto
# de empresas
Linf .
L.
fi
Fi
2
5
8
11
14
5
8
11
14
17
4
10
15
13
3
45
4
14
29
42
45
TOTAL
Por lo tanto
Linf .
Fa
14
fo
15
11 8
D4
Linf .
F )
( nk
10
c
a
fo
14 )
( 454
10
15
*3
8,8
Esto significa que el 40% de las empresas ms grandes del pas, tienen
utilidades mensuales inferiores a 8800.000 pesos y el 60% de las empresas
tienen utilidades mensuales superiores a 8800.000.
LP
29
k( n+ 1 )
100
29( 45+ 1 )
100
P29
1334
100
13,34.
Utilidad mensual
(millones de pesos)
# de empresas
Linf .
L.
fi
Fi
2
5
8
11
14
5
8
11
14
17
4
10
15
13
3
45
4
14
29
42
45
TOTAL
Por lo tanto
Linf .
Fa
fo
10
85
P29
7,715
Linf .
F )
( nk
100
c
a
fo
4 )
( 4529
100
10
*3
Esto significa que el 29% de las empresas ms grandes del pas, tienen
utilidades mensuales inferiores a 7715.000 pesos y el 71% de las empresas
tienen utilidades superiores a 7715.000.
RANGO PERCENTIL ( k )
En el ejemplo anterior nos podramos preguntar Qu porcentaje de las
empresas tienen utilidades inferior a 10500.000 pesos mensuales?.
Estas preguntas se resuelven calculando el rango percentil
siguiente frmula, que se obtiene al despejar
k , mediante la
de la frmula de los
percentiles.
[(
Pk
Pk Linf .
f o + Fa 100
c
n
: Percentil
Linf .
Fa
fo
c
Pk
# de empresas
Linf .
L.
fi
Fi
2
5
8
11
14
5
8
11
14
17
4
10
15
13
3
45
4
14
29
42
45
TOTAL
De donde se tiene que:
Pk
10,5
Linf .
Fa
14
fo
15
11 8 = 3
15+ 14 100
([ P Lc )f + F ]100 = [( 10,58
]
3 )
k
inf .
45
([ 2,53 )15+14]100
45
[ 26,5 ]100
45
58,9%
Es decir, que el 58,9% de las empresas ms grandes del pas tienen unas
utilidades inferiores a 10500.000 pesos mensuales y el 41,1% de las empresas
tienen utilidades superiores a 10500.000 pesos mensuales.
CUARTA UNIDAD
LAS MEDIDAS DE DISPERSION, VARIACION o
DESVIACION
Las medidas de tendencia central, NO indican que caracterstica tienen los
datos en cuanto a si son parecidos, (homogneos o tienen poca variabilidad) o
si son muy distintos (heterogneos o tienen variabilidad considerable). Las
medidas de dispersin son las que me indican que tanta variabilidad tienen los
datos.
Las medias de dispersin, variacin o desviacin que estudiaremos sern: El
rango o recorrido, la desviacin media, la varianza, la desviacin estndar y el
coeficiente de variacin.
El rango o recorrido
Es la diferencia entre el valor mximo de los datos y el valor mnimo.
Rango
V mximo
V mnimo
V mx.
V mn.
Si el rango es muy grande y tenemos muy pocos datos, se puede decir, que los
datos tienen mucha variabilidad. Pero si el rango es pequeo y tenemos
muchos datos, estos tienen poca variabilidad o son homogneos.
Aunque esta medida es muy fcil de calcular su interpretacin es muy
subjetiva, adems, nicamente utiliza los valores extremos y no considera los
otros datos.
( x ix )
, indican
que tan distante se encuentra cada dato con respecto a la media aritmtica. Si
la diferencia es negativa el dato se encuentra a la izquierda de la media y si es
( x ix )
0,
para datos NO
agrupados
[ ( x i x )f i ]
0,
Ejemplo:
Calcular las desviaciones respecto a la media de los siguientes datos: 6, 4, 3, 7,
2.
Solucin:
La media aritmtica de los cinco datos es,
xi
n
x 1 + x 2+ x 3 ++ x n
n
6 +4 +3+7+2
5
22
5
4,4
xi
6
4
3
7
2
TOTAL
x ix
6
4
3
7
2
4,4
4,4
4,4
4,4
4,4
=
=
=
=
=
+1,6
- 0,4
- 1,4
+2,6
- 2,4
( x ix )
Desviacin media
La desviacin media es el promedio de los valores absolutos de las
desviaciones respecto a la media aritmtica. Dicho de otra manera, es el
cociente entre la suma de los valores absolutos de las desviaciones respecto a
la media y el nmero de datos. Las frmulas correspondientes son:
DM
|xi x|
DM
[|x ix|f i ]
Ejemplo:
Calcular la desviacin media de los siguientes datos: 6, 4, 3, 7, 2.
Solucin:
La media aritmtica de los cinco datos es,
xi
x 1 + x 2+ x 3 ++ x n
n
6 +4 +3+7+2
5
22
5
4,4
xi
6
4
3
7
2
x ix
6
4
3
7
2
TOTAL
4,4
4,4
4,4
4,4
4,4
|x ix|
=
=
=
=
=
+1,6
- 0,4
- 1,4
+2,6
- 2,4
( x ix )
DM
1,6
0,4
1,4
2,6
2,4
|x ix|
|xi x|
n
8,4
5
= 8,4
1,68.
DM
|xi x|
|64,4|+|44,4|+|34,4|+|74,4|+|24,4|
5
1,6+ 0,4+1,4 +2,6+2,4
5
8,4
5
1,68.
Este valor indica que la distancia promedio a cada uno de los datos con
respecto a la media aritmtica es de 1,68 unidades. Es decir, que en promedio,
los datos se separan de la media en 1,68 unidades. Adems, podramos
asegurar que en distribuciones normales (estas distribuciones se estudiarn en
las unidades de probabilidad), que la mayora de los datos se encuentran entre
xD M ; x + D M
VARIANZA
Se podra definir la varianza como un promedio de los cuadrados de las
desviaciones respecto a la media, o como el cociente entre la suma de los
cuadrados de las desviaciones respecto a la media y el nmero de datos. Las
unidades de la variable de estudio quedan elevadas al cuadrado y carecen de
significado real, por tanto, la varianza no tiene interpretacin. La varianza es el
medio para calcular la desviacin estndar.
Las frmulas respectivas para el clculo de la varianza son:
Varianza corregida
( xi x )2
n1
2
2
2
2
( x1x ) + ( x 2x ) + ( x 3x ) ++ ( x mx )
n1
[ ( x ix )2f i ]
n1
( x1x ) f 1 + ( x 2x ) f 2 + ( x 3x ) f 3 + + ( x mx ) f m
n1
s^
( xi x )2
2
2
2
2
( x1x ) + ( x 2x ) + ( x 3x ) ++ ( x mx )
s^ 2
[ ( x ix )2f i ]
( x1x ) f 1 + ( x 2x ) f 2 + ( x 3x ) f 3 + + ( x mx ) f m
n
varianza corregida
( x ix )2
n1
s2
varianza corregida
[ ( xi x )2f i ]
n1
s^
s^ 2
( x ix )2
n
s^
s^ 2
[ ( xi x )2f i ]
n
COEFICIENTE DE VARIACION
El coeficiente de variacin es una medida de dispersin y se define como el
cociente entre la desviacin estndar y la media aritmtica. Este carece de
unidades y por tanto se puede expresar en porcentaje. Su frmula de clculo
es:
CV
El
CV
s
x
s
100
x
Si el
CV
Si el
CV
NO son homogneos
Otra interpretacin muy similar a la anterior se muestra en la siguiente tabla
CV
Interpretacin
Muy homogneos
Homogneos
Heterogneos
Muy heterogneos
Ejemplo.
De los siguientes datos calcular la media, la desviacin media, la varianza, la
desviacin estndar y el coeficiente de variacin.
168, 170, 196, 180, 173.
Solucin.
Calculemos la media aritmtica
887
5
xi
n
x 1 + x 2+ x 3 ++ x n
n
177,4
168+170+ 196+180+173
5
DM
|xi x|
|168177,4|+|170177,4|+|196177,4|+|180177,4|+|173177,4|
5
42,4
5
= 8,48
Este valor indica que la distancia promedio a cada uno de los datos con
respecto a la media aritmtica es de 8,48. Es decir, que en promedio, los datos
se separan de la media en 8,48 unidades.
( xi x )2
n1
2
2
2
2
( x1x ) + ( x 2x ) + ( x 3x ) ++ ( x mx )
n1
515,2
= 128,8
4
128,8
varianza corregida
( x ix )2
n1
11,35
Nos indica que los datos pueden alejarse de la media aritmtica 11,35
unidades o que los datos se encuentran desviados con respecto del promedio
en 11,35 unidades.
CV
s
x
s
100
x
11,35
177,4
0,063979..
6,4%
Este valor es menor que el 20%, concluimos que los datos son homogneos.
Segn la tabla de anlisis del
Ejemplo.
Un campesino del municipio del Encano, Nario (Lugar donde se encuentra uno
de los sitios ms tursticos de Nario, La Laguna de la Cocha o Lago Guamuez),
tiene en uno de sus criaderos truchas arco iris, a las cuales las alimenta con un
producto extrado de vsceras de las mismas truchas sacrificadas, dicho
alimento es rico en protenas.
Para el control de peso y tamao ha instalado una tecnologa nica en el
Departamento de Nario, en el cual con un software especial obtiene
automticamente el peso y tamao de cada una de ellas. El anterior fin de
semana, tomo mediciones sobre el peso (en gramos) de las truchas de este
criadero y obtuvo los siguientes resultados.
Peso(gr.)
Linf .
# truchas
L.
175
185
195
205
215
225
235
fi
185
195
205
215
225
235
240
TOTAL
9
30
57
103
26
15
10
250
Peso(gr.)
Linf .
L.
#
truchas
fi
175
185
195
205
215
225
185
195
205
215
225
235
235
245
TOTAL
9
30
57
103
26
15
10
xi
x if i
x ix
180
190
200
210
220
230
1.620
5.700
11.400
21.630
5.720
3.450
-27,68
-17,68
-7,68
2,32
12,32
22,32
240
2.400
51.920
32,32
250
( x 2x )
766,1824
312,5824
58,9824
5,3824
151,7824
498,1824
1.044,582
4
( x 2x ) f i
6.895,6416
9.377,472
3.361,9968
554,3872
3.946,3424
7.472,736
10.445,824
42.054,4
x if i
51.920
250
207,68
Esto significa que el peso promedio de las 250 truchas que hay en el criadero
es de 207,68 gramos.
( xi x )2f i
n1
42.054,4
2501
168,89
Este valor no tiene anlisis porque las unidades de este valor son gramos al
cuadrado.
168,89
varianza corregida
12,9957
( x ix )2f i
n1
13
Nos indica que los pesos de las truchas pueden alejarse del peso promedio 13
gramos, o que los pesos de las truchas se encuentran desviados con respecto
del peso promedio en 13 gramos.
Nota: Si el peso de las truchas se distribuyen normalmente (consultar
distribucin normal) se puede afirmar que aproximadamente un 68,26% de las
truchas tiene pesos entre 207,68 13 y 207.68 + 13, es decir, hay un gran
porcentaje de truchas cuyos pesos se encuentran entre 194,68 gramos y
220,68 gramos.
CV
s
x
s
100
x
13
207,68
0,0626
6,26%
Este valor es menor que el 20%, concluimos que los pesos de las truchas arco
iris del criadero son homogneos, es decir, los pesos de las 250 truchas del
criadero tienen poca variabilidad. Segn la tabla de anlisis del
CV , el
6,26% es menor de 11% y se concluye que los pesos de las truchas son muy
homogneos.
a3 ).
m3 ) y el cubo de la
desviacin estndar.
a3 =
m3
s3
( x ix )
m=
3
Si
x =M e =M 0 ). Grficamente se tendra:
tendra:
Si
a 4 ).
m4 ) y la desviacin estndar
elevada a la cuatro.
a 4=
m4
s4
( x i x )
m=
4
Si
Si
QUINTA UNIDAD
GRAFICOS ESTADISTICOS
Hay otros grficos que se utilizan segn la disciplina, tales como los
cartogramas que se utilizan en las ciencias sociales, la curva de Lorenz que
explica el Coeficiente de Gini, el cual lo utilizan los economistas. EXCEL,
STATGRAPHICS y SPSS, en la galera de grficos presenta una gran variedad
de grficos e incluso en 3D. Otros paquetes estadsticos presentan grficos
especiales como las caras de Chernoff y estrellas utilizados para anlisis de
datos multivariados.
Cada tipo de grfico est destinado para una labor especfica. Con la prctica
y de acuerdo a tus necesidades determinars cual utilizar segn tus datos.
Ejemplo:
Se registr en el primer semestre del ao 2011, la cantidad de USB que se
vendieron en un local donde se comercializa accesorios para PC, estos registros
se realizaron en cada uno de los meses. La informacin se observa en la
siguiente tabla.
Mes
enero
febrero
marzo
abril
mayo
junio
100
80
60
40
20
0
25
38
12
12
28
Ejemplo:
Se registr en el primer semestre de los aos 2011 y 2012, la cantidad de USB
que se vendieron en el mismo local del ejemplo anterior, estos registros se
realizaron en cada uno de los meses. La informacin se presenta en la
siguiente tabla.
Mes
enero
febrero
marzo
abril
mayo
junio
Solucin.
El grfico de barras en componentes es el siguiente. Observa que si tenemos
dos variables en cada valor del eje X, se grafican dos barras. Si se tienen tres
componentes se debern graficar tres barras, etc.
100
90
80
70
60
50
40
30
20
10
0
enero febrero marzo abril mayo junio
100
90
80
70
60
50
40
30
20
10
0
enero
febrero
febrero
marzo
marzo
abril
abril
mayo
junio
mayo
junio
Total
parte
100%
Total
360
parte
Ejemplo.
La facultad de Economa de una universidad est compuesta por: estudiantes,
docente, administrativos y servicios generales. Si las cantidades de personas
en cada estamento son las que aparecen en la siguiente tabla, representemos
esta informacin mediante un diagrama circular.
Estamentos
Cantidad
800
100
340
80
1320
Estudiantes
Administrativos
Docente
Servicios Generales
TOTAL
Solucin.
Calculando los porcentajes y los grados para cada estamento, y poder trazar el
grfico sin usar herramientas informticas tenemos los siguientes resultados.
Estamentos
Estudiantes
Administrativos
Docente
Servicios
Generales
TOTAL
Cantidad
800
100
340
80
1320
Porcent
ajes
60,6%
7,6%
25,8%
Grados
218
27
93
6,1%
100%
22
360
Grados
Acumula
dos
218
245
338
360
Administrativos
6%
Docente
26%
8%
Servicios Generales
61%
Los Pictogramas.
Es una manera de representar la informacin, mediante objetos o figuras. A
cada figura completa se le asigna un valor al inicio del grfico. Esta debe
explicarse por s sola.
El siguiente grfico es un pictograma que representa la cantidad de turistas
que visitaron la Laguna de la Cocha (Lago Gaumez, Nario) los primeros cuatro
meses del ao.
= 5.000 turistas
Enero:
......15.000 turistas
Febrero:
..10.000 turistas
Marzo:
..25.000 turistas
Abril:
..5.000 turistas
Si se necesitar graficar 13.000 turistas en el mes de febrero se graficara 2
figuras de un turista completas y una parte de otra.
B1
Q11,5( Q3Q1 )
B2
Q3 +1,5( Q 3Q1 )
B1 y
B2
Q 2 ) o mediana.
de la siguiente forma:
En el medio del ancho de la caja se traza una segmento de recta hasta llegar a
B1
B2 .
LQ
k( n+ 1 )
, el cual representa la posicin del cuartil
4
Entonces tenemos
LQ
1,
LQ
Q1=
cuartil 1,
LQ
k( n+ 1 )
4
cuartil 1,
1( 27+1 )
4
59
k( n+ 1 )
4
Q1=
2( 27+1 )
4
3( 27+1 )
4
66
k( n+ 1 )
4
Q1=
73
Nota: Si los lugares de los cuartiles no son exactos, se promedian los dos
valores o ms correctamente se interpolan para encontrar el valor del cuartil.
Por ejemplo si el lugar del cuartil 1 fuera 7,25 indicara que este cuartil se
encuentra entre el dato de lugar siete y el dato de lugar 8, lo cual indica que el
cuartil 1, se calculara promediando as: (59+60)/2 = 59,5. Pero si
interpolamos se calculara as: 59+0,25*(60-59) = 59,25. Podemos observar
que el ltimo resultado es el ms correcto.
Ahora calculemos los bigotes,
B1
Q11,5( Q3Q1 )
B2
Q3 +1,5( Q 3Q1 )=
73 + 1,5*(73-59) = 94
59 1,5*(73 59) = 38
Como los bigotes sobrepasan al valor mnimo (45) y al valor mximo (77) de
los datos, los bigotes toman estos valores: 45 y 77. Esto significa que no
existen valores atpicos.
El grfico aproximado es el siguiente
45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73,
74, 75, 75, 76, 76, 77
Observe que los datos no se encuentran a una distancia real, por tanto la
grfica se distorsiona.
45
55
65
75
85
45
peso_kg
55
65
75
85
peso_kg
El Histograma.
Es un diagrama de barra. Se lo utiliza para representar la informacin de una
distribucin de frecuencias con intervalos, clases o categoras.
Para graficarlo se ubican en el eje X, los intervalos, los cuales corresponden al
ancho de cada barra, en el eje Y, ubicamos las frecuencias absolutas o las
frecuencias relativas.
El polgono de frecuencias (absolutas o relativas).
Es un diagrama de lneas. Se lo utiliza para representar la informacin de una
distribucin de frecuencias con intervalos, clases o categoras.
Para graficarlo se ubican en el eje X las marcas de clase, en el eje Y ubicamos
las frecuencias absolutas o las frecuencias relativas, luego unimos los puntos
con segmentos de recta.
Para el ejemplo de los dos grficos anteriores revisemos la siguiente
informacin, y observemos el grfico, en los cuales se han ubicado las
frecuencias relativas en el eje Y. (Si se trabaja con las frecuencias absolutas se
obtiene un grfico equivalente).
Peso(kg.)
Linf .
45
53,2
61,4
69,6
77,8
86
94,2
L.
# empleados
fi
53,2
61,4
69,6
77,8
86
94,2
102,4
hi
3
6
7
11
4
7
2
8%
15%
18%
28%
10%
18%
5%
TOTAL
40
100%
His t ogram a
P o gono de F rec uenc ias para P E S O
30
30
25
20
p o rce n t a je
p o rce n t a je
25
15
10
5
20
15
10
5
45
55
65
75
85
95
105
45
peso
55
65
75
85
95
105
pes o
L.
Linf .
L.
45
53,2
61,4
69,6
77,8
86
94,2
53,2.
61,4.
69,6.
77,8.
86.
94,2.
102,4.
fi
Fi
3
6
7
11
4
7
2
3
9
16
27
31
38
40
Fi ),
Ojiva
50
40
40
30
86.
94,2. 102,4.
27
20
10
31
38
9
0
45
16
3
53,2. 61,4. 69,6. 77,8.
SEXTA UNIDAD
PROBABILIDAD
E1
Si un evento o suceso
evento o suceso
suceso
E3
E2
puede ocurrir de
puede ocurrir de
un evento o suceso
Ek
n1
puede ocurrir de
n3
n2
maneras diferentes, un
puede ocurrir de
nk
maneras diferentes,
n1 n2 n3 . . . nk maneras diferentes
Ejemplo
De cuntas maneras diferentes pueden caer tres monedas?.
Solucin
Definamos los eventos de la siguiente manera:
n3=2
210=1024
maneras
diferentes.
Ejemplo
De cuntas manera diferentes pueden caer dos dados?.
Solucin
Definamos los eventos de la siguiente manera:
n1=6 ,
Ejemplo
De cuntas manera diferentes pueden caer un dado y una moneda?.
Solucin
Definamos los eventos de la siguiente manera:
n1=6 ,
n2=2 ,
Ejemplo
Cuntas placas de automvil es posible formar en Colombia?. (Observacin:
Cada placa de automvil tiene tres letras y tres nmeros y admite repeticin de
letras y nmeros. Las letras ch, rr, ll, , no se consideran, es decir, solamente
se cuenta con 26 letra del alfabeto y los 10 dgitos del 0 al 9)
Solucin
Definamos los eventos de la siguiente manera:
E1 : llenar la primera casilla de la placa con una letra , este evento o suceso puede
ocurrir de 26,
n1=26
maneras diferentes.
E2 :llenar la segunda casilla de la placa con una letra , este evento o suceso puede
ocurrir de 26,
n2=26
maneras diferentes.
E3 :llenar la tercer casilla de la placa con una letra , este evento o suceso puede
ocurrir de 26,
n3=26
maneras diferentes.
E4 : llenar la cuarta casill a de la placa con un digito , este evento o suceso puede
ocurrir de 10,
n4 =10
maneras diferentes.
E5 :llenar la quinta casilla de la placa con un digito , este evento o suceso puede
ocurrir de 10,
n1=10
maneras diferentes.
E6 :llenar la sexta casilla de la placa con un digito , este evento o suceso puede
ocurrir de 10,
n1=10
maneras diferentes.
Por lo tanto, por el (p.f.c), el nmero total de placas que se pueden formar es
de:
Ejercicios
1.) Cuntos nmeros mayores que cien y menores que mil se pueden formar
con los dgitos: 3, 5, 6, 8
a.) Con repeticin de dgitos?
b.) Sin repeticin de dgitos?
( nCr )
( nPr )
(V n , , , )
( nCr )
LAS COMBINACIONES
de los
elementos tomadolos
en
n!
nCr= n =
r r !( nr ) !
()
donde,
( nPr )
de los
en
nPr=
n!
( nr ) !
elementos tomadolos de
(V n , , , )
V n , , , =
n!
! ! !
Ejemplo 1.
De un grupo de 10 profesionales que conforman una cooperativa quieren
nombran la junta directiva compuesta por: Presidente, Tesorero y fiscal. De
cuntas maneras diferentes se puede nombrar la junta directiva?.
Solucin:
Supongamos que los nombres de los profesionales son:
P1 , P2 , P3 , P4 , P5 , P6 , P 7 , P8 , P 9 , P10 .
Una de las posibles juntas directiva podra estar formada por:
P4
P3
P9
Presidente Tesorero Fiscal
P9
P4
P3
Presidente Tesorero Fiscal
obtenemos otra junta directiva, a pesar de ser las mismas personas, pero con
diferentes cargos, por lo tanto se trata de una VARIACION. (si importa el
orden).
Por lo tanto, si
n=10 y r =3
obtenemos:
nPr=10 P 3=
n!
10 !
10!
=
=
=1098=720
( nr ) ! ( 103 ) ! 7 !
Ejemplo 2.
Cuntos comits de investigacin podemos formar con 8 ingenieros y 7
economistas, si cada comit debe tener 5 profesionales?.
Solucin.
Como el problema no especfico la cantidad de cada tipo de profesionales que
debe contener cada comit, entonces de los 15 profesionales se deben
escoger 5 de ellos para conformar cada comit y NO importa el orden como se
los seleccione, por lo tanto es una combinacin, donde
n=15 y r =5 ,
entonces
n!
15 !
15 !
nCr=15 C 5= 15 =
=
=
=3003
5
r !( nr ) ! 5 !( 155 ) ! 5 !10 !
( )
Ejemplo 3.
Cuantos nmeros mayores que 100 y menores que mil se pueden formar con
los dgitos: 3, 5, 6, 8, si repeticin de dgitos en un mismo nmero?.
Solucin:
Los nmeros mayores de cien y menores de mil tienen tres dgitos. Si
formamos un nmero, por ejemplo el 356 y cambiamos el orden del tres y
nPr=4 P3=
n!
4!
4!
=
= =432=24
( nr ) ! ( 43 ) ! 1!
No
#
1
35
6
2
35
8
3
36
5
4
36
8
5
38
5
6
38
6
7
53
6
8
53
8
9
56
3
10
56
8
11
58
3
12
58
6
No
#
13
63
5
14
63
8
15
65
3
16
65
8
17
68
3
18
68
5
19
83
5
20
83
6
21
85
3
22
85
6
23
86
3
24
86
5
DEFINICIONES DE PROBABILIDAD
Antes de definir probabilidad definimos los siguientes conceptos.
ESPACIO MUESTRAL ( S ), Es el conjunto de referencia o conjunto universal,
compuesto por todos los casos posibles que puede ocurrir un experimento. El
h h
p ( E )= = 100
n n
Observacin:
Como nos podemos dar cuenta la frmula es muy simple y sencilla de aplicar,
pero cuando nos presentan situaciones complejas donde se deban calcular
y
tcnicas de contar.
DEFINICION FRECUENCIAL DE PROBABILIDAD.
Tambin llamada definicin experimental. La probabilidad de que ocurra un
suceso o evento E es el cociente entre el nmero de veces que se repite
un resultado ( f ) y el nmero de veces que se realiza el experimento ( n ).
Esto se simboliza as:
f f
p ( E )= = 100
n n
Esta definicin, es la que hace posible que cuando se realice en forma infinita
un experimento, la probabilidad se aproxima a la probabilidad terica o clsica.
Notas:
Si
Ejemplo
Cul es la probabilidad de obtener un nmero mltiplo de 3 en el lanzamiento
de un dado?
Solucin
Este problema no tiene mucha dificultad y usted podra decir la respuesta de
inmediato.
Realicemos el procedimiento.
Experimento: Lanzar un dado
Espacio muestral:
= {1,2,3,4,5,6,}, entonces
= 6, # de casos
posibles.
Evento o suceso
= 2, #
de casos favorables.
Por lo tanto,
h 2
p ( E )= = =0,3333=33,33
n 6
Este resultado se podra explicar considerando que si usted es el que apuesta
que va a salir un mltiplo de 3 cuando se lanza un dado, solamente tendra el
chance de ganar en aproximadamente 33 veces de 100 lanzamientos.
Lo anterior se cumple en teora, porque si para comprobarlo usted lanza cien
veces un dado y hace anotacin de los resultado que obtiene y luego cuenta
los mltiplos de 3, la cantidad que obtendr no ser muy cercana a 33. Puesto
que el 33% se alcanza cuando el experimento se hace en forma infinita.
Ejemplo
Cul es la probabilidad de obtener una suma de cinco puntos en el
lanzamiento de un par de dados?
Solucin
Este problema tiene ms dificultad que el punto anterior y usted podra
tambin decir la respuesta de inmediato.
Realicemos el procedimiento.
Experimento: Lanzar un par de dados
Espacio muestral:
es:
principio fundamental del conteo se determin que las formas posibles de caer
dos dados se calculan as: 6x6=36.
Evento o suceso
(4,1)}, entonces
= 4, # de casos favorables.
Por lo tanto,
h 4
p ( E )= = =0,1111=11,11
n 36
Ejemplo
Un caja contiene 7 camisas y 5 pantalones, si se seleccionan aleatoriamente
una prenda, cul es la probabilidad de que la prenda seleccionada sea un
pantaln?.
Solucin
Experimento: Seleccionar una prenda de vestir
Espacio muestral:
= 12, # de
casos posibles.
Evento o suceso
= 5, # de casos favorables.
Por lo tanto,
h 5
p ( E )= = =0,41666 41,67
n 12
Ejercicios.
1.) Cul es la probabilidad de ganarse el baloto, comprando una
combinacin?.
2.) De una lotera de cuatro dgitos en el nmero y dos dgitos en la serie
usted compra un nmero, cul es la probabilidad de ganrsela?.
3.) De una baraja de 52 cartas (diamantes, corazones, picas, trboles) se
extrae una carta en forma aleatoria, cul es la probabilidad de que la
carta extrada sea un as o una 7?.
4.) Cuatro jugadores lanzan un par de dados y observan la suma de puntos.
El primero apuesta a que el resultado ser una suma de 8 puntos, el
segundo una suma de 4 puntos, el tercero una suma de 7 puntos y el
cuarto una suma de 11 puntos. Cul es la probabilidad de ganar de
cada uno de ellos y quin tiene mayor probabilidad de ganar?.