Académique Documents
Professionnel Documents
Culture Documents
ESTADSTICA DESCRIPTIVA
La Estadstica descriptiva es la rama de las matemticas que comprende la recopilacin,
tabulacin, anlisis e interpretacin de datos cuantitativos y cualitativos, para tomar decisiones que
se requieran a fin de que el comportamiento de los datos se mantenga dentro de los parmetros de
control establecidos.
Poblacin (N) Es el conjunto de todos los elementos de inters para determinado estudio
Estadstico Es una caracterstica numrica de una muestra, se identifica con letras latinas
(Media = X, Desviacin estndar = s, Proporcin = p, Coeficiente de correlacin = r)
Media: ( x ) Es el promedio aritmtico de todos los valores que componen el conjunto de datos.
Se calcula mediante la siguiente frmula:
Para una muestra se tiene:
x
xi
n
Pgina 1 de 20
xi
n
Ejemplo 1: En un equipo de ftbol, una muestra de estaturas de sus integrantes son las
siguientes:
1.70,1.79,1.73,1.67,1.60,1.65,1.79,1.84,1.67,1.82, 1.74. Calcule la media.
x
xi 19
1.73
n
11
n 2 n 2 1
2
Ejemplo 2: Para el ejemplo anterior cual es la mediana?
Ordenando los datos de mayor a menor se obtiene:
1.60,1.65,1.67,1.67,1.70,1.73,1.74,1.79,1.79,1.82,1.84;
como tenemos 11 datos el nmero es non por lo que (n+1)/2 = 12/2 = 6, buscando el nmero
que ocupa la sexta posicin en los datos ordenados encontramos el valor de la mediana
~
x 1.73
Media acotada (Truncated Mean): Determinado porcentaje de los valores ms altos y bajos de
un conjunto dado de datos son eliminados (tomando nmeros enteros), para los valores
restantes se calcula la media.
Ejemplo 3: Para la siguiente serie de datos calcule la media acotada al 20%:
68.7,34.3,97.9,73.4,8.4,42.5,87.9,31.1,33.2,97.7,72.3,54.2,80.6,71.6,82.2,
Como tenemos 11 datos, el 20% de 11 es 2.2, por lo cual eliminamos 2 datos el ms bajo y el
ms alto, ordenado los datos obtenemos:
8.4,31.1,33.2,34.3,42.5,54.2,68.7,71.6,72.3,73.4,80.6,82.2,87.9,97.7,97.9, los valores a eliminar
son: 8.4 y 97.9; calculando la media de los datos restantes obtenemos
Pgina 2 de 20
x ,.20
63.82
Medidas de dispersin
Para comprender el concepto de varianza, supngase que tenemos los datos siguientes de los
cuales queremos saber que tan dispersos estn respecto a su media:
2, 3, 4, 5, 6
Si tomamos la suma de diferencias de cada valor respecto a su media y las sumamos se tiene:
(-2) + (-1) + (0) +(1) +(2) = 0
Por lo que tomando diferencias simples no es posible determinar la dispersin de los datos.
Si ahora tomamos esas mismas diferencias al cuadrado y las sumamos se tiene:
4 + 1 + 0 + 1 + 4 = 10
Varianza de los datos
Es una medida que nos ayuda a comprender la variabilidad de los datos, que tan distanciados estn
de la media
( xi x ) 2
n
( xi x ) 2
n 1
( xi x ) 2
n
Pgina 3 de 20
( xi x ) 2
n 1
230
190
250
228
245
305
258
240
265
265
240
260
Muestra 2
x 248
x 248
Suma(Xi - x )2 = 790
n-1=5
s=
790
= 12.56
5
Suma(Xi - x )2 = 7510
n-1 = 5
s=
7510
= 38.75
5
2) Mediana:
Pgina 4 de 20
s=
s
(100)
X
Por ejemplo si la media de tiempos de espera es de 78.7 y su desviacin estndar es 12.14, el CVt:
CVt
12.14
(100) 12.05%
78.7
Por otra parte si la media de salarios es de 10 y su desviacin estndar de 2, el CVs de salarios es:
Pgina 5 de 20
CV s
2
(100) 20%
10
Por tanto la dispersin de los salarios es mayor que la de los tiempos de espera, es posible
comparar estas dispersiones con el CV aunque los dos conjuntos de datos sean completamente
dismbolos.
OTRAS MEDIDAS DE DISPERSIN: PERCENTILES, DECILES Y QUARTILES
Cada conjunto de datos ordenado tiene tres cuartiles que lo dividen en cuatro partes iguales. El
primer cuartil es ese valor debajo del cual clasifica el 25% de las observaciones y sobre el cual se
encuentra el 75% restante. El segundo cuartil divide a los datos a la mitad similar a la mediana.
Los deciles separan un conjunto de datos ordenado en 10 subconjuntos iguales y los percentiles en
100 partes, la ubicacin de un percentil se encuentra en:
L p (n 1)
P
100
Donde:
Lp es el sitio del percentil deseado en una serie ordenada
n es el nmero de observaciones
P es el percentil deseado
Por ejemplo para el conjunto de datos siguiente:
3
4
7
9
10
10
12
14
15
17
19
20
21
25
27
27
29
31
31
34
34
34
36
37
38
38
39
43
45
47
48
48
52
53
56
56
59
62
63
64
67
67
69
72
73
74
74
76
79
80
35
17.85
100
O sea que el percentil 35 est al 85% del trayecto comprendido entre la observacin 17 que es 29 y
la observacin 18 que es 31 o sea L35 = 29 + (0.85)(31-29) = 30.7. Por tanto el 35% de las
observaciones estn por debajo de 30.7 y el 65% restante por encima de 30.7.
Pgina 6 de 20
De la misma forma los percentiles 25, 50 y 75 proporcionan la localizacin de los cuartiles Q1, Q2 y
Q3 respectivamente.
Q1: es el nmero que representa al percentil 25 (hay 25% de los datos por debajo de este).
Q2 o Mediana: es el nmero que representa al percentil 50 (hay 50% de los datos por
debajo de este).
Q3: es el nmero que representa al percentil 75 (hay 75% de los datos por debajo de este).
DIAGRAMA DE CAJA
Es la representacin grfica de los datos en forma de caja:
1 10 4
1050
Q3
Q2 Mediana
Weight
Q3 + 1.5 RIC
950
Q1
850
Q1 1.5RIC
Rango
Intercuartlico =
RIC = Q3 Q1
Valores
atpicos
Pgina 7 de 20
Bigotes
Ejemplo 6
Construir un histograma con la siguiente serie de datos:
2.41
3.34
4.04
4.46
8.46
9.15
11.59
12.73
13.18
15.47
16.20
16.49
17.11
17.87
18.03
18.69
19.94
20.20
20.31
24.19
28.75
30.36
30.63
31.21
32.44
32.89
33.51
33.76
34.58
35.58
35.93
36.08
36.14
36.80
36.92
37.23
37.31
37.64
38.29
38.65
39.02
39.64
40.41
40.58
40.64
43.61
44.06
44.52
45.01
45.08
45.10
45.37
45.70
45.91
46.50
47.09
47.21
47.56
47.93
48.02
48.31
48.55
48.62
48.98
49.33
49.36
49.95
50.02
50.10
50.10
50.72
51.40
51.41
51.77
52.43
53.22
54.28
54.71
55.08
55.23
55.56
55.87
56.04
56.29
58.18
59.03
59.37
59.61
59.81
60.27
61.30
62.53
62.78
62.98
63.03
64.12
64.29
65.44
66.18
66.56
67.45
67.87
69.09
69.86
70.37
71.05
71.14
72.46
72.77
74.03
74.10
76.26
76.69
77.91
78.24
79.35
80.32
81.21
82.37
82.79
83.31
85.83
88.67
89.28
89.58
94.07
94.47
94.60
94.74
96.78
130 11.4 11 .
Por lo cual el
Paso 4: Calcular el tamao del intervalo de clase ( C ), dividiendo el rango entre el nmero de
columnas: C =
94.37
8.58 9 , resultando el tamao del intervalo 9.
11
Paso 5: Calcular los limites de cada intervalo: [0-8], [ 9-17], etc., considerando que el tamao del
intervalo representa la diferencia entre dos lmites de clase adyacentes ya sean inferiores o
superiores.
Paso 6: Contar el nmero de valores que caen en cada intervalo utilizando una hoja de registro, de
esta manera se obtiene la frecuencia para cada intervalo.
Tabla 1.
Columna
1
2
3
4
5
6
7
8
9
10
11
Intervalo
0 -8
9-17
18-26
27-35
36-44
45-53
54-62
63-71
72-80
81-89
90-98
Registro de frecuencias
IIIII
IIIII
IIII
IIIII
I
IIIII
IIIII
I
IIIII
IIIII
II
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
IIIII
III
IIIII
IIIII
IIIII
III
IIIII
Pgina 9 de 20
IIIII
III
IIIII
III
5
9
6
11
17
28
18
13
10
8
5
Histograma
30
Frecuencia
25
20
15
Frecuencia
10
5
0
9
18
27
36
45
54
63
72
81
90
99
Clase
Xg
fM
n
Donde
f es la frecuencia o nmero de observaciones en cada clase
M es el punto medio de cada clase, se determina como el valor medio entre los lmites de clase.
n es el tamao de la muestra o la suma de todas las frecuencias de las clases
Ejemplo:
Clase
(pasajeros)
Frecuencia de clase
(das)
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
50
fM
54.5
64.5
74.5
84.5
94.5
104.5
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
Pgina 10 de 20
Frecuencia acumulada
F
3
10
28
40
48
50
Xg
3935
78.7 pasajeros
50
Primero se identifica la clase donde se encuentra la mediana cuya F es >= n / 2, en este caso la
clase de 70 a 79 con punto central de clase = 74.5.
n/2 F
~
50 / 2 10
Mediana X Lmd
(C ) 70
10 78.33 pasajeros
f
18
md
Donde:
Lmd es el lmite inferior de la clase de la mediana cuya F es >= n / 2 o sean (70)
F es la frecuencia acumulada de la clase que antecede a la clase de la mediana (10)
Fmd es la frecuencia de la clase de la mediana (18)
C es el intervalo de clase de la mediana que es la diferencia entre dos lmites de clase (10)
Primero se halla la clase que tenga la frecuencia ms alta, en este caso la clase 70 a 79.
Da
18 7
(C ) 70
10 76.47
(18 12) (18 7)
Db Da
Moda Lmo
Donde:
Lmo es el lmite inferior de la clase modal con la frecuencia ms alta (70).
Da es la diferencia entre la frecuencia de la clase modal y la clase que la antecede (18 7 = 11)
Db es la diferencia entre la frecuencia de la clase modal y la clase que le sigue (18 12 = 6)
C es el intervalo de la clase modal ( 80 70 = 10 )
Pgina 11 de 20
s2
s
fM
nX 2
n 1
Frecuencia de clase
(das)
M
50-59
60-69
70-79
80-89
90-99
100-109
3
7
18
12
8
2
54.5
64.5
74.5
84.5
94.5
104.5
fM
M2
fM2
163.5
451.5
1341.0
1014.0
756.0
209.0
3935.0
2790.25
4160.25
5550.25
7140.25
8930.25
10920.25
8910.75
29121.75
99904.50
85683.00
71442.00
21840.50
316902.50
3935
78.7
50
316902.50 50(78.7) 2
s2
147.31 pasajeros
49
s 12.14 pasajeros
Xg
6
7
8
9
10
11
12
13
14
= 50
89
233566
01123456
12224556788
002466678
2355899
4678
24
1
Pgina 12 de 20
EL TEOREMA DE TCHEBYSHEV
1
)% de las observaciones se
K2
encuentran dentro de K desviaciones estndar de la media, con K >= 1.
Por ejemplo si K = 3 desviaciones estndar respecto a la media, se tiene que por lo menos el:
(1
1
1
)% 1 2 % 88.89%
2
K
3
SESGO
En la distribucin normal si no es simtrica y tiene una cola ms amplia del lado derecho, se dice
que existe un sesgo a la derecha y viceversa.
3( X Mediana)
s
Si P < 0 los datos estn sesgados a la izquierda, si P > 0 estn sesgados a la derecha; si P = 0 estn
distribuidos normalmente.
Para el caso de los pasajeros de la lnea area del ejemplo anterior se tiene:
Pgina 13 de 20
3(78.7 78.33)
0.03
12.14
Otra estimacin del sesgo a travs de momentos estadsticos (diferencias contra la media) es el
siguiente:
n
Mj
(X
i 1
X)j
j 1, 2,3, 4
M3
Sesgo 1
Para la distribucin normal debe ser 0.
3/ 2
M2
KURTOSIS
M4
M 22
Pgina 14 de 20
USO DE EXCEL
1.
2.
3.
4.
Pgina 15 de 20
Aparecer una ventana en la cual seleccionar los siguientes datos: Rango de entrada, agrupado por
columna, ya que los datos se encuentran ordenados en una columna, Rango de salida, Resumen de
estadsticas.
Nota: El error tpico, curtosis, coeficiente de asimetra, no son objeto de estudio de est seccin por lo cual hacemos
caso omiso de los mismos
Grficas de Caja: Una grfica de caja es un diagrama que proporciona informacin sobre el centro, la dispersin y la
asimetra o sesgo; utiliza cuartiles, y as, es resistente a las observaciones aberrantes.
Los pasos para realizar una grfica de caja son los siguientes 2:
6.
7.
8.
9.
Ejemplo
Usemos los datos siguientes, para construir una grfica de caja:
5
7 8 9 9 11 12 12 13 14 15 16 17 18 19 20 22
13
17
22
Como la mediana est un poco a la izquierda de la mitad de la caja y la extensin ms larga est a la derecha, la
distribucin est sesgada a la derecha.
Diagramas de caja en Minitab:
1.
2.
3.
Pgina 17 de 20
4.
Pgina 18 de 20
Pgina 19 de 20
Pgina 20 de 20