Académique Documents
Professionnel Documents
Culture Documents
1
Análisis Descriptivo de un Conjunto de Datos
Suponga que se tienen n datos recopilados sobre una variable y que pueden
representar los tiempos de duración de unas baterı́as para vehı́culo. Éstos da-
tos pueden ser los que aparece a continuación:
2.2 3.4 2.5 3.3 4.7 4.1 1.6 4.3 3.1 3.8 3.5 3.1 3.4 3.5
3.7 3.2 4.5 3.3 3.6 4.4 2.6 3.2 3.8 2.9 3.2 3.9 3.7 3.4
3.1 3.3 4.1 3.0 3.0 4.7 3.9 1.9 4.2 2.6 3.7 3.1
2
Análisis Descriptivo de un Conjunto de Datos
Existen técnicas estadı́sticas que permiten extraer información que puede re-
sultar de algún modo importante para tomar decisiones en un determinado
momento. Hay dos maneras de analizar estos datos:
2. Datos sin agrupar: Consiste en manipular los datos tal y como fueron
recopilados.
3
Datos Agrupados
4
Medidas de Tendencia Central en Datos Agrupados
Media Muestral X
K #celdas
∑ Xi · fi ∑ marca de clase x f rec abs de clase
X Agrup = i=1 = i=1
n Total f rec. Absolutas
5
Medidas de Tendencia Central en Datos Agrupados
Ejemplo considere los datos de las Estaturas de los estudiantes del curso de
primer semestre. Con base en la tabla de frecuencias se tiene que:
7
∑ Xi fi
X Agrup = i=1
n
(152.5 ∗ 1) + (157.5 ∗ 3) + · · · + (182.5 ∗ 5)
=
48
= 171.15
Estadı́stica Descriptiva e Inferencial
6
Medidas de Tendencia Central en Datos Agrupados
Moda Muestral
Es el dato con mayor frecuencia absoluta dentro de una distribución; si en una
distribución aparecen dos Modas, se habla de una D. Bimodal; si son más de
dos modas se dirá una D. Multimodal. Para datos agrupados la moda se define
como:
( fi − fi−1)
Mo = Lin f + ·A
( fi − fi−1) + ( fi − fi+1)
7
Medidas de Tendencia Central en Datos Agrupados
Ejemplo (Moda) considere los datos de las estaturas de los estudiantes del
curso de primer semestre. Identificamos la clase modal:
8
Medidas de Tendencia Central en Datos Agrupados
Ejemplo
considere los datos de las estaturas de los estudiantes del curso de primer
semestre. La moda estará dada por:
( fi − fi−1)
Mo = Lin f + ·A
( fi − fi−1) + ( fi − fi+1)
(12 − 11)
= 175 + ·5
(12 − 11) + (12 − 5)
= 175.63
Lo anterior quiere decir, que la estatura de los estudiantes del curso de pri-
mer semestre con mayor frecuencia en la muestra de 48 estudiantes es de
175.63 cm.
9
Medidas de Tendencia Central en Datos Agrupados
Mediana (X̃ )
La mediana es una medida de posición de tendencia central. Se simboliza por
X̃ . La mediana de un conjunto de datos es aquel valor que ocupa la posición
central, previa ordenación de los datos en forma ascendente o descendente;
por lo cual podemos decir que por encima del valor de la mediana se encuen-
tra el 50 % de los datos y por debajo del valor de la mediana se encuentra
el otro 50 % de los datos del conjunto. La Mediana coincide con el Percen-
til 50 (P50). Es usualmente denotada X̃ . Su cálculo se realiza con el mismo
procedimiento utilizado en la obtención de los percentiles.
10
Medidas de Localización en Datos Agrupados
Percentiles Muestrales
Los percentiles son aquellos valores abajo y arriba de los cuales se encuentra
una cierta proporción de datos del conjunto. Por ejemplo, el percentil 10 es
aquel valor tal que al menos el 10 % de los datos son inferiores a el y al me-
nos el 90 % de los datos son superiores a él.Si la caracterı́stica de interés está
asociada a una variable X , el percentil 100p %, para 0 < p < 1, suele deno-
tarse por x p. Otra manera de denotar un percentil, es a través del porcentaje
que representa. Por ejemplo, el percentil 25, suele denotarse como P25.
11
Medidas de Localización en Datos Agrupados
Percentiles Muestrales
Para calcularlo se requiere la columna de frecuencias relativas acumuladas,
que se obtiene de la tabla de frecuencias, usando la siguiente fórmula:
(p − a) ∗ A
x p = Lin f + (1)
f
Para identificar la clase del percentil se identifica cual clase tiene una frecuen-
cia relativa acumulada igual o superior a p.
Estadı́stica Descriptiva e Inferencial
12
Medidas de Localización en Datos Agrupados
Ejemplo
Usando los datos de estaturas calcule el P50.
13
Medidas de Localización en Datos Agrupados
14
Medidas de Localización en Datos Agrupados
Los percentiles P25, P50 y P75, dividen los datos en cuatro partes porcen-
tualmente iguales. Estos percentiles son llamados Cuartiles y se denotan Q1,
Q2 y Q3, respectivamente.
15
Medidas de Dispersión en Datos Agrupados
16
Medidas de Dispersión en Datos Agrupados
Varianza Muestral
Esta medida indica que tanto se alejan los datos respecto de la media. Se
2
denota Sagrup . Se calcula por medio de la siguiente fórmula:
K 2
∑ Xi − X̄agrup ∗ fi
2
Sagrup = i=1
n−1
Desviación estándar
q
S= 2
Sagrup
17
Medidas de Dispersión en Datos Agrupados
Ejemplo Varianza: Usando los datos de estaturas la varianza está dada por
K 2
∑ Xi − X̄agrup ∗ fi
2636.98
2
Sagrup = i=1 = ≈ 56.11
n−1 47
q
La desviación estándar es S = 2
Sagrup ≈ 7.5cm (Interpretar)
Estadı́stica Descriptiva e Inferencial
18
Medidas de Dispersión en Datos Agrupados
Rango Intercuartil
Es la diferencia entre el percentil 75 y el percentil 25. Valores grandes quiere
decir que el 50 % de los datos más centrales se encuentra muy disperso.
19
Medidas en Datos no Agrupados
Datos no Agrupados
Para el cálculo de estas medidas se consideran todos y cada uno de los datos,
por lo cual la perdida de información contenida en la muestra se reduce. Tam-
bién se dividen en dos: Medidas de localización y Medidas de dispersión.
En las medidas de localización se circunscriben las medidas de tendencia
central.
20
Medidas de Tendencia Central en Datos no Agrupados
n
∑ Xi
X̄ = i=1 i = 1, . . . , n (4)
n
21
Medidas de Tendencia Central en Datos no Agrupados
Media Muestral
Ejemplo: (La media es sensible a valores extremos). Considere los ingresos
mensuales en dolares de 8 empleados públicos, 500, 750, 600, 550, 700,
2000, 550, 550. Calcule el ingreso mensual medio.
500 + · · · + 550
x̄ = = 775
8
Observe que este valor es mayor a la mayorı́a de las cifras del conjunto de
datos y por lo tanto no es un buen representante de él.
22
Medidas de Tendencia Central en Datos no Agrupados
Media Muestral
Ejemplo: Se registran las edades de 15 personas en un grupo.
Estas son: 18, 20, 19, 19, 21, 22, 20, 23, 21, 24, 19, 20, 22, 21, 24 (en años)
Calcule la edad promedio de las 15 personas.
18 + · · · + 24
x̄ = = 20.86 ≈ 20.9 (5)
15
23
Medidas de Tendencia Central en Datos no Agrupados
24
Medidas de Tendencia Central en Datos no Agrupados
Moda Muestral
Es posible que un conjunto de datos no tenga moda o que tenga varias modas.
25
Medidas de Tendencia Central en Datos no Agrupados
Moda Muestral
Ejemplo: Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
Calcule la moda.
Se puede observar que el conjunto de datos tiene dos modas que son respec-
tivamente: 550 y 750.
26
Medidas de Tendencia Central en Datos no Agrupados
27
Medidas de Tendencia Central en Datos no Agrupados
Mediana Ejemplo:
Considere los ingresos mensuales en dolares de 8 empleados públicos, 500,
750, 600, 550, 700, 2000, 550, 550.
La muestra ordenada es
Calcule la mediana.
Como n es par:
X( n ) + X( n +1) X(4) + X(5) 550 + 600
X̃ = 2 2
= = = 575
2 2 2
28
Medidas de Tendencia Central en Datos no Agrupados
Mediana Ejemplo:
Para el ejemplo anterior, de las edades, calcular la mediana.
29
Medidas de Localización en Datos no Agrupados
Percentiles Muestrales
Una aproximación a los valores de los percentiles se puede obtener por medio
del siguiente algoritmo que muestra como se calcula el percentil de orden p:
(np) +X(np+1)
(X
2 , Si np es un natural
xp =
X(bnpc+1), Si np no es un natural
30
Medidas de Localización en Datos no Agrupados
Percentiles Ejemplo:
Considere los siguientes datos ordenados de menor a mayor:
500, 550, 550, 600, 700, 750, 750, 800, 900, 950
31
Medidas de Dispersión en Datos no Agrupados
Medidas de Dispersión
La Varianza: La varianza muestral mide que tanto se alejan los datos de la
media. Valores grandes de la varianza indican una gran dispersión. Se denota
por S2. Se calcula con la siguiente fórmula
2 ∑ni=1(Xi − X̄)2
S =
n−1
32
Medidas de Dispersión en Datos no Agrupados
33
Medidas de Dispersión en Datos no Agrupados
Varianza
Ejemplo: Para los datos de las edades, se tiene que:
2 ∑(Xi − 20.9)2
S = = 3.4095 ≈ 3.41, y S = 1.8466 ≈ 1.85
15 − 1
Lo cual significa que la desviación promedio en cuanto a la media es de 1.85
años.
34
Medidas de Dispersión en Datos no Agrupados
Rango Intercuartil
Esta medida es la diferencia entre el percentil 75 y el 25. Mide que tan disper-
so está el 50 % de los datos más centrales. Se calcula ası́:
35
Medidas de Dispersión en Datos no Agrupados
36
Medidas de Dispersión en Datos no Agrupados
Calcule el coeficiente de variación para los adultos y para los niños. Con los
datos anteriores se puede observar que:
Se puede concluir que los pesos de los niños son más variables que los de
los adultos.
Estadı́stica Descriptiva e Inferencial
37
Medidas de Dispersión en Datos no Agrupados
38