Académique Documents
Professionnel Documents
Culture Documents
1
16.1 7.5 3.4 5.2 3.8 5.0 4.1 9.6 9.4 19.0 8.3 4.9. La media Cuartiles: son tres valores que divides la serie de
muestral es datos en cuatro partes iguales. Se representan por
C1 (cuartil primero), C2 (cuartil segundo) y C3 (cuartil
1 12 16.1 + 7.5 + · · · + 4.9 tercero)
x̄ = ∑ xi =
12 i=1 12
Quintiles: son cuatro valores que dividen la serie de
96.3
= = 8.025 datos en cinco partes iguales: K1 , K2 , K3 y K4 .
12
Deciles: son nueve valores que dividen la serie de
El tiempo promedio de consulta es entonces de 8.025 mi-
datos en 10 partes iguales: D1 , D2 , ..., D9 .
nutos.
Percentiles: son 99 valores que dividen la serie de
Mediana: La mediana representa aquel valor de la va- datos en 100 partes iguales: P1 , P2 , ..., P99 .
riable (ordenada) que divide los datos en dos partes por- Una expresión general para su cálculo es:
centualmente iguales. Si se quiere hallar el valor de la va-
riable que deja por debajo de sí el 50 % del resto de los va- Q p = xbhc + (h − bhc) xbhc+1 − xbhc
lores de la variable, una expresión general para su cálculo donde h = p (n − 1) + 1 y bhc es el mayor entero no mayor
es: que h.
x̃ = xbhc + (h − bhc) xbhc+1 − xbhc Ejemplo: (continuación) Hallemos los cuartiles 1 y 3.
donde h = 0.5 (n − 1) + 1 y bhc es el mayor entero no ma- Para el cuartil 1: Primero determinamos el valor de h to-
yor que h. mando p = 0.25
h = 0.25 (12 − 1) + 1 = 3.75
Ejemplo: (continuación) Primero determinamos el va- por tanto
lor de h bhc = b3.75c = 3
h = 0.5 (12 − 1) + 1 = 6.5
Luego, el dato ordenado en la posición 3 es x3 = 4.1 y en
por tanto la 4 es x4 = 4.9
bhc = b6.5c = 6 Q0.25 = x3 + (3.75 − 3) (x3+1 − x3 )
Luego, el dato ordenado en la posición 6 es x6 = 5.2 y en = x3 + (0.75) (x4 − x3 )
la 7 es x7 = 7.5 = 4.1 + (0.75) (4.9 − 4.1)
= 4.7
x̃ = x6 + (6.5 − 6) (x6+1 − x6 )
= x6 + (0.5) (x7 − x6 ) Así, el 25 % de los tiempos de atención fue inferior a 4.7
minutos.
= 5.2 + (0.5) (7.5 − 5.2)
Para el cuartil 3: Primero determinamos el valor de h to-
= 6.35 mando p = 0.75
2
2.2. Medidas de dispersión Ejemplo: (continuación)
Las medidas de dispersión o variabilidad permiten es- 4.97
cv = = 0.619 (61.9 %)
tablecer que tan dispersos están entre si un conjunto de 8.025
datos observados. Algunas de estas medidas se refieren a Los tiempos de atención tienen una variabilidad del
la dispersión respecto a una medida particular de tenden- 61.9 %.
cia central.
Ejemplo: De una población de 155 posibles sitios de
Rango: Es la diferencia entre el máximo valor observa- muestreo alrededor del rio Meuse (Bélgica) se seleccionó
do y el mínimo: R = xn − x1 . una muestra de 25 de estos sitios para medir las concen-
traciones de plomo (ppm) en la capa superficial del sue-
Rango intercuartil: El cual denotaremos IQR, es la di- lo. Las áreas muestreadas son de aproximadamente 15m
ferencia entre C3 y C1 . Permite determinar que tan disper- x 15m. Los valores muestrales fueron: 429, 135, 173, 50,
so está el 50 % de la información más central. 285, 80, 102, 93, 148, 141, 70, 464, 133, 81, 94, 210, 150,
166, 482, 56, 75, 159, 48, 211, 654.
Varianza: La varianza de un conjunto de datos es una Así, el promedio es:
medida de su dispersión que se calcula como
n n 1 25 4689
x̄ = ∑ xi = = 187.56
∑ (xi − x̄)2 ∑ xi2 − nx̄2 25 i=1 25
i=1 i=1
s2 = = La concentración promedio de plomo es de 187.56 ppm.
n−1 n−1
La mediana:
pero tiene el inconveniente de estar en unidades cuadradas
de la variable. h = 0.5 (25 − 1) + 1 = 13
bhc = b13c = 13
Desviación estándar: Es la raíz cuadrada de la Varianza x13 = 141
por tanto tiene las mismas unidades que la variable origi- x14 = 148
nal. Indica la media de las distancias que tienen los datos
respecto de su media aritmética.
x̃ = 141 + (13 − 13) (148 − 141) = 141
La variabilidad promedio de los tiempos de atención es de El 90 % de las muestras tienen concentraciones de plomo
4,97. inferiores a 450 ppm.
La varianza, desviación estándar y CV:
Coeficiente de variación: Es una medida de dispersión 1471503 − 25 187.562
2
invariante ante cambios de escala que se usa para compa- s = = 24668.09
√ 24
rar dispersiones de diferentes conjuntos de datos. Se cal-
s = 24668.09 = 157.06
cula como 157.06
s
cv = cv = = 0.837
x̄ 187.56
y tiene la propiedad de encontrarse entre 0 y 1, por tanto La variabilidad promedio de los contenidos de plomo es
se puede interpretar en términos porcentuales. de 157.06 ppm, esto es del 83.7 %.
3
La covarianza y el coeficiente de correlación La co-
varianza en una medida de variabilidad conjunta entre un
par de variables X y Y medidas sobre un conjunto de n in-
dividuos. En general, si disponemos de muestras de pares
de datos (x1 , y1 ) , . . . , (xn , yn ) se define la covarianza como:
n
∑ xi yi − nx̄ȳ
i=1
sxy =
n−1
El coeficiente de correlación lineal es una medida de
asociación entre las dos variables definido como:
Sxy
rxy =
Sx Sy
y 79 54 74 62 85 55 88 85
x 3.6 1.8 3.3 2.3 4.5 2.9 4.7 3.6
y 51 85 54 84 78 47 83
x 1.9 4.4 1.8 3.9 4.2 1.7 4.7
x̄ = 3.287 sx = 1.137
ȳ = 70.93 sy = 15.125
n
∑ xi yi − nx̄ȳ
i=1
sxy =
n−1
3723.3 − 15 (3.287) (70.93)
=
14
= 16.163
sxy 16.163
rxy = =
sx sy (1.137) (15.125)
= 0.9399