Académique Documents
Professionnel Documents
Culture Documents
Licenciatura en Enfermería
Departamento de Matemática- FBCB/UNL
MEDIDAS DE POSICIÓN Y DISPERSIÓN
En la clase anterior vimos como resumir la información contenida en un conjunto de datos mediante tablas y
gráficos.
En esta clase vamos a ver como resumirlos mediante medidas numéricas.
Estos “números” se denominan medidas estadísticas de resumen y los podemos calcular a partir de los datos de
una muestra o de una población. Para distinguirlos entre sí tenemos las siguientes definiciones:
1. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadístico.
2. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.
En esta clase sólo vamos a trabajar con las primeras.
Además podemos considerar diferentes tipos de medidas de resumen. Entre ellas tenemos:
MEDIDAS DE POSICIÓN
Dentro de ellas se encuentran las medidas de tendencia central que las denominamos así porque indican la
ubicación del centro del conjunto de datos.
De acuerdo al criterio usado para determinar el centro, las tres medidas de tendencia central de uso más
frecuente son: la media aritmética, la mediana y el modo.
A continuación desarrollaremos el concepto, características y forma de cálculo de cada una de ellas.
Media aritmética ( x )
Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta medida cuando
hablamos de promedio. La obtenemos sumando todos los valores de la muestra y dividiendo el valor obtenido
por el número de valores sumados.
n
∑x
i =1
i
Su fórmula es: x =
n
Donde:
Σ (letra griega sigma mayúscula): significa que todos los valores para la variable se suman desde el primero
(i=1) hasta el último (i=n).
xi es cada dato, el subíndice “ i ” varía de 1 a n, cantidad de datos de la muestra.
Ejemplo:
Tenemos una muestra de n = 10 edades de pacientes que ingresan a una sala de emergencia.
Xi Valor
x1 10
x2 20
x3 24
x4 12
x5 25
x6 23
x7 14
x8 15
x9 18
x10 9
Ejercicio 7
Retomemos el problema 5 de las superficies de las lesiones al inicio y a los 25 días de tratamiento. Este
último consistió en curas diarias con el polvo de colágeno.
Superficie inicial
Paciente Superficie a 25 días (cm2)
(cm2)
1 22.8 15.3
2 22.7 19.3
3 25.6 17.5
4 21.2 21.2
5 25.9 20.3
6 23.9 14.3
7 22.9 18.3
8 19.5 16.7
9 26.2 22.1
10 25.2 17.3
Ejercicio 8
En el Ejercicio 1 calcular el % de desnutrición promedio de los niños allí estudiados.
Mediana ( ~x)
Es aquel valor de la variable que divide al conjunto de datos, ordenado en forma creciente, en dos partes
iguales. De manera tal que el número de datos mayor o igual a la mediana es igual al número de datos menores
o iguales a ésta.
- Si el número de valores es impar, la mediana es el valor ubicado en el centro.
- Si el número de valores es par, entonces la mediana corresponde a la media aritmética de los dos
valores centrales.
Ejemplo (n impar)
Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 7 empleados
23 , 12 , 14 , 21 , 7, 29 , 24
En primer término se ordenan de manera creciente los datos de la serie
7, 12, 14, 21, 23, 24, 29
Ejemplo (n par)
Calcular la mediana en la siguiente serie de datos que corresponde a años de antigüedad de 6 empleados
23 , 12 , 14 , 22 , 7, 26
En primer término se ordenan de manera creciente los datos de la serie
7, 12, 14, 22, 23, 26
Entonces la mediana en este caso va a ser el promedio entre los dos valores centrales (….. y ……).
Modo (Mo o x̂ )
Es aquel valor de la variable que ocurre con mayor frecuencia.
Si todos los valores son diferentes, decimos que la serie no tiene modo. Por otro lado, puede ocurrir que haya
más de un modo.
Ejemplo:
Calcular el modo en la siguiente serie de datos que corresponde a edades de 9 pacientes
xi : 23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21
Mo = 21 años
Ejercicio 9
Calcular la mediana y el modo de las siguientes variables:
a) Superficie inicial de la lesión
b) Superficie de la lesión a los 25 días
c) Reducción porcentual de la lesión
d) Porcentaje de desnutrición
Que corresponden al problema 5 (a, b y c) y al ejercicio 1 (d) que desarrollamos en la primer clase.
Q1 : primer cuartil,
Q2 : segundo cuartil,
Q3 : tercer cuartil,
Estos valores dividen al conjunto de datos, después de haber sido ordenados de forma creciente, en 4 partes
iguales de manera tal que:
• Por debajo de Q1 se encuentra el 25 % de los datos y por arriba del mismo el 75 % de la serie.
• Por debajo de Q2 se encuentra el 50 % de los datos y por arriba del mismo el otro 50 % de la serie. Es
decir Q2 coincide con la mediana.
• Q3 deja por debajo del mismo el 75 % de los datos y por arriba de él queda el 25 % de la serie.
Cuando queremos calcular los cuartiles de una serie de datos primero tenemos que calcular sus posiciones o
ubicaciones.
Primero ordenamos los datos de manera creciente y utilizamos las siguientes fórmulas:
n +1
Posición de Q1 : ésima observación ordenada
4
2(n + 1) n + 1
Posición de Q 2 : = ésima observación ordenada
4 2
3(n + 1)
Posición de Q3 : ésima observación ordenada
4
Luego, identificamos en la serie de datos ordenados qué valor le corresponde a cada uno de ellos. Para
entenderlo mejor hagamos los siguientes ejemplos.
4, 24, 35, 2, 8, 17, 19, 7, 12, 33, 14, 37, 7, 14, 18, 31, 28, 18, 6, 36, 41, 9, 7, 27, 30
2, 4, 6, 7, 7, 7, 8, 9, 12, 14, 14, 17, 18, 18, 19, 24, 27, 28, 30, 31, 33, 35, 36, 37, 41
A continuación aplicamos las fórmulas establecidas previamente para calcular las posiciones o ubicaciones
n + 1 25 + 1
Posición de Q : = = 6.5
1 4 4
2(n + 1) n + 1 25 + 1
Posición de Q : = = = 13
2 4 2 2
3(n + 1) 3(25 + 1)
Posición de Q : = = 19.5
3 4 4
Cuando la ubicación del cuartil no corresponde a un valor exacto realizamos el promedio de los dos valores entre
los cuales se encontraría el cuartil que estamos calculando.
En el ejemplo que estamos analizando, la posición del primer cuartil, Q1, nos dio 6.5. Esto significa que
Q1 se encuentra ubicado entre la sexta y la séptima observación, entonces Q1 resulta de hacer el promedio
de estas dos observaciones.
7+8
Q1 = = 7.5 años
2
De la misma manera procedemos para el tercer cuartil, Q3, en este caso consideramos el promedio entre la
decimonovena y vigésima observación.
30 + 31
Q3 = = 30.5 años
2
Como la posición de Q2 dio un valor exacto, “13”, buscamos en la serie de datos ordenados el valor que le
corresponde al dato que está en esta ubicación. En el ejemplo que estamos analizando corresponde al valor 18
años, por lo tanto:
Q 2 = 18 años
Ejercicio 10
a) Calcular los cuartiles para las variables Reducción porcentual de la lesión y Porcentaje de desnutrición del
ejercicio 9. En cada uno de los casos interprete los valores obtenidos
Los deciles son nueve valores y dividen a la serie de datos en 10 partes iguales. Los denota como
D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 , D9
• D1 es un valor que la variable que deja por debajo de él el 10 % de los datos y por encima el 90 % de la
serie.
• D2 es un valor de la variable que deja por debajo de él el 20 % de los datos y por encima el 80 % de la serie.
y así sucesivamente con los siguientes deciles. De esta forma el D5 coincide con la mediana.
Los percentiles son 99 y dividen a la serie de datos en 100 partes iguales. Se los denota como Pi , con i =
1,2,3,,,,,99.
MEDIDAS DE DISPERSIÓN
La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran estos valores.
La magnitud de la dispersión es “pequeña” cuando los valores son cercanos entre sí. Por el contrario, si los
valores están ampliamente esparcidos, decimos que la dispersión es “grande”.
Como medidas de dispersión tenemos: la amplitud o rango, la varianza y la desviación estándar. Que son
medidas de variabilidad absoluta.
Como medida de variabilidad relativa está el coeficiente de variación.
Su utilidad es limitada ya que solamente depende de los valores extremos y, puedemos tener dos series de
datos con el mismo rango pero diferente variabilidad ya que en el centro de la serie los datos se comportan de
diferente manera. Su ventaja reside en la simplicidad de su cálculo.
Ejemplo:
Tenemos disponible una muestra compuesta por n =10 edades de pacientes que ingresan a una sala de
emergencia.
12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45
Varianza (s2)
Cuando los valores de un grupo de datos se encuentran ubicados cerca de la media, la dispersión es menor que
cuando están más alejados de la media. Esta idea permite considerar una medida de dispersión que tenga en
cuenta la variabilidad alrededor de la media. Esta medida se conoce como varianza o variancia. Para calcularla
se resta la media de cada uno de los valores individuales y a estas diferencias se elevan al cuadrado y se
suman. Luego a esta suma se la divide por la cantidad de datos menos 1.
n
∑ (x i − x )2
Su fórmula es: s = i =1
2
n −1
Por suerte, a la varianza la podemos calcular con una calculadora científica, pero, para entender cómo se la
calcula, hagamos el siguiente ejemplo:
Ejemplo:
Consideremos el mismo ejemplo donde calculamos la media. Recordemos que en él x = 17 años . Como
vamos a calcular la varianza “a mano”, construyamos la siguiente tabla:
Notas de clase 2- 2011 5
Estadística
Licenciatura en Enfermería
Departamento de Matemática- FBCB/UNL
xi (x i − x) ( x i − x )2
10 -7 49
20 3 9
24 7 49
12 -5 25
25 8 64
23 6 36
14 -3 9
15 -2 4
18 1 1
9 -8 64
0 310
Entonces:
n
∑ (x − x)
i
2
49 + 9 + 49 + 25 + 64 + 36 + 9 + 4 + 1 + 64 310
s2 = i =1
= = = 34.44 años2
n −1 10 − 1 9
∑ (x − x) i
2
Para la serie de datos del ejemplo que usamos para calcular la variancia tenemos:
∑ (x − x )2 310
s= i
= = 5.87 años
n −1 9
Observación: las unidades en las que se expresa la desviación estándar son las unidades originales de la
variable (años, en este caso en particular).
La desviación estándar y la media se expresan en las mismas unidades y por lo tanto obtenemos una medida
adimensional que al multiplicarla por cien da el valor en porcentaje.
Muestra I Muestra II
Edad media 32 12
Peso medio 75 36
Desviación estándar de los pesos 7 7
Notas de clase 2- 2011 6
Estadística
Licenciatura en Enfermería
Departamento de Matemática- FBCB/UNL
Si comparamos las desviaciones estándar de las dos muestras referida a los pesos, parecería indicar que
presentan ambas muestras la misma variabilidad. Pero calculamos los CV para ambas muestras obtenemos:
Muestra I
Muestra II
Coeficiente de Variación 7 7
C.V. = 100 = 9.3% C.V. = 100 = 19.44%
75 36
Si observamos los valores obtenidos entonces la conclusión es diferente. La muestra I presenta menor
variabilidad que la muestra II.
Ejercicio 11
a) Interprete las siguientes expresiones que leímos en el artículo “Estudio comparativo de dos protocolos de
control de glucemia en el postoperatorio de cirugía cardiaca” (Enfermería en Cardiología Nº 37/2006) en la
primera clase:
…“el número de glucemias en el PE fue de 11.80±3.3 y de 6.50±2.85 en el PS”…
…“La media de glucemia (laboratorio) en el PE fue de 108.20±21.96 y de 135.92±34.22”…
b) Calcule los coeficientes de variación (CV) en cada uno de los casos e interprételos.
c) Más adelante el artículo dice: …Nuestro estudio demuestra que tenemos un mejor control de la glucemia de
nuestros pacientes, con una menor dispersión de los resultados (fig 6)”… Con lo que hemos visto hasta ahora,
está de acuerdo con esta afirmación. ¿Cómo serán las desviaciones estándar de cada grupo?
Problema 9
En un artículo sobre el “Conocimiento que poseen las enfermeras intensivistas sobre el cuidado al paciente
politraumatizado con soporte ventilatorio antes y después de participar en un programa educativo teórico –
práctico” (http://www.portalesmedicos.com/publicaciones) los autores presentan la siguiente tabla sobre los
valores medios y desviación estándar del puntaje obtenido por el Personal de Enfermería en el Manejo del
Equipo de Ventilación Mecánica (VM) Antes y Después del Programa.
Una forma de resumir los datos del cuadro es a través de gráficos de barra de error.
¿Cómo lo construimos?
es posible utilizar una regla que indica el porcentaje de observaciones aproximado que caen en un determinado
intervalo de valores. Esta forma de distribución de datos con forma de campana se presenta frecuentemente en
la naturaleza y es por eso que la aplicación de la regla resulta muchas veces práctica.
Regla empírica
Así, si supiésemos que los puntajes en la Prueba de Manejo del Equipo de VM antes y después del Programa
tienen una distribución con forma de campana, la información que nos brinda el cuadro va más allá de la
información de la media y el desvío estándar calculados para los puntajes obtenidos.
Por ejemplo, suponiendo que los puntajes en la Prueba de Manejo del Equipo de VM antes del Programa tienen
distribución “acampanada”, podemos afirmar que (a partir solo del cálculo de x y s) aproximadamente el 95%
de los puntajes obtenidos son valores del intervalo
(38.7 − 2 ⋅ 9.3, 38.7 + 2 ⋅ 9.3) = (20.1, 57.3).
Ejercicio 12
En relación al Problema 9 responda las siguientes preguntas:
a) ¿Cuál es el intervalo que contiene aproximadamente todos los puntajes obtenidos por los enfermeros antes
del Programa?
b) ¿Cuál es el intervalo que contiene aproximadamente el 68% de los puntajes obtenidos por los enfermeros
después del Programa?
Ejercicio 13
Notas de clase 2- 2011 8
Estadística
Licenciatura en Enfermería
Departamento de Matemática- FBCB/UNL
Como sabemos, los histogramas nos permiten obtener a través de los datos una aproximación de la distribución
de la variable en estudio. El histograma que mostramos a continuación corresponde a los días que llevaba cada
uno de 152 pacientes de Asistencia Respiratoria Mecánica a los que se les realizó una broncoendoscopía.
¿Es adecuado aplicar para este conjunto de datos la regla empírica? ¿Por qué?
Su fórmula es: RI = Q3 - Q1
Con esta distancia quedan dos colas una a la izquierda del primer cuartil y otra a la derecha del tercer cuartil y
ambas contienen el 25 % de los datos.
Gráfico de cajas
Este gráfico sirve para representar datos numéricos se basa en los cuartiles. Suministra información sobre los
valores mínimo y máximo, los cuartiles (Q1, Q2 o mediana y Q3), sobre la existencia de valores atípicos y la
simetría de la distribución. Es especialmente útil para comparar distribuciones de varios conjuntos de
observaciones.
Ejemplo. Los siguientes datos (ordenados de menor a mayor) corresponden a los tiempos de hospitalización, en
días, después de una cirugía de cráneo.
8, 9, 9, 12, 13, 15, 15, 17, 23, 24, 21, 28, 33, 36, 37, 26, 38, 21, 45, 44, 78
En este caso a1 = 8 y a3 = 44
Solamente tenemos un dato que cae fuera las barreras interiores, en el lado derecho, que es el 78.
Ahora podemos construir el diagrama que nos queda:
Volvamos ahora al ejemplo de los días de ARM de pacientes a los que se les realiza una Broncoendoscopía. Los
mismos datos que están representados en el histograma anterior ahora los muestramos en el siguiente gráfico.
- Muestra los cinco números resúmenes: mínimo, cuartil inferior, mediana, cuartil superior, máximo.
- Permite estudiar la simetría de la distribución.
- Nos da un criterio de detección de datos atípicos.
Como ya dijimos, estos gráficos son muy útiles para comparar varias distribuciones.
Los siguientes gráficos corresponde a la misma variable de antes (Día ARM) pero según el tratamiento que
reciben al momento de realizar la broncoendoscopía (Con Antibiótico (C/A) o Sin Antibiótico (S/A)).
Ejercicio 14
Describir ambos gráficos y compararlos.