Académique Documents
Professionnel Documents
Culture Documents
Curso: 1º Medicina
Tema: Estadística Descriptiva
Un estudio descriptivo es aquel que se hace con el objeto de recoger, analizar y resumir la
información de las variables (DATOS) obtenidos de un conjunto de individuos (muestra o
población finita), sin intención de generalizar resultados sobre la población. Como ya hemos
visto con anterioridad, estas variables pueden ser cualitativas o cuantitativas, y dependiendo de
su naturaleza así será el tratamiento que realicemos sobre los datos obtenidos.
Desde otro punto de vista, es innegable que la mayoría de los parámetros poblacionales
(estimables sólo a través de estudios inferenciales) tienen su homólogo muestral, que
constituirá el valor de referencia para la estimación. De hecho vemos que muchos de los
coeficientes descriptivos muestrales se convierten en poblacionales con sólo sustituir las
frecuencias por probabilidades.
Los datos constituyen la materia prima de la Estadística. Se obtienen datos al realizar cualquier
tipo de prueba, experimento, valoración, medición, observación, etc.
Cuando el número de datos es pequeño podemos asumir el trabajar con todos ellos, pero si las
necesidades de exactitud nos obligan a trabajar con un número elevado de datos se hace
preciso condensar la información y mostrarla gráficamente. Esto último lo conseguimos
mediante tablas, histogramas, polígonos de frecuencia, pictogramas, gráficas tendenciosas,
etc.
1
dos grandes bloques: cualitativos y cuantitativos, los cuales a su vez se pueden segregar en
otros subtipos. Para sistematizar nuestro tema vamos a analizar en primer lugar como se
describen las variables cualitativas y cuantitativas, y luego abordaremos el estudio de los
estadísticos resumen (posición central, posición, dispersión y simetría).
Llamamos tabla de distribución de frecuencias a la tabla que contiene las distintas clases o
atributos y las frecuencias correspondientes a cada una de ellas. La frecuencia se puede
expresar como una magnitud absoluta o relativa, sin o con acumulación. De este modo
tenemos:
H1 = h1
H 2 = h1 + h2
H 3 = h1 + h2 + h3
....
H n = h1 + h2 + h3 + ... + hn = 1
2
4.- Representaciones Gráficas.
Las representaciones gráficas deben cumplir su propósito con sencillez, de modo que un
simple vistazo permita transmitir la máxima cantidad de información posible.
Existen diversos tipos de representaciones gráficas, y según el tipo de carácter (variable) que
estemos estudiando, usaremos una representación gráfica u otra.
Recuerda que cuando nos encontramos con información basada en gráficos estadísticos
hemos de tener en cuenta:
4.1.- Diagrama de Barras. Es un gráfico sobre ejes cartesianos en el que distribuimos en el eje
X o eje de abscisa las modalidades si el carácter es cualitativo o los valores si la variable es no
agrupada (cuantitativa discreta). Sobre ellos se levantan barras o rectángulos de igual base
(que no se solapen) cuya altura sea proporcional a sus frecuencias. También se suelen utilizar
para series cronológicas y pueden, asimismo, representarse horizontalmente, intercambiando
los ejes.
3
Cuando se realizan representaciones correspondientes a edades de población, cambiamos el
eje Y por el eje X para obtener las llamadas pirámides de población, que no son más que 2
histogramas a izquierda y derecha, para hombres y mujeres. Veamos un ejemplo:
4.3.- Polígonos de Frecuencias: Son gráficos lineales que se utilizan en el caso de una
variable cuantitativa (discreta o continua). Para realizar estos polígonos unimos los puntos
medios de las bases superiores del diagrama de barras o del histograma según la variable sea
agrupada o no agrupada.
En el caso de representar las frecuencias acumuladas de una variable no agrupada se unen los
puntos medios de las bases superiores del diagrama de barras, y si la variable es agrupada se
unen los vértices superiores derechos de los rectángulos.
4.4.- Diagrama de sectores: Son gráficos en los que a cada valor o modalidad se reasigna un
sector circular de área proporcional a la frecuencia que representan. Se utilizan si el carácter es
cualitativo o cuantitativo discreto no agrupado.
4
Para construirlos lo más sencillo es insertar una columna en la tabla de frecuencias en la que
multiplicamos por 360º la columna de frecuencia relativa, o por 3,6 las frecuencias relativas %.
4.5.- Pictogramas: Son gráficos con dibujos alusivos al carácter que se está estudiando y cuyo
tamaño es proporcional a la frecuencia que representan; dicha frecuencia se suele representar.
En el siguiente ejemplo hemos representado el número de partidos ganados, perdidos o
empatados de un equipo.
4.6.- Cartogramas: Son gráficos realizados sobre mapas, en los que aparecen indicados sobre
las distintas zonas cantidades o colores de acuerdo con el carácter que representan. En el
siguiente cartograma observamos la prevalencia de enfermedades pulmonares contraídas por
causas laborales en el mundo.
5
Ya que conocemos los distintos tipos de representación gráfica de los datos, y cuáles son las
magnitudes que debemos recoger en las tablas de distribución de frecuencias vamos a estudiar
cómo tratar cada uno de los tipos variables.
Las variables cualitativas, que por regla general se denominan atributos (aunque sabemos que
esta definición no sería del todo correcta) se agrupan en modalidades que incluyen los posibles
resultados que puede tomar el carácter. Estas modalidades equivalen a los sucesos recogidos
en el espacio muestral (si nos referimos al supuesto en términos probabilísticos).
Para representar los datos cualitativos podemos agruparlos en función de las categorías
posibles: 2 (dicotómicos), 3 o más (independientes). Cada uno de los grupos tiene asociada
una marca que corresponde a la categoría.
Por regla general con los datos-atributos no tiene sentido realizar operaciones, de modo que
podemos usar el nombre de la categoría como marca de la clase. Pero si queremos hacer
algún tipo de operación es preciso asociar a cada clase un número, que al ser totalmente
arbitrario tendrá posibilidades operacionales muy limitadas.
Ejercicio 1.- Para llevar a cabo un estudio sobre la cantidad de niños y niñas que nacen en
Andalucía se recopilan los datos de los hospitales con sala de maternidad de las ocho
provincias, llegando a los siguientes resultados: Hembras (44356) y Varones (43834). Elabora
una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.
Clase fi hi %i Fi Hi Sectores
Hembras 44356 0,5030 50,3% 44356 0,50 181,07
Varones 43834 0,4970 49,7% 88190 1 178,93
TOTAL 88190 1 100,0% 360
6
5.2.- Variable Nominal Politómica.
Elabora una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.
Clase fi hi %i Fi Hi Sectores
Alemán 5 0,125 12,5% 5 0,125 45
Español 9 0,225 22,5% 14 0,35 81
Inglés 11 0,275 27,5% 25 0,625 99
Francés 13 0,325 32,5% 38 0,95 117
Ruso 2 0,05 5,0% 40 1 18
TOTAL 40 1 100,0% 360
El gráfico que podemos asociar es un diagrama de sectores. En la tabla hemos incluido una
columna en la que se indican los grados que posee cada sector, para facilitar su dibujo si lo
hacemos con un transportador de ángulos.
Ejercicio 3.- Con el fin de agilizar el servicio de asistencia en puerta por parte de los servicios
sanitarios se decide dividir las asistencias en tres grandes grupos en función de su gravedad:
asistencias de casos leves, moderados y graves. Para poder destinar salas y personal de forma
adecuada se contabilizan los casos de los últimos meses y se les pide a los servicios sanitarios
que los cualifiquen según la escala. Los resultados son:
Elabora una tabla de frecuencias que resuma los datos, y añade un gráfico que colabore en su
comprensión.
7
La tabla de frecuencias asociada al conjunto de datos es:
Clase fi hi %i Fi Hi Sectores
Leves 12256 0,7075 70,7% 12256 0,71 254,70
Moderados 4322 0,2495 24,9% 16578 0,96 89,82
Graves 745 0,0430 4,3% 17323 1,00 15,48
TOTAL 17323 1 100,0% 360
Esta vez optamos por una representación en anillo en lugar de cómo sectores circulares:
Aquellas variables que se describen con valores numéricos reciben el nombre de variables
cuantitativas. Dentro de estas encontramos dos grandes grupos:
Son aquellas variables que solo pueden tomar valores concretos, usualmente valores enteros.
Son ejemplos de este tipo de este tipo de variables: el número de hijos por parejas, el número
de días de hospitalización después de una apendicectomía, los minutos dedicados a la
elaboración de la historia de un paciente en consulta primaria, etc.
8
Ejercicio 4.- Se han entrevistado a 150 parejas de distintas edades y se les ha preguntado por
el número de hijos que tienen. Los datos se recogen en la siguiente tabla:
Nº de hijos
fi hi %i Fi Hi H(%)i
xi
0 46 0,3367 30,67% 46 0,3367 33,67%
1 55 0,3667 36,67% 101 0,6734 67,34%
2 17 0,1133 11,33% 118 0,7867 78,67%
3 21 0,1400 14,00% 139 0,9267 92,67%
4 o más 11 0,0733 7,33% 150 0,1000 100%
TOTAL 150 1 100% 1
Hemos de aclarar que en aquellos casos en los que al considerar cada dato discreto como una
categoría, el número de grupos que aparezca sea demasiado elevado es práctica común reunir
los datos en grupos que reciben el nombre de clases.
Por ejemplo, imaginemos que estamos evaluando el número de veces como media que una
persona jubilada acude a los servicios de atención primaria (variable discreta). Un vistazo a los
datos nos indica que el rango oscila entre 0 y 114 visitas en un año. Es evidente que el número
de entradas si tomamos los datos uno a uno es excesiva, de modo que se opta por agrupar los
datos en paquetes: [0 – 15); [15 – 30); … ; [105 – 120).
Dado que la mayor parte de las variables físicas que se analizan se mueven en un continuo
dentro de unos valores límite, este suele ser el caso más general que se encuentran los
científicos que pretenden llevar a cabo un análisis estadístico de los datos. (NOTA: En el caso
de las investigaciones sociales suelen abundar las funciones discretas).
9
Son ejemplos de variables continuas: el peso de un individuo adulto, su nivel de glucemia, su
temperatura corporal, etc. Pero, ¿realmente somos capaces de darle cualquier valor a la
variable?. La respuesta es que no.
Cuando medimos una variable continua hemos de recurrir a un patrón para poder comparar el
valor mostrado por el sujeto con el patrón (unidad). Dependiendo de la exactitud que muestre el
patrón así será la exactitud máxima que podemos dar en la medida. Por tanto, aunque los
datos sean continuos el último término equivalen a una colección de valores discretos.
No debemos olvidar que cuando los datos son reunidos en clases se pierde parte de la
información en aras de obtener una mayor simplicidad de análisis. Por eso hemos de ser muy
cuidadosos a la hora de resumir la información. En general se recomienda un número de clases
entre 5 y 20.
Es evidente que el primer paso es calcular el número de intervalos y la amplitud de los mismos
para poder agrupar los datos.
Para gustos, los colores….. Podríamos hacer mención a este dicho para indicar la gran
variedad de fórmulas y principios que se aplican en este punto. Lo que nunca debemos olvidar
es que nos movemos a lo largo de un segmento cuyos extremos debemos evitar:
Debemos elegir un número de clases que nos permita un trabajo cómodo y rápido, pero no tan
pocas que impliquen demasiada concentración y pérdida de la información. Recuerda que cada
vez que un dato es incluido en una clase (caja) dejamos de conocerlo y se convierte en “uno
más” dentro de la clase, con lo que sólo sabemos de él que su valor está entre el límite inferior
y superior de la clase que lo aloja.
En cuanto al tamaño de las clases, siempre que nos sea posible se optará por clases de
tamaño homogéneo y que sean simétricas. Esto nos va a facilitar las operaciones de cálculo de
medianas y otras medidas de posición. Pero en ocasiones nos vemos abocados a usar clases
de tamaños distintos porque, o bien no es factible o, nos deja los datos acumulados en una
parte de la tabla: (edades a las que ocurren accidentes de tráfico, niveles de exposición a un
agente perjudicial, etc.). En estos últimos supuestos debemos ser cuidadosos a la hora de
elegir las fórmulas adecuadas para el cálculo de las medidas de posición.
El criterio final de la distribución se deja en manos del analista, pero son muchos los métodos
matemáticos de los que disponemos para el cálculo del número de clases y su amplitud. La
tabla siguiente muestra el número de intervalos sugeridos por tres reglas para valores (n) de
datos entre 10 y 300. Las reglas proponen que se tome la parte entera (lo significamos con [ ])
de:
10
Fórmula amplitud de
Regla Fórmula nº de intervalos
las clases
Dixon y Kronmal(1965) L = [ 10 ⋅ log10 n ] n ∈ ( 50 − 100 )
Velleman (1976) L = 2 n n ∈ ( 10 − 50 )
L = [ 1 + log 2 n ] n ∈ ( 100 − 300 ) Rango
c=
L
Sturges (1926) O bien, la fórmula:
L = 1 + 3,3 ⋅ log(n)
NOTA: A menudo la parte entera se redondea al alza para evitar dejar datos de la muestra
fuera de la última clase.
Los intervalos quedan representados por un dato que recibe el nombre de marca de la clase y
que puede ser cualquiera de las medidas de posición central que analizaremos más adelante,
siendo la más común la media aritmética.
Para evitar confusiones con aquellos datos que coincidan con un extremo de los intervalos se
toma como criterio que los intervalos son cerrados por la izquierda y abiertos por la derecha
(algunos autores y textos usan justo el criterio contrario). De modo que si un dato coincide con
el extremo de dos intervalos encadenados se asocia al intervalo de marca mayor. Sucesión de
intervalos encajados.
Una vez que hemos dividido el conjunto de datos en clases podemos llevar a cabo el estudio
de las frecuencias y representar los valores gráficamente en un histograma o en un polígono de
frecuencias.
Ejercicio 5.- En la siguiente tabla se recogen los valores de las estaturas de alumnos y
alumnas de una clase.
169 / 181 / 165 / 155 / 170 / 169 / 168 / 175 / 172 / 183 / 186 / 181 / 163 / 176 / 169
161 / 173 / 181 / 176 / 153 / 178 / 174 / 165 / 176 / 173 / 164 / 170 / 157 / 174 / 185
Usa el criterio de Sturges para determinar el número de intervalos y su amplitud, y agrupa los
datos en esos intervalos. Luego completa la tabla de frecuencias y representa los datos en un
Histograma. Empecemos calculando en número de clases, el rango y la amplitud:
11
Nota: el último número aunque entraría en la siguiente clase lo consideramos dentro de la
última.
Cuando hemos reunido un conjunto de datos, es necesario condensarlos para que aparezcan
claramente las características principales de dicho conjunto. Si debemos comparar dos o más
conjuntos, la condensación es aún más necesaria. Por eso es importante que dispongamos de
medidas cuantitativas para representar adecuadamente los datos y poder compararlos más
fácilmente. Estas medidas nos proporcionan, en forma concisa, un resumen de la información
obtenida.
Como hemos visto, las tablas y las gráficas bien hechas, pueden ser de ayuda considerable al
hacer que grandes cantidades de datos, de otra forma confusos, den a conocer los secretos
que ocultan cuando están desorganizados. Ahora daremos un paso más al resumir la
información de forma que todo el conjunto de datos inicial pueda ser condensado en un par de
cifras, usualmente la media y la desviación estándar.
Las medidas de tendencia central son valores alrededor de los que las observaciones tienden a
agruparse, y permiten ubicar lo que en algún sentido pudiera llamarse el “centro” de un
conjunto de datos. La tendencia central se refiere al punto medio de una distribución.
Cuando se estudia una variable, habitualmente interesa saber en qué lugar se encuentran
ubicados sus valores. Esta noción de un valor que represente una característica de 'centro' de
una población, es uno de los primeros elementos de información que se busca establecer para
describirla.
No hay duda que la medida de Tendencia Central que se encuentra con más frecuencia, y es la
más conocida, es la media llamada con más propiedad Media Aritmética (en la práctica
cotidiana se conoce simplemente como el promedio). También se emplean con frecuencia la
Mediana y la Moda.
12
Si disponemos de datos agrupados con su
Si disponemos de datos sin agrupar la
frecuencia correspondiente la definimos
definimos como:
como:
n n
∑ xi ∑ xi ⋅ fi
x= i= 1
x= i= 1
n n
Ejercicio 6.- Si tenemos la siguiente distribución, se pide hallar la media aritmética, de los
siguientes datos expresados en kg (ver tabla).
La manera más simple de calcular la media aritmética es calcular los valores de cada dato por
su frecuencia en una nueva columna, y sumarla en la fila de los totales. Este sumatorio entre el
valor total de datos nos da la media aritmética.
∑ xi ⋅ fi
601
x= i= 1
= = 60,1kg
n 10
En el caso de que el estudio se lleve a cabo sobre una variable continua (x i), que habremos
agrupado en clases, para calcular el valor de la media aritmética es preciso usar un valor de
representación de la clase que denominamos Marca de la Clase (mi) y que se calcula como la
media aritmética de los valores extremos de cada intervalo.
∑ mi ∑ mi ⋅ fi
x= i= 1
x= i= 1
n o n
En general, la media aritmética obtenida a partir de las marcas de clase mi, diferirá de la media
obtenida con los valores reales, xi. Es decir, habrá una pérdida de precisión que será tanto
mayor cuanto mayor sea la diferencia entre los valores reales y las marcas de clase, o sea,
cuanto mayor sea la amplitud de las clases o intervalos ci.
Usando el mismo principio planteado con el ejercicio anterior de establecer una columna sobre
la que hacer los cálculos del sumatorio llegamos a:
13
n
∑ mi ⋅ fi
5040
x= i= 1
= = 38,18
n 132
NOTA: A veces estos datos desproporcionados son el resultado de errores de medida, pero no
podemos despreciarlos sin más. Más adelante veremos un criterio que nos permitirá eliminar
estos datos a través del diagrama bloxplot.
Y en las distribuciones continuas la desventaja, como hemos visto, es que su valor depende de
la forma en la que hagamos las divisiones por intervalos. A menor número de clases, más
concentración de los datos y más pérdida de información. Incluso surge el problema de la
imposibilidad de calcular la media cuando alguno de los intervalos extremos carece de límite
superior o inferior.
∑ ( x − x) = 0
i= 1
i
De modo que la media aritmética actúa como un centro de gravedad de la distribución. Esta
característica de la media aritmética es la que nos obliga a tomar valor absoluto o cuadrados
cuando estudiamos la desviación de la distribución.
14
Demostración:
∑ ( x − x)
i= 1
i = ( x1 − x ) + ( x2 − x ) + ( x3 − x ) + ... + ( xn − x ) =
n
= ( x1 + x2 + x3 + ... + xn ) − nx = ∑i= 1
xi − nx =
= nx − nx = 0
Este resultado nos indica que el error cometido al aproximar un valor cualquiera de la variable,
por ejemplo x1, mediante el valor central, es compensado por los demás errores:
n
x1 − x = ∑ ( x − x)
i= 2
i
2º Proposición (König): Para cualquier posible valor k que consideremos como candidato a
medida central, la media aritmética lo mejora en el sentido de reducir los mínimos cuadrados,
es decir:
n n
∑ ( xi − x ) ∑ ( x − k)
2 2
< i con k ≠ x
i= 1 i= 1
n Sumando y n n
∑ ( x − k) ∑ (x − k+ x − x) = ∑ (x − x + x − k) =
2 2 2
i →
restando la media
i i
i= 1 i= 1 i= 1
n Aplicando el n
∑ ( x − x ) − ( k − x ) ∑ ( x − x ) − 2 ( xi − x ) ( k − x ) + ( k − x ) =
2 2 2
→
Binomio de Newton
i= 1
i
i= 1
i
n n n n
∑ ( xi − x ) − 2 ∑ ( xi − x ) ( k − x ) + ∑ ( k − x ) > ∑ ( x − x)
2 2 2
i
i= 1 i= 1 i= 1 i= 1
1 4243 1 4243
=0 n⋅ ( k − x ) > 0
2
Esta proposición es otra manera de decir que el valor de la media aritmética es el valor de ϕ
que hace mínima la expresión:
∑ (x −φ)
2
i ⋅ fi
i= 1
Precisamente este mínimo será la varianza de la variable X, medida de dispersión que veremos
más adelante, y además podremos comprobar que esta propiedad es la que garantiza la
bondad de la media aritmética como medida de representación.
15
3º Proposición (Linealidad de la media aritmética):
Y= X+b ⇒ y= x+ b
Y = aX ⇒ y = ax
Estas dos proposiciones se agrupan en una sola conocida como linealidad de la media
aritmética, que queda resumida como:
Y = aX + b ⇒ y = ax + b
Demostración:
n n n n n
∑ fi = n bn
i= 1
→ ax + = ax + b
n
A partir de aquí se describe el siguiente corolario:
xi fi yi yi· fi
38432 4 -2 -8
38434 8 -1 -8
38436 4 0 0
38438 3 1 3
38440 8 2 16
TOTAL 27 3
xi − 38436
yi =
Efectuamos el cambio de variable: 2
tomando como nueva variable el valor
más centrado. De este modo llegamos a la columna de las y i. Y usamos esta nueva variable
para el cálculo de la media de la y, y desde ella la media de la x.
16
n
∑ yi ⋅ fi
3
y= i= 1
= = 0,11
n 27
Y desde este valor despejamos el valor de la x media:
x − 38436
y= ⇒ x = 2 y + 38436
2
x = 2 ⋅ ( 0,11) + 38436 = 38436,22
∑ xi ⋅ wi ⋅ fi
xw = i= 1
n
∑ i= 1
wi ⋅ fi
∑ xi ⋅ fi
20
x= i= 1
= = 6,67
n 3
n
∑ xi ⋅ wi ⋅ fi
42
xw = i= 1
n
= = 7
6
∑ i= 1
wi ⋅ fi
n
xg = n
x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn = n ∏ xifi
i= 1
17
La media geométrica sólo es relevante si todos los números son positivos. Si uno de
ellos es 0, entonces el resultado es 0. Además, si hay un número negativo (o una
cantidad impar de ellos) entonces la media geométrica es, o bien negativa o bien
inexistente en los números reales.
Aunque el principal inconveniente que nos encontramos suele ser la complejidad de los
cálculos cuando los hacemos con calculadora. En los casos de distribuciones amplias
podemos simplificar las operaciones recurriendo a los logaritmos:
( )
1
xg = x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn n
Tomando
log→
( )
1
log xg = log x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn n
=
1
n
(
⋅ log x1f1 ⋅ x2f2 ⋅ x3f3 ⋅ ... ⋅ xnfn = )
1
n
(
⋅ log x1f1 + log x2f2 + log x3f3 + ... + log xnfn = )
1 n
fi ⋅ log xi
n
⋅ ( f1 log x1 + f 2 log x2 + f3 log x3 + ... + f n log xn ) = ∑
i= 1 n
De donde:
n
f i ⋅ log xi
xg = ant log ∑
i= 1 n
Suele utilizarse cuando los valores de la variable siguen una progresión geométrica. También
para promediar porcentajes, tasas, nº índices, etc. siempre que nos vengan dados en
porcentajes.
Ejercicio 10.- Calcula la media geométrica de la siguiente distribución. Utiliza el método que
prefieras, pero recuerda que cuando los valores son muy grandes la calculadora no tiene
capacidad de cálculo suficiente.
18
n
fi ⋅ log xi 15,6830
xg = ant log ∑ = ant log = 5,5822
i= 1 n 21
Ejercicio 11.- Hallar la media geométrica de la siguiente distribución:
n
fi ⋅ log xi 45,2219
xg = ant log ∑ = ant log = 113,64
i= 1 n 22
Ejercicio 12.- Hallar la media geométrica de la siguiente distribución:
Como vemos en estas condiciones no es factible el cálculo de la media geométrica, ya que los
logaritmos del 0 o de los números negativos no se pueden calcular. ¿Podemos aplicar las
condiciones de linealidad?. Consideramos una variable y que se calcula sumando 5 a la x.
fi ⋅ log xi
n
5,8116
y g = ant log ∑ = ant log = 3,3754
i= 1 n 11
xg = 3,3754 − 5 = − 1,6246
Si esto es cierto valdría para cualquier valor que le sumáramos a x, probemos con un 10:
n
fi ⋅ log xi 10,3965
y g = ant log ∑ = ant log = 8,8133
i= 1 n 11
xg = 8,8133 − 10 = − 1,1867
Como vemos el valor es parecido pero no igual, por lo tanto la media geométrica no sigue las
proposiciones de la linealidad y no podemos usarla en los casos en los que aparecen datos
negativos o nulos.
19
n n
H= =
n
fi f1 f 2 f3 f
∑
i= 1 xi
+ +
x1 x2 x3
+ ... + n
xn
Se utiliza para promediar velocidades, tiempos, rendimiento, etc. (cuando influyen los
valores pequeños). Su problema en que cuando algún valor de la variable es 0 o
próximo a cero no se puede calcular.
Ejercicio 13.- Calcular la media armónica de la siguiente distribución. Para poder hallarla, es
necesario que calculemos el inverso de x y el inverso de la frecuencia por lo que ampliaremos
la tabla con 2 columnas adicionales:
xi fi 1/xi fi/xi
100 10 0,0100 0,1000
120 5 0,0083 0,0417
125 4 0,0080 0,0320
140 3 0,0071 0,0214
TOTAL 22 0,1951
n 22
H= n
= = 112,76
fi 0,1951
∑i= 1 xi
• Media Cuadrática (MQ o RMS: root mean square): Es la raíz cuadrada de la media
de los valores de la variable al cuadrado es decir :
∑ xi2 ⋅ fi
xRMS = xi2 = i= 1
n
A veces la variable toma valores positivos y negativos, como ocurre, por ejemplo, en
los errores de medida. En tal caso se puede estar interesado en obtener un promedio
que no recoja los efectos del signo. Este problema se resuelve, mediante la
denominada media cuadrática. Consiste en elevar al cuadrado todas las observaciones
(así los signos negativos desaparecen), en obtener después su media aritmética y en
extraer, finalmente, la raíz cuadrada de dicha media para volver a la unidad de medida
original.
xi fi x2i x2i·fi
-4 2 16 32
-2 4 4 16
0 3 0 0
3 2 9 18
TOTAL 11 66
20
66
xRMS = = 2,45
11
• Media generalizada: Es una abstracción que se alcanza combinando los distintos tipos
de media vistos hasta el momento.
1 n m
m ⋅ ∑ xi si m ≠ 0
n i= 1
x( m ) =
n
n ∏ x
i si m = 0
i= 1
• cuadrática con m = 2
• aritmética, con m = 1
• geométrica con m = 0
• armónica con m = -1
Obsérvese que para valores de m ≤0 la expresión sólo tiene sentido si todos los xi ≥ 0.
∑ xi ⋅ fi
245
x= i= 1
= = 11,14
n 22
n
f ⋅ log xi 21,9040
xg = ant log ∑ i = ant log = 9,9000
i= 1 n 22
n 22
H= n = = 8,6717
fi 2,5370
∑i= 1 x
i
H ≤ xg ≤ x
Como vemos se cumple la relación:
21
7.1.2.- Mediana.
La mediana o valor mediano será el valor de la variable que separa en dos grupos (50% a cada
lado) los valores de las variables, ordenadas de menor a mayor. Por tanto es una cantidad que
nos indica orden dentro de la ordenación y equivale al percentil 50.
Cuando se trata de variables discretas, el cálculo de la mediana depende del número total de
datos que compongan la muestra (n):
• Cuando n es impar, el punto central coincide con un dato, que tomaremos como valor
de la mediana.
M e = x n+ 1
2
• Cuando n es par, el punto central es el espacio entre dos datos, por lo que la mediana
se calcula como media aritmética de esos dos valores centrales.
x n + x n
+ 1
Me = 2 2
2
El cálculo de la mediana se facilita mucho si disponemos de la columna de las frecuencias
acumuladas.
22
n
− Fi − 1
M e = Li + 2 ⋅ ci
fi
Donde: Me mediana
Li límite inferior del intervalo que contiene a la mediana
n número total de datos que compone la muestra
Fi-1 frecuencia acumulada del intervalo anterior al que contiene la mediana
fi frecuencia absoluta del intervalo que contiene la mediana
ci amplitud del intervalo que contiene la mediana
NOTAS:
• La diferencia que podríamos apreciar al calcular la media con los datos secuenciados
uno a uno, en lugar de acumulados en clases, se debe al hecho de que al formar las
clases se pierde parte de la información, en concreto la forma en la que se distribuyen
los datos dentro de cada una de las clases. Al igual que en la media aritmética, a
mayor amplitud de las clases, más pérdida de información.
• La fórmula funciona mejor en los casos en los que la amplitud de la clase es siempre la
misma para todos los intervalos.
xi mi fi Fi
[9,5 – 9,7) 9,6 5 5
[9,7 – 9,9) 9,8 5 10
[9,9 – 10,1) 10,0 6 16
[10,1 – 10,3) 10,2 3 19
[10,3 – 10,5) 10,4 4 23
[10,5 – 10,7) 10,6 1 24
TOTAL 24
Como el número total de datos es 24 tenemos que buscar el dato 12 (la mitad, en este caso al
ser una distribución continua no hay que tener en cuenta el siguiente). Vemos que el dato 12
pertenece al intervalo [9,9 – 10,1). Ahora aplicamos la fórmula:
23
n
− Fi − 1 12 − 10
M e = Li + 2 ⋅ ci = 9,9 + ⋅ 0,2 = 9,97
fi 6
Es fácil apreciar que la fórmula de la mediana es una forma compacta de llevar a cabo una
regla de tres (interpolación). Aplicándolo a este mismo caso nos quedaría:
6444 0,2
474444 8
9,9 M e ( x) 10,1 6 → 0,2
2
10 12 16 → → M e = 9,9 + ⋅ 0,2 = 9,97
1424 3 2 → x 6
2
1442443
6
Sus principales inconvenientes son que en el caso de datos agrupados en intervalos, su valor
varía en función de la amplitud de estos. Por otra parte, no se presta a cálculos algebraicos tan
bien como la media aritmética.
Ejercicio 18.- Demuestra que la mediana es el valor que hace mínima la expresión:
∑
i= 1
xi − k
n n
∑
i= 1
xi − M e < ∑
i= 1
xi − k k ≠ Me
Demostración:
n n n
∑
i= 1
xi − M e = ∑
i= 1
xi − M e − k + k = ∑ ( x − k) + ( k − M )
i= 1
i e
24
n n n
∑ ( xi − k ) + ( k −
i= 1
Me ) < ∑
i= 1
xi − k + ∑ k − Me
i= 1
14243
>0
Y como k es distinto de la mediana se cumple la proposición siempre.
7.1.3.- Moda.
La moda es el valor de la variable que tenga mayor frecuencia absoluta, la que más se repite,
es la única medida de centralización que tiene sentido estudiar en una variable cualitativa, pues
no precisa la realización de ningún cálculo.
Por su propia definición, la moda no es única, pues puede haber dos o más valores de la
variable que tengan la misma frecuencia siendo esta máxima. En cuyo caso tendremos una
distribución bimodal o polimodal según el caso. Por lo general llamaremos moda absoluta al
valor que posea una frecuencia más elevada, y denominaremos modas relativas a aquellos
otros valores que sin ser los más grandes si representan un máximo respecto a su entorno.
25
fi − fi− 1
M o = Li + ⋅ ci
( fi − fi+ 1 ) + ( f i − f i− 1 )
fi+ 1
M o = Li + ⋅ ci
fi+ 1 + f i− 1
Donde: Mo moda
Li límite inferior del intervalo modal
fi-1 frecuencia absoluta del intervalo anterior al modal
fi frecuencia absoluta del intervalo modal
fi+1 frecuencia absoluta del intervalo posterior al modal
ci amplitud del intervalo que contiene la mediana
Ejercicio 20.- Determina la moda de las siguientes distribuciones continuas con la misma
amplitud de clases:
xi mi fi
[9,5 – 9,7) 9,6 5
[9,7 – 9,9) 9,8 5
[9,9 – 10,1) 10,0 6
[10,1 – 10,3) 10,2 3
[10,3 – 10,5) 10,4 4
[10,5 – 10,7) 10,6 1
TOTAL 24
Vemos que el intervalo que mayor frecuencia tiene es [9,9 – 10,1); éste es el intervalo modal.
Aplicamos la fórmula:
fi − fi− 1 1
M o = Li + ⋅ ci = 9,9 + ⋅ 0,2 = 9,95
( fi − f i + 1 ) + ( f i − f i − 1 ) 1+ 3
fi+ 1 3
M o = Li + ⋅ ci = 9,9 + ⋅ 0,2 = 9,98
fi+ 1 + fi− 1 3+ 5
26
xi mi fi
[2 – 3) 2,5 2
[3 – 4) 3,5 3
[4 – 5) 4,5 7
[5 – 6) 5,5 3
[6 – 7) 6,5 6
[7 – 8) 7,5 5
[8 – 9) 8,5 3
TOTAL 24
El intervalo modal absoluto es [4 – 5), y el valor de la moda si aplicamos las formulas son:
fi − fi− 1 4
M o = Li + ⋅ ci = 4 + ⋅ 1 = 4,5
( fi − f i + 1 ) + ( f i − f i − 1 ) 4+ 4
fi + 1 3
M o = Li + ⋅ ci = 4 + ⋅ 1 = 4,5
fi+ 1 + fi− 1 3+ 3
También podemos calcular la moda relativa, usando la misma fórmula. El intervalo modal
relativo es [6 – 7), de modo que nos queda:
fi − fi− 1 3
M o = Li + ⋅ ci = 6 + ⋅ 1 = 6,75
( fi − f i + 1 ) + ( f i − f i − 1 ) 1+ 3
fi+ 1 5
M o = Li + ⋅ ci = 6 + ⋅ 1 = 6,625
f i + 1 + fi − 1 3+ 5
fi − fi− 1
M o = Li + ⋅ ci
( fi − fi+ 1 ) + ( f i − f i− 1 )
Y alternativamente, esta fórmula, donde el intervalo modal es el que alcanza una mayor
altura. Nota: Puede no coincidir con el intervalo modal, ya que vamos a dividir la
frecuencia por la amplitud.
Ai + 1
M o = Li + ⋅ ci
Ai + 1 + Ai − 1
27
Ejercicio 21.- Determina el valor de la moda en la siguiente distribución continua de intervalos
de clase distintos.
Altura de
xi mi fi histograma
fi/ci
[0 – 25) 12,5 20 0,8
[25 – 50) 37,5 140 5,6
[50 – 100) 75 80 1,6
[100 – 150) 125 40 0,8
[150 – 200) 175 20 0,4
TOTAL 300
Vemos que el intervalo que mayor altura de histograma tiene es [25 – 50); éste es el intervalo
modal absoluto, y no existen intervalos modales relativos. Aplicamos la fórmula:
fi − fi− 1 120
M o = Li + ⋅ ci = 25 + ⋅ 25 = 41,67
( fi − f i + 1 ) + ( f i − f i − 1 ) 120 + 60
Ai + 1 1,6
M o = Li + ⋅ ci = 25 + ⋅ 25 = 41,67
Ai + 1 + Ai − 1 1,6 + 0,8
Altura de
xi mi fi histograma
fi/ci
[2 – 3) 2,5 1 1
[3 – 7) 5 6 1,5
[7 – 9) 8 12 6
[9 – 14) 11,5 8 1,6
[14 – 20) 17 6 1
[20 – 30) 25 4 0,4
TOTAL 37
fi − fi− 1 6
M o = Li + ⋅ ci = 7 + ⋅ 2 = 8,2
( fi − f i + 1 ) + ( f i − f i − 1 ) 6+ 4
Ai + 1 1,6
M o = Li + ⋅ ci = 7 + ⋅ 2 = 8,032
Ai + 1 + Ai − 1 1,6 + 1,5
7.1.4.- Relación empírica entre media aritmética, mediana y moda.
28
con un cierto (elevado) grado de simetría. Su principal ventaja es que actúa de
estimador de la media poblacional. Siempre que podamos vamos a usarlo.
• La mediana se usa en los casos en los que la media aritmética no puede ser empleada
(usualmente casos de elevada asimetría). Su ventaja es que no se afecta por valores
extremos.
• La moda es la medida de centralización que menos información aporta, su ventaja es la
rapidez con la que se calcula, y el hecho de que es la única medida de centralización
aplicable a las variables cualitativas. Tampoco se afecta por los valores extremos.
x − Mo = 3⋅ ( x − Me )
En la figura observamos las posiciones relativas de la media, la mediana y la moda para curvas
de frecuencias asimétricas a derecha e izquierda respectivamente. Y vemos que para curvas
simétricas (centro) los tres valores coinciden.
1,2,4,7,9,9,9,11,13,14,17,21,34
Vuelva a calcular los tres parámetros incorporando los datos extremos -1 y 47, comente los
resultados en lo que se refiere a la estabilidad de las medidas obtenidas.
29
n n
∑ xi ⋅ fi
150 ∑ xi ⋅ fi
196
x= i= 1
= = 11,54 x= i= 1
= = 13,07
n 13 n 15
Me = 9 Me = 9
Mo = 9 Mo = 9
Podemos observar que la media aritmética es el parámetro que se afecta al incorporar datos
extremos, en este caso, al incorporar uno por cada lado, ni la mediana ni la media se han visto
afectadas.
Además de las medidas de centralización a menudo se hace necesario determinar el dato que
deja un cierto % de los datos por delante o por detrás de él, o bien los datos que dividen la
distribución en k partes iguales (los llamados cuantiles de orden k). Sin ir más lejos la mediana
es un cuantil de orden 2 que divide a la distribución en dos partes iguales.
No vamos a aprender una fórmula para cada tipo de cuantil, sino que, en lo posible, vamos a
buscar siempre el percentil correspondiente, y aplicaremos la fórmula del percentil. En la
siguiente tabla se recogen las relaciones entre los principales cuantiles.
Mediana Me
Cuartiles q1 q2 q3
Deciles d1 d2 d3 d4 d5 d6 d7 d8 d9
Percentiles p10 p20 p25 p30 p40 p50 p60 p70 p75 p80 p90
xi fi Fi
1 2 2
2 4 6
3 7 13
4 12 25
5 9 34
6 4 38
7 3 41
8 2 43
TOTAL 43
30
buscamos el dato:
25 Corresponde a
⋅ 43
q1 = p25 → 10,75 (mirarenla columna
100
F→)
3
buscamos el dato
40 Corresponde a
⋅ 43
d 4 = p40 → 17,2 (mirarenla columna
100
F→)
4
buscamos el dato
85 Corresponde a
⋅ 43
p85 → 36,55 → 6
100 ( mirar en la columna F )
r
⋅ n − Fi− 1
pr = Li + 100 ⋅ ci
fi
Ejercicio 24.- Determina los cuantiles indicados para la siguiente distribución continua:
xi fi Fi
[2 – 3) 4 4
[3 – 7) 6 10
[7 – 12) 12 22
[12 – 21) 8 30
[21 – 25) 6 36
[25 – 30) 4 40
[30 – 50) 3 43
TOTAL 43
Buscamos el intervalo
75
que contiene al dato
75
⋅ 43= 32,25
⋅ 43 − 30
q3 = p75 → 21 +
100 100 ⋅ 4 = 22,5
6
Buscamos el intervalo
35
que contiene al dato
35
⋅ 43= 15,05
⋅ 43 − 10
p35 → 7 +
100 100 ⋅ 5 = 9,10
12
31