Académique Documents
Professionnel Documents
Culture Documents
• Las medidas estadísticas asumen las mismas unidades de medida de la variable en estudio,
con la excepción de ciertas medidas estadísticas relativas.
• Para las variables cuantitativas, se pueden calcular medidas estadísticas como: media,
mediana, moda, rango, rango intercuartílico, varianza, desviación estándar, coeficiente de
variabilidad, y otras. En el caso de las variables cualitativas, sólo es posible calcular las
medidas como la moda y la proporción.
Media de la población:
N
1 N
X j
Xj j 1
N j 1 N
Media de la muestras:
n
1 n
X j
X Xj
n j 1
X
j 1
Ejemplo. Obtenga la edad media de la población de los 169 individuos registrados tabla de
edades.
Solución: Se procede de la siguiente forma:
La media ponderada
k
x w
j 1
j j
x1w1 x2 w2 ... xk wk
xp
k
w1 w2 ... wk
w
j 1
j
Ejemplo. Si el examen final de un curso cuenta tres veces más que una evaluación parcial, y
un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales, la
calificación media es
(1)(70) (1)(90) (3)(85) 415
X 83
11 3 5
Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k k
fx
j 1
i j fx
j 1
i j
xp k
n
fi
j 1
k
fX
j 1
i i
'
xp
n
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamaño n1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por:
k
n x
j 1
i j
xp k
n j 1
i
fxj 1
i j
xp
n
k
fX
j 1
i
'
j
x
n
Propiedades de la media
La media aritmética tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas de
estas propiedades son las siguientes:
1. Es única. Para un conjunto de datos existe una y sólo una media aritmética.
2. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el cálculo de
la media, ésta es afectada por cada valor. Por lo tanto, los valores extremos influyen sobre
la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como
medida de tendencia central.
A continuación se muestra un ejemplo de cómo los valores extremos pueden afectar la
media. Considere la siguiente situación: cinco médicos que trabajan en cierta área son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco médicos es de $118, un
valor que no es muy representativo del conjunto de datos. El único valor atípico del conjunto
tuvo el efecto de inflar la media.
Medias geométrica, armónica y cuadrática
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geométrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raíz enésima (N es el tamaño de la muestra) del producto de los valores de la
variable
xG N x1 x2 ...xN
Esta media tiene la característica negativa de que si uno de los valores es nulo, la media sería
asimismo cero, y por lo tanto sería poco representativa del valor central. Además si existen
valores negativos es posible que no se pueda calcular. A la hora de calcularla es útil tener en
cuenta que el logaritmo de la media geométrica es la media aritmética del logaritmo de los
datos
k
n log x
i i
log xG i 1
N
La media armónica xA se define como la inversa de la media aritmética de las inversas de
los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sería
N N
xA N
; xA k
1 ni
x
i 1
i 1 xi
i
xi2 x n 2
i i
xQ i 1
; xQ i 1
N N
x A xG x xQ
Ninguna de estas medias es muy robusta en general, aunque esto depende de cómo se
distribuyan las variables. Por ejemplo, la media armónica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrática apenas le afectan los valores muy bajos
de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes
iguales, de forma que el número de valores mayores o iguales a la mediana es igual al número
de valores menores o iguales a ésta. Si el número de valores es impar, la mediana es el valor
medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.
Cuando el número de valores en el conjunto es par, no existe un valor medio único, sino que
existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores
centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana
del conjunto de datos es la (n 1) / 2 -ésima observación, cuando las observaciones han sido
n 1
100 50 Entero( E ) me x( E )
Si
n 1 50 Decimal ( E.d ) me x 0.d ( x
( E 1) x( E ) )
100 (E)
2
Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es única. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que sí ocurre con
la media.
Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53,
76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
10 1
Posición 50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg
100
Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más de 63.5
Kg.
3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.
Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 47
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplos:
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).
3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con más frecuencia (11
veces). La moda para esta población de edades es de 26.
3.4. Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Cálculo del Percentil
n 1
Posición q
100
n 1
100 q Entero( E ) Pq x( E )
Si
n 1 q Decimal ( E.d ) P x 0.d ( x
( E 1) x( E ) )
100 q (E)
Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:
6 9 10 12 13 14 15 18 18 22 24 25
12 1
Posición 45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85
100
Interpretación: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% más de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos también como Q1=P25, Q2=P50 y Q3=P75.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 48
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Pq x n 1 x( E ) 0.d ( x( E 1) x( E ) )
q
100
Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63, 64,
75, 76, 77, 80.
a. Calcule e interprete el percentil 25
P25 x 101 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75 Kg
25
100
Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa más de 76.25
Kg.
Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de pesos (en gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento balanceado?
Solución:
a) N Media StDev CoefVar Mínimo Q1 Mediana Q3 Máximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.
Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México,
2008.
Si todos los valores son iguales, no hay dispersión, pero si no todos son iguales, entonces
existe dispersión en los datos. La magnitud de la dispersión es pequeña cuando los valores,
aunque diferentes, son cercanos entre sí. La figura muestra los polígonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
población B, más variable que la población A, es más dispersa. Si los valores están
ampliamente esparcidos, la dispersión es mayor. Otros términos sinónimos de dispersión son:
variación, expansión y dispersión.
FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersión.
3.5.1 Rango o intervalo de variación
El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
máximo y el valor mínimo.
R X max X min
La utilidad de rango es limitada. El hecho de que toma en consideración sólo dos valores hace
que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo.
Desventajas:
a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solución: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene
61, el rango calculado es:
R 61 23 38
Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
• El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
• Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50% central
de los datos.
3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede pensar
intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores
alrededor de su media.
La varianza poblacional
1 N 2 2
1 N
X j N
2
2 X j
N j 1 N j 1
X
N
2
j
j 1
2
N
La varianza muestral
1 n 2 2
1 n
Xj X X j nX
2
S2
n 1 j 1 n 1 j 1
Solución:
(42 36.6)2 (28 36.6)2 (28 36.6) 2 (61 36.6) 2 (31 36.6) 2 ... (37 36.6)2
S2
9
1196.399997
S2 132.933333
9
f X
2
i
'2
j nX
S2 i 1
n 1
Donde:
f i : Frecuencia
2
S S2
S S 2 132.933333 11.5296719
La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos
de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de
cada dato.
Para distribuciones normales, resulta:
(a) 68.27% de los casos están entre X S y X S (o sea, una desviación típica a cada lado
de la media).
(b) 95.45% de los casos están entre X 2S y X 2S (o sea, dos desviaciones típicas a cada
lado de la media).
(c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones típicas a cada lado
de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.
El propósito es saber cuál tiene mayor variabilidad, los pesos de individuos de 25 años o los
de 11 años.
Canadá: cv 4 (100) 33.3% , respectivamente. Los datos de Estados Unidos presentan más
12
variabilidad que los de Canadá.
Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:
El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variación;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias son
similares para usar la desviación estándar y en caso que las medias sean diferentes usar el
coeficiente de variación.
3.6. Medidas de asimetría.
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos en lo que se refiere a su simetría o asimetría.
3.6.1 Formas de una distribución
• Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si su
curva guarda simetría con respecto al centro de los datos. Si la distribución es simétrica
entonces μ = Me.
• Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución
asimétrica positiva o con cola a la derecha, entonces: μ > Me.
• Distribución asimétrica negativa. Si un conjunto de datos muestra una distribución
asimétrica negativa o con cola a la izquierda, entonces: μ < Me.
Ejemplo. Los siguientes gráficos corresponden a la distribución de los ingresos mensuales
(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.
Muestral:
3( X me)
as
S
Propiedades
1. Si as = 0 entonces la distribución es simétrica.
2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.
Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor)
grado de asimetría de la distribución de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organización de datos. Con esa información se tienen los siguientes
valores:
X 5.350
me 4.700
s 2.181
Por lo tanto
(X i X )4 f (X i i X )4
APF i 1
3 (versión para distribución de frecuencias: APF i 1
3 )
N S X4 N S X4
Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga un valor de APF igual o próximo a 0 significará
que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica).
Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un
rango de valores.
3.8 Diagrama de cajas (box plot)
Un dispositivo visual muy útil para comunicar la información contenida en un conjunto de
datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). Para la
construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se siguen los cinco
pasos que se mencionan a continuación:
1. Representar a la variable de interés sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el tercer
cuartil Q3.
3. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q2.
4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medición más pequeña en el conjunto de datos.
5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se
alinea con la medición más grande en el conjunto de datos.
El examen de la gráfica para un conjunto de datos revela información respecto a la magnitud
de la dispersión, localización de la concentración y simetría de los datos.
El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos.
EJEMPLO. En una revista médica de publicación periódica, Pitts et al. (A-7) asegura que “los
carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de
diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su
rareza”. En un intento por estudiar más detalles de las características biológicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. La tabla
siguiente contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del
pecho de 20 individuos con sarcomas puros.
0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0
Solución: La medición más pequeña y la más grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-ésima medición, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-ésima medición igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-ésima medición igual a 6.0 + (0.75)(6.5 -
6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.
12
10
Tamaño de tumor
6
4.75
FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.
REFERENCIA BIBLIOGRÁFICA
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y
Biometría. Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación,
México, 2008
Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006
Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag
Molina J. y Rodrigo M. Estadística descriptiva en Psicología. Curso 2009-2010.
Universidad Valéncia.