Vous êtes sur la page 1sur 17

UNSCH Bioestadística I Prof. Reynán Cóndor A.

3. ANÁLISIS E INTERPRETACIÓN DE DATOS


3.1. Análisis descriptivo.
Se estableció que la toma de mediciones y el proceso de conteo producen números que
contienen información. El objetivo de la gente que aplica herramientas estadísticas a esos
números es determinar la naturaleza de esa información. Esta tarea es mucho más fácil si los
números están organizados y resumidos. Cuando se hacen las mediciones sobre entidades de
una población o muestra, los valores resultantes están disponibles para el investigador o
estadístico como una masa de datos desorganizados. Las mediciones que no han sido
organizadas, procesadas o manejadas de alguna otra forma se les llama datos crudos (materia
prima). A menos que el número de observaciones sea extremadamente pequeño, es
improbable que esos datos crudos proporcionen suficiente información hasta que sean puestos
en algún orden.
Veremos algunas técnicas para organizar y procesar datos de tal manera que sea más fácil
determinar qué información contienen. Lo más actual en procesamiento de datos es el cálculo
de un número individual que de alguna manera incluye información importante acerca de los
datos que sirvieron para calcularlo. A estos números individuales utilizados para describir
datos se les llama medidas descriptivas.
3.2. Medidas estadísticas
Es posible caracterizar cualquier conjunto de datos numéricos por la medición de sus
tendencia central, variación y forma. La mayoría de los conjuntos de datos presentan una
tendencia central a agruparse en torno a un valor central. Cuando se habla de un promedio, o
valor medio, o del valor más común o frecuente, se refiere de manera informal a la media, la
mediana y la moda, tres medidas de tendencia central.
La variación mide la distribución o dispersión de valores que conforman el conjunto de datos.
Una medida simple de la variación es el rango, que es la diferencia entre los valores máximo
y mínimo. En la estadística, son de uso más común la desviación estándar y la varianza, dos
medidas que se explican más adelante en esta sección. La forma de un conjunto de datos
representa un patrón para todos los valores, desde el mínimo hasta el máximo.
Las medidas estadísticas pueden ser calculadas con los datos provenientes de una población
(N: Tamaño de la población) o muestra (n: Tamaño de la muestra) para evaluar diferentes
variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar el conjunto de
datos.

Muestra (n): X1,X2,…,Xn => Valores Estadísticos


Población (N): Xl,X2,…,XN => Parámetros

• Las medidas estadísticas asumen las mismas unidades de medida de la variable en estudio,
con la excepción de ciertas medidas estadísticas relativas.
• Para las variables cuantitativas, se pueden calcular medidas estadísticas como: media,
mediana, moda, rango, rango intercuartílico, varianza, desviación estándar, coeficiente de
variabilidad, y otras. En el caso de las variables cualitativas, sólo es posible calcular las
medidas como la moda y la proporción.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 43


UNSCH Bioestadística I Prof. Reynán Cóndor A.

3.3. Medidas de tendencia central


En cada una de las medidas de tendencia central, de las que se discuten sólo tres,
únicamente un valor del conjunto de datos se considera como el representativo del todo. Las
medidas de tendencia central conllevan información respecto al valor promedio de un
conjunto de valores. Tal como se verá, la palabra promedio se puede definir en diversas
formas.
Las tres medidas de tendencia central de uso más frecuente son: la media, la moda y la
mediana.

3.3.1 La media aritmética


La medida de tendencia central más conocida es la media aritmética. Ésta es la medida
descriptiva que la mayoría de las personas tienen en mente cuando se habla de “promedio”.
El adjetivo aritmética distingue a esta media de otras que se puedan calcular. La media se
obtiene sumando todos los valores en una población o muestra y dividiendo entre el número
de valores sumados.

Media de la población:
N

1 N
X j

  Xj   j 1

N j 1 N

Media de la muestras:
n

1 n
X j

X Xj
n j 1
X
j 1

Ejemplo. Obtenga la edad media de la población de los 169 individuos registrados tabla de
edades.
Solución: Se procede de la siguiente forma:

Edad media: X  18  22  24  ...  47  50  63  5797  34.302


169 169

La media ponderada
k

x w
j 1
j j
x1w1  x2 w2  ...  xk wk
xp  
k
w1  w2  ...  wk
w
j 1
j

Ejemplo. Si el examen final de un curso cuenta tres veces más que una evaluación parcial, y
un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales, la
calificación media es
(1)(70)  (1)(90)  (3)(85) 415
X   83
11 3 5

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 44


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k k

fx
j 1
i j fx
j 1
i j

xp  k


n
fi
j 1
k

fX
j 1
i i
'

xp 
n
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamaño n1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por:
k

n x
j 1
i j

xp  k

n j 1
i

La media aritmética para datos agrupados:


k

fxj 1
i j

xp 
n
k

fX
j 1
i
'
j

x
n
Propiedades de la media
La media aritmética tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas de
estas propiedades son las siguientes:
1. Es única. Para un conjunto de datos existe una y sólo una media aritmética.
2. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el cálculo de
la media, ésta es afectada por cada valor. Por lo tanto, los valores extremos influyen sobre
la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como
medida de tendencia central.
A continuación se muestra un ejemplo de cómo los valores extremos pueden afectar la
media. Considere la siguiente situación: cinco médicos que trabajan en cierta área son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco médicos es de $118, un
valor que no es muy representativo del conjunto de datos. El único valor atípico del conjunto
tuvo el efecto de inflar la media.
Medias geométrica, armónica y cuadrática
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geométrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raíz enésima (N es el tamaño de la muestra) del producto de los valores de la
variable

xG  N x1 x2 ...xN

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 45


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Si los datos aparecen agrupados en k valores distintos la definición sería

xG  N x1n1 x2n2 ...xknk

Esta media tiene la característica negativa de que si uno de los valores es nulo, la media sería
asimismo cero, y por lo tanto sería poco representativa del valor central. Además si existen
valores negativos es posible que no se pueda calcular. A la hora de calcularla es útil tener en
cuenta que el logaritmo de la media geométrica es la media aritmética del logaritmo de los
datos
k

 n log x
i i
log xG  i 1

N
La media armónica xA se define como la inversa de la media aritmética de las inversas de
los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sería
N N
xA  N
; xA  k
1 ni
x
i 1

i 1 xi
i

Es evidente que si una de las medidas es 0, la media armónica no tiene sentido.


La media cuadrática xQ. Se define ésta como la raíz cuadrada de la media aritmética de los
cuadrados de los valores
N k

 xi2 x n 2
i i
xQ  i 1
; xQ  i 1

N N

Esta media tiene su utilidad con frecuencia en la aplicación a fenómenos físicos.


Se puede demostrar que estas medias se relacionan con la media aritmética, en el caso de
valores positivos de la variable, por

x A  xG  x  xQ

Ninguna de estas medias es muy robusta en general, aunque esto depende de cómo se
distribuyan las variables. Por ejemplo, la media armónica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrática apenas le afectan los valores muy bajos
de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes
iguales, de forma que el número de valores mayores o iguales a la mediana es igual al número
de valores menores o iguales a ésta. Si el número de valores es impar, la mediana es el valor
medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.
Cuando el número de valores en el conjunto es par, no existe un valor medio único, sino que
existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores
centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana
del conjunto de datos es la (n  1) / 2 -ésima observación, cuando las observaciones han sido

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 46


UNSCH Bioestadística I Prof. Reynán Cóndor A.

ordenadas. Por ejemplo, si se tienen 11 observaciones, la mediana es la (11+1)/2=6-ésima


observación ordenada. Si se tienen 12 observaciones, la mediana es la (12+l)/2=6.5-ésima
observación ordenada y es el valor que está entre la sexta y séptima observación ordenada.

 n  1 
 100   50  Entero( E )  me  x( E )
 
Si 
 n  1   50  Decimal ( E.d )  me  x  0.d  ( x
( E 1)  x( E ) )
 100  (E)

La mediana poblacional se representa por Me y la mediana muestral por me



n  impar me  X  n 1 
 
 2 


Si 
 X n  X n 
    1
n  par me   2  2 

 2

Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es única. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que sí ocurre con
la media.

Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53,
76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
 10  1 
Posición    50  5.5  me  x(5)  0.5  ( x(6)  x(5) )  63  0.5  (64  63)  63.5 Kg
 100 

Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más de 63.5
Kg.

La mediana para datos agrupados


n  Frecuencia acumulada f
 LIi 1  LI i 
i 1
Me  LI i  2
Frecuencia fi

3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.

Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 47
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplos:
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.

2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).

3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con más frecuencia (11
veces). La moda para esta población de edades es de 26.

Moda para datos agrupados


1  xi  xi 1
 2  xi  xi 1
1
Mo  LI i   LIi 1  LIi 
1   2

3.4. Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Cálculo del Percentil
 n 1
Posición   q
 100 

 n  1 
 100   q  Entero( E )  Pq  x( E )
 
Si 
 n  1   q  Decimal ( E.d )  P  x  0.d  ( x
( E 1)  x( E ) )
 100  q (E)

Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.

15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:

6 9 10 12 13 14 15 18 18 22 24 25

 12  1 
Posición     45  5.85  P45  x(5)  0.85  ( x(6)  x(5) )  13  0.85  (14  13)  13.85
 100 

Interpretación: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% más de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos también como Q1=P25, Q2=P50 y Q3=P75.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 48
UNSCH Bioestadística I Prof. Reynán Cóndor A.

Pq  x n 1   x( E )  0.d  ( x( E 1)  x( E ) )
  q
 100 

Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63, 64,
75, 76, 77, 80.
a. Calcule e interprete el percentil 25

P25  x 101   x(2.75)  x (2)  0.75  (x (3)  x (2) )  52  0.75  (53  52)  52.75 Kg
  25
 100 

Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa más de 76.25
Kg.

Cuartiles para datos agrupados


n  Frecuencia acumulada f
 LI i 1  LI i 
i 1
Q1  LI i  4
4 Frecuencia fi
3  n  Frecuencia acumulada fi 1
Q3  LI i  4  LI i 1  LI i 
4 Frecuencia f i

Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de pesos (en gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento balanceado?
Solución:
a) N Media StDev CoefVar Mínimo Q1 Mediana Q3 Máximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.

b) P90 = X27.5 = 134.5gr.

c) P60 = Xl8 = 119gr.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 49


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México,
2008.

3.5. Medidas de Variabilidad o de dispersión.


Son medidas estadísticas que permiten conocer el grado de dispersión o variabilidad
(homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar la
variabilidad entre dos o más conjuntos de datos. Cuando los datos presentan baja variabilidad,
se dice que son homogéneos y cuando presentan alta variabilidad se dice que son
heterogéneos.

Si todos los valores son iguales, no hay dispersión, pero si no todos son iguales, entonces
existe dispersión en los datos. La magnitud de la dispersión es pequeña cuando los valores,
aunque diferentes, son cercanos entre sí. La figura muestra los polígonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
población B, más variable que la población A, es más dispersa. Si los valores están
ampliamente esparcidos, la dispersión es mayor. Otros términos sinónimos de dispersión son:
variación, expansión y dispersión.

FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersión.
3.5.1 Rango o intervalo de variación
El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
máximo y el valor mínimo.
R  X max  X min
La utilidad de rango es limitada. El hecho de que toma en consideración sólo dos valores hace
que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 50


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Desventajas:
a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solución: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene
61, el rango calculado es:
R  61  23  38

Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
• El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
• Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50% central
de los datos.

3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede pensar
intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores
alrededor de su media.
La varianza poblacional

1 N 2 2
1 N
    X j  N 
2
2  X j   
N j 1 N  j 1 

 X  
N
2
j
j 1
2 
N
La varianza muestral

1  n 2 2
1 n

 Xj X   X j  nX 
2
S2  
n  1 j 1 n  1  j 1 

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 51


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Ejemplo. Calcule la variancia de las edades de los 10 individuos.


Edades de
N° individuos
1 42
2 28
3 28
4 61
5 31
6 23
7 50
8 34
9 32
10 37

Solución:

(42  36.6)2  (28  36.6)2  (28  36.6) 2  (61  36.6) 2  (31  36.6) 2  ...  (37  36.6)2
S2 
9
1196.399997
S2   132.933333
9

Variancia para datos agrupados:


n

f X
2
i
'2
j  nX
S2  i 1

n 1
Donde:

X 'j : Marca de clase

f i : Frecuencia

3.5.3 La desviación estándar


La variancia representa unidades al cuadrado, por lo que no es una medida adecuada de
dispersión si se pretende expresar este concepto en términos de las unidades originales. Para
obtener la medida de dispersión en unidades originales, simplemente se obtiene la raíz
cuadrada de la variancia.
La desviación estándar poblacional

  2

La desviación estándar muestral

S  S2

Ejemplo. Calcule la desviación estándar de las edades de los 10 individuos.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 52


UNSCH Bioestadística I Prof. Reynán Cóndor A.

S  S 2  132.933333  11.5296719

La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos
de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de
cada dato.
Para distribuciones normales, resulta:

(a) 68.27% de los casos están entre X  S y X  S (o sea, una desviación típica a cada lado
de la media).

(b) 95.45% de los casos están entre X  2S y X  2S (o sea, dos desviaciones típicas a cada
lado de la media).

(c) 99.73% de los casos entre X  3S y X  3S (o sea, tres desviaciones típicas a cada lado
de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.

3.5.4 Coeficiente de variabilidad


El coeficiente de variación es una medida para comparar la variabilidad en un conjunto de
datos con la de otro, en situaciones en las que una comparación directa de desviaciones típicas
no es conveniente o suficientemente realista.

El coeficiente de variabilidad es una medida de dispersión relativa (no tiene unidades) y se


define como la razón entre la desviación estándar y la media aritmética de un conjunto de
observaciones.
Coeficiente de variabilidad poblacional:

CV   100

Coeficiente de variabilidad muestral:
S
cv   100
X
Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones:
Muestra 1 Muestra 2
Edad 25 años 11 años
Peso medio 145 libras 80 libras
Desviación estándar 10 libras 10 libras

El propósito es saber cuál tiene mayor variabilidad, los pesos de individuos de 25 años o los
de 11 años.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 53


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Solución: Una comparación de las desviaciones estándar puede conducir a la conclusión de


que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes de
variación, se obtiene para los sujetos de 25 años de edad:
10
cv  (100)  6.9
145

y para los de 11 años de edad:


10
cv  (100)  12.5
80

Si se comparan estos resultados, la impresión recibida es diferente.


El coeficiente de variación también es útil para comparar los resultados obtenidos por
diferentes personas que efectúan investigaciones que involucran la misma variable. Debido a
que el coeficiente de variación es independiente de la escala de medición, constituye una
estadística útil para comparar la variabilidad de dos o más variables medidas en escalas
diferentes. Por ejemplo, podría utilizarse el coeficiente de variación para comparar la
variabilidad de los pesos de una muestra de individuos cuyos pesos se expresan en libras y la
variabilidad de los pesos de otra muestra, expresados en kilogramos.
Ejemplo, en un estudio del consumo de leche en Estados Unidos, se obtuvo que el número
medio de galones de leche consumida por unidad familiar por semana fue 8, con una
desviación típica muestral de 3 galones. Un estudio semejante en Canadá dio un consumo
medio de 12 litros con una desviación de 4 litros. No tiene sentido comparar estas desviaciones
típicas directamente porque están dadas en unidades diferentes. Una forma rápida de comparar
la variabilidad es con el coeficiente de variación (CV) dado por:
Los coeficientes de variación de las dos muestras son:

Estados Unidos: cv  3 (100)  37.5%


8

Canadá: cv  4 (100)  33.3% , respectivamente. Los datos de Estados Unidos presentan más
12
variabilidad que los de Canadá.

Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:

Unidades de medidas Unidades de medidas iguales


diferentes Medias similares Medias diferentes
cv1 con cv2 S1 con S2 cv1 con cv2

El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variación;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias son

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 54


UNSCH Bioestadística I Prof. Reynán Cóndor A.

similares para usar la desviación estándar y en caso que las medias sean diferentes usar el
coeficiente de variación.
3.6. Medidas de asimetría.
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos en lo que se refiere a su simetría o asimetría.
3.6.1 Formas de una distribución
• Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si su
curva guarda simetría con respecto al centro de los datos. Si la distribución es simétrica
entonces μ = Me.
• Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución
asimétrica positiva o con cola a la derecha, entonces: μ > Me.
• Distribución asimétrica negativa. Si un conjunto de datos muestra una distribución
asimétrica negativa o con cola a la izquierda, entonces: μ < Me.
Ejemplo. Los siguientes gráficos corresponden a la distribución de los ingresos mensuales
(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.

Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con


distribuciones unimodales (una sola moda).

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 55


UNSCH Bioestadística I Prof. Reynán Cóndor A.

3.6.2 Variables ordinales: el índice de asimetría intercuartílico


El índice de asimetría intercuartílico se basa en las distancias entre los cuartiles a fin de
establecer un resumen de la asimetría de la distribución. La fórmula es la siguiente:
(Q3  Q2 )  (Q2  Q1 ) Q3  Q1  2Q2
AsQ3 Q2  
Q3  Q1 Q3  Q1

Interpretación: oscila entre -1 y 1, lo cual facilita su comprensión.

3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson


Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a
su valor promedio tomado como centro de gravedad. El coeficiente de asimetría de Pearson
es:
Poblacional:
3(   Me)
As 

Muestral:

3( X  me)
as 
S

Propiedades
1. Si as = 0 entonces la distribución es simétrica.
2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.
Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor)
grado de asimetría de la distribución de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organización de datos. Con esa información se tienen los siguientes
valores:

X  5.350
me  4.700
s  2.181

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 56


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Por lo tanto

3( X  me) 3(5.350  4.700)


as    0.8941  0 , entonces la distribución de los ingresos
s 2.181
mensuales tiene una asimétrica positiva.
3.7 Curtosis
Evalúa el grado de apuntamiento de la distribución.
El apuntamiento expresa el grado en que una distribución acumula casos en sus colas
en comparación con los casos acumulados en las colas de una distribución normal cuya
dispersión sea equivalente (Pardo y Ruiz, 2002).
3.7.1 Variables ordinales: el índice KU.
P75  P25
KU 
2( P90  P10 )

Grado de Apuntamiento Valor de la Curtosis


Mesocurtica (Distribución normal) 0.263
Leptocúrtica (Elevada) Mayor a 0.263 o se aproxima a 0.5
Platicúrtica (Aplanada) Menor a 0.263 o se aproxima a 0

Por ejemplo se tienen como Q3=8.9; Q1=6.85; P90=9.95 y P10=5.85.


P75  P25 8.9  6.85
KU    0.25 , la curtosis de la distribución es 0.25; por tanto, la
2( P90  P10 ) 2(9.95  5.85)
distribución es ligeramente platicúrtica.
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher
El coeficiente de apuntamiento de Fisher se basa en las desviaciones de los valores observados
respecto a la media. La fórmula para su cálculo es la siguiente:
N n

(X i  X )4  f (X i i  X )4
APF  i 1
3 (versión para distribución de frecuencias: APF  i 1
3 )
N  S X4 N  S X4

Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga un valor de APF igual o próximo a 0 significará
que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica).

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 57


UNSCH Bioestadística I Prof. Reynán Cóndor A.

Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un
rango de valores.
3.8 Diagrama de cajas (box plot)
Un dispositivo visual muy útil para comunicar la información contenida en un conjunto de
datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). Para la
construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se siguen los cinco
pasos que se mencionan a continuación:
1. Representar a la variable de interés sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el tercer
cuartil Q3.
3. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q2.
4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medición más pequeña en el conjunto de datos.
5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se
alinea con la medición más grande en el conjunto de datos.
El examen de la gráfica para un conjunto de datos revela información respecto a la magnitud
de la dispersión, localización de la concentración y simetría de los datos.
El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos.
EJEMPLO. En una revista médica de publicación periódica, Pitts et al. (A-7) asegura que “los
carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de
diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su
rareza”. En un intento por estudiar más detalles de las características biológicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. La tabla
siguiente contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del
pecho de 20 individuos con sarcomas puros.

TABLA. Diámetros (cm) de sarcomas puros extirpados del pecho de 20 mujeres.

0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0

Solución: La medición más pequeña y la más grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-ésima medición, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-ésima medición igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-ésima medición igual a 6.0 + (0.75)(6.5 -
6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 58


UNSCH Bioestadística I Prof. Reynán Cóndor A.

FIGURA. Caja de valores extremos del ejemplo.


Al examinar la figura se observa que 50 por ciento de las mediciones están entre 2.6 y 6.4, los
valores aproximados del primero y tercer cuartil, respectivamente.
La barra vertical dentro de la caja muestra que la mediana está cerca de 4.75.
La línea mayor a la derecha indica que la distribución de diámetros está inclinada hacia la
derecha.

Gráfica de caja de Tamaño de tumor


14
13.0

12

10
Tamaño de tumor

6
4.75

FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.

REFERENCIA BIBLIOGRÁFICA
 Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y
Biometría. Editorial Brujas. Argentina.
 Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM.
 Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación,
México, 2008
 Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006
 Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag
 Molina J. y Rodrigo M. Estadística descriptiva en Psicología. Curso 2009-2010.
Universidad Valéncia.

DEPARTAMENTO DE CIENCIAS BIOLÓGICAS 59

Vous aimerez peut-être aussi