Académique Documents
Professionnel Documents
Culture Documents
HUAMANGA
FACULTAD DE CIENCIAS BIOLÓGICAS
BIOESTADÍSTICA I
SEPARATA I
ESTADÍSTICA
DESCRIPTIVA
2019
UNSCH Bioestadística I Prof. Reynán Cóndor A.
2
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Contenido
I. BIOESTADÍSTICA .................................................................................................................... 5
1.1. Estadística y bioestadística .................................................................................................. 5
1.2. Objeto de estudio. ................................................................................................................ 5
1.3. Estadística descriptiva y estadística inferencial. .................................................................. 5
1.4. Conceptos básicos ............................................................................................................... 6
1.5. Importancia de la Estadística ............................................................................................. 10
1.6. La bioestadística en la investigación científica. ................................................................. 11
2. LOS DATOS ............................................................................................................................. 13
2.1. Observación ....................................................................................................................... 13
2.2. Datos ................................................................................................................................. 13
2.3. Recolección de datos ......................................................................................................... 13
2.4. Sistema y fuentes de información ...................................................................................... 13
2.5. Población ........................................................................................................................... 14
2.6. Muestra.............................................................................................................................. 15
2.7. Elaboración de los datos .................................................................................................... 15
2.8. Mecanismos para presentar, tabular y graficar datos ......................................................... 21
2.9. Distribución de frecuencias (Tablas de frecuencia) ........................................................... 24
2.10. Diagrama de Tallos y Hojas .............................................................................................. 41
3. ANÁLISIS E INTERPRETACIÓN DE DATOS ...................................................................... 43
3.1. Análisis descriptivo. .......................................................................................................... 43
3.2. Medidas estadísticas .......................................................................................................... 43
3.3. Medidas de tendencia central............................................................................................. 44
3.4. Percentiles ......................................................................................................................... 48
3.5. Medidas de Variabilidad o de dispersión. .......................................................................... 50
3.5.1 Rango o intervalo de variación ......................................................................................... 50
3.5.2 La varianza ....................................................................................................................... 51
3.5.3 La desviación estándar ..................................................................................................... 52
3.5.4 Coeficiente de variabilidad ............................................................................................... 53
3.6. Medidas de asimetría. ........................................................................................................ 55
3.6.1 Formas de una distribución ............................................................................................... 55
3.6.2 Variables ordinales: el índice de asimetría intercuartílico ................................................ 56
3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson ........................................... 56
3.7 Curtosis ................................................................................................................................... 57
3.7.1 Variables ordinales: el índice KU. ..................................................................................... 57
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher .................................... 57
3.8 Diagrama de cajas (box plot) ................................................................................................... 58
3
UNSCH Bioestadística I Prof. Reynán Cóndor A.
4
UNSCH Bioestadística I Prof. Reynán Cóndor A.
I. BIOESTADÍSTICA
1.1. Estadística y bioestadística
Daniel indica que la estadística es la disciplina que se ocupa de 1) la recolección, organización,
resumen y análisis de datos, y 2) la obtención de inferencias a partir de un volumen de datos
cuando se examina solo una parte de estos.
La Bioestadística, en el ámbito de la Estadística, hace referencia a métodos estadísticos y
matemáticos que se aplican al análisis de datos provenientes de las ciencias biológicas. Debido
a que las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u otros
organismos vivos, son de naturaleza muy variada. Incluye no sólo herramientas para el análisis
estadístico descriptivo de datos biológicos sino también el uso de numerosos procedimientos
y algoritmos de cálculo y computación para el análisis inferencial, el reconocimiento de
patrones en los datos y la construcción de modelos que permiten describir y analizar procesos
aleatorios (Balzarini et al, 2011).
1.2. Objeto de estudio.
El objetivo de la estadística es investigar y evaluar la naturaleza y el significado de la
información contenida en los datos (Daniel).
Es necesario tener en cuenta que la estadística se ha propuesto como instrumento de
investigación. La investigación puede ser en genética, mercadeo, nutrición, agronomía, etc.
Es el campo de investigación, no el instrumento, el que debe proporcionar los “porqué” del
problema de investigación. Aveces, este hecho se pasa por alto y los usuarios olvidan que
tienen que pensar, que la estadística no puede pensar por ellos. La estadística, sin embargo,
ayuda a los investigadores a diseñar experimentos y a evaluar objetivamente los datos
numéricos resultantes. Es nuestra intención proporcionar a los investigadores instrumentos
estadísticos útiles para este fin.
1.3. Estadística descriptiva y estadística
inferencial.
5
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplo
Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta
finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en el 2013
y se les aplica la encuesta respectiva.
Se aplica la Estadística Descriptiva para recopilar, clasificar, organizar y presentar en una
tabla de frecuencias y en forma gráfica los datos recogidos de una encuesta.
Frecuencia de
consumo Número Porcentaje
No 100 41.7
Interdiario 80 33.3
Diario 40 16.7
A veces 20 8.3
Total 240 100.0
Fuente: UNAL La Molina – Dpto. de Estadística e Informática
45,0 41,7
40,0
33,3
35,0
30,0
25,0
%
20,0 16,7
15,0
8,3
10,0
5,0
0,0
No Interdiario Diario A veces
CONSUMO
Ejemplo
1. El conjunto de todos los estudiantes de una institución educativa.
2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011.
3. El conjunto de personas que viven en el Distrito de Ayacucho.
6
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplo
1. Un estudiante de la Institución educativa.
2. Cada mes de venta en una casa comercial entre el 2007-2011.
3. Cada persona que viven en el Distrito de Ayacucho.
Ejemplo
1. 120 estudiantes de la institución educativa.
2. 45 meses de venta en una casa comercial entre el 2007-2011.
3. 80 personas que viven en el Distrito de Ayacucho.
4) Variable. Son las características que toman diferentes valores cuando son evaluadas en las
unidades elementales de una población o muestra. Se representan por las últimas letras
mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc.
Tipos de Variables
A. Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene
sentido realizar operaciones matemáticas con ellas. Pueden ser del tipo:
• Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor
numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición
para generar sus valores: balanza, termómetros, test, escalas, cronómetros,
winchas, etc.
Ejemplo
1. Peso del langostino de río (en gr)
2. Tiempo para encontrar estacionamiento en un centro comercial (minutos)
3. Gasto mensual familiar en atención médica (nuevos soles)
Ejemplo
1. Número de artículos defectuosos en un lote de 20
2. Número de clientes atendidos cada 20 minutos en una ventanilla
3. Número de predios que posee un agricultor de un valle
7
UNSCH Bioestadística I Prof. Reynán Cóndor A.
B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser
clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene
sentido realizar operaciones matemáticas con ellas. Son aquellas cuyos valores
posibles son atributos o categorías.
• Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o
atributos) no son factibles de ser clasificados a través de un criterio de orden o
jerarquía. Sus valores posibles no tienen un orden de importancia.
Ejemplo
1. Sexo de los estudiantes (Masculino o Femenino)
2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente)
3. Marca de una computadora (A, B, C o D)
4. Marca de Automóvil (Toyota, Chevrolet, Mercedes Benz, etc...)
¿Variable aleatoria?
Otros autores hacen uso de la definición de variables aleatorias, que en realidad se tratan de
las variables cuantitativas, pudiendo ser éstas discretas y continuas. Pondremos énfasis en la
aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de un
individuo, el resultado frecuentemente se denomina valor de la variable respectiva. Cuando
los valores se originan como resultado de factores aleatorios (al azar), que no pueden
predecirse con exactitud y anticipación, la variable se llama variable aleatoria. Un ejemplo
de variable aleatoria es la estatura de los adultos; cuando nacen los niños no es posible
predecir con exactitud la estatura que tendrán en su edad adulta; la estatura que alcanza un
adulto es el resultado de muchos factores genéticos y ambientales. Los valores resultantes
de los procedimientos de medición se denominan observaciones o medidas.
Variable aleatoria discreta (Variable cuantitativa discreta)
Entre los ejemplos de variables aleatorias discretas: El número de admisiones diarias en
un hospital general es una variable aleatoria discreta, puesto que el número de
admisiones por día debe representarse con números enteros tales como 0, 1, 2 o 3. El
número de admisiones en un día determinado no puede ser 1.5, 2.997 o 3.333. El número
de caries, amalgamas o pérdida de dientes por niño en una escuela primaria es otro
ejemplo de una variable discreta.
Variable aleatoria continua (variable cuantitativa continua)
Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden
hacerse en individuos tales como su estatura, peso y diámetro craneano. Sin importar
cuán cerca estén las estaturas de dos personas, teóricamente siempre es posible encontrar
otra persona cuya estatura se encuentre entre las dos estaturas de referencia.
8
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ahora bien, debido a las limitaciones de los instrumentos de medición disponibles, las
observaciones sobre variables que son inherentemente continuas se registran como si fueran
discretas. La estatura, por ejemplo, normalmente se redondea metros o centímetros completa
más cercanos, mientras que si se cuenta con el instrumento de medición adecuado, esa medida
puede hacerse tan precisa como se desee.
Ejemplos:
1. Decir cuáles de estos datos son discretos y cuáles continuos:
(a) Número de acciones vendidas un día en la Bolsa de Valores.
(b) Temperaturas medidas en un observatorio cada media hora.
(c) Vida media de los tubos de televisión producidos por una fábrica.
(d) Ingresos anuales de los profesores de Enseñanza Media.
(e) Longitudes de 1000 tornillos producidos en una empresa.
Solución
(a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos.
5) Observación. Es el valor posible que toma una variable. A las observaciones se les suele
representar con las letras minúsculas subindicadas, como por ejemplo x¡, y¡, zi
Ejemplo
1. X = Peso del langostino de río (en gr). Observaciones:
x1= 2.5, x2 = 3.0,..,x10 = 3.2
2. Y = Calificación de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo
9
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplo
1. En una muestra de 30 meses de venta se encontró que el número promedio de cocinas
vendidas fue de 14.9 ( X = 14.9) .
2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe
leer y ni escribir (p = 0.011) .
3. Suponga que en el distrito de Breña se ha seleccionado una muestra de 500 personas
encontrándose los siguientes resultados:
Instrucción Proporción (pi)
Primaria 0.460
Secundaria 0.430
Superior 0.110
TOTAL 1.000
10
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Análisis de muestras. Se elige una muestra de una población para hacer inferencias
respecto a esa población a partir de lo observado en la muestra (sondeos de opinión,
control de calidad, etc).
Descripción de datos. Procedimientos para resumir la información contenida en un
conjunto (amplio) de datos.
Contraste de hipótesis. Metodología estadística para diseñar experimentos que
garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las
predicciones resultantes de las hipótesis con los datos observados (medicina eficaz,
diferencias entre poblaciones, etc).
Medición de relaciones entre variables estadísticas (contenido de gas hidrógeno neutro
en galaxias y la tasa de formación de estrellas, etc).
Predicción. Prever la evolución de una variable estudiando su historia y/o relación con
otras variables.
1.6. La bioestadística en la investigación científica.
La estadística es un instrumento aplicable en el método científico, para el cual fue
desarrollada. Su aplicación particular está en los muchos aspectos del diseño de un
experimento, desde el plan inicial para la recolección de los datos, y en el análisis de los
resultados a partir de los datos resumidos, hasta la evaluación de la incertidumbre de toda la
inferencia extraída de ellos.
De una forma esquemática, el proceso experimental suele desarrollarse siguiendo el siguiente
esquema: Definir la pregunta o problema a resolver. Cuanto más claro y definido sea el
objetivo del experimento, mucho más fácil será realizar su planificación y ejecución.
Obtener información y recursos. Una vez definido el objetivo del experimento, es
necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qué
equipos son necesarios, qué cantidades hay que medir, y de qué manera se va a realizar
el experimento.
Formular hipótesis, acerca de los resultados de nuestro experimento. Hacerlo antes de
su ejecución evita el sesgo personal de identificar los resultados que ya se conocen
como objetivos iniciales (no debemos engañarnos a nosotros mismos).
Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios pasos:
Preparación: el equipo debe ser puesto a punto para su utilización. Si el
experimento requiere la utilización de aparatos con los que no estamos
familiarizados, es necesario leer atentamente los manuales de utilización, e
incluso consultar a experimentadores con experiencia previa en su manejo.
Todo ello evita perder tiempo y cometer errores de bulto, a la vez que preserva
la integridad del equipo (¡y la nuestra!).
Experimentación preliminar: suele ser muy aconsejable realizar una pequeña
experimentación de prueba antes de iniciar la toma definitiva de medidas.
Esto facilita el uso correcto del equipo instrumental, permitiendo identificar
los aspectos más difíciles o en los que resulta más fácil cometer errores.
Toma de datos: el trabajo cuidadoso y detallado son fundamentales en todo
proceso experimental. Ejecutar dicha labor siguiendo un plan de trabajo bien
definido resulta básico. No hay nada más frustrante que descubir, tras largas
horas de medidas, que hemos olvidado anotar algún parámetro esencial o sus
11
UNSCH Bioestadística I Prof. Reynán Cóndor A.
12
UNSCH Bioestadística I Prof. Reynán Cóndor A.
2. LOS DATOS
2.1. Observación
Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para
que se pueda aplicar la estadística a esas observaciones éstas deben estar en forma numérica.
- En el mejoramiento de cultivos, los números bien pueden ser rendimientos por parcela.
- En la investigación médica, pueden ser tiempos de recuperación bajo varios
tratamientos.
- En la industria, pueden ser cantidad de defectos en varios lotes de un artículo
producido en una línea de montaje.
Tales números constituyen datos y su característica común es la variabilidad o variación.
2.2. Datos
Daniel indica que los datos son la materia prima de la estadística. Para este propósito definió
a los datos como números. Las dos clases de números que se utilizan en estadística son
números que resultan de la toma —en el sentido literal del término— de medidas, y aquellos
que resultan del proceso de conteo.
Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la
medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centígrados. Un
tipo bastante diferente de números se obtiene cuando el administrador de un hospital cuenta
el número de pacientes, quizá 20, dados de alta en un día. Cada uno de los tres números es un
dato (datum) y los tres juntos son datos.
REDONDEO DE DATOS
El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más
próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con
dos decimales) a 72.81, porque 72.8146 está más cerca de 72.81 que de 72.82.
Al redondear 72.465 en centésimas nos hallamos ante un dilema, ya que está
equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al
entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea
a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es
particularmente útil para minimizar los errores de redondeo acumulados cuando se
efectúa un gran número de operaciones.
2.3. Recolección de datos
Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen
de los elementos de una muestra, y las muestras se toman de la población, de tal forma que
sean lo más representativas posible. La técnica más común para asegurar una representación
adecuada es usar una muestra aleatoria.
2.4. Sistema y fuentes de información
El desempeño de actividades estadísticas obedece a la necesidad de responder a diversas
preguntas. Por ejemplo, los médicos probablemente quieran encontrar respuestas a preguntas
con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los
administradores posiblemente quieran responder a preguntas respecto a áreas de interés como
el espíritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que
13
UNSCH Bioestadística I Prof. Reynán Cóndor A.
el enfoque adecuado para buscar una respuesta a la pregunta requiere del uso de la estadística,
se comienza a investigar datos apropiados que sirvan como la materia prima en la
investigación. Estos datos normalmente están disponibles de una o más fuentes como las
siguientes:
1. Registros rutinarios. Es difícil imaginar algún tipo de organización que no lleve
registros de la operación diaria de sus actividades. Mientras que los registros clínicos de
un hospital, por ejemplo, contienen una inmensa cantidad de información acerca de los
pacientes, los registros contables de la institución contienen datos en abundancia sobre las
actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe
buscar primero en los registros que se llevan rutinariamente.
2. Encuesta. Si los datos necesarios para contestar una pregunta no están disponibles a
partir de los registros almacenados de manera rutinaria, la fuente lógica puede ser una
encuesta. Por ejemplo, suponga que el administrador de una clínica desea obtener
información respecto a la forma de transporte que utiliza el paciente para visitar la clínica.
Si la forma de admisión no contiene una pregunta acerca del transporte, es posible llevar a
cabo una encuesta entre los pacientes para obtener esta información.
3. Experimentación. Frecuentemente, los datos necesarios para responder una pregunta
están disponibles sólo como resultado de la experimentación. Tal vez una enfermera quiere
saber qué estrategia es mejor para maximizar el seguimiento de las indicaciones médicas
por parte del paciente. La enfermera podría conducir un experimento en el que se prueben
diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes.
La evaluación subsecuente de las respuestas a las diversas estrategias puede capacitar a la
enfermera para decidir cuál es más efectiva.
4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir
como informes publicados, bancos de datos disponibles o en la literatura de investigación.
En otras palabras, uno se puede encontrar con que alguien más ya planteó la misma
pregunta y que la respuesta que obtuvo puede aplicarse a la situación presente.
2.5. Población
Habitualmente se considera a una población como una colección de entidades, por lo general
personas. Sin embargo, una población o colección de entidades puede estar compuesta de
animales, máquinas, plantas o células. Una población de entidades se define como la colección
más grande de entidades de interés en un momento particular. Si se toma la medida de alguna
variable para cada una de las entidades en una población, se obtiene una población de valores
para esa variable. Por lo tanto, una población de valores se puede definir como la mayor
colección de valores para una variable aleatoria, los cuales son de interés en un momento
particular. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el
sistema de educación primaria del estado, la población está formada por todos esos pesos. Si
se tiene interés sólo en el peso de los estudiantes inscritos en el primer grado, se tiene una
población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto,
las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones
pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos
valores, se dice que la población es finita. Si, por otra parte, una población consiste en una
sucesión interminable de valores, entonces es una población infinita.
14
UNSCH Bioestadística I Prof. Reynán Cóndor A.
2.6. Muestra
Una muestra puede definirse simplemente como una parte de una población. Suponga que una
población se compone de los pesos de todos los niños inscritos en el sistema de educación
primaria del estado, y se escoge para el análisis sólo una fracción de los niños; entonces se
tiene únicamente una parte de la población, es decir, se tiene una muestra.
2.7. Elaboración de los datos
Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar
una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una
muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general
interviene una tabla de números aleatorios, como la tabla A.1. Esta tabla está formada por los
dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a
10,000 dígitos aleatorios. Estos números se obtuvieron en una máquina y no hay razón para
pensar que algún número apareciera con más frecuencia que otro, ni que alguna sucesión de
números fuese más frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013
doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves;
5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra
aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de
acuerdo con la magnitud asignándoles números de orden. La organización por orden no es
necesaria para extraer muestras al azar; el orden de los números aleatorios pudo haberse
asignado en forma arbitraria.
Para obtener una muestra aleatoria de 10 pesos, tómense 20 dígitos consecutivos de la tabla
A.1 y regístrense como 10 pares. Estos serán los números de orden de los pesos
correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma más
satisfactoria es señalar con el dedo en una de las páginas, leer los cuatro números opuestos
más cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida. Así:
1. En la primera página de la tabla A.1, el dedo encuentra el número 1188 (frente a 10 y
son los primeros cuatro dígitos en la columna 20-24).
2. Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dígitos que se encuentran yendo hacia la derecha, y que
son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una línea y se procede al revés para obtener
los otros números, o sea, 09,15,30 y 59.
4. Se toman los números de los elementos y se llevan a la tabla 4.1 para obtener las
correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras.
Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fríjoles
marcados con 100 contenidos de grasa de leche, volviendo cada fríjol a la bolsa y mezclando
bien los frijoles antes de cada extracción. Por esta razón, se dice que el muestreo es con
reemplazo. Nótese que cada elemento puede sacarse cualquier número de veces
15
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein
durante un mes.
Los datos originales se modificaron para que se aproximaran a una distribución normal con
𝜇=40 lb y σ=12 lb.
Unidad Libras Unidad Libras Unidad Libras Unidad Libras
0 10 25 33 50 40 75 47
1 12 26 33 51 40 76 48
2 14 27 34 52 41 77 48
3 15 28 34 53 41 78 48
4 17 29 34 54 41 79 49
5 18 30 35 55 41 80 49
6 20 31 35 56 42 81 49
7 22 32 35 57 42 82 50
8 23 33 36 58 42 83 50
9 25 34 36 59 42 84 51
10 26 35 36 60 43 85 51
11 27 36 37 61 43 86 52
12 28 37 37 62 43 87 52
13 28 38 37 63 43 88 53
14 29 39 37 64 44 89 54
15 29 40 38 65 44 90 55
16 30 41 38 66 44 91 57
17 30 42 38 67 45 92 58
18 31 43 38 68 45 93 60
19 31 44 39 69 45 94 62
20 31 45 39 70 46 95 63
21 32 46 39 71 46 96 65
22 32 47 39 72 46 97 66
23 32 48 40 73 47 98 68
24 33 49 40 74 47 99 70
Fuente: Steel y Torrie (1988)
Luego de usar la Tabla A.1, se obtiene una muestra aleatoria de 10 pesos, procedentes de la
Tabla 4.1
Tabla 4.2 Muestra aleatoria de 10 pesos.
grasa de
pares de leche
dígitos (libras)
06 20
17 30
22 32
84 51
44 39
55 41
09 25
15 29
30 35
59 42
16
UNSCH Bioestadística I Prof. Reynán Cóndor A.
17
UNSCH Bioestadística I Prof. Reynán Cóndor A.
18
UNSCH Bioestadística I Prof. Reynán Cóndor A.
19
UNSCH Bioestadística I Prof. Reynán Cóndor A.
20
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Número de Número de
Año bushels de bushels de
trigo maíz
1975 200 75
1976 185 90
1977 225 100
1978 250 85
1979 240 80
1980 195 100
1981 210 110
1982 225 105
1983 250 95
1984 230 110
1985 235 100
Solución
(a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y
1983; (f) 1983.
Representar los datos del Problema anterior usando: (a) gráficos de trazos y (b) gráficos de
barras.
Solución
(a) La Figura muestra el gráfico de trazos.
21
UNSCH Bioestadística I Prof. Reynán Cóndor A.
300
250
150
Trigo
100 Maíz
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
250
Número de bushels
200
150
Trigo
100
Maíz
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
400
350
Número de bushels
300
250
200
Maíz
150
Trigo
100
50
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
22
UNSCH Bioestadística I Prof. Reynán Cóndor A.
(a) Expresar la cantidad anual de bushels de trigo y maíz del Problema como porcentajes de
la producción total anual.
(b) Representar los porcentajes obtenidos en la parte (a).
Solución
(a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maíz 100% — 72.7% =
27.5%; etc. Los porcentajes se indican en la Tabla 1.5.
Año 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Porcentaje de trigo 72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%
Porcentaje de maíz 27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%
100,0%
90,0%
80,0%
70,0%
Porcentaje
60,0%
50,0%
Maíz
40,0%
Trigo
30,0%
20,0%
10,0%
0,0%
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
Ejemplo: Las áreas de los continentes se recogen en la siguiente Tabla. Representar los datos
gráficamente.
Tabla. Áreas de los continentes
Área
Continente 2
km %
Asia 43810000 29.3%
América 42330000 28.3%
África 30370000 20.3%
Antártida 13720000 9.2%
Europa 10180000 6.8%
Oceanía 9008500 6.0%
Total 149418500 100.0%
Solución
23
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Oceanía
Europa
Continentes
Antártida
África
América
Asia
24
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Tabla de frecuencias
Clase o categoría (f¡) (fri) (p¡)
Atributo 1 f1 fr1 p1
Atributo 2 f2 fr2 p2
.
.
.
Atributo k fk frk pk
n 1 100
Donde:
k= Número de clases
n= Número de observaciones o unidades elementales
Frecuencia absoluta ( f i ). Es el número de observaciones que existen en la clase o
categoría i.
k
Se cumple: f
i 1
i n
k
Se cumple: p
i 1
i 100%
Tipo de gráficos
Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de
gráficos
• Gráfico de barras vertical u horizontal
• Gráfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se
obtuvo los siguientes resultados:
25
UNSCH Bioestadística I Prof. Reynán Cóndor A.
26
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Gráfico de barras
30,00
25,00
20,00
15,00
%
10,00
5,00
0,00
Ta1 Ta2 Ta3 Ta4 Ta5 Ta6
TARJETA DE CRÉDITO
2%
22% 27%
16%
24%
9%
En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos frecuente.
27
UNSCH Bioestadística I Prof. Reynán Cóndor A.
28
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Frecuencia Frecuencia
Frecuencia Frecuencia
Categoría absoluta relativa
absoluta relativa
de dolor acumulada acumulada
(fi) (fri)
(F¡) (Fr¡)
Ninguno 31 0.52 31 0.52
Leve 17 0.28 48 0.80
Moderado 8 0.13 56 0.93
Severo 4 0.07 60 1.00
Total 60 1
29
UNSCH Bioestadística I Prof. Reynán Cóndor A.
35 31 0,6 0,52
Frecuencia absoluta
30
Frecuencia relativa
0,5
25
0,4
20 17 0,28
0,3
15
8 0,2 0,13
10
4 0,1 0,07
5
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido
70 1,2
60 1
60 56 0,93
1
48 0,8
50
0,8
40
31 0,6 0,52
30
0,4
20
10 0,2
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido
70 1,2
60 60 1 1
56 0,93
50 48 0,8 0,8
40 31 0,6 0,52
30
17 0,4 0,28
20
8 0,2 0,13
10 4 0,07
0 0
Ninguno Leve Moderado Severo Ninguno Leve Moderado Severo
Mediciones de dolor percibido Mediciones de dolor percibido
30
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Tabla de frecuencias
N° de Valor de la (fi)(fri) (p¡)
clase variable
1 X1 f1 fr1 P1
2 X2 f2 fr2 P2
.
.
.
k Xk fk frk Pk
Total n 1 100
Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas,
relativas o porcentuales.
Interprete:
f2 = 15 Existen 15 clientes del Banco Comercial que hacen un viaje al mes.
p1 = 22.22 El 22.22% de los clientes no han realizado viajes.
30,00
25,00
20,00
%
15,00
10,00
5,00
0,00
0 1 2 3 4
VIAJES
31
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Donde:
LI i = Límite inferior de la clase i (Límite cerrado)
LSi =Límite superior de la clase i (Límite abierto, salvo última clase que es cerrado)
Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerará como el valor
representativo de los valores que pertenecen al intervalo de clase.
LI i LSi
Se calcula: X i' o X i' X i'1 TIC , donde TIC es el tamaño del intervalo de clase
2
Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales
k
que hay en la clase i. Se cumple: p
i 1
i 100%
t
Propiedad: Ft Fh
i h 1
fi , h t
Fi
f j i
fri
j 1
Fri
n n j 1
32
UNSCH Bioestadística I Prof. Reynán Cóndor A.
t
Propiedad: Frt Frh
i h 1
fri , h t
Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada
observación a alguno de los intervalos de clase. Luego completar la tabla hallando
X i' , fi , fri , Fi , Fri
Tipos de gráficos
• Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos
de clase en el eje horizontal.
• Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase
en el eje horizontal.
33
UNSCH Bioestadística I Prof. Reynán Cóndor A.
En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número de clases
que se debe considerar es k=6.
Interprete:
34
UNSCH Bioestadística I Prof. Reynán Cóndor A.
f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900
pero menos de S/. 5810.
fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos S/. 7720 pero
menos de S/. 9630
p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
3
F3 fi f1 f 2 f3 11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por
i 1
que 0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos
de S/. 9630.
Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666
5
Fr5 - Fr3 = fr = fr4 + fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la
i4
i
proporción de los clientes que ganan por lo menos S/.7720 pero menos de S/.11540.
3
P3 = pi = pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los
i 1
clientes tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720
P5 - P2 = 97.76 - 68.88 = 28.88
5
P5 - P2 = p
i 3
i =P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de
los clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos
de S/. 11540.
X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810
pero menos de S/.7720. Las diez observaciones (f 3 = 10) que hay en la clase 3 son
representadas por el valor S/. 6765.
Histograma de frecuencias
50,00
40,00
30,00
%
20,00
10,00
0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO
35
UNSCH Bioestadística I Prof. Reynán Cóndor A.
En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica que
los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810.
Polígono de frecuencias
50,00
45,00 44,44
40,00
35,00
30,00
25,00
%
24,44
22,22
20,00
15,00
10,00
5,00 4,44
2,22 2,22
0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO
En el polígono de frecuencias se observa que son pocos los clientes con Ingresos mensuales
altos.
50,00
45,00
40,00
35,00
30,00
25,00
%
20,00
15,00
10,00
5,00
0,00
2,945 4,855 6,765 8,675 10,585 12,495
INGRESO
36
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplo 4. La tabla 2.4 presenta distribuciones agrupadas para los datos de la presión
sanguínea. Como puede observarse, los valores de presión sanguínea se colocaron en
intervalos que técnicamente se conocen como intervalos de clase. Las diversas distribuciones
se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de
respuesta se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad
interpretativa es la pérdida de información.
Por ejemplo, mientras que es fácil ver que alrededor del 21.5% de los valores cae en el
intervalo 135-139, no hay información acerca de los valores individuales en este intervalo.
Al construir tablas de este tipo se deben responder dos preguntas relacionadas. ¿En cuántos
intervalos se deben agrupar los valores y qué tan grandes deberán ser los intervalos? Muy
pocos intervalos provocan la pérdida de mucha información, mientras que muchos intervalos
hacen fracasar el propósito de resumir los datos. El tamaño de los intervalos dependerá del
número de intervalos utilizados y viceversa. No existen reglas rígidas y rápidas al respecto.
En esencia, usted deseará presentar los datos dándoles el mayor significado posible. Sin
embargo, hay algunas reglas generales que sirven como guía. Una sugerencia común es que
no debe haber menos de seis ni más de 15 intervalos. Otra regla útil es que, cuando sea posible,
se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algún
múltiplo de 10 para que el resumen de los datos sea más comprensible.
TABLA. Las presiones sanguíneas de 144 adolescentes moderadamente obesos.
Paciente 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Presiones sanguíneas 86 90 92 92 93 95 95 95 96 96 97 97 98 98 99
Paciente 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Presiones sanguíneas 100 100 100 100 102 103 105 105 106 107 107 109 110 110 110
Paciente 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Presiones sanguíneas 111 111 111 114 114 115 115 115 115 115 115 116 116 116 117
Paciente 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Presiones sanguíneas 118 118 119 119 120 120 120 121 122 122 122 123 123 124 124
Paciente 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75
Presiones sanguíneas 124 124 125 125 125 125 126 126 126 126 126 126 126 127 127
Paciente 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Presiones sanguíneas 127 128 128 128 129 129 129 130 130 130 130 130 131 131 131
Paciente 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105
Presiones sanguíneas 132 132 132 132 133 133 133 133 133 133 133 133 134 134 134
Paciente 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
Presiones sanguíneas 134 134 135 135 135 135 135 135 135 135 136 136 136 137 137
Paciente 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135
Presiones sanguíneas 137 137 137 137 137 137 137 137 137 138 138 138 139 139 139
Paciente 136 137 138 139 140 141 142 143 144
Presiones sanguíneas 139 139 139 140 140 140 140 143 143
37
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Marca de Frec.
Presión Frec. Frec. Frec. Frec. Frec.
N° de clase Acum.
sanguínea Abs. Rel. Porc. Acum. Abs. Acum. Rel.
clases Porc.
[LI-LS> X i' fi fri pi fi fri
Pi
1 [86-94> 90 5 0.035 3.47 5 0.035 3
2 [94-102> 98 14 0.097 9.72 19 0.132 13
3 [102-110> 106 8 0.056 5.56 27 0.188 19
4 [110-118> 114 18 0.125 12.50 45 0.313 31
5 [118-126> 122 21 0.146 14.58 66 0.458 46
6 [126-134> 130 36 0.250 25.00 102 0.708 71
7 [134-142> 138 40 0.278 27.78 142 0.986 99
8 [142-150] 146 2 0.014 1.39 144 1.000 100
144 1 100
38
UNSCH Bioestadística I Prof. Reynán Cóndor A.
30,00
25,00
20,00
15,00
%
10,00
5,00
0,00
90 98 106 114 122 130 138 146
PRESIÓN SANGUÍNEA
Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008
39
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Solución: Para tener una idea del número de intervalos a utilizar, la aplicación de la regla de
Sturges indica:
Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de
clase, se obtiene:
R 63 18 45
TIC 5.625
k 8 8
Es evidente que un intervalo de clase con una amplitud de o 10 es más conveniente y
significativo para el lector. Suponga que se decide que sea 10. Ahora es posible construir los
intervalos. Puesto que el valor más pequeño en la tabla es 18 y el mayor es 63, entonces los
intervalos inician con 10 y terminan con 69. Se obtienen los siguientes intervalos:
Si el interés está centrado en la frecuencia relativa de los valores que caen entre 30 y 59,
entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se
resta 0.4142 de .9763 para obtener 0.5621.
Histograma de Edades
70
60
50
Frecuencia
40
30
20
10
0
10 20 30 40 50 60 70
Edades
41
UNSCH Bioestadística I Prof. Reynán Cóndor A.
2 15 89
7 16 11334
14 16 6678889
(13) 17 0001112344444
3 17 7
2 18 2
1 18
1 19 1
2.00 15 . 89
5.00 16 . 11334
7.00 16 . 6678889
13.00 17 . 0001112344444
1.00 17 . 7
1.00 18 . 2
1.00 Extremes (>=191)
42
UNSCH Bioestadística I Prof. Reynán Cóndor A.
• Las medidas estadísticas asumen las mismas unidades de medida de la variable en estudio,
con la excepción de ciertas medidas estadísticas relativas.
• Para las variables cuantitativas, se pueden calcular medidas estadísticas como: media,
mediana, moda, rango, rango intercuartílico, varianza, desviación estándar, coeficiente de
variabilidad, y otras. En el caso de las variables cualitativas, sólo es posible calcular las
medidas como la moda y la proporción.
43
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Media de la población:
N
1 N
X j
Xj
j 1
N j 1 N
Media de la muestras:
n
1 n
X j
Xj
j 1
X X
n j 1 n
Ejemplo. Obtenga la edad media de la población de los 169 individuos registrados tabla de
edades.
Solución: Se procede de la siguiente forma:
La media ponderada
k
x w
j 1
j j
x1w1 x2 w2 ... xk wk
xp
k
w1 w2 ... wk
w
j 1
j
Ejemplo. Si el examen final de un curso cuenta tres veces más que una evaluación parcial, y
un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales, la
calificación media es
(1)(70) (1)(90) (3)(85) 415
X 83
11 3 5
44
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable
cuantitativa discreta. La media se calcula por:
k k
fx
j 1
i j fx
j 1
i j
xp k
f
n
i
j 1
k
fXj 1
i i
'
xp
n
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamaño n 1, n2,...,nk
respectivamente, entonces la media de todos los datos n = n 1+n2+... +nk se calcula por:
k
n x
j 1
i j
xp k
n j 1
i
fxj 1
i j
xp
n
k
fX
j 1
i
'
j
x
n
Propiedades de la media
La media aritmética tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas de
estas propiedades son las siguientes:
1. Es única. Para un conjunto de datos existe una y sólo una media aritmética.
2. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.
3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el cálculo de
la media, ésta es afectada por cada valor. Por lo tanto, los valores extremos influyen sobre
la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como
medida de tendencia central.
A continuación se muestra un ejemplo de cómo los valores extremos pueden afectar la
media. Considere la siguiente situación: cinco médicos que trabajan en cierta área son
llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo
siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco médicos es de $118, un
valor que no es muy representativo del conjunto de datos. El único valor atípico del conjunto
tuvo el efecto de inflar la media.
Medias geométrica, armónica y cuadrática
Existen otras definiciones de media que pueden tener su utilidad en algunos casos.
Media geométrica xG. En el caso de una muestra con valores diferentes de la variable se
define como la raíz enésima (N es el tamaño de la muestra) del producto de los valores de la
variable
xG N x1 x2 ...xN
45
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Esta media tiene la característica negativa de que si uno de los valores es nulo, la media sería
asimismo cero, y por lo tanto sería poco representativa del valor central. Además si existen
valores negativos es posible que no se pueda calcular. A la hora de calcularla es útil tener en
cuenta que el logaritmo de la media geométrica es la media aritmética del logaritmo de los
datos
k
n log x
i i
log xG i 1
xi2 x n 2
i i
xQ i 1
; xQ i 1
N N
x A xG x xQ
Ninguna de estas medias es muy robusta en general, aunque esto depende de cómo se
distribuyan las variables. Por ejemplo, la media armónica es muy poco sensible a valores
muy altos de x, mientras que a la media cuadrática apenas le afectan los valores muy bajos
de la variable.
3.3.2 La mediana
La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes
iguales, de forma que el número de valores mayores o iguales a la mediana es igual al número
de valores menores o iguales a ésta. Si el número de valores es impar, la mediana es el valor
medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud.
Cuando el número de valores en el conjunto es par, no existe un valor medio único, sino que
existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores
centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana
del conjunto de datos es la ( n 1) / 2 -ésima observación, cuando las observaciones han sido
46
UNSCH Bioestadística I Prof. Reynán Cóndor A.
n 1
100 50 Entero( E ) me x( E )
Si
n 1 50 Decimal ( E.d ) me x 0.d ( x
( E 1) x( E ) )
100 (E)
2
Propiedades de la mediana:
Entre las propiedades de la mediana se encuentran las siguientes:
1. Es única. Al igual que en el caso de la media, existe solamente una mediana para un
conjunto de datos.
2. Simplicidad. Es muy sencillo calcularla.
3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que sí ocurre con
la media.
Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53,
76, 63, 64, 75, 54, 52, 80. Calcule la mediana
Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80
10 1
Posición 50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg
100
Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más de 63.5
Kg.
3.3.3 La moda
La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda
poblaciones se representa por Mo y la moda muestral por mo.
Propiedades:
1. La moda puede no existir o puede haber más de una moda en un conjunto de datos.
2. La moda no está afectada por valores extremos.
3. Se aplica tanto para información cualitativa como cuantitativa.
47
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Ejemplos:
1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7,
4.8. No hay moda.
2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2.
Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal).
3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de edades.
El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con más frecuencia (11
veces). La moda para esta población de edades es de 26.
3.4. Percentiles
El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que P q y
un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades
que la variable en estudio.
Cálculo del Percentil
n 1
Posición q
100
n 1
100 q Entero( E ) Pq x( E )
Si
n 1 q Decimal ( E.d ) P x 0.d ( x
( E 1) x( E ) )
100 q (E)
Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes
de una universidad. Halle e interprete el percentil 45.
15 12 18 22 24 10 9 13 25 18 6 14
Datos ordenados:
6 9 10 12 13 14 15 18 18 22 24 25
12 1
Posición 45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85
100
Interpretación: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos
y el otro 55% más de 13.85 minutos.
Cuartiles
Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son
conocidos también como Q1=P25, Q2=P50 y Q3=P75.
48
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Pq x n 1 x( E ) 0.d ( x( E 1) x( E ) )
q
100
Ejemplo
Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63, 64,
75, 76, 77, 80.
a. Calcule e interprete el percentil 25
P25 x 101 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75Kg
25
100
Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa más de 76.25
Kg.
Ejercicio
Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la
ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento
balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de pesos (en gr)
93 98 100 102 107 109 110 110 111 111 113 114 115 116 118
118 119 119 120 120 120 124 125 128 129 129 130 135 138 141
a. Halle e interprete las medidas de tendencia central para la ganancia de peso.
b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado para
estar en el 10% superior de los que pesan más?
c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento balanceado?
Solución:
a) N Media StDev CoefVar Mínimo Q1 Mediana Q3 Máximo
30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00
La ganancia de peso por pollo alimentado con A es de 117.4 gr.
El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el
restante 50% tuvieron ganancias de peso mayores a 118 gr.
El valor de la ganancia de peso más frecuente es de 120gr.
49
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Referencia bibliográfica:
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría.
Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México,
2008.
Si todos los valores son iguales, no hay dispersión, pero si no todos son iguales, entonces
existe dispersión en los datos. La magnitud de la dispersión es pequeña cuando los valores,
aunque diferentes, son cercanos entre sí. La figura muestra los polígonos de frecuencia para
dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La
población B, más variable que la población A, es más dispersa. Si los valores están
ampliamente esparcidos, la dispersión es mayor. Otros términos sinónimos de dispersión son:
variación, expansión y dispersión.
FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de
dispersión.
3.5.1 Rango o intervalo de variación
El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor
máximo y el valor mínimo.
R X max X min
La utilidad de rango es limitada. El hecho de que toma en consideración sólo dos valores hace
que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo.
50
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Desventajas:
a. Queda afectada por valores extremos
b. No mide la variabilidad de los datos intermedios
EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el
ejemplo edades.
Solución: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene
61, el rango calculado es:
R 61 23 38
Rango intercuartil
El rango intercuartil, se define como la diferencia entre el percentil 75 (P 75 = Q3) y el percentil
25 (P25 = Q1).
RI = P75 - P25
• El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se
encuentra el 50% central de los datos.
• Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50% central
de los datos.
3.5.2 La varianza
Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su
media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede pensar
intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores
alrededor de su media.
La varianza poblacional
1 N 2 2
1 N
X j N
2
2 X j
N j 1 N j 1
X
N
2
j
j 1
2
N
La varianza muestral
1 n 2 2
1 n
Xj X X j nX
2
S2
n 1 j 1 n 1 j 1
51
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Solución:
(42 36.6)2 (28 36.6)2 (28 36.6)2 (61 36.6)2 (31 36.6)2 ... (37 36.6)2
S2
9
1196.399997
S2 132.933333
9
f X
2
i
'2
j nX
S2 i 1
n 1
Donde:
f i : Frecuencia
2
S S2
52
UNSCH Bioestadística I Prof. Reynán Cóndor A.
S S 2 132.933333 11.5296719
La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos
de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de
cada dato.
Para distribuciones normales, resulta:
(a) 68.27% de los casos están entre X S y X S (o sea, una desviación típica a cada lado
de la media).
(b) 95.45% de los casos están entre X 2 S y X 2 S (o sea, dos desviaciones típicas a cada
lado de la media).
(c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones típicas a cada lado
de la media).
Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.
El propósito es saber cuál tiene mayor variabilidad, los pesos de individuos de 25 años o los
de 11 años.
53
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Canadá: cv 4 (100) 33.3% , respectivamente. Los datos de Estados Unidos presentan más
12
variabilidad que los de Canadá.
Comparación de la variabilidad
Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar:
El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las
variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variación;
mientras si las variables tienen unidades de medida iguales, se debe observar si las medias son
54
UNSCH Bioestadística I Prof. Reynán Cóndor A.
similares para usar la desviación estándar y en caso que las medias sean diferentes usar el
coeficiente de variación.
3.6. Medidas de asimetría.
Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto
de datos en lo que se refiere a su simetría o asimetría.
3.6.1 Formas de una distribución
• Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si su
curva guarda simetría con respecto al centro de los datos. Si la distribución es simétrica
entonces μ = Me.
• Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución
asimétrica positiva o con cola a la derecha, entonces: μ > Me.
• Distribución asimétrica negativa. Si un conjunto de datos muestra una distribución
asimétrica negativa o con cola a la izquierda, entonces: μ < Me.
Ejemplo. Los siguientes gráficos corresponden a la distribución de los ingresos mensuales
(miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.
55
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Muestral:
3( X me)
as
S
Propiedades
1. Si as = 0 entonces la distribución es simétrica.
2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha.
Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor)
grado de asimetría de la distribución de los datos.
Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se
trabajaron en la parte de organización de datos. Con esa información se tienen los siguientes
valores:
X 5.350
me 4.700
s 2.181
56
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Por lo tanto
(X i X )4 f (X i i X )4
APF i 1
3 (versión para distribución de frecuencias: APF i 1
3 )
N S X4 N S X4
Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que
cualquier distribución para la que se obtenga un valor de APF igual o próximo a 0 significará
que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica).
57
UNSCH Bioestadística I Prof. Reynán Cóndor A.
Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son
menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un
rango de valores.
3.8 Diagrama de cajas (box plot)
Un dispositivo visual muy útil para comunicar la información contenida en un conjunto de
datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). Para la
construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se siguen los cinco
pasos que se mencionan a continuación:
1. Representar a la variable de interés sobre el eje de las x.
2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté
alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el tercer
cuartil Q3.
3. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q 2.
4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde
quede alineada con la medición más pequeña en el conjunto de datos.
5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se
alinea con la medición más grande en el conjunto de datos.
El examen de la gráfica para un conjunto de datos revela información respecto a la magnitud
de la dispersión, localización de la concentración y simetría de los datos.
El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos.
EJEMPLO. En una revista médica de publicación periódica, Pitts et al. (A-7) asegura que “los
carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de
diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su
rareza”. En un intento por estudiar más detalles de las características biológicas, los autores
investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. La tabla
siguiente contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del
pecho de 20 individuos con sarcomas puros.
0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0
5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0
Solución: La medición más pequeña y la más grande son 0.5 y 13.0, respectivamente. El
primer cuartil es Q1 = (20 + 1) / 4 = 5.25-ésima medición, la cual es 2.5 + (0.25)(3.0 - 2.5) =
2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-ésima medición igual a 4.5 + (0.5)(5.0-4.5) =
4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-ésima medición igual a 6.0 + (0.75)(6.5 -
6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5,
y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos
resultante se muestra en la siguiente figura.
58
UNSCH Bioestadística I Prof. Reynán Cóndor A.
12
10
Tamaño de tumor
6
4.75
FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.
REFERENCIA BIBLIOGRÁFICA
Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia;
Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y
Biometría. Editorial Brujas. Argentina.
Guía del curso de estadística general. 2016. Departamento estadística e informática.
UNALM.
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación,
México, 2008
Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006
Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag
Molina J. y Rodrigo M. Estadística descriptiva en Psicología. Curso 2009-2010.
Universidad Valéncia.
59